Reconnaissance vocale
La reconnaissance vocale est un processus de classification du signal en symbole qui consiste à segmenter et à identifier un signal de parole de manière que chaque segment correspond à un symbole pré-spécifié dans un vocabulaire connu à priori [Kheireddine 99].
Fonctionnement de la reconnaissance de la parole :
Les processus complexes de la reconnaissance automatique de la parole par lesquels une machine comprend un message oral émis par un ou plusieurs locuteurs peuvent être fonctionnellement décomposés en deux grande phases : Extraction des caractéristiques :
C’est la phase de paramétrisation elle consiste à associer au signale vocale une séquence de vecteur de paramètre permet d’obtenir une empreinte caractéristique du son. Acquisition du signal de parole : Pour l’utilisateur le mécanisme est très simple il suffit de parler devant un microphone pour récuperer un signal de parole digitalisée dans un fichier, mais dans le monde de la machine l’acquisition se passe en deux phases : Echantillonnage : C’est le lien entre les signaux a temps continus et les signaux a temps discret. L’echantillonnage est l’opération qui décrit un signal par les données d’une suite numérique Xn=X(nte) ou te est la periode d’échantillonnage. La Quantification : Donner pour chaque unité de temps une quantité. Prétraitement :
A pour but de réduire la quantité de l’information du signal de parole et de faciliter la classification. Préaccentuation : Réduire l’énergie de basses fréquences et augmente celle de hautes fréquences en appliquant un filtre de préaccentuation.
Y(z) = (1-z-1) * s(z). Fenêtrage : Permet d’isoler les courts segments de signal traités successivement en gardant une région commune de 5 à 12 ms entre deux intervalles successives.
V(w) = Y(W) * F(w).
Il existe plusieurs types de fenêtre : * Rectangulaire. * Hanning. * Hamming.
La fenêtre de Hamming est la plus utilisé car