Reconnaissance vocale

Disponible uniquement sur Etudier
  • Pages : 105 (26242 mots )
  • Téléchargement(s) : 0
  • Publié le : 9 mai 2011
Lire le document complet
Aperçu du document
Ecole Polytechnique, Promotion X 97

Rapport de Stage d’Option scientifique

Vincent ARSIGNY

Modélisation par champ de Markov du signal de parole et application à la reconnaissance vocale.

Option Image et Signal Département de Mathématiques appliquées Directeurs de l’Option : MM Stéphane MALLAT et Emmanuel BACRY

Stage effectué à l’Ecole Nationale Supérieure des Télécommunications deParis, sous la direction de MM Marc SIGELLE et Guillaume GRAVIER, du 1er avril 2000 au 7 juillet 2000

Table des matières
1 Le problème général de la reconnaissance de la parole 1.1 La paramétrisation du signal de parole . . . . . . . 1.2 Une modélisation par processus cachés . . . . . . . 1.3 Le principe du maximum de vraissemblance . . . . 1.4 Expression du score acoustique . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 7 8 9 9 12 15 20 20 22 28 32 32 35 37 39 39 41 43 46 46 47 49 52 53 53 57 gradient . . . . . gradient . . . . . stochastique, . . . . . . . . stochastique, . . . . . . . . 57 59

2 Un premier modèle de processus caché : les chaînes de Markov 2.1 Les HMM, un outil classique . . . . . . . . .. . . . . . . . . . . . . . . 2.2 Modèle gauche-droite dans un espace contraint . . . . . . . . . . . . . . 2.3 Calculs dans l’espace contraint uniforme . . . . . . . . . . . . . . . . . . 3 Les champs de Markov : un outil pour la modélisation multibande du signal de parole 3.1 Les origines des champs de Markov en Physique Statistique . . . . . . . 3.2 Définition et propriétés générales . . . . . .. . . . . . . . . . . . . . . . 3.3 Application à la modélisation de la parole . . . . . . . . . . . . . . . . . 4 L’apprentissage des paramètres du modèle 4.1 Résolution par maximum de vraissemblance . . . . . . . . . . . . . . . . 4.2 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Une initialisation possible pour un potentiel de synchronisation quadratique 5 Laphase de reconnaissance 5.1 Déroulement de la phase de reconnaissance . . . . . . . . . . . . . . . . 5.2 Un calcul exact de fonction de partition . . . . . . . . . . . . . . . . . . 5.3 L’analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Les résultats expérimentaux 6.1 Les performances globales du modèle 6.2 La phase d’initialisation . . . . . . . . 6.3 l’algorithme EM. . . . . . . . . . . . 6.4 La connexité verticale . . . . . . . . . 6.5 La fonction de partition . . . . . . . . 6.6 Résultats sur des signaux bruités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

AAppendice : exemples de résultats de tests A.1 4-connexité, 10 itérations d’EM, 4 itérations de IN I = 1, β = 2 . . . . . . . . . . . . . . . . . A.2 4-connexité, 40 itérations d’EM, 5 itérations de IN I = 0.5, β = 2 . . . . . . . . . . . . . . . .

1

Abstract
This study focuses on an original modelling of speech, based on Random Markov Fields, originally used in Image Processing. This modellingwas conceived so as to be applied to the automatic recognition of isolated words, which was actually performed during the stay at the ENST with a computer program written in C. One concentrated on this occasion on studying the relevancy of this type of modelling in speech recognition, and on optimizing it as much as possible. In this repport may be found both a general presentation and a brieftheoretical analysis of the most important mathematical tools used : in the first part, one gives the fundamentals of speech recognition via the maximum of likelihood approach, in the second one that of Hidden Markov Models, then that of Random Markov Fields, and in the two following parts, that of both phases of parameters estimation and recognition. Several personnal contributions of the author are...
tracking img