Reconnaissance vocale
Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM)
Rapport de Stage
Tuteur : Jean-Yves Delort Année 2005 - 2006
Université Montpellier 2
Master 2 Pro - LIRMM 2005/2006
2
Remerciements
Je tiens tout particulièrement à remercier mon tuteur de stage, Mr Delort Jean-Yves, grâce à qui j’ai pu effectuer ce stage et découvrir le monde de la téléphonie mais également celui de la reconnaissance vocale. Mes remerciements lui sont aussi adressés pour ses précieux conseils et pour avoir bien voulu me faire part de son expérience. Un grand merci à Dirk Schnelle, leader du projet JVoiceXML, pour avoir répondu à mes nombreuses questions et pour sa collaboration.
Master 2 Pro - LIRMM 2005/2006
3
Master 2 Pro - LIRMM 2005/2006
4
Aouad Chakir
Sommaire
Introduction 1.1 Présentation de l’établissement d’accueil 1.2 Présentation du projet
9 10
Objectifs de la mission technique 2.1 Sujet du stage 2.2 Cahier des charges 2.3 Contrainte
13 13 14
VoiceXML 3.1 3.2 3.3 3.4
Présentation Analogie HTML et VoiceXML Architecture des applications VoiceXML JVoiceXML
17 18 19 20
Reconnaissance vocale 4.1 Les Modèles de Markov Cachés 4.2 Théorie de la reconnaissance vocale 4.2.1 Extraction de caractéristiques 4.2.2 Modèle acoustique 4.2.3 Modèle de langage 4.3 Etude des logiciels existants 4.3.1 HTK 4.3.2 Sphinx 4 4.4 Création d’un modèle acoustique français 4.4.1 Utilisation du modèle créé par le LIUM 4.4.2 Création d’un nouveau modèle 4.4.2.1 Collecte des données 4.4.2.2 Apprentissage du modèle acoustique
23 25 28 28 31 32 32 33 35 35 36 36 38
Synthèse vocale 5.1 Théorie de la synthèse vocale 5.1.1 Types de synthèses vocales 5.1.2 Fonctionnement d’un synthétiseur vocal 5.2 Utilisation de MBrola et intégration à FreeTTS
41 41 44 46
Master 2 Pro - LIRMM 2005/2006
5
Aouad Chakir
Serveur téléphonique 6.1 Présentation d’Asterisk 6.2 Etude