Reconnaissance vocale

Disponible uniquement sur Etudier
  • Pages : 90 (22372 mots )
  • Téléchargement(s) : 0
  • Publié le : 6 octobre 2010
Lire le document complet
Aperçu du document
Master 2 Informatique Spécialité Professionnel
Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM)

Rapport de Stage
Tuteur : Jean-Yves Delort Année 2005 - 2006

Université Montpellier 2

Master 2 Pro - LIRMM 2005/2006

2

Remerciements
Je tiens tout particulièrement à remercier mon tuteur de stage, Mr Delort Jean-Yves, grâce à qui j’ai pueffectuer ce stage et découvrir le monde de la téléphonie mais également celui de la reconnaissance vocale. Mes remerciements lui sont aussi adressés pour ses précieux conseils et pour avoir bien voulu me faire part de son expérience. Un grand merci à Dirk Schnelle, leader du projet JVoiceXML, pour avoir répondu à mes nombreuses questions et pour sa collaboration.

Master 2 Pro - LIRMM 2005/2006

3Master 2 Pro - LIRMM 2005/2006

4

Aouad Chakir

Sommaire

Introduction 1.1 Présentation de l’établissement d’accueil 1.2 Présentation du projet

9 10

Objectifs de la mission technique 2.1 Sujet du stage 2.2 Cahier des charges 2.3 Contrainte

13 13 14

VoiceXML 3.1 3.2 3.3 3.4

Présentation Analogie HTML et VoiceXML Architecture des applications VoiceXML JVoiceXML

17 18 1920

Reconnaissance vocale 4.1 Les Modèles de Markov Cachés 4.2 Théorie de la reconnaissance vocale 4.2.1 Extraction de caractéristiques 4.2.2 Modèle acoustique 4.2.3 Modèle de langage 4.3 Etude des logiciels existants 4.3.1 HTK 4.3.2 Sphinx 4 4.4 Création d’un modèle acoustique français 4.4.1 Utilisation du modèle créé par le LIUM 4.4.2 Création d’un nouveau modèle 4.4.2.1 Collecte des données4.4.2.2 Apprentissage du modèle acoustique

23 25 28 28 31 32 32 33 35 35 36 36 38

Synthèse vocale 5.1 Théorie de la synthèse vocale 5.1.1 Types de synthèses vocales 5.1.2 Fonctionnement d’un synthétiseur vocal 5.2 Utilisation de MBrola et intégration à FreeTTS

41 41 44 46

Master 2 Pro - LIRMM 2005/2006

5

Aouad Chakir

Serveur téléphonique 6.1 Présentation d’Asterisk 6.2 Etudeet installation 6.2.1 Choix de la version 6.2.2 Tests et mise en place des services 6.3 Intégration à Sphinx 4 et réception en streaming 6.3.1 Couplage Asterisk – Sphinx 4 6.3.1.1 Customisation de Sphinx 4 6.3.1.2 Création du module Asterisk 6.3.1.3 Mise en place d’un serveur tiers 6.3.2 Transfère sur un appel d’un streaming audio 6.4 Intégration à JVoiceXML 6.4.1 Asterisk-Java 6.4.2 ConnectivitéAsterisk – JVoiceXML

49 51 51 52 54 54 55 56 57 58 59 59 60

Au-delà du stage 7.1 Demandes et proposition 7.2 Projet de création d’entreprise

63 64

Conclusion

65

Annexes Algorithmes L’algorithme du forward L’algorithme de Viterbi L’algorithme du forward-backward Création d’un modèle acoustique avec SphinxTrain Introduction Installation Configuration de SphinxTrain Création dumodèle acoustique FAQ Ecriture d’un module pour Asterisk 1.2 Récupération des sources Asterisk Ecrire son propre module Explication sur les différentes fonctions de base Ecriture de l’application HelloWorld Accélérer le développement Eléments du langage VoiceXML Bibliographie/Références Glossaire 68 68 70 71 74 74 74 75 79 80 84 84 86 86 87 90 92 95 96

Master 2 Pro - LIRMM 2005/2006

6

AouadChakir

Introduction

Dans le cadre du stage de fin d’études du Master 2 Informatique, j’ai été accueilli au sein du Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM). Ce stage s’attaque à plusieurs fronts qui s’articulent autour du langage VoiceXML à savoir la reconnaissance et la synthèse vocale d’une part et la téléphonie (traditionnelle ou sur IP)d’autre part, avec pour objectif leur intégration.

Master 2 Pro - LIRMM 2005/2006

7

Aouad Chakir

Master 2 Pro - LIRMM 2005/2006

8

Aouad Chakir

1.1

Présentation de l’établissement d’accueil

Le LIRMM est une unité mixte de recherche, dépendant conjointement de l'Université Montpellier II et du Centre National de la Recherche Scientifique. Les activités de recherche du LIRMM...
tracking img