Gmm/hmm
Ghazi Bouselmi, Dominique Fohr, Irina Illina, Jean-Paul Haton
Projet Parole, LORIA-CNRS & INRIA, “http ://parole.loria.fr/”, BP 239, 54600 Vandoeuvre-lès-Nancy, France { bousselm,fohr,illina,jph }@loria.fr
ABSTRACT
This paper presents a fully automated approach for the recognition of non native speech based on acoustic model modification. For a native language (LM) and a spoken language (LP), pronunciation variants of the phones of LP are automatically extracted from an existing non native database. These variants are stored in a confusion matrix between phones of LP and sequences of phones of LM. This confusion concept deals with the problem of non existence of match between some LM and LP phones. The confusion matrix is then used to modify the acoustic models (HMMs) of LP phones by integrating corresponding LM phone models as alternative HMM paths. We introduce graphemic contraints in the confusion extraction process. We claim that prononciation errors may depend on the graphemes related to each phone. The modified ASR system achieved a significant improvement varying between 20.3% and 43.2% (relative) in “sentence error rate” and between 26.6% and 50.0% (relative) in “word error rate”. The introduction of graphemic contraints in the phonetic confusion allowed improvements while using the wordloop grammar.
mot dynamiquement durant la phase de reconnaissance. Dans [5], une confusion phonétique est extraite d’une façon similaire à la précédente. Toutefois, la prononciation canonique est alignée avec une prononciation phonétique exprimée en termes de phonèmes natifs. Les deux SRAPs de la langue parlée et maternelle sont utilisés à cet effet. Par la suite, les modèles gaussiens des phonèmes natifs sont fusionnés avec ceux des phonèmes natifs avec lesquels ils ont été confondus, et ce pour chaque état des modèles de Markov sous-jacents (HMM). Suite