Recherche ri
Modèles en Recherche d'Information Modèles de langue
Cours Master Recherche Paris 13 Recherche et extraction d'information
1
Modèles de langue pour la RI idée ne pas tenter de modéliser directement la pertinence estimer la probabilité P(Q|D) la probabilité d'avoir la requête sachant le document, i.e. estimer la probabilité que la requête soit générée à partir du document repose sur l'idée que l'utilisateur, lorsqu'il formule sa requête, a une idée du document idéal qu'il souhaite retrouver et que sa requête est formulée pour retrouver ce document idéal idée formulée dès les années 60 dans les premiers travaux sur la RI probabiliste (Maron)
2
Modèles de langue idée des modèles de langue : capter les régularités linguistiques d'une langue
modèle probabiliste qui assigne une probabilité à toute séquence de mots probabilité de générer une séquence de mots à partir du modèle modèles largement utilisés en traitement du language reconnaissance de la parole désambiguïsation morpho-syntaxique traduction automatique
3
Modèles de langue séquence s=m1 ... mn n P s
P m1
.m n i 1
P m i m1
mi
1
approximation: dépendance limitée à k mots un contexte de (k-1) mots précédent est suffisant pour estimer la probabilité d'un mot n P s
P m1
. mn i 1
P mi m i
k 1
mi
1
4
Modèles de langue modèles k-grams : les plus utilisés sont pour k=1,2,3 unigrams n
P m1 bigrams P m1
. mn i 1 n
P mi
. mn i 1
P m i mi
1
P mi m i
P m i 1 mi
1
P mi
1
trigrams P m1
n
. mn i 1
P m i mi
2
mi
1
P mi m i 2 m i
P m i 2 mi 1m i
1
P mi 2 mi
1
5
Estimation des probabilités il faut estimer P(mi) P(mi-1 mi) P(mi-2 mi-1 mi) sur un corpus C
estimation de la probabilité d'un n-gram
estimateur du maximum de vraisemblance (maximum likelihood)
P ML
C i f f
C i
f( ) = fréquence d'occurrence de dans le corpus