Recherche ri

Pages: 6 (1345 mots) Publié le: 20 mai 2012
Recherche d'information
Modèles en Recherche d'Information Modèles de langue

Cours Master Recherche Paris 13 Recherche et extraction d'information


1

Modèles de langue pour la RI
idée
ne pas tenter de modéliser directement la pertinence estimer la probabilité P(Q|D) la probabilité d'avoir la requête sachant le document, i.e. estimer la probabilité que la requête soit générée àpartir du document repose sur l'idée que l'utilisateur, lorsqu'il formule sa requête, a une idée du document idéal qu'il souhaite retrouver et que sa requête est formulée pour retrouver ce document idéal
idée formulée dès les années 60 dans les premiers travaux sur la RI probabiliste (Maron)

2

Modèles de langue
idée des modèles de langue :
capter les régularités linguistiques d'une languemodèle probabiliste qui assigne une probabilité à toute séquence de mots
probabilité de générer une séquence de mots à partir du modèle modèles largement utilisés en traitement du language
reconnaissance de la parole désambiguïsation morpho-syntaxique traduction automatique

3

Modèles de langue
séquence s=m1 ... mn
n

P s

P m1

.m n
i 1

P m i m1

mi

1

approximation:dépendance limitée à k mots
un contexte de (k-1) mots précédent est suffisant pour estimer la probabilité d'un mot
n

P s

P m1

. mn
i 1

P mi m i

k 1

mi

1

4

Modèles de langue
modèles k-grams : les plus utilisés sont pour k=1,2,3
unigrams
n

P m1
bigrams P m1

. mn
i 1 n

P mi

. mn
i 1

P m i mi

1

P mi m i

P m i 1 mi
1

P mi

1

trigrams Pm1

n

. mn
i 1

P m i mi

2

mi

1

P mi m i 2 m i

P m i 2 mi 1m i
1

P mi 2 mi

1

5

Estimation des probabilités
il faut estimer P(mi) P(mi-1 mi) P(mi-2 mi-1 mi) sur un corpus C

estimation de la probabilité d'un n-gram

estimateur du maximum de vraisemblance (maximum likelihood)

P ML

C
i

f f
C i

f( ) = fréquence d'occurrence de dans le corpus

6 Lissage
problèmes de zéros
un n-gram qui n'apparaît pas dans le corpus a une probabilité nulle toute séquence qui le contient a une probabilité nulle

techniques de lissage pour assouplir cette contrainte idée générale :
au lieu d'attribuer toute la masse de probabilité aux n-grams observés, on en garde une partie qu'on redistribue aux ngrams non observés

7

Exemples de LissageLissage de Laplace (« ajouter-un ») Lissage de Good-Turing Lissage Backoff Lissage par interpolation

8

Lissage de Laplace
Lissage de Laplace
lissage « ajouter-un »

P

C
i

f f
C i

1 1

si le corpus ne contient qu'une petite partie des n-grams possibles (ce qui est souvent le cas), la plus grosse part de la masse de probabilité sera distribuée sur les n-grams non observés.

9 Lissage de Good-Turing
Lissage Good-Turing
f' f 1 nf nf
1

nx = nombre de n-grams apparus x fois dans le corpus

P GT

C
i

f' f
C i

diminution de f'( )/f( ) du poids de grams non vus

, redistribué sur les n-

l'estimation Good-Turing pour les n-grams de grande fréquence est instable
recommandé pour les n-grams de faible fréquence
10

Lissage Backoff
Lissage Backoffutiliser des modèles d'ordre inférieur pour les n-grams non observés par exemple, le modèle de Katz combine bigrams et unigrams

P Katz m i m i

1

P GT m i m i 1 si m i 1 m i C m i 1 P Katz m i 1 sinon

11

Lissage Backoff
P Katz m i m i
1

P GT m i m i 1 si m i 1 m i C m i 1 P Katz m i 1 sinon

la diminution de fréquence de l'estimation Good-Turing est redistribuée sur lemodèle unigrams (mi-1) est un paramètre qui détermine la part de cette redistribution à mi

1 mi
m j t.q. m i 1
1

P GT m j m i
mj C

1

1
mj

P ML m j

12

Lissage par interpolation
lissage par interpolation
interpoler les modèles d'ordre inférieur, même si le n-gram est observé Lissage de Jelinek -Mercer

P JM m i m i
i -1

1

mi -1

P ML m i m i

1

1

m i -1...
Lire le document complet

Veuillez vous inscrire pour avoir accès au document.

Vous pouvez également trouver ces documents utiles

  • Projet de recherche en ri
  • la ri
  • RI FT Morale RI
  • Ri jkfie
  • Eco de la ri
  • RI 10
  • Cours ri
  • Premiére ri

Devenez membre d'Etudier

Inscrivez-vous
c'est gratuit !