Analyse la condamné a mort genet
(DUC2007). Ce système repose sur un module d’extension des mots de la question et du titre de chacun des sujets par des concepts de mots trouvés automatiquement avec un algorithme d’apprentissage non-supervisé. Cet algorithme est une version classifiante de l’algorithme EM.
Chaque phrase des documents de la collection est ensuite caractérisée par un vecteur repré- sentant les similarités de la phrase avec le titre, la question ainsi que leur version étendue. Le score final des phrases est alors trouvé en combinant manuellement ces similarités sur la base
DUC 2006. Les résultats obtenus lors de cette compétition place le LIP6 respectivement 3 eme ,
2
eme et 1 ere suivant les trois mesures officielles de la compétition.
ABSTRACT. This paper describes the different steps which lead to the construction of the LIP6 extractive summarizer. The basic idea behind this system is to expand question and title keywords of each topic with their respective cluster terms. Term clusters are found by unsupervised learning using a classification variant of the well-known EM algorithm. Each sentence is then characterized by 4 features, each of which uses bag-of-words similarities between expanded topic title or questions and the current sentence. A final score of the sentences is found by manually tuning the weights of a linear combination of these features ; these weights are chosen