association
Rapport de stage de fin d'études
MODULE D'EXTRACTION FOCALISE ET
ANALYSE AUTOMATIQUE
LINGUISTIQUE DU WEB
NGUYEN Hong San
Janvier 2007
Lieu de stage
Période de stage
Tuteur de stage
: Institut de Recherche en
Informatique de Toulouse (IRIT)
: du 15/03/2006 au 30/09/2006
: Bruno GAUME
Remerciements
Je tiens à remercier tout particulièrement Monsieur Bruno GAUME, tuteur de stage et professeur de l'Université Paul Sabatier, qui m'a accueilli de faire ce stage dans l'IRIT et m'a dirigé mon travail de recherche. Il m'a aussi donné des conseils dans le domaine de recherche et ainsi ceux dans la vie quotidienne.
Je remercie aussi Franck SAJOUS, ingénieur de l'Équipe de Recherche en
Syntaxe et Sémantique pour son soutien technique pendant mon stage.
Je tiens également à exprimer toute ma sympathie à Alain MONIER pour ses aides précieuses dans la démarche de mon séjour à Toulouse.
J’adresse en fin mes reconnaissances aux professeurs de l’Institut de la
Francophonie pour l’Informatique, pour m’avoir aidé à effectuer ce stage.
ii
Résumé
Ce stage se déroule dans un cadre d'une collaboration entre l'Institut de Recherche en
Informatique de Toulouse (IRIT) et l' Équipe de Recherche en Syntaxe et Sémantique
(ERSS). Notre objectif est de développer un outil informatique pour la construction automatique des corpus à partir du web en utilisant les outils analyse linguistique existés. Il s'agit de la construction d'un crawl focalisé du web et de l'intégration des outils d'analyse linguistique pour analyser les pages Web. Dans un premier temps, nous présentons un modèle de crawl focalisé qui parcourait le Web pour télécharger les pages concernées à un sujet spécifique. Le crawl doit faire sortie deux résultats importants: les contenus textuelle des pages Web et le graphe des hyperliens des pages
Web. Dans un deuxième temps, nous faisons une études sur les outils d'analyse