rfr'f'gftggt(gt(
Nathalie Hernandez, Josiane Mothe
TtoO: une méthodologie de construction d’ontologie de domaine à partir d’un thésaurus et d’un corpus de référence
TtoO: une méthodologie de construction d’ontologie de domaine à partir d’un thésaurus et d’un corpus de référence
Nathalie Hernandez (hernandez@irit.fr), Josiane Mothe (mothe@irit.fr)
IRIT, 118 route de Narbonne, 31062 Toulouse-Cedex 4, France
Résumé
Les techniques de recherche d’information s’appuient sur l’extraction de termes dans les documents, termes qui servent de base pour l’accès à ces documents. Nous proposons dans ce rapport des fondations pour permettre une extraction plus riche sémantiquement en intégrant des connaissances issues de thésuaurs. Plus spécifiquement, nous proposons une méthodologie visant à transformer un thésaurus pré-existant en une ontologie de domaine qui sera utilisée pour indexer sémantiquement, c'est-à-dire à partir de concepts plutôt que de termes, une collection de documents. Un corpus de référence est en outre utilisé pour compléter la connaissance représentée. Nous proposons également des techniques assurant cette transformation et une évaluation dans le domaine de l’astronomie.
Nos propositions s’appuient d’une part sur la connaissance présente dans un thésaurus et sur celle que nous extrayons automatiquement d’un corpus de référence. Ainsi, certaines relations entre termes présentes dans le thésaurus sont directement exploitées pour formaliser la connaissance sous forme d’ontologie (relations « Utiliser plutôt », « Utiliser pour désigner », « est plus générique que »). D’autres connaissances sont directement extraites de l’analyse du corpus (nouveaux labels et liens hiérarchiques en particulier). Enfin, une ressource générique est utilisée pour définir des types abstraits permettant de hiérarchiser les concepts de haut niveau. Ces différentes ressources sont utilisées de façon