Rapport: collection de documents xml pour l’extraction de données
Collection de documents XML pour l’extraction de données
Ecole supérieur des sciences techniques et de management.
2012/2013
Ecole supérieur des sciences techniques et de management.
2012/2013
Table de matières I. Introduction Générale 2 II. Documents semi-structurés et XML 3 2.1. Document Object Model 4 2.2. XPath 5 III. Les approches spécifiques 7 IV. Techniques d’indexation des documents semi-structurés 8 4.1. Indexation de l’information textuelle 8 4.2. Indexation de l’information structurelle 9 4.2.1. Indexation basée sur des champs 9 4.2.2. Indexation basée sur des chemins 9 4.2.3. Indexation basée sur des arbres 10 V. Langages de requêtes 11 5.1. Langages de requêtes : premières approches 12 5.2. Evolution des langages de requêtes : prise en compte de la composante recherche d’information 13 5.2.3. Conclusion sur les langages de requêtes XML 14 VI. Conclusion 15
I. Introduction Générale
La nature des collections de documents électroniques évolue. Elles intègrent de plus en plus des méta-informations et notamment des informations structurelles : de simples documents texte « plat», on dispose aujourd’hui de documents structurés ou semi-structurés. Les informations structurelles sont liées à l’utilisation de formats tels que SGML (Standard GeneralizedMarkup Language) ou encore XML (eXtensible Markup Language). Ces derniers, conçus à l’origine pour faciliter l’échange et la standardisation des données, voient leur importance augmenter grâce à l’expansion d’Internet.
Du point de vue de la recherche d’information, l’accès à ce type de documents soulève de nouvelles problématiques liées à la coexistence de l’information structurelle et de l’information de contenu. La prise en compte de la dimension structurelle devrait permettre de mieux répondre aux différentes attentes des utilisateurs. Elle réactualise la