Rapport: collection de documents xml pour l’extraction de données

3269 mots 14 pages
Collection de documents XML pour l’extraction de données
Collection de documents XML pour l’extraction de données

Ecole supérieur des sciences techniques et de management.

2012/2013

Ecole supérieur des sciences techniques et de management.

2012/2013

Table de matières I. Introduction Générale 2 II. Documents semi-structurés et XML 3 2.1. Document Object Model 4 2.2. XPath 5 III. Les approches spécifiques 7 IV. Techniques d’indexation des documents semi-structurés 8 4.1. Indexation de l’information textuelle 8 4.2. Indexation de l’information structurelle 9 4.2.1. Indexation basée sur des champs 9 4.2.2. Indexation basée sur des chemins 9 4.2.3. Indexation basée sur des arbres 10 V. Langages de requêtes 11 5.1. Langages de requêtes : premières approches 12 5.2. Evolution des langages de requêtes : prise en compte de la composante recherche d’information 13 5.2.3. Conclusion sur les langages de requêtes XML 14 VI. Conclusion 15

I. Introduction Générale
La nature des collections de documents électroniques évolue. Elles intègrent de plus en plus des méta-informations et notamment des informations structurelles : de simples documents texte « plat», on dispose aujourd’hui de documents structurés ou semi-structurés. Les informations structurelles sont liées à l’utilisation de formats tels que SGML (Standard GeneralizedMarkup Language) ou encore XML (eXtensible Markup Language). Ces derniers, conçus à l’origine pour faciliter l’échange et la standardisation des données, voient leur importance augmenter grâce à l’expansion d’Internet.
Du point de vue de la recherche d’information, l’accès à ce type de documents soulève de nouvelles problématiques liées à la coexistence de l’information structurelle et de l’information de contenu. La prise en compte de la dimension structurelle devrait permettre de mieux répondre aux différentes attentes des utilisateurs. Elle réactualise la

en relation

  • CasGalionCor1
    1640 mots | 7 pages
  • Rédaction d'une nouvelle sf
    602 mots | 3 pages
  • Holographie
    1683 mots | 7 pages
  • Dla dossier bts av : le document
    818 mots | 4 pages
  • Management dcg
    1252 mots | 6 pages
  • Fiche_m thodologique_Diagnostic 1
    443 mots | 2 pages
  • Lola
    836 mots | 4 pages
  • Relation publique travail noté 2
    1625 mots | 7 pages
  • Etude
    661 mots | 3 pages
  • Fnac : e-business
    477 mots | 2 pages
  • DSEC03 1
    1429 mots | 6 pages
  • Conforama
    808 mots | 4 pages
  • Baglin
    4100 mots | 17 pages
  • Blabla
    285 mots | 2 pages
  • Tolérance
    328 mots | 2 pages