Classification supervisée de documents

4113 mots 17 pages
Classification supervisée de documents

1. Introduction
La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique. A la différence de la classification non supervisée où l’ordinateur doit découvrir lui-même des groupes de documents, la classification supervisée suppose qu’il existe déjà une classification de documents. C’est le cas par exemple d’une bibliothèque ou d’un moteur de recherche comme Yahoo !. Le but est alors de classer automatiquement un nouveau document. Comme les documents sont nombreux ou que leur nombre augmente sans cesse, il serait difficile de programmer à l'avance des règles de décision pour déterminer la classe d'un nouveau document. Même si cela était possible, ces règles devraient être régulièrement modifiées par l'utilisateur pour qu'elles reflètent la réalité actuelle. Nous présentons donc des méthodes d’apprentissage qui, à partir de documents déjà classés, permettent de classer de nouveaux documents. Nous nous intéressons donc ici aux algorithmes d'apprentissage supervisés, c'est à dire où les réponses du programme sont fixées à l’avance (la hiérarchie de Yahoo ou la catalogue de la bibliothèque). De façon simple, le but de l’algorithme est de découvrir pourquoi chaque document d’exemple a été rangé dans telle ou telle classe, afin de prédire la classe de nouveaux documents à ranger dans le futur. La plupart des algorithmes d'apprentissage supervisés tentent donc de trouver un modèle -- une fonction mathématique - qui explique le lien entre des données d'entrée et les classes de sortie. Ces jeux d’exemples sont donc utilisés par l’algorithme. Dans le cas de la classification de documents, on fournit donc à la machine des exemples sous la forme (Document, Classe). Cette méthode de raisonnement est appelée inductive car on induit de la connaissance (le modèle) à partir des données d'entrée (les Documents) et des sorties (leurs Catégories). Grâce à

en relation

  • B2I 3ème
    1603 mots | 7 pages
  • Cgo Algo 2015
    2442 mots | 10 pages
  • Manuel D Utilisation Collaborateurs SELLSY 02 2015
    835 mots | 4 pages
  • Analyse la condamné a mort genet
    251 mots | 2 pages
  • Note de synthèse
    7561 mots | 31 pages
  • Poison
    1652 mots | 7 pages
  • Classification de documents stg
    1148 mots | 5 pages
  • Le pere goriot
    6539 mots | 27 pages
  • golf gtd
    4000 mots | 16 pages
  • Segmentation des bières
    569 mots | 3 pages
  • Tpe aviron
    1036 mots | 5 pages
  • Défi relèvé
    399 mots | 2 pages
  • Rapport de stage 2007 1
    1348 mots | 6 pages
  • Arrêt du 6 novembre 2002
    1685 mots | 7 pages
  • Conditions d'utilisation du site
    4708 mots | 19 pages