Classification supervisée de documents
1. Introduction
La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique. A la différence de la classification non supervisée où l’ordinateur doit découvrir lui-même des groupes de documents, la classification supervisée suppose qu’il existe déjà une classification de documents. C’est le cas par exemple d’une bibliothèque ou d’un moteur de recherche comme Yahoo !. Le but est alors de classer automatiquement un nouveau document. Comme les documents sont nombreux ou que leur nombre augmente sans cesse, il serait difficile de programmer à l'avance des règles de décision pour déterminer la classe d'un nouveau document. Même si cela était possible, ces règles devraient être régulièrement modifiées par l'utilisateur pour qu'elles reflètent la réalité actuelle. Nous présentons donc des méthodes d’apprentissage qui, à partir de documents déjà classés, permettent de classer de nouveaux documents. Nous nous intéressons donc ici aux algorithmes d'apprentissage supervisés, c'est à dire où les réponses du programme sont fixées à l’avance (la hiérarchie de Yahoo ou la catalogue de la bibliothèque). De façon simple, le but de l’algorithme est de découvrir pourquoi chaque document d’exemple a été rangé dans telle ou telle classe, afin de prédire la classe de nouveaux documents à ranger dans le futur. La plupart des algorithmes d'apprentissage supervisés tentent donc de trouver un modèle -- une fonction mathématique - qui explique le lien entre des données d'entrée et les classes de sortie. Ces jeux d’exemples sont donc utilisés par l’algorithme. Dans le cas de la classification de documents, on fournit donc à la machine des exemples sous la forme (Document, Classe). Cette méthode de raisonnement est appelée inductive car on induit de la connaissance (le modèle) à partir des données d'entrée (les Documents) et des sorties (leurs Catégories). Grâce à