le corpus
Lorsque l'on travaille avec des corpus, il convient donc de séparer un corpus initial en deux sous-corpus:
le corpus d'apprentissage, qui sert à retirer un modèle ou un classement à partir d'un nombre suffisant d'information ; le corpus de test, qui sert à vérifier la qualité de l'apprentissage à partir du corpus d'apprentissage.
Le calibrage des volumes des corpus se discute en fonction du problème, mais il est fréquent d'utiliser les 2/3 du corpus initial pour l'apprentissage et le tiers restant pour effectuer les tests.
Lorsque le volume du corpus initial n'est pas suffisant, il est possible de croiser les corpus de tests et d'apprentissage sur plusieurs expérimentations. Par exemple, si l'on découpe le corpus initial en 10 sous-corpus, numérotés de 1 à 10
Expérience 1 : utilisation des corpus 1 à 8 en apprentissage, et 9 et 10 pour les tests;
Expérience 2 : utilisation des corpus 1 à 6 et 9 et 10 en apprentissage, 7 et 8 pour les tests;
...
La mesure de qualité des résultats (précision ou rappel) est alors plus précise, mais en aucun cas les corpus d'apprentissage et de tests n'ont été mélangés.
Corpus parallèles et corpus comparables[modifier | modifier le code]
Corpus parallèles[modifier | modifier le code]
On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l'autre. Il est intéressant d'aligner ces corpus, c'est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau des paragraphes, phrases et mots) pour disposer d'un jeu de données bilingues, en particulier dans des domaines spécialisés où le vocabulaire et l'usage des mots et des expressions évoluent rapidement.
À titre d'exemple, au 26 octobre 2006, les versions