le corpus

698 mots 3 pages
Il serait maladroit d'un point de vue méthodologique d'appliquer des traitements statistiques sur le corpus qui a permis de faire ressortir un classement ou une modélisation du langage.

Lorsque l'on travaille avec des corpus, il convient donc de séparer un corpus initial en deux sous-corpus:

le corpus d'apprentissage, qui sert à retirer un modèle ou un classement à partir d'un nombre suffisant d'information ; le corpus de test, qui sert à vérifier la qualité de l'apprentissage à partir du corpus d'apprentissage.
Le calibrage des volumes des corpus se discute en fonction du problème, mais il est fréquent d'utiliser les 2/3 du corpus initial pour l'apprentissage et le tiers restant pour effectuer les tests.

Lorsque le volume du corpus initial n'est pas suffisant, il est possible de croiser les corpus de tests et d'apprentissage sur plusieurs expérimentations. Par exemple, si l'on découpe le corpus initial en 10 sous-corpus, numérotés de 1 à 10

Expérience 1 : utilisation des corpus 1 à 8 en apprentissage, et 9 et 10 pour les tests;
Expérience 2 : utilisation des corpus 1 à 6 et 9 et 10 en apprentissage, 7 et 8 pour les tests;
...
La mesure de qualité des résultats (précision ou rappel) est alors plus précise, mais en aucun cas les corpus d'apprentissage et de tests n'ont été mélangés.

Corpus parallèles et corpus comparables[modifier | modifier le code]
Corpus parallèles[modifier | modifier le code]
On appelle corpus parallèle un ensemble de couples de textes tel que, pour un couple, un des textes est la traduction de l'autre. Il est intéressant d'aligner ces corpus, c'est-à-dire de faire correspondre chaque unité du texte en langue source avec chaque unité de texte en langue cible (au niveau des paragraphes, phrases et mots) pour disposer d'un jeu de données bilingues, en particulier dans des domaines spécialisés où le vocabulaire et l'usage des mots et des expressions évoluent rapidement.

À titre d'exemple, au 26 octobre 2006, les versions

en relation

  • corpus
    2826 mots | 12 pages
  • corpus
    1916 mots | 8 pages
  • corpus
    327 mots | 2 pages
  • corpus
    443 mots | 2 pages
  • corpus
    3312 mots | 14 pages
  • corpus
    4192 mots | 17 pages
  • corpus
    4192 mots | 17 pages
  • corpus
    960 mots | 4 pages
  • corpus
    303 mots | 2 pages
  • corpus
    320 mots | 2 pages
  • corpus
    1840 mots | 8 pages
  • corpus
    397 mots | 2 pages
  • corpus
    823 mots | 4 pages
  • corpus
    677 mots | 3 pages
  • corpus
    1085 mots | 5 pages