Corpus

1281 mots 6 pages
Le corpus en linguistique

La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.
On parle de corpus pour désigner l'aspect normatif de la langue : sa structure et son code en particulier. "Corpus" est généralement opposé à "status" (ou statut), qui correspond aux conditions d'utilisation de la langue. Cette opposition est commune dans l'étude des politiques linguistiques.

Le corpus en littérature

Le corpus regroupe un ensemble de textes ayant une visée commune. Un corpus peut être constitué de documents différents (tableau, extrait de texte...) et ces documents divers ont un point en commun. En général c'est le thème qui fait figure de leur ressemblance. Il faut avoir une technique particulière pour le dechiffrer.

Le corpus dans la science

Les corpus sont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'information utile pour des traitements statistiques.
D'un point de vue informatif, ils permettent d'extraire des tendances et notamment de construire des ensembles de n-grammes.
D'un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer sur des corpus (à condition qu'ils soient bien formés) pour formuler et vérifier des hypothèses scientifiques.
Corpus bien formé
Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé : la taille ; le langage du corpus ; le temps couvert par les textes du corpus ; le registre ;

Taille

Le corpus doit évidemment atteindre une taille critique pour permettre des traitements statistiques fiables. Il est

en relation

  • Synthese fr
    1615 mots | 7 pages
  • 2GT11 Travail Rendre Pour Le 07 Avril 2015
    610 mots | 3 pages
  • Question de Corpus - Les mouches, Angelo, Caligula, Lorenzaccio
    1271 mots | 6 pages
  • MTQ1001 TN5 Q6 On peut faire dire ce que l on veut aux statistiques
    295 mots | 2 pages
  • Corpus Français 1 ère S sur l'argumentation
    831 mots | 4 pages
  • Correction du corpus sur le bavardage
    999 mots | 4 pages
  • Harcèlement au travail
    21421 mots | 86 pages
  • Corpus : vivre avec un chien
    1482 mots | 6 pages
  • Corpus
    578 mots | 3 pages
  • 95
    756 mots | 4 pages
  • Corpus
    4641 mots | 19 pages
  • Statistique descriptive
    2604 mots | 11 pages
  • Stat
    1349 mots | 6 pages
  • Wikipédia
    1224 mots | 5 pages
  • Différence
    733 mots | 3 pages