Wikipédia

Pages: 5 (1224 mots) Publié le: 17 mars 2013
Le corpus en linguistique[modifier]

La branche de la linguistique qui se préoccupe plus spécifiquement des corpus s'appelle logiquement la linguistique de corpus. Elle est liée au développement des systèmes informatiques, en particulier à la constitution de bases de données textuelles.
On parle de corpus pour désigner l'aspect normatif de la langue : sa structure et son code en particulier."Corpus" est généralement opposé à "status" (ou statut), qui correspond aux conditions d'utilisation de la langue. Cette opposition est commune dans l'étude des politiques linguistiques.
Le corpus en littérature[modifier]

Le corpus regroupe un ensemble de textes ayant une visée commune. Un corpus peut être constitué de documents différents (tableau, extrait de texte...) et ces documents diversont un point en commun. En général c'est le thème qui fait figure de leur ressemblance. Il faut avoir une technique particulière pour le déchiffrer.
Le corpus dans la science[modifier]

Les corpus sont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'information utile pour des traitements statistiques.
D'unpoint de vue informatif, ils permettent d'extraire des tendances et notamment de construire des ensembles de n-grammes.
D'un point de vue méthodologique, ils apportent une objectivité nécessaire à la validation scientifique en traitement automatique du langage naturel. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer sur des corpus (à conditionqu'ils soient bien formés) pour formuler et vérifier des hypothèses scientifiques.
Corpus bien formé[modifier]
Plusieurs caractéristiques sont à prendre en compte pour la création d'un corpus bien formé :
la taille ;
le langage du corpus ;
le temps couvert par les textes du corpus ;
le registre ;
Taille[modifier]
Le corpus doit évidemment atteindre une taille critique pour permettre destraitements statistiques fiables. Il est impossible d'extraire des informations fiables à partir d'un corpus trop petit (voir Statistique).
Langage[modifier]
Un corpus bien formé doit nécessairement couvrir un seul langage, et une seule déclinaison de ce langage. Il existe par exemple de subtiles différences entre le français de France et le français parlé en Belgique. Il ne sera donc pas possiblede tirer des conclusions fiables à partir d'un corpus franco-belge sur le français de France, ni sur le français de Belgique.
Temps couvert par les textes du corpus[modifier]
Le temps joue un rôle important dans l'évolution du langage : le français parlé aujourd'hui ne ressemble pas au français parlé il y a 200 ans ni, de façon plus subtile, au français parlé il y a 10 ans, à cause notamment desnéologismes. C'est un phénomène à prendre en compte pour toutes les langues vivantes. Un corpus ne doit donc pas contenir de textes rédigés à des intervalles de temps trop larges.
Registre de langage[modifier]
Il ne faut pas non plus mélanger des registres différents et le scientifique ne peut s'autoriser à extraire des informations d'un corpus destiné à un certain registre en les appliquant àun autre. Un corpus construit à partir de textes scientifiques ne peut être utilisé pour extraire des informations sur les textes vulgarisés, et un corpus mélangeant des textes scientifiques et vulgarisés ne permettra de tirer aucune conclusion sur ces deux registres.
Méthodologie[modifier]
Il serait maladroit d'un point de vue méthodologique d'appliquer des traitements statistiques sur lecorpus qui a permis de faire ressortir un classement ou une modélisation du langage.
Lorsque l'on travaille avec des corpus, il convient donc de séparer un corpus initial en deux sous-corpus:
le corpus d'apprentissage, qui sert à retirer un modèle ou un classement à partir d'un nombre suffisant d'information ;
le corpus de test, qui sert à vérifier la qualité de l'apprentissage à partir du corpus...
Lire le document complet

Veuillez vous inscrire pour avoir accès au document.

Vous pouvez également trouver ces documents utiles

  • Wikipédia
  • Wikipedia
  • wikipedia
  • wikipedia
  • Wikipedia
  • Wikipedia
  • Wikipedia
  • Wikipedia

Devenez membre d'Etudier

Inscrivez-vous
c'est gratuit !