Le Corpus
Les corpus sont des collections de textes de taille importante (BNC=100 Million words !) constituées de textes authentiques assemblées selon des critères spécifiques collectées sous format électronique
Il va plus loin que le groupement de textes car il peut comporter des images. Ces images ne sont pas là à titre d'illustrations.
Le corpus a une unité en lien avec les objets d'étude.
Il s'agit d'un ensemble de données d'un certain type (notamment en lettres) réunies en vue de leur étude scientifique (1809) (CNRTL) mais aussi d'un ensemble de textes établi selon un critère thématique en vue de leur étude linguistique (1855) (CNRTL) ou encore d'un recueil de pièces, de documents concernant une même matière (dictionnaire Académie française)
Les corpus ne sont pas faits pour être consultés de manière séquentielle (livre) mais interrogés (concordanciers)
La plupart des logiciels d’analyse textuelle sont bases sur le format texte brut (.txt). Pas de .doc ou de .pdf.
Un concordancier est un logiciel qui construit des concordances.
Il existe plusieurs types de corpus comme: → support : papier, électronique, oral, vidéo
→ version langagière :
→ monolingue, bilingue (comparable ou alignés), multilingue
→ originaux, traductions
→ locuteurs natifs ou apprenants de la langue
→ état de la langue : synchronique ou diachronique
→ but : corpus de référence ou de spécialité
→ ouvert / fermé
→ présence d'annotation : textes bruts ou annotés
ES.
ooo LE CORPUS
Les corpus sont des collections de textes de taille importante (BNC=100 Million words !) constituées de textes authentiques assemblées selon des critères spécifiques collectées sous format électronique
Il va plus loin que le groupement de textes car il peut comporter des images. Ces images ne sont pas là à titre d'illustrations.
Le corpus a une unité