Corpus
BOMMIER-PINCEMIN Bénédicte (1999) – Diffusion ciblée automatique d'informations : conception et mise en œuvre d'une linguistique textuelle pour la caractérisation des destinataires et des documents, Thèse de Doctorat en Linguistique, Université Paris IV Sorbonne, 6 avril 1999, chapitre VII : "Caractérisation d'un texte dans un corpus : du quantitatif vers le qualitatif", § A
"Définir un corpus", pp. 415-427.
A. DÉFINIR UN CORPUS
1. Une question qui resurgit dans le contexte du calcul
Le corpus est nécessité et orienté par le traitement : c’est bien le préliminaire aux calculs, et c’est sous cet angle qu’il est considéré dans ce chapitre.
a) Les données
Le corpus se définit de fait comme l’objet concret auquel s’applique le traitement, qu’il s’agisse d’une étude qualitative ou quantitative. corpus : (ling.) ensemble limité des éléments (énoncés) sur lesquels se base l’étude d’un phénomène linguistique ; (lexicométrie) ensemble de textes réunis à des fins de comparaison, servant de base à une étude quantitative. (Lebart, Salem 1988, § Glossaire)
Mais les données ont un nom trompeur : elles ne s’imposent pas, elles sont construites. Certes, il y a un existant, directement sous forme de textes électroniques par exemple, –et donc l’analyste n’a pas une totale liberté d’« inventer » ses données, il part d’une réalité–, mais il reste des décisions du type : faut-il considérer tout ce qui est disponible ou en extraire un sous-ensemble plus significatif et équilibré ; comment tirer parti du codage disponible, comment éventuellement l’adapter au traitement envisagé. Le rapport aux données tient d’un compromis : faire avec ce à quoi on a accès, mais faire au mieux avec cela.
La définition des textes et [le cas échéant des] fragments [qui subdivisent chaque texte] devrait dépendre du but de l’étude ; mais souvent, le statisticien ne peut qu’accepter les données
disponibles...