Corpus

7917 mots 32 pages
Le texte qui suit est un extrait de la thèse de Bénédicte Pincemin. Références complètes :
BOMMIER-PINCEMIN Bénédicte (1999) – Diffusion ciblée automatique d'informations : conception et mise en œuvre d'une linguistique textuelle pour la caractérisation des destinataires et des documents, Thèse de Doctorat en Linguistique, Université Paris IV Sorbonne, 6 avril 1999, chapitre VII : "Caractérisation d'un texte dans un corpus : du quantitatif vers le qualitatif", § A
"Définir un corpus", pp. 415-427.

A. DÉFINIR UN CORPUS
1. Une question qui resurgit dans le contexte du calcul
Le corpus est nécessité et orienté par le traitement : c’est bien le préliminaire aux calculs, et c’est sous cet angle qu’il est considéré dans ce chapitre.

a) Les données
Le corpus se définit de fait comme l’objet concret auquel s’applique le traitement, qu’il s’agisse d’une étude qualitative ou quantitative. corpus : (ling.) ensemble limité des éléments (énoncés) sur lesquels se base l’étude d’un phénomène linguistique ; (lexicométrie) ensemble de textes réunis à des fins de comparaison, servant de base à une étude quantitative. (Lebart, Salem 1988, § Glossaire)

Mais les données ont un nom trompeur : elles ne s’imposent pas, elles sont construites. Certes, il y a un existant, directement sous forme de textes électroniques par exemple, –et donc l’analyste n’a pas une totale liberté d’« inventer » ses données, il part d’une réalité–, mais il reste des décisions du type : faut-il considérer tout ce qui est disponible ou en extraire un sous-ensemble plus significatif et équilibré ; comment tirer parti du codage disponible, comment éventuellement l’adapter au traitement envisagé. Le rapport aux données tient d’un compromis : faire avec ce à quoi on a accès, mais faire au mieux avec cela.
La définition des textes et [le cas échéant des] fragments [qui subdivisent chaque texte] devrait dépendre du but de l’étude ; mais souvent, le statisticien ne peut qu’accepter les données
disponibles...

en relation

  • Corpus
    329 mots | 2 pages
  • Corpus
    515 mots | 3 pages
  • Corpus
    19808 mots | 80 pages
  • Corpus
    2366 mots | 10 pages
  • Corpus
    1972 mots | 8 pages
  • Corpus
    1957 mots | 8 pages
  • Corpus
    443 mots | 2 pages
  • Methodologie dossier
    349 mots | 2 pages
  • Corpus
    835 mots | 4 pages
  • Corpus
    719 mots | 3 pages
  • Corpus
    843 mots | 4 pages
  • Corpus
    616 mots | 3 pages
  • Corpus
    414 mots | 2 pages
  • Corpus
    695 mots | 3 pages
  • Corpus
    578 mots | 3 pages