Collocation
Luka Nerima, Violeta Seretan, Eric Wehrli
Laboratoire d’analyse et de technologie du langage
Département de linguistique, Université de Genève
{Luka.Nerima, Violeta.Seretan, Eric.Wehrli}@lettres.unige.ch
Résumé
Cet article présente le modèle de traitement des expressions à mots multiples tel qu’il est implémenté dans les travaux en TAL du LATL. Il discute le repérage automatique, le stockage dans le lexique, ainsi que la prise en charge de ces expressions dans le parser Fips, le traducteur Its-2 et dans le système d’assistance terminologique TWiC. En se focalisant sur les collocations, les plus flexibles et les plus fréquentes de ces expressions, il met en évidence la nécessité d’effectuer une analyse syntaxique détaillée du texte afin d’assurer le traitement approprié de ces expressions et de garantir une meilleure performance à l’analyse et à la traduction.
Mots-clés : traitement automatique des langues naturelles, extraction de collocations, analyse syntaxique, traduction automatique, traduction de mots en contexte, aide terminologique
1. Introduction
Un des problèmes reconnus en traitement automatique de la langue
(TAL) est celui des expressions à mots multiples, c’est-à-dire des unités lexicales constituées par plusieurs mots orthographiques, non nécessairement contigus. Dans Sag et al. (2002, 2), ces expressions sont définies comme « des interprétations idiosyncrasiques qui dépassent la limite du mot » et on estime que leur proportion dans la langue est
— d’après Jackendoff (1997, 156) — comparable à celle des mots individuels.
Bien que ces expressions constituent une difficulté pour de nombreuses applications en TAL, c’est à coup sûr dans le domaine de la traduction automatique et de l’aide terminologique que l’absence d’un traitement adéquat de ces expressions se fait le plus cruellement sentir. La traduction littérale d’une expression — suite à sa nonidentification par le système — de même que la