GTA 5
Anne-Muriel Arigon1, Guy Perrière1 et Manolo Gouy1
1Laboratoire de Biométrie et Biologie Évolutive, UMR CNRS 5558, Université Claude Bernard – Lyon 1, 43 bd. du 11 Novembre 1918, 69622 Villeurbanne Cedex, France
Les séquences d’ARN ribosomal (ARNr) 16S sont très fréquemment utilisées pour l’identification au niveau spécifique car il s’agit de molécules ubiquitaires, possédant une structure conservée, et abondantes dans les cellules. Si les séquences utilisées proviennent d’une amplification par PCR, il peut exister des chimères, c’est-à-dire des séquences artefactuelles produites par le protocole expérimental. Ces chimères représentent un problème important car elles suggèrent la présence d’organismes non existants. Il faut donc pouvoir les détecter. Les tâches d’identification et de détection de chimère exigent l’enchaînement de différents programmes (pour la recherche de similarité, l’alignement des séquences, et la reconstruction de phylogénies) qui sont parfois complexes à manipuler. Lorsque ces tâches doivent être exécutées sur un grand nombre de séquences, ces deux processus deviennent alors longs à effectuer. C’est pourquoi il est nécessaire de disposer d’outils automatisés permettant d’effectuer ces opérations de façon précise et rapide. Dans le contexte d’une collaboration avec le Laboratoire d’Écologie Microbienne des Sols (UMR CNRS 5557), nous avons développé une application dont le but était d’automatiser les processus : (i) d’identification des séquences non-chimères en utilisant une banque d’ARNr 16S ; et (ii) de détection de chimères parmi un ensemble de séquences d’ARNr 16S. Dans les deux cas, les méthodes développées emploient une approche phylogénétique. La banque de données utilisée pour l’identification a été créée à partir d’un jeu de séquences d’ARNr 16S de bactéries de souches cultivées. L’algorithme développé pour