Strat´egies pour l’analyse statistique de donn´ees transcriptomiques
´ Alain BACCINI ∗ , Philippe BESSE∗ , S´bastien DEJEAN∗ , e ´ e Pascal G.P. MARTIN ∗∗ , Christ`le ROBERT-GRANIE ∗∗∗ , ∗∗∗∗ Magali SAN CRISTOBAL
´ ´ RESUME Afin d’illustrer la diversit´ des strat´gies applicables ` l’analyse de donn´es transe e a e criptomiques, nous mettons d’abord en œuvre des m´thodes issues de la statistique e exploratoire (ACP, positionnement multidimensionnel, classification), de la mod´lie sation (analyse de variance, mod`les mixtes, tests) ou de l’apprentissage (forˆts e e al´atoires), sur un jeu de donn´es provenant d’une ´tude de nutrition chez la souris. e e e Dans un second temps, les r´sultats obtenus sont mis en relation avec des param`tres e e cliniques mesur´s sur les mˆmes animaux, en utilisant cette fois l’analyse canonique. e e La plupart des m´thodes fournissent des r´sultats biologiquement pertinents sur ces e e donn´es. e De cette exp´rience, nous tirons quelques enseignements ´l´mentaires : il n’y a e ee pas, a priori, de meilleure approche ; il faut trouver la « bonne » strat´gie associant e exploration et mod´lisation, adapt´e tant aux donn´es qu’` l’objectif recherch´. e e e a e Dans cette optique, une collaboration ´troite entre statisticien et biologiste est e indispensable. Mots cl´s : biopuces, analyse en composantes principales, classification, mod`le e e lin´aire, forˆts al´atoires, analyse canonique. e e e ABSTRACT In order to illustrate the variety of strategies applicable to transcriptomic data analysis, we first implement methods of exploratory statistics (PCA, multidimensional scaling, clustering), modelling (ANOVA, mixed models, tests) or learning (random forests), on a dataset coming from a nutrition study for mice. In a second stage, relationships between the previous results and clinical measures are studied through canonical correlation analysis. Most of the methods provide biological relevant results on these data.
* Laboratoire de