Hadoop
BASE DE DONNÉES DISTRIBUÉE APPLIQUÉE EN GÉNÉTIQUE DANS LE CADRE DE L'ANALYSE DE SÉQUENÇAGE GÉNOMIQUE
JEAN-PHILIPPE BOND BONJ06048709 DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI
Professeur-superviseur Alain April
MONTRÉAL, 13 AOÛT 2012 ÉTÉ 2012
REMERCIEMENTS
Alain April : Professeur de génie logiciel. Patrice Dion : Analyste des systèmes et réseaux informatiques, département de systèmes éducationnels et de recherche de l’ÉTS. Anna Klos : Diplômée de l’ÉTS en génie logiciel. Ousmane Diallo, B.Sc. : programmeur pour le projet S2D, laboratoire Guy Rouleau, CRCHUM.
OPTIMISATION DE RECHERCHE GRÂCE À HBASE SOUS HADOOP
JEAN-PHILIPPE BOND BONJ06048709 RÉSUMÉ Ce projet s’insère dans un contexte d’affaires où le Centre de Recherche du Centre Hospitalier de l’Université de Montréal (CRCHUM) est aux prises avec des problèmes avec un système d’identification de gènes et où l’ÉTS est désireuse d’amasser du matériel en vue d’un cours sur le « Cloud Computing ». Le CRCHUM, possédant bien au-delà de 150 millions d’enregistrements de données génomiques, utilise à l’heure actuelle un système permettant d’effectuer des recherches sur des gênes afin de, par exemple, trouver certaines variantes de gènes partageant des similarités. Selon les informations publiées sur le site Web du laboratoire Roueleau, « l’objectif principal du projet Synapse to Disease (de la synapse à la maladie ou S2D) est d’identifier des gènes causants ou prédisposant à des maladies du développement et du fonctionnement neuronal » (http://www.laboguyrouleau.ca/S2D.html). S’appuyant sur une base de données relationnelle conventionnelle, le CRCHUM voit rapidement sa solution atteindre un plateau. En effet, plusieurs de leurs requêtes sont longues à effectuer et ont déjà demandé un remaniement de la base de données important. Leurs responsables voient donc, à l’horizon, un problème dans leur capacité de