Blast et la recherche dans les bases de donnée

Disponible uniquement sur Etudier
  • Pages : 8 (1778 mots )
  • Téléchargement(s) : 0
  • Publié le : 14 décembre 2010
Lire le document complet
Aperçu du document
BLAST et la Recherche dans les bases de donnée

SOMMAIRE

1. Recherches par similitudes 2
1.1. LES ALIGNEMENTS DE SEQUENCES. NOTIONS GENERALES. 2
1.1.1. QUANTIFICATION DE LA SIMILITUDE. 3
1.1.2. MATRICES DE SUBSTITUTION. 3
1.1.3. FILTRES. 4
1.1.4. CONCLUSION. 4
1.2. UTILISATION DE BLAST (BASIC LOCAL ALIGNMENT SEARCH TOOL) 4
1.2.1. ALGORITHME 4
1.2.2. LES« PARFUMS» DE BLAST. 5
1.2.3. LES OPTIONS DE BLAST 6
1.2.4. CONCLUSIONS 7
1.3. PROBLEMES ET LIMITES DE LA RECHERCHE DE SIMILARITES POUR INFERER UNE FONCTION 8
1.4. LECTURE ET ANALYSE DES RESULTATS. 9
1.4.1. L'ANALYSE DE LA SECTION 3 10
1.4.2. L'ANALYSE DE LA SECTION 4 11
1.4.3. LES BASES DE DONNEES ACCESSIBLES PAR BLAST 11
1.4.4. CONCLUSIONS. 11
BLAST et laRecherche dans les bases de données

Recherches par similitudes

Quand on a cloné et séquencé un ou plusieurs gènes/cDNA, la première étape est souvent une recherche dans les bases de données publiques pour savoir :
• Si les séquences sont déjà connues (mutations éventuelles).
• Si des séquences proches existent
• Quelles sont les informations déjà connues sur ces séquencessimilaires

On voudra également :
• Trouver toutes les séquences d'une même famille
• Rechercher toutes les séquences qui contiennent un motif donné

Pour cela on utilise des programmes d'alignement de séquences. Le programme d'alignement le plus utilisé par les biologistes est Blast (c'est peut être LE programme le plus utilisé par les biologistes !)

1 LES ALIGNEMENTS DE SEQUENCES.NOTIONS GENERALES.

On peut débuter la recherche à partir d'une séquence de quelques dizaines de nucléotides (voire moins) ou à partir d'une séquence de plusieurs milliers de nucléotides. En fait pour cette recherche les outils qui sont mis à votre disposition vont tenter d'aligner votre séquence avec toutes les séquences connues. Si des alignements sont possible, le programme vous en renverra laliste ordonnée en partant du meilleur alignement pour aller vers le plus mauvais.

NOTE : Attention, son estimation de ce qu'est le meilleur alignement peut être différente de votre notion de meilleur alignement !!!

Exemple d'un alignement
Vous soumettez la séquence : GCTACATAGCTGCTACGTACG
Le programme vous renvoie la réponse :

CGTAGCTAGCTATTCGTACGTAGCTACGTAGCTAGCTACGTACGATCGTACGTACGTAGCTAGATGTAG
||||| ||||| ||||||||||
GCTACATAGCT-GCTACGTACG

La première ligne est la séquence trouvée dans la base de séquences. La deuxième ligne contient la séquence que vous avez envoyée.

Cet exemple vous montre :
- que votre séquence est contenue (ou presque) dans une séquence déjà connue ;
- que la séquence déjà connue diffère par unemutation (G/A) et un indel (insertion ou délétion).

Il est facile de comprendre que votre séquence puisse avoir quelques différences (mutations) avec une séquence de référence. Cela peut être du soit à du polymorphisme allélique, soit au fait que d'un organisme à un autre des mutations sont apparues.

La notion d'indel est très importante. Les deux séquences peuvent avoir des nucléotides en plus ouen moins :
• Par multiples de 3 : un acide aminé en plus ou en moins dans la protéine (mutation).
• Autrement :
– Possibilité d'erreurs de séquences !
– Vous êtes dans une partie ne codant pas pour une protéine.

Nous pouvons déjà bien comprendre le rôle important des indels dans la comparaison des séquences de gènes qui comportent des introns et des exons. Si voussoumettez une séquence de cDNA et que ce qui est connu est une séquence de gène et que ce gène comporte par exemple deux introns, le résultat de votre recherche sera du genre :

CGTAGTTAGCTATTAGTACGGTGCTACGTAGCTAGCTACGTACGAGCGTACGTACGTAGT

TAGATGTAG
|||||||| |||||||||||||||||||||| |||||||||
TAGCTATT GCTACGTAGCTAGCTACGTACG TAGATGTAG...
tracking img