Blast
Recherches par similitudes
Quand on a cloné et séquencé un ou plusieurs gènes/cDNA, la première étape est souvent une recherche dans les bases de données publiques pour savoir :
• Si les séquences sont déjà connues (mutations évenutelles).
• Si des séquences proches existent
• Quelles sont les informations déjà connues sur ces séquences similaires
On voudra également :
• Trouver toutes les séquences d'une même famille
• Rechercher toutes les séquences qui contiennent un motif donné
Pour cela on utilise des programmes d'alignement de séquences. Le programme d'alignement le plus utilisé par les biologistes est Blast (c'est peut être LE programme le plus utilisé par les biologistes !)
I ) LES ALIGNEMENTS DE SEQUENCES.
1) NOTIONS GENERALES.
On peut débuter la recherche à partir d'une séquence de quelques dizaines de nucléotides (voire moins) ou à partir d'une séquence de plusieurs milliers de nucléotides. En fait pour cette recherche les outils qui sont mis à votre disposition vont tenter d'aligner votre séquence avec toutes les séquences connues.
Si des alignements sont possible, le programme vous en renverra la liste ordonnée en partant du meilleur alignement pour aller vers le plus mauvais.
NOTE : Attention, son estimation de ce qu'est le meilleur alignement peut être différente de votre notion de meilleur alignement !!!
2)QUANTIFICATION DE LA SIMILITUDE.
Un score global permet de quantifier la similitude.
Il résulte de la somme des scores élémentaires calculés sur chacune des positions en vis à vis des deux séquences dans leur appariement optimal.
C'est le nombre total de "bons appariements" pénalisé par le nombre de "mésappariements".
Un mésappariement peut être :
- la substitution d'un caractère par un autre (mutation)
- l'introduction d'un "gap" (trou, indel).
Le gap permet d'optimiser l'alignement entre les deux séquences donc de faire coïncider le maximum de caractères