Comparaison de 2 séquences

Alignement manuel

Voici deux séquences artificielles : AAGTCATTCGCACATCG et AACACATCG et trois alignements possibles à partir de ces séquences :

        AACACATCG    
          |||||||    
AAGTCATTCGCACATCG    
AAGTCATTCGCACATCG    
||  ||| ||
AACACAT-CG           
AAGTCATTCGCACATCG
||        |||||||
AA--------CACATCG

La plupart des programmes d'alignement utilisent par défaut le jeu de paramètres suivant pour les séquences nucléiques :

Calculez le score de chaque alignement avec ce jeu de paramètres.
Quel sera l'alignement retenu par un programme d'alignement avec ces paramètres ?

Changer la valeur d'un seul paramètre pour que le premier alignement possède le meilleur score ; puis pour que ce soit le second.

Découverte de la comparaison de séquences

Analyse d'une séquence

Le dotplot peut être utilisé pour étudier les régularités structurelles d'une seule séquence. Vous pouvez utiliser Dotlet, un logiciel interactif de Dotplot. Vous allez tester cette approche sur les deux exemples suivants :

Comment est représentée une zone de faible complexité sur un dotplot ?
Combien y en a-t'il sur la première séquence ?
De combien d'occurrences est composée la répétition de la deuxième séquence ?

Découverte des matrices de substitution

Recherchez, successivement, les séquences des deux protéines CACP_HUMAN puis CACP_YEAST à l'aide de golden sur le site de Mobyle. Consultez ces entrées pour répondre aux questions suivantes :

De quel organisme provient chaque entrée ?
Quelle est la fonction de ces protéines ?
Est-ce qu'elles font partie de la même famille ?
Est-ce que ces protéines ont la même taille ?
Quelles sont les positions du site de fixation au CoenzymeA pour chaque protéine ?
Est-ce que ce site de fixation se trouve aux mêmes positions dans les deux protéines ?

Nous allons maintenant les aligner à l'aide du programme d'alignement 2 à 2 et global "needle", toujours sous Mobyle. Vous devez saisir mes pénalités de "gap", nous allons prendre les valeurs les plus courantes à savoir : 10 pour l'ouverture et 0.5 pour l'extension.

Quelle est la matrice utilisée par défaut (indiquée dans l'entête des résultats) ?
Quels sont les pourcentages d'identité et de similarité pour cet alignement ?
Est-ce que les sites de fixation au CoenzymeA sont alignés l'un avec l'autre ? Vous devez les localiser à la main sur l'alignement.
Est-ce que l'alignement vous semble satisfaisant ?
Est-ce que l'alignement est très différent si vous le relancer en changeant la valeur de la matrice (essayez EBLOSUM80 ou EBLOSUM45) ?

Evaluation de la pertinence de l'alignement

Pour la suite du TP, nous allons étudier trois protéines dont la séquence protéique et la séquence de leur gène est donnée dans la page suivante. Voici leur description :

Il est à noter que la protéine de E. coli porte deux fonctions enzymatiques qui sont représentées par des protéines distinctes chez Xylella fastidiosa. On s'attend donc à ce que les protéines à fonction enzymatique unique ne s'alignent qu'avec une partie de la protéine à deux fonctions.

Est-ce l'alignement local ou l'alignement global qui est le plus adapté à ces données ?
Alignez les séquences protéiques deux à deux à l'aide du logiciel le plus adapté sous Mobyle.
Changez la matrice de similarité utilisée et observez les conséquences sur l'alignement, mais aussi sur les pourcentages d'identité et de similarité.
Déterminez quelle fonction enzymatique est située au début de la protéine de E. coli et laquelle est à la fin.

Le score d'un alignement n'est pas une bonne indication de la ressemblance entre les séquences. Il est dépendent des paramètres (matrice de similarité et pénalités de gap). Certains logiciels proposent d'estimer la validité d'un alignement, il s'agit de PRSS.

Estimez la qualité de l'alignement entre la séquence de E. coli et une des deux de Xylella fastidiosa. Est-elle satisfaisante ?
Faites de même pour les deux séquences de Xylella fastidiosa entre elles ?
Qu'en pensez-vous ?

Différence entre l'alignement de séquences nucléiques et celui de séquences protéiques

Nous allons comparer les séquences ADN et peptidiques de la thiorédoxine provenant des organismes Helicobacter pylori et Staphylococcus aureus.

Faites un alignement local entre les deux séquences d'ADN sous Mobyle.
Est-ce que ces séquences se ressemblent ?
Quel est le pourcentage d'identité entre les séquences ?

Pour que vous puissiez répondre plus facilement à la question précédente, faites une évaluation de la significativité de l'alignement à l'aide du programme PRSS proposé à l'Université de Virginie (Etats-Unis).

Est-ce que l'alignement est significatif ?

Faites maintenant un alignement local entre les deux séquences protéiques toujours à l'aide de Mobyle.
Est-ce que ces séquences se ressemblent ?
Quel est le pourcentage d'identité entre les séquences ?

Estimez la significativité de l'alignement des séquences protéiques.
Est-ce que l'alignement est significatif?
Comparer les valeurs de significativité trouvées pour l'ADN et les protéines. Quel alignement est le plus significatif ?
Est-ce en accord avec ce à quoi l'on s'attend ?
Que dire de la comparaison des pourcentages d'identité obtenus pour les deux alignements ?

Comparez vous-même 2 séquences de protéines

Vous allez maintenant comparer la séquence de deux facteurs de transcription EGR-1 et SP1.

Etape 1 : Dotplot.

Pour déterminer si deux séquences se ressemblent localement ou globalement, le moyen le plus efficace est de construire un dotplot de ces 2 séquences avec dotmatcher (sous Mobyle) ou dotlet.

La ressemblance entre ces 2 séquences est-elle locale ou globale ?

Etape 2 : Alignement.

Les résultats du dotplot permettent de choisir le logiciel d'alignement à utiliser : matcher si la ressemblance est locale ou stretcher si la ressemblance est globale.

Quel logiciel doit-on utiliser pour aligner les séquences EGR1 et SP1 ?
Est-ce que l'alignement confirme ce qui a été observé à l'aide du dotplot ?
Faites un bilan des informations que vous avez sur les points commun entre les 2 séquences.

Etape 3 : Validité statistique des résultats.

Pour confirmer la ressemblance entre les séquences étudiées, vous pouver faire une estimation statistique de la validité d'un alignement à l'aide du logiciel PRSS.

Est-ce que l'alignement trouvé est significatif ?
Quelle est sa e-value ?

Page réalisée par Maude Pupin, mise à jour en octobre 2008