Au programme

Pour travailler sur les alignements et les phylogénies nous allons utiliser des logiciels que nous avons installer localement sur votre machine.

Pour les alignements multiples nous avons installé un éditeur d'alignement multiple (livré avec ClustalW) qui se nomme seaview.

Pour les calculs de phylogénie nous avons installé phylo_win.

Ces deux logiciels sont accessibles à partir du Poste de travail dans Documents partagés.

Il existe plusieurs programmes d'alignement multiple. Chacun a développé une stratégie différente pour construire un alignement. Ils sont complémentaires car ils donnent des résultats satisfaisants pour des jeux de données différents.Nous allons voir les spécificités des trois programmes les plus utilisés : ClustalW, Dialign et MultAlign.

Voici les trois protéines que l'on avait étudiées lors du premier TP sur l'alignement de deux séquences. Il y avait une protéine de E. coli qui portait deux fonctions enzymatiques et deux protéines de Xylella fastidiosa qui portaient chacune une de ces deux fonctions. Voici les 3 protéines :


>TRPC_ECOLI
MQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASPS
KGVIRDDFDPARIAAIYKHYASAISVLTDEKYFQGSFNFLPIVSQIAPQPILCKDFIIDP
YQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAKV
VGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSALM
AHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEVM
AAAPLQYVGVFRNHDIADVVDKAKVLSLAAVQLHGNEEQLYIDTLREALPAHVAIWKALS
VGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQSLGNVLLAGGLGADNCVEAAQTG
CAGLDFNSAVESQPGIKDARLLASVFQTLRAY
>TRPC_XYLFA
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEI
KKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLR
KDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERA
IQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNA
FLVGEAFMRATEPGESLREMFFIT
>XF1374
MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACA
IRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMA
GAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENV
FDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA
Faites vous une idée des ressemblances entre TRPC_XYLFA, TRPC_ECOLI et XF1374 grâce aux outils dont vous avez appris à vous servir la semaine dernière.
Utilisez les trois programmes avec les paramètres par défaut. Quels sont ceux qui construisent l'alignement multiple attendu ?
Le programme ClustalW échoue sur ce type de données car il effectue un alignement global et cherche au maximum à aligner les trois séquences ensemble.
Multaligne effectue un très bon alignement.
Dialign obtient un résultat intermédiaire : il aligne ponctuellement les trois protéines ensembles, mais globalement, il positionne correctement les protéines de X. fastidiosa par rapport à celle de E. coli. En modifiant les paramètres, il est possible d'améliorer la qualité de l'alignement. Dialign recherche des régions de forte ressemblence entre les séquences pour ancrer son alignement. Le paramètre T permet d'agir sur la sélection de ces régions. En augmentant la valeur de T, on force Dialign à choisir des régions de plus forte ressemblance.
Testez Dialign avec la valeur 4 pour T.

Nous allons étudier une famille de protéines au sein d'un même génome, la Levure de bière () avec un ensemble de séquences très conservées (duplication de gènes) et un gène ayant une fonction proche (qui a divergé depuis plus longtemps). Voici les séquences :


>YRF1_YEAST Y'helicase protein 1 copies 1/5/8.
MKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIKVVKF
RTGAMDRKRSFEKIVISVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMVYTLF
QVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCHEIASARPNDSSTMRTFTDFVSGA
PIVRSLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDLCPRK
PIEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEEPIIP
SVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDTNGVAMWKWIKI
LYHEVAQETTLKDSYRITLVPSSDGISVCGKLFNREYVRGFYFACKAQFDNLWGELNNCF
YMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDTNKMT
AALKNKVTVAIDELTVPLMWMVHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRIQLYT
DYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGFEDPD
QVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLIALGR
HCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASERWIQ
WLGLESDYHCSFSSTRNAEDVVAGEAASSDHDQKISRVTRKRPREPKSTNDILVAGQKLF
GSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYVSFLF
VPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRIAAWE
NIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTAPEAV
ADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVHKIWK
KVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLGAAEK
VSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDGGLCY
LLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLSADTV
ELIERMDRLAEKQATASMSIIALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANASTNA
TTNSSTNATTTASTNVRTSATTTASINVRTSAITTESTNSSTNATTTASTNVRTSATTTA
SINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNATTTA
STNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLERKKLK
AQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFELCVCW
AGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGEIYSQIQ
RNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEVLQYF
LNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHRQLRS
RYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFYNKTFRQKLEYLLEQISEVWLLP
HWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDIILLCRDSSREVGE
>YRF2_YEAST Y'helicase protein 1 copy 2.
MVYTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCHEKASARPNDSSTMRTFT
DFVSGAPIVRSLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKR
DLCPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITN
EEPIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAM
WKWIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWE
ELNDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRR
DTNKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTR
RIQLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVV
GFEDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQG
LIALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERA
SERWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILV
AGQKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVK
YVSFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTD
RIAAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSG
TAPEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGH
VHKIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGK
LGAAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLR
DGGLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTD
LSADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSA
NASTNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRT
SATTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSST
NATTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLL
ERKKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMF
ELCVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGE
IYSQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKT
EVLQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRH
HRQLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQIS
EVWLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVG
E
>YRF3_YEAST Y'helicase protein 1 copies 3/7.
MEIENEQICTCIAQILHLLNSLIITFLDDDKTETGQSFVYIDGFLVKKHNNQHTIVNFET
YKNKMKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIK
VVKFRTGAMDRKRSFEKIVVSVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMV
YTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCYEIASARPNDSSTMRTFTDF
VSGTPIVRGLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDL
CPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEE
PIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAMWK
WIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWEEL
NDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDT
NKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRI
QLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGF
EDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLI
ALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASE
RWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILVAG
QKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYV
SFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRI
AAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTA
PEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVH
KIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLG
AAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDG
GLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLS
ADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANA
STNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRTSA
TTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNA
TTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLER
KKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFEL
CVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGEIY
SQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEV
LQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHR
QLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQISEV
WLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVGE
>YRF4_YEAST Y'helicase protein 1 copy 4.
MWKTLGRVEQLLPYASLILRNREVLFREPKRGIDEYLENDSFFQMIPVKYREIVLPKLRR
DTNKMTAALKNKVAVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTR
RIQLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVV
GFEDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQG
LIALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERA
SERWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILV
AGRKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVK
YVSFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTD
RIAAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSG
TAPEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGH
VHKIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGK
LGAAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLR
DGGLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTD
LSADTVELIERMDRLAEKQATASMSIIALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSA
NASTNATTNSSTNATTTASTNVRTSATTTASINVRTSAITTESTNSSTNATTTASTNVRT
SATTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSST
NATTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLL
ERKKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMF
ELCVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKYFSVKRGE
IYSQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKT
EVLQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRH
HRQLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFYNKTFRQKLEYLLEQIS
EVWLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDIILLCRDSSREV
GE
>YRF6_YEAST Y'helicase protein 1 copy 6.
MEIENEQICTCIAQILHLLNSLIITFLDDDKTETGQSFVYIDGFLVKKHNNQHTIVNFET
YKNKMKVSDRRKFEKANFDEFESALNNKNDLVHCPSITLFESIPTEVRSFYEDEKSGLIK
VVKFRTGAMDRKRSFEKIVVSVMVGKNVQKFLTFVEDEPDFQGGPIPSKYLIPKKINLMV
YTLFQVHTLKFNRKDYDTLSLFYLNRGYYNELSFRVLERCYEIASARPNDSSTMRTFTDF
VSGTPIVRGLQKSTIRKYGYNLAPYMFLLLHVDELSIFSAYQASLPGEKKVDTERLKRDL
CPRKPTEIKYFSQICNDMMNKKDRLGDILHIILRACALNFGAGPRGGAGDEEDRSITNEE
PIIPSVDEHGLKVCKLRSPNTPRRLRKTLDAVKALLVSSCACTARDLDIFDDNNGVAMWK
WIKILYHEVAQETALKDSYRITLVPSSDGVSVCGKLFNREYVRGFYFACKAQFDNLWEEL
NDCFYMPTVVDIASLILRNREVLFREPKRGIDEYLENDSFLQMIPVKYREIVLPKLRRDT
NKMTAALKNKVTVAIDELTVPLMWMIHFAVGYPYRYPELQLLAFAGPQRNVYVDDTTRRI
QLYTDYNKNGSSEPRLKTLDGLTSDYVFYFVTVLRQMQICALGNSYDAFNHDPWMDVVGF
EDPDQVTNRDISRIVLYSYMFLNTAKGCLVEYATFRQYMRELPKNAPQKLNFREMRQGLI
ALGRHCVGSRFETDLYESATSELMANHSVQTGRNIYGVDSFSLTSVSGTTATLLQERASE
RWIQWLGLESDYHCSFSSTRNAEDVVAGEAASSDHHQKISRVTRKRPREPKSTNDILVAG
QKLFGSSFEFRDLHQLRLCHEIYMADTPSVAVQAPPGYGKTELFHLPLIALASKGDVKYV
SFLFVPYTVLLANCMIRLSRCGCLNVAPVRNFIEEGCDGVTDLYVGIYDDLASTNFTDRI
AAWENIVECTFRTNNVKLGYLIVDEFHNFETEVYRQSQFGGITNLDFDAFEKAIFLSGTA
PEAVADAALQRIGLTGLAKKSMDINELKRSEDLSRGLSSYPTRMFNLIKEKSEVPLGHVH
KIWKKVESQPEEALKLLLALFEIEPESKAIVVASTTNEVEELACSWRKYFRVVWIHGKLG
AAEKVSRTKEFVTDGSMRVLIGTKLVTEGIDIKQLMMVIMLDNRLNIIELIQGVGRLRDG
GLCYLLSRKNSWAARNRKGELPPIKEGCITEQVREFYGLESKKGKKGQHVGCCGSRTDLS
ADTVELIERMDRLAEKQATASMSIVALPSSFQESNSSDRCRKYCSSDEDSDTCIHGSANA
STNATTNSSTNATTTASTNVRTSATTTASINVRTSATTTESTNSSTNATTTASTNVRTSA
TTTASINVRTSATTTESTNSNTSATTTESTDSNTSATTTESTDSNTSATTTASTNSSTNA
TTTASTNSSTNATTTESTNASAKEDANKDGNAEDNRFHPVTDINKESYKRKGSQMVLLER
KKLKAQFPNTSENMNVLQFLGFRSDEIKHLFLYGIDVYFCPEGVFTQYGLCKGCQKMFEL
CVCWAGQKVSYRRMAWEALAVERMLRNDEEYKEYLEDIEPYHGDPVGYLKFFSVKRGEIY
SQIQRNYAWYLAITRRRETISVLDSTRGKQGSQVFRMSGRQIKELYYKVWSNLRESKTEV
LQYFLNWDEKKCREEWEAKDDTVFVEALEKVGVFQRLRSMTSAGLQGPQYVKLQFSRHHR
QLRSRYELSLGMHLRDQLALGVTPSKVPHWTAFLSMLIGLFCNKTFRQKLEYLLEQISEV
WLLPHWLDLANVEVLAADNTRVPLYMLMVAVHKELDSDDVPDGRFDILLCRDSSREVGE
>SUV3_YEAST ATP-dependent RNA helicase SUV3, mitochondrial precursor.
MALVKYSTVFFPLRSLRLFVSIKKAYYHSEPHSIDLFHDKDWIVKRPKFLNLPKNEHSKL
DIFQFNFNKSESNNVYLQDSSFKDNLDKAMQFIYNDKLSSLDAKQVPIKNLAWLKLRDYI
YQQLKDPKLQAKTYVPSVSEIIHPSSPGNLISLLINCNKISNLVWKSVLKYSLSNNITTL
DKFIHVLQQTFDHVYEQEILPMMTNTDDTDGAHNVDITNPAEWFPEARKIRRHIIMHIGP
TNSGKTYRALQKLKSVDRGYYAGPLRLLAREVYDRFHAEKIRCNLLTGEEVIRDLDDRGN
SAGLTSGTVEMVPINQKFDVVVLDEIQMMSDGDRGWAWTNALLGVVSKEVHLCGEKSVLP
LVKSIVKMTGDKLTINEYERLGKLSVEEKPIKDGIKGLRKGDCVVAFSKKKILDLKLKIE
KDTNLKVAVIYGSLPPETRVQQAALFNNGEYDIMVASDAIGMGLNLSIDRVVFTTNMKYN
GEELMEMTSSQIKQIGGRAGRFKSRSASGGVPQGFITSFESKVLKSVRKAIEAPVEYLKT
AVTWPTDEICAQLMTQFPPGTPTSVLLQTISDELEKSSDNLFTLSDLKSKLKVIGLFEHM
EDIPFFDKLKLSNAPVKDMPMVTKAFTKFCETIAKRHTRGLLSYRLPFNLLDYNCIPNES
YSLEVYESLYNIITLYFWLSNRYPNYFIDMESAKDLKYFCEMIIFEKLDRLKKNPYAHKP
FGSTRGHLSSSRRRLRT
Alignement multiple
Effectuez un alignement multiple de ces séquences à l'aide des trois programmes (ClustalW, Dialign et MultAlign). Sauvegardez les résultats. Est-ce que les alignements trouvés sont identiques ? Lesquels semblent les plus satisfaisants ?
Qualité de l'alignement.

Le meilleur moyen d'estimer la qualité d'un alignement est de vérifier si les régions connues pour avoir la même fonction biologique sont bien alignées entre elles.

A l'aide de InterPro identifiez les domaines connus dans les séquences YRF6_YEAST et SUV3_YEAST.
Quels sont les domaines communs aux deux séquences ?
Quelles sont leurs bornes sur ces séquences ?

Repérez ces domaines dans l'alignement et vérifiez s'ils sont bien conservés grâce à seaview.

Nous allons maintenant construire une phylogénie sur les ongulés. Le métariel génétique qui nous servira sera la séquence du cytochrome b.

Analyse basée sur les caractères morphologiques

Common Name

Species Name

# Toes

Dentition

Digestive Tract

Bison

Bison bison

2

lack incisors; lack canines

4-chambered ruminant stomach

Cow

Bos taurus

2

lack incisors; lack canines

4-chambered ruminant stomach

Deer

Cervus elaphus

2

lack incisors; lack canines

4-chambered ruminant stomach

Giraffe

Giraffa camelopardalis

2

lack incisors; lack canines

4-chambered ruminant stomach

Goat

Capra hircus

2

lack incisors; lack canines

4-chambered ruminant stomach

Hippopotamus

Hippopotamus amphibius

4

incisors; large growing canines

simple stomach without cecum

Horse

Equus caballus

1

incisors; reduced or absent canines

simple stomach, enlarged cecum

Pig

Sus scrofa

4

incisors; large growing canines

simple stomach without cecum

Rhinoceros

Rhinoceros sundaicus

3

incisors; reduced or absent canines

simple stomach, enlarged cecum

Sheep

Ovis aries

2

lack incisors; lack canines

4-chambered ruminant stomach

Warthog

Phacocoerus africanus

4

incisors; large growing canines

simple stomach without cecum

Zebra

Equus grevyi

1

incisors; reduced or absent canines

simple stomach, enlarged cecum

En observant le tableau ci-dessus, faire une phylogénie à la main, de l'ensemble des 12 ongulés. Vous laisserez en un seul groupe les espèces pour lesquelles vous n'arrivez pas, faute de données, à résoudre la phylogénie. Envisagez si plusieurs constructions sont possibles suivant l'ordre dans lequel on observe les caractères (il est possible que des groupes soient indissociables).
En vous appuyant sur vos connaissances personnelles, proposez une résolution des groupes non résolus.
Analyse basée sur les caractères moléculaires

Nous allons maintenant analyser notre ensemble de 12 espèces avec des données moléculaires. Le marqueur que nous allons utiliser est le gène mitochondrial du cytochrome b.

Nous pourrions rechercher les séquences mais pour gagner du temps, je vous fourni les séquences, suavegardez-les dans un fichier.

>Horse     
ATGACAAACATCCGGAAATCTCACCCACTAATTAAAATCATCAATCACTC
TTTTATTGACCTACCAGCCCCCTCAAACATTTCATCATGATGAAACTTCG
GCTCCCTCCTAGGAATCTGCCTAATCCTCCAAATCTTAACAGGCCTATTC
CTAGCCATACACTACACATCAGACACGACAACTGCCTTCTCATCCGTCAC
TCACATCTGCCGAGACGTTAACTACGGATGAATTATCCGCTACCTCCATG
CCAACGGAGCATCAATATTTTTTATCTGCCTCTTCATTCACGTAGGACGC
GGCCTCTACTACGGCTCTTACACATTCCTAGAGACATGAAACATTGGAAT
CATCCTACTTTTCACAGTTATAGCTACAGCATTCATGGGCTATGTCCTAC
CATGAGGCCAAATATCCTTTTGAGGAGCAACAGTCATCACAAACCTCCTA
TCAGCAATTCCCTACATCGGTACTACCCTCGTCGAATGAATCTGAGGTGG
ATTCTCAGTAGACAAAGCCACCCTTACCCGATTTTTTGCTTTCCACTTCA
TCCTACCCTTCATCATCACAGCCCTGGTAGTCGTACATTTACTATTTCTT
CACGAAACAGGATCTAACAACCCCTCAGGGATCCCATCCGATATGGACAA
AATCCCATTCCACCCATATTATACAATTAAAGACATCCTAGGACTCCTCC
TCCTGATCTTGCTCCTACTAACTCTAGTATTATTCTCCCCCGACCTCCTA
GGAGACCCAGACAACTACACCCCAGCTAACCCTCTCAGCACTCCCCCTCA
TATTAAACCAGAATGGTACTTCCTGTTTGCCTACGCCATCCTACGCTCCA
TTCCCAACAAACTAGGAGGCGTATTAGCCCTAATCCTCTCCATCCTGATC
CTAGCACTCATCCCCACCCTCCACATATCAAAACAACGAAGCATAATGTT
CCGGCCTCTCAGCCAATGCGTATTCTGACTCTTAGTGGCAGACTTACTGA
CACTAACATGAATCGGCGGACAGCCAGTGGAACACCCATACGTAATTATC
GGCCAACTGGCCTCAATCCTCTACTTCTCCCTAATTCTCATTTTTATACC
ACTCGCAAGCACCATCGAAAACAATCTTCTAAAATGAAGA
>Giraffe   
ATGATCAACATCCGAAAGTCCCACCCACTAATAAAAATTGTAAATAACGC
ACTAATCGATCTACCAGCCCCATCAAATATCTCATCATGATGAAACTTCG
GCTCCCTACTAGGCATCTGCCTCATTTTACAAATTCTAACAGGCCTATTT
CTAGCAATACACTACACACCTGACACAACAACAGCGTTCTCCTCTGTCAC
CCATATTTGCCGAGATGTTAACTACGGTTGAATCATCCGATATATACACG
CAAATGGGGCATCCATATTCTTCATCTGCTTATTCATGCATGTAGGACGG
GGCCTATACTACGGATCGTATACCTTCCTAGAAACATGAAACATTGGAGT
AATCCTCCTATTCACAGTAATAGCCACAGCTTTTATAGAGTACGTCCTAC
CATGAGGACAAATATCATTTTGAGGAGCAACAGTCATTACTAATCTCCTA
TCAGCAATCCCATATATCGGCACAAATCTAGTCGAATGAATCTGAGGGGG
CTTCTCAGTAGATAAAGCAACCCTTACCCGATTCTTCGCCTTCCACTTCA
TTCTCCCATTCATCATTATAGCACTCACTATAGTCCACCTACTCTTTCTT
CACGAAACAGGATCAAACAACCCAATAGGAATTCCATCAGACATAGACAA
AATCCCGTTCCACCCCTACTACACTATCAAAGATATCTTAGGGGCACTTC
TATTAATTCTAGTCCTAATACTTCTAGTCCTATTTACACCCGACCTGCTC
GGAGACCCAGATAACTACACACCAGCCAACCCACTCAATACTCCTCCCCA
TATTAAACCAGAATGATACTTTCTATTTGCATACGCAATCCTACGATCAA
TCCCCAACAAACTAGGAGGAGTCCTAGCCCTAGTTCTCTCCATCCTCATC
CTCATCTTCATACCCCTACTCCACACATCCAAACAACGAAGTATGATATT
TCGACCATTCAGTCAATGCCTATTTTGAATTCTAGTAGCGGACCTGCTAA
CACTCACATGAATTGGAGGACAGCCAGTTGAACACCCATTCATCATCATC
GGACAACTAGCATCTATTATGTACTTTCTCATCATCCTAGTGTTAATACC
AGTCACTAGTGCAATCCAAAACAACCTTCTAAAATGAAGA
>Goat      
ATGACCAACATCCGAAAGACCCACCCATTAATAAAAATTGTAAACAACGC
ATTTATTGACCTCCCAACCCCATCAAACATCTCATCATGATGAAACTTTG
GATCCCTCCTAGGAATTTGCCTAATCTTACAAATCCTGACAGGCCTATTC
CTAGCAATACACTATACATCCGACACAATAACAGCATTTTCCTCTGTAAC
TCACATTTGTCGAGATGTAAATTATGGCTGAATCATCCGATACATACACG
CAAACGGAGCATCAATATTCTTTATCTGCCTATTCATACATATCGGACGA
GGTCTATATTATGGATCATATACCTTTCTAGAAACATGAAACATTGGAGT
AATCCTCCTGCTCGCAACAATGGCCACAGCATTCATAGGCTATGTTTTAC
CATGAGGACAAATATCATTTTGAGGGGCAACAGTCATCACTAATCTTCTT
TCAGCAATCCCATATATTGGCACAAACCTAGTCGAATGAATCTGAGGGGG
GTTCTCAGTAGACAAAGCCACTCTCACCCGATTCTTCGCCTTCCACTTTA
TCCTCCCATTCATCATCACAGCCCTCGCCATAGTCCACCTGCTCTTCCTC
CACGAAACAGGATCGAACAACCCCACAGGAATTCCATCAGACACAGATAA
AATCCCATTTCACCCTTACTACACCATTAAAGATATCTTAGGCGCCATGC
TACTAATTCTTGTTCTAATATTACTAGTACTATTCACACCCGACCTACTC
GGAGACCCAGACAACTATATCCCAGCAAATCCACTCAATACACCCCCTCA
CATTAAACCTGAGTGGTATTTCCTATTTGCATACGCAATCCTACGATCAA
TCCCCAACAAACTAGGAGGAGTCCTAGCCCTAGTCCTCTCAATCCTAATC
TTAGTACTTGTACCCTTCCTCCACACATCTAAACAACGAAGCATAATATT
CCGCCCAATCAGCCAATGCATATTCTGAATCCTGGTAGCAGATCTATTAA
CACTCACATGAATTGGAGGACAGCCAGTCGAACATCCCTACATTATTATT
GGACAACTAGCATCTATTATATATTTCCTCATCATTCTAGTAATAATACC
AGCAGCTAGCACCATTGGAAACAACCTTCTAAAATGAAGA
>Sheep     
ATGACCAACATCCGAAAAACCCACCCACTAATAAAAATTGTAAACAACGC
ATTCATTGACCTCCCAGCTCCATCAAATATTTCATCATGATGAAACTTTG
GCTCCCTCCTAGGCATTTGCTTAATTTTACAGATTCTAACAGGCCTATTC
CTAGCAATACACTATACACCCGACACAACAACAGCATTCTCCTCTGTAAC
CCACATTTGCCGAGACGTGAACTATGGCTGAATTATCCGATATATACACG
CAAACGGGGCATCAATATTTTTTATCTGCCTATTTATGCATGTAGGACGA
GGCCTATATTATGGATCATATACCTTCCTAGAAACATGAAACATCGGAGT
AATCCTCCTATTTGCGACAATAGCCACAGCATTCATAGGCTATGTCTTAC
CATGAGGACAAATATCATTCTGAGGAGCAACAGTTATTACCAACCTCCTT
TCAGCAATTCCATATATTGGCACAAACCTAGTCGAATGAATCTGGGGAGG
ATTCTCAGTAGACAAAGCTACCCTCACCCGATTTTTCGCCTTTCACTTTA
TTTTCCCATTCATCATCGCAGCCCTCGCCATAGTTCACCTACTCTTCCTC
CACGAAACAGGATCCAACAACCCCACAGGAATTCCATCGGACACAGATAA
AATTCCCTTCCACCCTTATTACACCATTAAAGACATCCTAGGCGCCATAC
TACTAATCCTTGCCCTCATGCTACTAGTACTATTCACACCTGACTTACTC
GGAGACCCAGATAACTATACCCCAGCAAACCCACTCAACACACCCCCTCA
CATTAAACCTGAATGATATTTCCTATTTGCATACGCAATCCTACGATCAA
TTCCCAATAAACTAGGAGGAGTCTTAGCCCTAGTCCTCTCGATCCTAATC
CTAGTACTCGTACCTTTCCTCCACACATCCAAACAATGAAGCATAATATT
CCGACCAATTAGTCAATGTATATTCTGAATCTTAGGAGCAGACCTACTAA
CACTCACATGAATTGGAGGACAGCCAGTCGAACACCCTTATATCGTCATT
GGACAACTAGCATCTATTATATATTTCCTTATCATTCTAGTAGTAATACC
AGTAGCTAGCACTATCGAAAATAACCTCCTAAAATGAAGA
>Hippopotam
ATGACAAACATCCGAAAATCTCACCCCTTAATAAAAATTATCAACGATGC
ATTCGTTGACCTCCCAGCTCCATCAAACATCTCATCGTGATGAAACTTCG
GCTCCCTACTTGGCGTCTGCCTAATCCTACAAATTCTAACAGGCCTATTC
CTGGCCATACACTACACACCAGATACACTCACCGCATTCTCATCGGTAAC
CCACATCTGCCGTGATGTAAACTACGGGTGAGTCATCCGCTACATACACG
CAAACGGCGCATCCATCTTCTTCATCTGCCTCTTTACTCACGTAGGACGC
GGCCTATACTATGGCTCCTACACATTCCTAGAAACCTGAAACATCGGAGT
TATCTTACTACTCACAACCATAGCTACCGCGTTTATAGGCTACGTACTGC
CATGAGGACAAATGTCATTCTGAGGGGCAACAGTCATTACCAACTTACTG
TCAGCTATCCCCTATATTGGAACAGACCTAGTAGAATGAATCTGAGGAGG
CTTTTCCGTAGACAAAGCCACCCTTACACGATTCTTTGCCTTCCACTTTA
TTCTTCCATTCGTTATCACAGCACTAGCCATCGTCCATCTACTATTCCTC
CATGAAACAGGATCCAACAACCCAACAGGAATCCCCTCAAACGCAGACAA
AATCCCATTCCACCCCTATTACACAATCAAGGACATCCTAGGTATCCTAC
TCCTAATAACAACACTACTCACACTAACCTTATTTGCCCCAGACCTCCTA
GGGGACCCAGACAACTACACCCCCGCAAACCCCCTTAGCACACCACCACA
CATTAAACCAGAATGATATTTCCTGTTCGCGTACGCGATTCTCCGATCAA
TCCCCAACAAACTAGGAGGCGTCCTAGCCCTAGCTCTCTCAATCCTAATC
CTGGCCCTAATCCCAATACTACACACATCCAAACAACGAAGCCTAATATT
TCGACCCCTCAGCCAATGCCTGTTTTGAGCACTAATCGCCGACCTACTAA
CACTCACATGAATTGGAGGACAACCCGTCGAACACCCCTTCATCATCATC
GGACAAGTCGCCTCAATCCTATATTTCCTCTTAATCTTAGTACTAATGCC
CGTAGCAGGCATTATCGAAAACAAACTCCTAAAATGAAGA
>Bison     
ATGACTAACCTTCGAAAATCCCATCCACTAATAAAAATTGTAAATAACGC
ATTCATTGACCTTCCAGCTCCATCAAACATTTCATCATGATGAAACTTCG
GCTCCCTCCTGGGAATATGCTTAATCCTACRAATCCTCACAGGCCTATTC
CTAGCAATACACTACACATCCGATACAACAACAGCATTTTCCTCCGTTGC
CCATATCTGCCGAGACGTGAACTACGGCTGAATCATCCGATACATACACG
CAAACGGAGCTTCAATATTCTTTATCTGCTTATATATGCACGCAGGACGA
GGCCTATATTACGGGTCTTATACCTTCCTAGAAACATGAAATATTGGAGT
AATCCTTCTACTTACAGTAATAGCCACAGCATTCATAGGATACGATCTAC
CATGAGGACAAATATCATTTTGAGGGGCAACAGTCATTACCAACCTCCTA
TCAGCAATCCCATACATCGGCACAAACTTAGTCGAATGAATTTGAGGTGG
ATTCTCAGTAGACAAAGCAACCCTCACCCGATTCTTCGCTTTCCACTTTA
TCCTTCCATTTATTATTATAGCAATTGCCATAGTCCACCTATTATTCCTC
CACGAAACAGGCTCCAACAATCCAACAGGAATCTCCTCAGACATAGACAA
AATTCCATTTCACCCCTACTATACCATTAAAGACATCCTAGGAGCCTTAT
TACTAATTCTAGCCCTAATACTACTGGTACTATTCACACCCGACCTCCTC
GGAGATCCAGATAACTACACCCCAGCAAATCCACTCAATACACCTCCCCA
CATCAAACCCGAATGATACTTCTTATTTGCATACGCAATTTTACGATCAA
TCCCCAATAAACTAGGAGGAGTACTAGCCCTAGCCTTCTCTATCCTAATC
CTTGCCCTCATTCCCCTACTACACACCTCTAAACAACGAAGCATAATTTT
CCGACCACTCAGCCAATGCCTATTCTGAACTCTAGTAGCAGACCTACTAA
CACTCACATGAATCGGAGGACAACCAGTCGAACACCCATATATCATCATC
GGACAAATAGCATCTATTATATACTTCCTTCTCATCCTAGTACTAATACC
AACAGCCGGCACAATTGAAAACAAACTACTAAAATGAAGA
>Cow       
ATGACTAACATTCGAAAGTCCCACCCACTAATAAAAATTGTAAACAATGC
ATTCATCGACCTTCCAGCCCCATCGAACATTTCATCATGATGGAATTTCG
GTTCCCTCCTGGGAATCTGCCTAATCCTACAAATCCTCACAGGCCTATTC
CTAGCAATACACTACACATCCGACACAACAACAGCATTCTCCTCTGTTAC
CCATATCTGCCGAGACGTGAACTACGGCTGAATCATCCGATACATACACG
CAAACGGAGCTTCAATGTTTTTTATCTGCTTATATATGCACGTAGGACGA
GGCTTATATTATGGGTCTTACACTTTTCTAGAAACATGAAATATCGGAGT
AATCCTTCTGCTCACAGTAATAGCCACAGCATTCATAGGATACGTCCTAC
CATGAGGACAAATATCATTCTGAGGAGCAACAGTCATCACCAACCTCTTA
TCAGCAATCCCATACATCGGCACAAATTTAGTCGAATGAATCTGAGGCGG
ATTTTCAGTAGACAAAGCAACCCTTACCCGATTTTTCGCTTTCCACTTTA
TCCTTCCATTTATCATCATAGCAATTGCCATAGTCCACCTACTATTCCTC
CACGAAACAGGCTCCAACAATCCAACAGGAATCTCCTCAGACGTAGACAA
AATCCCATTCCACCCCTACTATACCATTAAGGACATCTTAGGGGCCCTCT
TACTAATTCTAGCTCTAATACTACTAGTACTATTTGCGCCCAACCTCCTC
GGAGACCCAGATAACTACACCCCAGCCAATCCACTCAACACACCTCCTCA
CATCAAACCCGAGTGGTACTTCCTATTTGCATATGCAATTCTACGATCAA
TCCCCAATAAACTAGGAGGAGTCCTAGCCCTAGTCTTCTCCATCCTAATC
CTTATTCTCATTCCCTTACTACACACATCCAAACAGCGAAGCATAATATT
CCGACTGCTCAGCCAATGCCTGTTCTGAATTTTAGTAGCAGACCTACTAA
CACTCACATGAATTGGAGGACAACCAGTTGAACATCCATACATCATCATT
GGACAACTAGCATCTATCATATACTTTCTCCTCATCCTAGTGCTAATACC
AACAGCCGGCACAGTTGAAAACAACCTACTAAAATGAAGA
>Rhinoceros
ATGACCAACATCCGCAAATCCCACCCACTAATCAAAATTATCAACCACTC
ATTTATCGACCTGCCTACCCCATCAAACATTTCATCCTGATGAAACTTTG
GCTCCCTACTAGGAATCTGCCTAATCTTACAAATCCTAACCGGACTATTC
CTCGCAATACATTACACACCAGATACAACAACCGCCTTCTCATCCGTAGC
CCACATCTGTCGAGACGTAAACTACGGTTGAATTATCCGCTACACCCATG
CCAACGGAGCATCCATATTCTTCATCTGCCTATTTATCCACGTAGGACGA
GGCCTCTACTACGGATCCTACACCTTCCTAGAAACCTGAAATATCGGAAC
CATCTTCCTACTCACCCTAATAGCTACAGCATTCATAGGCTACGTCCTAC
CATGAGGTCAAATATCCTTCTGAGGAGCCACAGTTATCACAAATCTCCTC
TCAGCCATCCCATACATCGGCACCGACCTTGTAGAATGAATCTGAGGGGG
ATTCTCCGTAGACAAAGCCACCCTCACCCGGTTCTTTGCTTTCCACTTCA
TCCTCCCCTTCATCATCCTAGCCCTAGCAATTACCCACCTGCTATTCCTA
CATGAAACAGGATCCAACAACCCATCAGGAATCCCATCTAACATAGACAA
AATCCCATTTCACCCATACTATACAATCAAAGACATCCTAGGAGCCCTAC
TTCTAATCCTAGCCCTACTCACCCTAGTTCTATTCTCGCCTGACCTCCTA
GGAGACCCGGACAACTACACACCCGCCAACCCTCTCAGCACCCCTCCACA
CATTAAACCAGAATGGTACTTCCTATTCGCCTACGCAATCCTACGATCCA
TCCCCAATAAACTAGGCGGCGTATTAGCCCTAGCCTTCTCCATTCTAATC
CTACTCATCGTCCCTTCCCTCCACACATCCAAACAACGAAGTATAATATT
CCGACCATTAAGCCAATGCGTATTTTGACTGCTAGTAGCCGACCTGCTCA
CACTCACATGAATCGGAGGTCAACCAGTCGAACACCCATTTATTATCATC
GGCCAACTGGCATCCATCCTATACTTCTCCTTAATCCTCGTACTCATACC
ACTTGCAGGTATCATTGAAAACAACCTTCTAAAATGAAGA
>Zebra     
ATGACAAACATCCGAAAATCCCACCCGCTAATTAAAATCATCAATCATTC
TTTCATCGACCTACCAGCCCCCTCAAACATCTCATCATGATGAAACTTTG
GCTCCCTCCTAGGAATTTGCCTAATCCTCCAAATCCTAACAGGCCTATTC
CTAGCTATACACTACACATCAGACACAACAACTGCCTTCTCATCCGTCAC
CCACATCTGCCGAGACGTTAACTACGGATGAATCATTCGCTATCTCCATG
CCAACGGAGCATCCATATTTTTCATCTGCCTCTTCATCCACGTAGGACGT
GGCCTCTACTATGGCTCTTACACATTCCTAGAAACATGAAACATTGGAAT
TATCCTACTTCTCACAGTAATAGCCACAGCATTCATAGGCTACGTCCTAC
CATGAGGCCAAATATCCTTCTGAGGAGCAACAGTTATTACAAATCTCCTG
TCAGCAATTCCCTACATCGGCACTACCCTCGTCGAGTGAATCTGAGGCGG
ATTCTCGGTAGACAAAGCCACCCTCACCCGATTTTTTGCCTTCCACTTCA
TCCTACCATTTATCATCACAGCCCTGGTAATCGTCCATTTACTATTCCTC
CACGAAACAGGATCCAACAACCCCTCAGGAATTCCATCTGACATAGACAA
AATCCCATTTCACCCATACTACACAATTAAAGATATCCTAGGACTCCTCC
TCCTAATCCTACTCCTACTGACCCTAGTATTATTCTCTCCTGACCTCCTA
GGAGACCCGGACAACTATACCCCAGCCAACCCTCTCAGCACTCCCCCTCA
TATTAAGCCAGAATGATATTTCCTATTTGCCTACGCCATCCTACGCTCTA
TTCCCAACAAACTAGGCGGCGTATTAGCCCTTATCCTTTCCATCTTAATC
TTAGCACTCATCCCTACTCTACATACATCAAAACAACGAAGCATAATATT
CCGACCTCTCAGTCAATGCGTGTTTTGACTCTTAGTAGCAGACTTACTAA
CACTAACATGAATCGGCGGCCAACCAGTGGAACACCCATACATAATTATC
GGCCAACTGGCTTCAATCCTCTACTTCTCCCTAATTCTCATCTTCATACC
ACTCGCAAGCACCATTGAAAACAACCTTTTAAAATGAAGA
>Warthog   
ATGACCAACATCCGAAAATCACACCCACTAATAAAAATTATCAACAATGC
ATTCATTGACCTCCCAGCCCCCTCAAACATCTCATCATGATGAAACTTTG
GATCCCTACTAGGCATCTGCCTAATTTTACAAATCCTCACAGGCTTATTC
CTAGCAATACACTACACATCAGACACAACAACAGCCTTCTCATCAGTAAC
ACACATCTGCCGAGACGTGAATTACGGATGAGTTATTCGCTATCTACATG
CAAACGGAGCATCAATATTCTTCATCTGCCTATTCATCCACATAGGCCGA
GGCCTGTACTACGGATCCTACATATTCCTAAAAACATGAAACACCGGAGT
AATCCTACTATTTACTGTCATAGCAACAGCCTTTATAGGTTACGTCCTAC
CCTGAGGACAAATATCGTTCTGAGGAGCCACAGTCATCACAAACCTACTA
TCAGCCATCCCCTACATTGGAACAAATCTTGTAGAATGAATCTGAGGAGG
TTTCTCCGTCGACAAAGCAACTCTCACACGATTCTTTGCCTTCCACTTCA
TTTTACCTTTTATCATCGCTGCCCTAGCAACCGTACATCTCTTGTTCCTA
CACGAAACTGGATCTAACAACCCTACTGGAATCTCATCAGACATAGACAA
AATCCCATTCCACCCATACTACACCATTAAAGATATCCTAGGAGCCCTAT
TCATAATACTAATCCTGCTAATCCTAGTATTATTCTCCCCAGACCTACTA
GGAGACCCAGACAACTATACCCCAGCAAACCCATTAAACACACCACCCCA
CATCAAACCAGAATGATACTTCCTATTCGCCTACGCCATCCTACGTTCAA
TCCCTAATAAATTAGGTGGAGTACTCGCCCTAGTAGCCTCCATCCTAATC
TTAATTCTAATACCCATACTACACACATCCAAACAACGAAGCATAATATT
TCGACCACTAAGCCAATGCCTATTTTGAGTACTAGTAGCAGACCTtattA
CACTAACATGAATTGGAGGACAGCCCGTAGAACACCCATTCATCATCATT
GGCCAACTAGCCTCCATCCTATATTTCCTAATTATCCTAGTACTAATACC
AATTACCAGTATCATTGAGAACAACCTCTTAAAATGAAGA
>Pig       
GGTTCCCTCTTAGGCATCTGCCTAATCTTGCAAATCCTAACAGGCCTGTT
CTTAGCAATACATTACACATCAGACACAACAACAGCTTTCTCATCAGTTA
CACACATTTGTCGAGACGTAAATTACGGATGAGTTATTCGCTATCTACAT
GCAAACGGAGCATCCATATTCTTTATTTGCCTATTCATCCACGTAGGCCG
AGGTCTATACTACGGATCCTATATATTCCTAGAAACATGAAACATTGGAG
TAGTCCTACTATTTACCGTTATAGCAACAGCCTTCATAGGCTACGTCCTG
>Deer      
ATGACCAATATCCGAAAAACCCACCCACTAATAAAAATTGTAAACAACGC
ATTTATTGACCTCCCAGCCCCATCAAATATTTCATCCTGATGAAATTTCG
GCTCATTACTAGGAGTCTGCCTAATCCTACAAATCCTCACAGGCCTATTC
CTAGCGATACACTATACATCTGATACAATAACAGCATTCTCCTCTGTCAC
CCATATCTGTCGAGATGTCAATTATGGCTGAATTATTCGATATATACACG
CAAACGGGGCATCAATATTTTTCATCTGTCTATTCATACATGTAGGGCGA
GGCCTGTACTACGGATCATATACTTTTCTAGAGACGTGAAACATCGGAGT
AGTTCTTCTATTTACAGTTATAGCCACAGCATTCGTAGGATATGTCCTAC
CATGAGGACAAATATCATTCTGAGGAGCAACAGTCATCACCAACCTTCTC
TCAGCAATTCCATATATTGGGACAAACCTAGTCGAATGGATCTGAGGAGG
CTTTTCAGTAGACAAAGCAACCCTAACCCGATTTTTCGCTTTCCACTTTA
TTCTCCCATTTATCATCGCAGCACTCGCTATAGTACACTTACTCTTCCTT
CACGAAACAGGATCTAATAACCCAATAGGAATTCCATCAGACGCAGACAA
AATCCCCTTTCATCCTTATTATACCATTAAAGATATCTTAGGCATCCTAC
TTCTTGTACTCTTCTTAATATTACTAGTATTATTCGCACCAGACCTACTT
GGAGATCCAGATAACTACACCCCAGCAAACCCACTCAACACACCCCCTCA
TATTAAACCTGAATGATATTTCCTATTTGCATACGCAATCCTACGATCAA
TTCCCAACAAACTAGGAGGAGTCTTAGCCCTAGTCTCATCCATCCTAGTC
TTAATTCTCATGCCTCTTCTTCACACATCCAAACAACGCAGCATGATATT
CCGACCATTCAGTCAATGCCTATTCTGAATCTTAGTAGCAGATCTACTAA
CACTTACATGAATCGGAGGACAACCAGTCGAATACCCCTTTATCATTATT
GGACAACTAGCATCTGTCTTATATTTCTTCATTATCCTAGTCCTCATACC
AATCACCAGCACAATCGAAAACAACCTCCTAAAATGAAGA
    
Réalisation de l'alignement multiple
Faites un alignement multiple avec ClustalW. C'est unprogramme avec un mode interactif en mode texte. Suivez les instructions. Choisissez l'option d'alignement rapide (fast). Choisissez de sauver les résultats au format Phylip.
Ouvrez le fichier résultat au format Phylip avec seaview. Observez l'alignement et sauvegardez-le au format Mase, format nécessaire à phylo_win.
Parcimonie contre méthode de distance
Pour ce paragraphe, on n'utilsera pas la séquence du cochon, il suffit pour cela de la désélectionner dans le logicile phylo_win.
Avec phylo_win, réalisez une phylogénie avec la méthode de distance de Jukes et Cantor. NE FERMEZ PAS LA FENETRE DE RESULTAT.
Réalisez maintenant une phylogénie avec la méthode de parcimonie.

Vous pouvez modifier vos arbres pour organiser les espèces dans le sens que vous préférez. Grâce à 'new outgroup' vous pourvez enracinner l'arbre de manière différente. Grâce à 'swap nodes' vous pouvez échanger des espèces ou des groupes qui sont fils d'un même noeud.

Comparez les résultats obtenus en utilisant l'éditeur pour faire se ressembler les deux arbres. Cela est-il en concordance avec la phylogénie 'à la main' faites auparavant ?
Comparaison des méthodes de distance
Choisissez comme distance HKY. Faites un arbre. Est-il fort différent de celui obtenu avec la distance de Jukes et Cantor ?
Ajoutez la séquence du cochon. Sélectionnez à nouveau la distance de Jukes et Cantor.
Réalisez un arbre avec les 12 espèces.
Changez les paramètres dans le calcul de distance pour que les gaps soient retirés localement, c'est-à-dire seulement entre les séquences comparées, plutôt que globalement dans le calcul des distances 2 à 2. Faites un arbre. Qu'observez-vous par rapport à l'abre précédent ?
Bootstrap
Les arbres que nous avons construits jusqu'à maintenant diffèrent toujours un peu. Nous allons utiliser la méthode du bootstrap pour évaluer la pertinence des noeuds de nos arbres.
Refaites des arbres avec bootstrap dans les mêmes conditions que pour les 2 questions précédentes. Affichez les résultats de bootstrap sur vos deux arbres. Quelle conclusion en tirez-vous ?
Arbre consensus
Dans le menu bootstrap il est possible de choisir l'option d'arbre consensus. Un arbre consensus est un arbre virtuel dans lequel on incorpore les groupes les mieux conservés.
Faites un arbre avec bootstrap et consensus. Vous obtenez l'arbre calculé et l'arbre consensus. Sont-ils identiques ?
Amélioration de la phylogénie
Sur le meilleur des deux arbres obtenus au paragraphe bootstrap, quels sont les groupes ou les espèces qui posent problème (valeurs de bootstrap faible). Que proposez-vous pour améliorer l'arbre. Mettez en oeuvre votre solution.
Enracinnement
Recherchez une séquence du cytochrome b chez une espèce qui ne soit pas un ongulé.
Incorporez cette séquence dans votre alignement et faites une phylogénie. Déduisez-en le sens de l'évolution.
Vérification
Vous pouvez surfez sur le site The Ultimate Ungulate Page pour vérifiez les phylogénies que nous avons obtenues.
31/8/2016 Jean-Stéphane Varré