Workshop: Van DNA tot moleculaire boom

advertisement
Workshop: Van DNA tot evolutionaire boom
Deze workshop heeft als doel om aan de hand van enkele praktische voorbeelden en
bijbehorende oefeningen duidelijk te maken hoe men van DNA gegevens kan komen
tot een cladogram. Op de bijgevoegde CD zijn een begeleidende tekst, een
interactieve presentatie en de gebruikte software programma's terug te vinden.
Interpretatie van een fylogenetische boom
Op een fylogenetische boom zijn vier zaken af te lezen: 1) het tijdsaspect, 2) het
vertakkingpatroon of de cladistische verwantschappen, 3) het patristisch aspect of
met andere woorden hoe sterk soorten in een bepaalde periode zijn veranderd ten
opzichte van de oudersoort en 4) het fenetisch aspect of met andere woorden hoe
sterk soorten op een bepaald tijdstip op elkaar gelijken.
Opdracht 1: In figuur 1 is de fylogenetische boom van soorten A, B, C, D, E, F en G
weergegeven.
Figuur 1. Fylogenetische reconstructie van een groep met 7 taxa
Vragen:
- Met welk taxon is soort F het sterkst cladistisch verwant?
- Welke soort staat fenetisch het dichtst bij E?
- In welke tijdsperiode leefde de voorouder van E, F en G?
- Welke soort, F of G, kende de snelste divergentie?
- Teken het cladogram van deze evolutionaire boom.
Lengte van kenmerken en lengte van een cladogram
De lengte van een kenmerk op een bepaald cladogram is het minimaal aantal
overgangen tussen kenmerktoestanden dat volgens het cladogram vereist is om de
verspreiding van de kenmerktoestanden over de taxa te verklaren.
De lengte van een cladogram behorende bij een bepaalde gegevensmatrix is de som
van de lengte van alle kenmerken uit die matrix op dat cladogram.
Opdracht 2: Figuur 2 toont een cladogram van 4 taxa gebaseerd op de matrix
weergegeven in tabel 1. Zet de kenmerken uit op het cladogram en bepaal de lengte
van elk kenmerk. Bepaal eveneens de lengte van het gehele cladogram.
1
2
3
4
1
A
G
G
G
2
G
G
G
G
3
A
C
C
A
4
C
C
C
G
5
T
G
C
A
Tabel 1. Matrix met 4 soorten en 5 kenmerken
Figuur 2. Cladogram gebaseerd op de matrix van Tabel 1
Van DNA gegevens tot cladogram
Veranderingen in het DNA kunnen gebruikt worden om een cladogram te
reconstrueren. Indien twee taxa een bepaalde mutatie met elkaar delen, dan is de kans
groot dat deze mutatie ontstaan is in de voorouder van die twee taxa en niet twee keer
onafhankelijk van elkaar is ontstaan. Om manueel een boom op te stellen dienen
volgende stappen uitgevoerd te worden:
1) opsporen van de (fylogenetisch) informatieve kenmerken
2) opstellen van de evolutie van elk kenmerk
3) zoeken naar overlap (congruentie) tussen de evolutie van de verschillende
kenmerken
4) bepalen van de meest parsimone boom.
We zullen deze stappen illustreren aan de hand van een voorbeeld. Onderstaande
matrix omvat 11 kenmerken en 8 taxa. Elk kenmerk heeft vier kenmerktoestanden: A,
C, G, T. Taxon X en Y vormen de buitengroep.
1
2
3
4
5
6
7
8
9
10
11
X
A
C
G
T
A
T
G
G
A
G
T
Y
A
C
G
T
A
T
G
G
A
G
T
A
G
C
G
T
A
T
G
G
A
G
A
B
G
A
C
T
A
T
G
G
A
G
T
C
G
A
C
A
A
T
G
G
A
G
A
D
G
A
C
A
G
T
G
G
A
G
T
E
G
A
C
A
G
A
C
G
A
G
T
F
G
A
C
A
G
A
C
G
A
A
T
G
G
A
C
A
G
A
G
C
C
G
T
H
G
A
C
A
G
A
G
C
C
G
T
Stap 1: opsporen van informatieve kenmerken
Alle kenmerken blijken informatief behalve kenmerk 10.
Stap 2: opstellen van de evolutie van elk kenmerk
Kenmerk 1 groepeert de taxa A tot H.
De evolutie van kenmerk 2 is identiek aan de evolutie van kenmerk 3; beide
groeperen taxon B tot H.
Kenmerk 4 groepeert C tot H.
Kenmerk 5 groepeert D tot H.
Kenmerk 6 groepeert E tot H.
Kenmerk 7 groepeert E en F.
Kenmerk 8 en 9 groeperen G en H.
Kenmerk 11 groepeert A en C.
Stap 3: zoeken naar congruentie tussen de evolutie van de verschillende kenmerken
Geen enkele van de kenmerken geeft de evolutie van de taxa, deze kan enkel
opgespoord worden door de congruentie tussen de verschillende kenmerkevoluties op
te sporen.
De samenvoeging van de kenmerkevolutie van kenmerk 1, 2 en 3 laat ons toe om het
volgende cladogram te construeren: (A(B,C,D,E,F,G,H)). Houden we ook rekening
met de informatie vervat in het vierde kenmerk, dan bekomen we het volgende
cladogram (A(B(C,D,E,F,G,H))) enz.
Stap 4: Het bepalen van de meest parsimone boom
De fylogenie van kenmerk 11 is niet congruent met het cladogram gebaseerd op de
kenmerken 1 tot 10. Er zijn twee mogelijk oplossingen. Bij afwezigheid van
congruentie zal men de meest spaarzame (= parsimone) oplossing verkiezen.
Opdracht 3: In Tabel 2 is een matrix weergegeven met vier taxa en 10 kenmerken met
'out' als buitengroep en taxon 1 tot 3 als binnengroep.
Vragen:
- Welke kenmerken zijn informatief?
- Wat is de evolutie voor elk kenmerk afzonderlijk?
- Wat is het meest spaarzame cladogram?
- Wat is de lengte van de verschillende kenmerken op het bekomen cladogram en wat
is de lengte van het cladogram?
Out
1
2
3
1
C
A
A
A
2
T
T
T
T
3
A
A
C
C
4
C
C
C
C
5
C
C
T
T
6
G
T
T
T
7
C
C
A
A
8
T
T
T
T
9
A
A
A
A
10
C
A
C
A
Tabel 2. Matrix met 4 soorten en 10 kenmerken
Opdracht 4 (optioneel): In tabel 3 is een matrix weergegeven met 8 taxa en 10
kenmerken. Het eerste taxon vormt de buitengroep.
O
1
2
3
4
5
6
7
1
A
A
A
A
C
C
C
C
2
G
G
G
G
T
T
T
G
3
T
T
T
T
A
A
T
T
4
G
C
C
G
G
G
G
G
5
T
C
T
T
T
T
T
T
6
C
G
G
C
C
C
C
C
7
T
A
A
T
A
A
A
A
Tabel 3. Matrix met 8 soorten en 10 kenmerken
8
C
C
C
C
T
C
C
C
9
T
A
A
A
A
A
A
A
10
C
C
C
C
C
G
G
G
Vragen:
- Welke kenmerken zijn informatief?
- Wat is de evolutie voor elk kenmerk afzonderlijk?
- Wat is het meest spaarzame cladogram?
- Wat is de lengte van de verschillende kenmerken op het bekomen cladogram en wat
is de lengte van het cladogram?
Het gebruik van computerprogramma's voor het zoeken naar de meest parsimone
boom
Bovenstaande opdrachten hebben hopelijk duidelijk gemaakt hoe men met behulp van
cladistiek de verwantschappen tussen taxa kan achterhalen. De voorbeelden waren
echter misleidend in het feit dat ze heel weinig taxa en kenmerken omvatten. In de
praktijk willen we vaak de evolutie van enkele tientallen of zelfs honderden soorten
ophelderen en maken we gebruik van enkele honderden tot duizenden kenmerken. Het
manueel bepalen van de meest spaarzame boom is dan ook uitgesloten. Maar ook
computers hebben het er moeilijk mee. Het aantal berekeningen nodig om tot de meest
spaarzame boom te komen neemt immers exponentieel toe met het aantal taxa dat
onderzocht wordt. Er zijn echter specifieke computeralgoritmes uitgewerkt om ook in
die gevallen nog steeds een goede kans te hebben om de meest spaarzame boom te
vinden.
Tot slot van deze workshop zullen we kort PHYLIP introduceren. PHYLIP is een
software pakket dat op http://evolution.genetics.washington.edu/phylip.html
afgehaald kan worden. Het bestaat uit verschillende programma's waarvan we er hier
drie zullen bespreken. Deze zijn ook terug te vinden op de bijgevoegde CD en kunnen
vrij voor educatieve doelstellingen gebruikt worden.
Opdracht 5: Opstellen van een file die door de PHYLIP programma's gelezen kunnen
worden
Om het programma uit te testen en onze eigen resultaten te controleren, gebruiken we
de matrix met taxa A tot G en 20 DNA kenmerken die we eerder in deze workshop
hebben gebruikt. Om door het programma gelezen te kunnen worden moet het
bestand er als volgt uitzien:
8 20
Out
Taxon_A
Taxon_B
Taxon_C
Taxon_D
Taxon_E
Taxon_F
Taxon_G
ATTACTTAGTAAACCATAGT
ACTCCTTGGTAAACCATAGT
ACTCCTCGGTAAACCATAGT
ACTCCTCGGTAAACCATAGT
ACTAATTAGTAAACCATAGC
ACTAATTAGCAAACCATAGT
TCTAATTAGCAAACCATAGT
TCTAATTAGCAAACCATAGT
De eerste regel vermeldt het aantal taxa en het aantal kenmerken. Vervolgens volgt de
matrix met de taxonnaam die 10 tekens moet omvatten (kortere namen kunnen
eventueel met spaties worden aangevuld zoals in bovenstaand voorbeeld het geval is)
gevolgd door de kenmerktoestanden voor elk kenmerk. Ontbrekende gegevens worden
aangeduid met een streepje (-), onzekere waarden met een vraagteken (?). Het
bestand moet als een txt file bewaard worden en in dezelfde folder geplaatst worden
als de PHYLIP programma's waarmee gewerkt zal worden.
Opdracht 6: Uitvoeren van een cladistische analyse met behulp van het PHYLIP
programma dnapenny
Plaats het bestand die je hierboven hebt aangemaakt in de PHYLIP folder. Dubbel
klik op het dnapenny icoon. Het programma probeert automatisch een file met de
naam ‘infile’ te openen. Indien jouw file een andere naam heeft, dan kan je die naam
intypen.
Het programma geeft nu een lijst met opties. Je hoeft deze niet te wijzigen voor deze
opdracht en je kan dus ‘Y’ typen.
Het programma zal nu de kortste boom berekenen en schrijft deze weg in de
bestanden ‘outtree’ en ‘outfile’ die in de PHYLIP folder bewaard zullen worden.
Indien je het bestand ‘outtree’ opent, krijg je de berekende boom te zien in
haakjesnotatie. Het bestand ‘outfile’ geeft de bomen visueel weer.
Om de berekende boom beter te visualiseren moeten we een tweede PHYLIP
programma opstarten, namelijk drawgram.
Dubbel klik op het icoontje van drawgram. Het programma probeert een bestand te
vinden met de naam ‘intree’, zoniet wordt gevraagd de naam van het bestand in te
typen, in ons geval ‘outtree’.
Je krijg opnieuw een aantal keuzemogelijkheden, die vooral te maken hebben met hoe
de boom er grafisch uit zal zien. Druk ‘Y’ en bekijk de boom. Is hij gelijk aan de
boom die wij manueel hebben opgesteld?
Opdracht 7: Evolutie van de primaten
Het bestand ‘primaten’ bevat een matrix van 12 taxa en 898 kenmerken. De volgende
genera zijn vertegenwoordigd in de matrix: Lemur (lemuren), Homo (waartoe de
mens behoort), Pan (waartoe de bonobo’s en de chimpansees behoren), Gorilla
(gorilla’s), Pongo (orang-oetans), Hylobates (gibbons), Macaca (makaken; in de
matrix vertegenwoordigd door 4 soorten), Saimiri (doodshoofdaapjes) en Tarsius
(spookdiertjes). Open deze matrix in het programma Notepad om je nog eens
vertrouwd te maken met het bestandsformaat van PHYLIP.
Vragen:
Wat is de fylogenie van de primaten volgens deze DNA gegevens? Voer hiertoe een
cladistische analyse uit met het programma dnapenny en open het bestand ‘outfile’.
Hoeveel cladogrammen bekomen we? Hoe kan je dat verklaren?
Welke geslacht is de zustersoort van de mens volgens de bekomen cladogrammen?
Van welke groep is de orang-oetan de zustersoort?
Vormen de makaken een natuurlijke (= monofyletische) groep?
Download