Van DNA tot evolutionaire boom Inleiding De aarde herbergt een enorme diversiteit aan levensvormen. We kennen naar schatting twee miljoen levende soorten, maar dit is slechts een fractie van alle soorten die ooit hebben geleefd. Evolutionaire biologen gaan er vanuit dat al die soorten op de een of andere manier met elkaar verwant zijn. Hoe kunnen we echter weten welke organismen het meest verwant zijn of met andere woorden welke organismen recent een gemeenschappelijke voorouder hebben gedeeld? Tot voor enkele decennia maakte men vooral gebruik van morfologische kenmerken om verwantschappen te postuleren. Het is niet moeilijk om vast te stellen dat de vos en de wolf nauwer met elkaar verwant zijn dan met het roodborstje. Er zijn immers vele kenmerken die de wolf en de vos met elkaar delen, die we niet terugvinden bij het roodborstje. Soms is het plaatje echter minder duidelijk. Cactussen en sommige Euphorbia soorten bijvoorbeeld lijken heel sterk op elkaar, maar zijn geen nauwe verwanten van elkaar. Ze hebben gelijkaardige kenmerken ontwikkeld omdat ze overleven in gelijkaardige omgevingen. We spreken in dit geval van convergente evolutie en de structuren die zich zo hebben gevormd zijn analoge structuren. Hieruit blijkt dus dat lang niet alle kenmerken goed bruikbaar zijn voor het opsporen van de verwantschappen tussen soorten. Enkel de homologe kenmerken komen hiervoor in aanmerking. Dit wil zeggen kenmerken met een gemeenschappelijke oorsprong in de evolutie en dus aanwezig in de gemeenschappelijke voorouder. Uit vergelijkend anatomisch onderzoek weten we bijvoorbeeld dat vleugels van vogels homoloog zijn met de voorpoten van zoogdieren, het zijn dus homologe organen. Het is echter vaak erg moeilijk om homologie vast te stellen, vooral bij lagere diersoorten, maar ook bij planten. Veel voorgestelde verwantschapsrelaties waren dan ook onderwerp van vaak heftige discussies. De laatste decennia is er een revolutie geweest in de methodologie om verwantschappen te reconstrueren. Twee technologische innovaties liggen hiervoor aan de basis. In de eerste plaats heeft het sequeneren van DNA een rijke bron van nieuwe data gegenereerd die gebruikt kunnen worden om verwantschappen op te sporen. Hierbij wordt op basis van DNA overeenkomsten de verwantschap bepaald. Het grote voordeel van DNA is dat het direct overgeërfd wordt van de ouders op hun kinderen. Het is daarom bij uitstek geschikt voor verwantschapsbepaling. In de tweede plaats heeft de computerrevolutie het gebruik van formele methoden voor het analyseren van data versneld. Het ligt buiten de doelstelling van deze workshop om alle methoden die momenteel gebruikt worden in evolutiereconstructies uit de doeken te doen, want dat zou al vlug enkele dagen in beslag nemen. De workshop wil jullie vooral inzicht geven in hoe DNA gegevens gebruikt worden om verwantschappen te postuleren aan de hand van één enkele reconstructiemethode, namelijk de cladistiek. 1 Evolutiereconstructies De evolutionaire verwantschappen (fylogenie) van een groep taxa kan weergegeven worden in een driedimensionaal diagram zoals weergegeven in figuur 1. Figuur 1. Fylogenetische reconstructie van een groep met 7 taxa. Vier verschillende aspecten worden erop weergegeven: 1) het vertakkingpatroon van de evolutionaire lijnen: dit toont hoe de verschillende soorten met elkaar verbonden zijn, dit wordt ook wel het cladistisch aspect van de evolutie genoemd; vb. B en C zijn van elkaar gescheiden door slechts één vertakkingpunt, A en C daarentegen door twee; C is dus cladistisch nauwer verwant met B dan met A; 2) het patristisch aspect: dit toont de divergentie van kenmerken binnen evolutionaire lijnen; vb. F en G zijn ontstaan uit eenzelfde meest recente gemeenschappelijke voorouder, G wijkt echter veel meer af van deze voorouder dan F, dit betekent dat de divergentie in de lijn naar G veel groter is dan in de lijn naar F; 3) het tijdsaspect: dit heeft betrekking op de datering van evolutionaire gebeurtenissen, de meest recente gemeenschappelijke voorouder van A, B, C en D leefde bijvoorbeeld in het plioceen; 4) het fenetische aspect: heeft betrekking op het globale verschil in kenmerken tussen taxa in een bepaalde tijdsdoorsnede; vb. in de huidige tijdsdoorsnede vertonen B, C en D een grote gelijkenis, terwijl A er sterk van afwijkt. Het cladistisch aspect van de evolutie kan weergegeven worden als een cladogram. Figuur 2 geeft het cladogram voor de evolutionaire boom van figuur 1. Uit het cladogram kan vastgesteld worden dat taxon B en Taxon C een gemeenschappelijke voorouder delen (knooppunt 3) die ze niet delen met de andere taxa. A, B en C delen op hun beurt een gemeenschappelijke voorouder (knooppunt 2) die ze niet delen met de andere taxa in de analyse. Elk intern knooppunt in een cladogram stelt dus een voorouder voor die aanleiding heeft gegeven aan twee zustertaxa. In het cladogram van figuur 2 zijn B en C zustergroepen en is A de zustergroep van de groep B+C. D is dan weer de zustergroep van de groep E+F+G. Knooppunten worden van elkaar gescheiden door takken. De wortel (root) van het cladogram stelt de voorouder voor 2 van de bestudeerde taxa. De wortel geeft de richting aan waarin de vertakkingen zijn gebeurd. Om een niet gewortelde boom te wortelen, maakt men vaak gebruik van een buitengroep. Daarbij gaat men ervan uit dat men weet dat taxa die men zal bestuderen (= de binnengroep) monofyletisch zijn. De buitengroep is dan de zustergroep van de binnengroep. De kenmerktoestanden die men aantreft in de buitengroep zijn dan ook primitief ten opzichte van de kenmerktoestanden die men aantreft in de binnengroep. Figuur 2. Cladogram voor de fylogenetische boom van figuur 1. Een groep die de voorouder en al zijn nakomelingen omvat noemt men een monofyletische groep. Een parafyletische groep daarentegen is een onvolledige monofyletische groep. De groep D+E+F+G is een voorbeeld van een monofyletische groep, terwijl de groep D+E+F een parafyletische groep is, aangezien niet alle nakomelingen van de voorouder in knooppunt 4 er in voorkomen (taxon G ontbreekt). In wat volgt zullen we aantonen dat de aanwezigheid of afwezigheid van eigenschappen in taxa gebruikt kan worden om het vertakkingpatroon (= cladistische relaties) tussen die taxa te achterhalen. Enkele belangrijke begrippen Vooraleer verder te gaan is het noodzakelijk om enkele begrippen duidelijk te definiëren. Kenmerken en kenmerktoestanden: Het is belangrijk een onderscheid te maken tussen kenmerken en kenmerktoestanden. 'Bloemkleur' is een voorbeeld van een morfologisch kenmerk, terwijl bijvoorbeeld 'blauw, 'rood' en 'groen' kenmerktoestanden van dit kenmerk zijn. Voor DNA sequentiegegevens is een bepaalde nucleotideplaats binnen het DNA een kenmerk en de kenmerktoestanden zijn de verschillende toestanden die deze nucleotideplaats kan aannemen, namelijk A, C, G, T. 3 Afgeleide versus primitieve kenmerktoestanden: In de loop van de evolutie kan een bepaalde evolutionaire lijn eigenschappen ontwikkelen die haar van alle andere lijnen onderscheiden. Deze waarneembare en overerfbare eigenschappen worden afgeleide kenmerktoestanden of apomorfieën genoemd. Wanneer een lijn gekenmerkt wordt door een apomorfie zich later zal splitsen, dan zullen de dochterlijnen deze apomorfie overerven. Apomorfieën vormen dus de sleutel om cladistische verwantschappen tussen lijnen op te sporen: een apomorfie die voorkomt in twee of meer groepen, is met grote waarschijnlijkheid ontstaan in de meeste recente gemeenschappelijke voorouder van deze groepen. Tegenover de afgeleide toestand staat de primitieve toestand, ook wel plesiomorfie genoemd. Plesiomorfe toestanden zijn niet bruikbaar om cladistische verwantschappen op te sporen. De buitengroep in een analyse wordt gebruikt om te bepalen welke kenmerktoestanden primitief en welke afgeleid zijn binnen de binnengroep (zie boven). Zustergroep: twee groepen die rechtstreeks uit eenzelfde voorouder zijn ontstaan noemt men zustergroepen. Monofyletische groep: de voorouder en al zijn nakomelingen vormen een monofyletische groep. Parafyletische groep: een onvolledige monofyletische groep. Binnen- en buitengroep: De groep van al de taxa waartussen men de cladistische verwantschappen wil ophelderen wordt de binnengroep genoemd. De zustergroep van de binnengroep is de buitengroep. Lengte van een kenmerk: De lengte van een kenmerk op een bepaald cladogram is het minimaal aantal overgangen tussen kenmerktoestanden dat volgens het cladogram vereist is om de verspreiding van de kenmerktoestanden over de taxa te verklaren. De lengte van een cladogram behorende bij een bepaalde gegevensmatrix is de som van de lengte van alle kenmerken uit die matrix op dat cladogram. Om deze begrippen duidelijk te maken, beschouwen we een eenvoudige matrix (Tabel 1) met vier taxa en vier DNA kenmerken, waarbij het eerste taxon de buitengroep vormt. 1 2 3 4 1 A G G G 2 G G G G 3 A A C C 4 T G C A Tabel 1. Matrix met 4 soorten en 4 kenmerken. Er zijn drie mogelijke manieren waarop de taxa van de binnengroep met elkaar verwant kunnen zijn, zoals weergegeven in figuur 3. Voor kenmerk 1 zien we dat gelijk welke boom we verkiezen de lengte van het kenmerk steeds 1 is. Inderdaad, er is slechts één overgang vereist van een A naar een G, namelijk in de voorouder van taxon 2, 3 en 4, om de verspreiding van de kenmerktoestanden te verklaren. Voor kenmerk 2 zien we dat geen enkele overgang is vereist, de lengte van het kenmerk op de cladogrammen is dus nul. Voor kenmerk drie zien we dat de lengte van het kenmerk verschillend is naargelang de gekozen boom. 4 Zetten we kenmerk 3 uit op boom 2 en 3, dan zien we dat er twee overgangen nodig zijn om de verspreiding van de kenmerktoestanden over het cladogram te verklaren. Op die bomen is de lengte van het kenmerk dus 2. Op boom 1 hebben we echter slechts één stap nodig. Op die boom is de lengte van het kenmerk dus 1. Voor kenmerk 4 hebben we drie stappen nodig om de verspreiding van de kenmerktoestanden over de boom te verklaren nodig ongeacht van de gekozen boom. De lengte van dit kenmerk is dus 3. De lengte van cladogram 1 is dus 1+1+3=5, voor cladogram 2 en 3: 1+2+3=6. Figuur 3. Weergave van de drie mogelijke cladogrammen voor de gegeven matrix met optimalisatie op elk cladogram voor kenmerk 1, 3 en 4. Parsimonie: Voor een gegeven aantal taxa bestaan steeds meerdere cladogrammen. Het parsimonie of spaarzaamheidscriterium stelt dat het meest spaarzame cladogram voor een gegeven matrix (cladogram met minimale lengte) de meest waarschijnlijke evolutionaire hypothese biedt. In bovenstaand voorbeeld zou cladogram 1 dus verkozen worden boven cladogram 2 en 3. Van DNA tot evolutionaire boom Om aan te duiden hoe men vanaf DNA sequentiegegevens tot een evolutionair boom komt, nemen we een eenvoudig voorbeeld in beschouwing. Stel dat we zeven taxa hebben, A tot G, en dat ze cladistisch verwant zijn zoals weergegeven in figuur 4. Indien we terug zouden gaan en de evolutie van een gemeenschappelijke voorouder van de zeven taxa zouden volgen, dan zouden we bemerken dat het DNA in de loop van zijn evolutie verandert door o.a. mutaties. In ons voorbeeld kijken we naar de veranderingen in een sequentie van 20 nucelotiden. Elke nucleotideplaats is een kenmerk die elk vier kenmerktoestanden kunnen aannemen, namelijk A, C, G, T. 5 Figuur 4. Cladistische relaties voor taxa A tot G. In de loop van de evolutie (Fig. 5) zien we dat nucleotide 2 verandert van een T naar een C. Wanneer later deze oudersoort aanleiding geeft tot twee zustersoorten, zien we dat elk van de twee zustersoorten deze apomorfie overerven. De twee zustersoorten bouwen echter ook verschillen op doordat ze onafhankelijk van elkaar mutaties ondergaan. Zo zien we dat in soort 1 nucleotideplaats 8 verandert van een A naar een G. In de voorouder van soort 2 en 3 daarentegen verandert nucleotideplaats 5 van een C naar een A. Deze verandering wordt opnieuw overgeërfd door de zustersoorten 2 en 3. Tegen T1 zien we dat we drie soorten hebben die reeds genetisch van elkaar verschillen (Fig. 5). Figuur 5. Evolutie van het DNA van de voorouder van de taxa A tot G tot van T0 tot T 1. Op tijdstip T 1 zijn drie soorten ontstaan die elk gekenmerkt worden door een eigen DNA sequentie. Indien we de evolutie verder volgen, dan zien we dat er verder veranderingen optreden en dat bepaalde voorouders verder aanleiding geven aan zustersoorten tot we uiteindelijk de taxa A tot G bekomen. Elk van deze taxa wordt gekenmerkt door een specifieke gensequentie (Fig. 6). Deze gensequentie weerspiegelt echter ook de evolutie die deze taxa hebben ondergaan, en kan gebruikt worden om hun verwantschappen te reconstrueren. 6 Figuur 6. Evolutie van het DNA van de voorouder van de taxa A tot G van T0 tot T2. Op tijdstip T2 zijn zeven soorten ontstaan die elk gekenmerkt worden door een eigen DNA sequentie. Om dit duidelijk te maken kijken we naar de taxa D tot G waarbij we D als buitengroep beschouwen. We willen dus de relaties ophelderen tussen de taxa E, F en G. In principe zijn er drie mogelijk oplossingen, zoals weergegeven op figuur 7. Figuur 7. Drie cladogrammen die de mogelijke relaties tussen de taxa F, E en G weergeven. Kenmerk 1 is geoptimaliseerd op elk van de drie mogelijke cladogrammen. De vraag stelt nu welk cladogram het best de geobserveerde gensequenties kan verklaren. Indien we de gensequenties van die drie taxa bekijken, dan zien we dat ze identiek zijn op drie nucleotiden na. Nucleotideposities 10 en 20 vertellen ons echter niets over de verwantschappen tussen E, F en G. Deze twee kenmerken zeggen enkel dat E, F en G verschillend zijn van D. Er is dus slechts 1 kenmerk dat ons iets zegt over de verwantschappen tussen E, F en G, namelijk nucleotideplaats 1. Indien we dit kenmerk uitzetten op de drie mogelijk bomen, dan zien we dat we in boom 1 en 2 telkens twee stappen nodig hebben om de verspreiding van de kenmerktoestanden op 7 de boom te verklaren. In boom 3 hebben we slechts 1 stap nodig. Deze boom is dan ook de meest spaarzame of meest parsimone en wordt dan ook beschouwd als de meest waarschijnlijke evolutionaire hypothese. Met andere woorden F en G zijn sterker met elkaar verwant dan met E. Indien er meerdere taxa en meerdere kenmerken zijn, wordt het verhaal natuurlijk iets moeilijker. Hoe men op een systematische manier een boom kan opstellen vertrekkende vanaf een kleine matrix wordt in de volgende paragraaf uitgelegd. Manueel opstellen van een cladistische boom Zie werkbladen Een exponentieel probleem Bovenstaande voorbeelden hebben hopelijk duidelijk gemaakt hoe men met behulp van cladistiek de verwantschappen tussen taxa kan achterhalen. De voorbeelden waren echter misleidend in het feit dat ze heel weinig taxa en kenmerken omvatten. In de praktijk willen we vaak de evolutie van enkele 10-tallen of zelfs honderden soorten ophelderen en maken we gebruik van enkele honderden tot duizenden kenmerken. Het manueel bepalen van de meest parsimone boom is dan uitgesloten. Maar ook computers hebben er het moeilijk mee. We hebben hier immers te maken met een exponentieel probleem, waarbij het aantal mogelijke bomen exponentieel toeneemt met het aantal taxa die onderzocht worden (zie Tabel 2). Er zijn echter specifieke computeralgoritmes uitgewerkt om ook in die gevallen nog steeds een goede kans te bekomen de meest spaarzame boom te vinden. n 1 2 3 4 5 6 7 8 9 10 20 # opgeloste, niet gewortelde bomen 1 1 3 15 105 945 10395 135135 2027025 221643095476699771875 Tabel 2. Het aantal mogelijke volledig opgeloste, niet gewortelde bomen voor n taxa. Het programma PHYLIP Een van de programma's die gebruikt wordt om verwantschappen op te sporen is PHYLIP. Het is een freeware programma dat op http://evolution.genetics.washington.edu/phylip.html afgehaald kan worden (drie programma's zijn ook op de bijgevoegde CD terug te vinden). Een uitgebreide Engelstalige handleiding is op het web beschikbaar. Ik beperk me hier tot de basisbeginselen van het programma. 8 Om het programma DNAPENNY uit te testen en onze eigen resultaten te controleren, gebruiken we de matrix met taxa A tot G en 20 DNA kenmerken die we eerder in deze workshop hebben gebruikt. Om door het programma gelezen te kunnen worden moet de file er als volgt uitzien: 8 20 Out Taxon_A Taxon_B Taxon_C Taxon_D Taxon_E Taxon_F Taxon_G ATTACTTAGTAAACCATAGT ACTCCTTGGTAAACCATAGT ACTCCTCGGTAAACCATAGT ACTCCTCGGTAAACCATAGT ACTAATTAGTAAACCATAGC ACTAATTAGCAAACCATAGT TCTAATTAGCAAACCATAGT TCTAATTAGCAAACCATAGT De eerste regel vermeldt het aantal taxa en het aantal kenmerken. Vervolgens volgt de matrix met de taxonnaam die 10 tekens moet omvatten (kortere namen kunnen eventueel met spaties worden aangevuld zoals in bovenstaand voorbeeld het geval is) gevolgd door de kenmerktoestanden voor elk kenmerk. Ontbrekende gegevens worden aangeduid met een streepje (-), onzekere waarden met een vraagteken (?). De file moet als een txt file bewaard worden en in dezelfde folder geplaatst worden als de programma's waarmee gewerkt zal worden. Toepassing van de programma’s: zie workshop Extra informatie - http://evolution.genetics.washington.edu/phylip.html : homepage van PHYLIP met volledige documentatie van alle programma's en links naar vele andere programma's voor fylogenetische analyse - http://biology.fullerton.edu/biol404/phylolab.html : geeft interessante informatie over de basisbeginselen van de cladistiek (interactief met educatieve vragen) - http://www.cladistics.org : website van de Willy Hennig Society met interessante informatie over cladistiek. Meer informatie of oefeningen [email protected] nodig? Stuur mij gerust een e-mail: 9