Bioinformatica: Hoe algoritmen tot leven brengen ? Prof. dr. ir. Bart De Moor ESAT-SCD K.U.Leuven Kasteelpark Arenberg 10 B-3001 Leuven T: 016321709 F: 016321970 M: 0475287052 E: [email protected] W: http://www.kuleuven.ac.be/cv/u0008904.htm http://www.esat.kuleuven.ac.be/~demoor Doorbraken in de bio(techno)logie De dubbele helix Eén van de grootste doorbraken in de biologie staat beschreven in een artikel van slechts één pagina, van de hand van Watson en Crick (Nature 1953). Daarin beschreven de auteurs de geometrischchemische structuur van het DNA (Deoxyribo-Nucleic Acid) als een soort wenteltrap, waarvan de treden bestaan uit complementaire paren van moleculen, nucleotides genaamd. Van deze nucleotides – ook soms aangeduid met ‘bases’ - zijn er vier, namelijk A (Adenine), C (Cytosine), T (Thymine) en G (Guanine). De treden van de wenteltrap bestaan telkens uit complementaire baseparen A-T en G-C. De dubbele spiraal – vandaar de omschrijving van de structuur van het DNA als een ‘dubbele helix’ - bestaat uit twee ketens van fosfaat-deoxyribose suikerpolymeren, waartussen zich de treden van basenparen bevinden. De complementariteit in het DNA – het feit dat A altijd met T, en G altijd met C voorkomt – is één van de fundamentele principes in de overerving van genetisch materiaal (in de les wordt uitgelegd hoe dit precies gebeurt). De complementariteit in het DNA laat toe om genetische informatie als het ware te ‘ontdubbelen’. De genetische code (sterk vereenvoudigd dan toch) In het DNA van organismen vinden we meestal ‘coderende’ regio’s en niet-coderende regio’s. Coderende regio’s zijn stukken DNA die de code bevatten voor de aanmaak van een bepaald eiwit (proteïne). Eiwitten zijn de ‘werkpaarden’ van de cel: Zowat alle processen in een cel worden geregeld en uitgevoerd door middel van eiwitten. De manier waarop eiwitten worden aangemaakt, gaat ongeveer als volgt: Via bepaalde afleesmechanismen worden coderende stukken DNA (genen) per drie nucleotiden afgelezen. Dergelijk triplet van drie bases noemt men een codon. Elk codon ‘codeert’ voor een bepaald aminozuur (in de natuur zijn er 20 verschillende aminozuren) en elk eiwit bestaat uit een aaneenrijging van aminozuren. Samengevat kan je dus stellen dat elk gen in het DNA de code bevat voor de aanmaak van een bepaald proteïne. Maar naast de genen zijn er nog andere ‘functionele’ stukken in het DNA die heel belangrijk zijn. Je kan ze vergelijken met ‘schakelaars’ of ‘dimmers’. Men noemt dit regulatorische elementen. Zij bepalen wanneer en hoeveel van een bepaalde proteïne wordt aangemaakt en het vinden van deze regulatorische elementen is een belangrijke uitdaging (waarover meer in de les). Het menselijk genoom In 2001 werd de volledige volgorde van alle letters van het menselijk DNA (zo’n 3 miljard in totaal) bekendgemaakt. Dit was het resultaat van het zogenaamde ‘Human Genome Project’, een megaproject waar verschillende honderden wetenschappers aan hebben meegewerkt. Deze menselijke DNA sekwentie kan men nu raadplegen op het Web. De afgelopen jaren zijn trouwens ook de DNA 1 sekwenties van verschillende andere organismen volledig ontrafeld (virussen, bacteriën, planten en dieren). Men kan deze ook integraal vinden op het Web. Microroosters Merkwaardig genoeg ligt de complementariteit van het DNA ook aan de basis van een nieuw soort technologie, deze van de ‘microroosters’. Een microrooster – ook wel DNA chip genoemd – is een plaatje van glas of silicium, waarop genetisch materiaal is aangebracht (bvb. 4000 stukjes van verschillende genen) en waarmee men de activiteitsgraad (expressieniveau) van 4000 genen in een biologische staal kan meten (gaande van ‘geen’ tot ‘hoge’ activiteit, een beetje te vergelijken met een allergietest op je arm). Op deze manier kan men aan de hand van genexpressies zien welke genen in welke mate actief zijn in een bepaald weefsel op een bepaald ogenblik (bvb. in een tumor). Deze technologie van microroosters kan op korte tijd zeer veel meetgegevens genereren (bvb. de expressieniveaus van 4000 genen gemeten bij 1000 patiënten). Doorbraken in de informatietechnologie Ook de informatietechnologie heeft de laatste vijftig jaar grote doorbraken gekend: de ontdekking van de transistor, de uitvinding van de computer (met de ‘Wet van Moore’ die stelt dat de rekenkracht van onze computers elke 18 maand verdubbelt), de verschillende doorbraken op het gebied van numerieke algoritmes (software) en databanken, en natuurlijk ook het World Wide Web, die nu een zeer gebruikersvriendelijke raadpleging toelaat van bvb. biologische-genetische databanken en databanken van medische literatuur. Dit laatste gebeurt trouwens ‘volautomatisch’ d.m.v. ‘text-mining’. Wat is bioinformatica ? Bioinformatica is de ‘nieuwe’ discipline die ontstaat op de doorsnede tussen de moderne moleculaire biologie, de biotechnologie (bvb. microroosters) en de informatietechnologie (computers, numerieke wiskunde en statistiek, databanken en het WWW). Het is een multidisciplinaire wetenschap bij uitstek, bedreven door teams bestaande uit biologen, geneeskundigen, bio- en burgerlijk ingenieurs en wiskundigen en statistici. In deze les zullen we deze nieuwe discipline beschrijven aan de hand van drie gevallenstudies. Voorbeeld 1: Klinische toepassingen in de oncologie – diagnose van kanker Voorbeeld 2: Ontrafelen van DNA functies – nieuwe biologische inzichten Voorbeeld 3: Systeembiologie: Geïntegreerd en multidisciplinair onderzoek Wat brengt de toekomst ? In een laatste deel van de les zullen we uitleggen waarom de bioinformatica nog maar in haar kinderschoenen staat. Immers, de nauwkeurigheid en schaal waarmee men biologische processen kan opmeten, zal snel (exponentieel?) toenemen in de nabije toekomst (bvb. proteomics, metabolomics). Dit alles zal een massale toevloed aan biologische en klinische gegevens met zich meebrengen. Bovendien neemt ook de op het Web beschikbare wetenschappelijke en medische informatie exponentieel toe. We geven dan ook een voorafspiegeling van wat ons in de nabije toekomst te wachten staat, en tot welk soort juridische, etische en democratische uitdagingen één en ander zal leiden. 2