Chapter 9 Samenvatting Transcriptiefactoren zijn een essentieel deel van genregulatie. Mutaties in transcriptiefactoren en hun bindingsplaatsen kunnen resulteren in spierziekten zoals myotone dystrofie, rhabdomyosarcoma, Waardenburg syndrome type 2, congenitale myasthenia en andere spierafbraak gerelateerde ziektes (overzicht in Martin 2003 (26)). Vijftig procent van de tumoren die het gevolg zijn van het verliezen van de controle over de celcyclus bevatten een mutatie in transcriptiefactor p53 (18). Om deze ziektes te genezen is het noodzakelijk dat we begrijpen wat transcriptiefactoren zijn, waar deze binden en wat hun functie is. Een onderzoeksgebied dat enorm verbeterd is met de moderne sequencing technologieën is het bestuderen van transcriptiefactoren. Chromatine-ImmunoPrecipitatie (ChIP) maakt het mogelijk om DNA strengen te isoleren die gebonden zijn aan een eiwit, bijvoorbeeld een transcriptiefactor. Deze DNA fragmenten kunnen gesequenced worden wat resulteert in een genoomwijde identificatie van transcriptiefactor-bindingsplaatsen. Voorheen zijn met polymerase-kettingreactie (PCRs) en micro-arrays vooral specifieke regio’s bestudeerd, zoals promotoren, waardoor veel bindingsplaatsen werden gemist. Vandaag de dag zorgt de next-generation sequencing van ChIP DNA voor genoomwijde resultaten tegen lagere kosten en met hogere reproduceerbaarheid. Daarnaast geeft het de mogelijkheid om bindingsplaatsen met een lage affiniteit te detecteren. We hebben onze aandacht gericht op twee essentiële biologische processen: de celcyclus en spier differentiatie. De celcyclus is belangrijk voor de replicatie en deling, en myogenese voor spierontwikkeling en reparatie. Defecten in de celcyclus resulteren in kanker, en spierdystrofieën zijn het gevolg van nadelig beı̈nvloede myogenese. Transcriptiefactoren zoals p300 of CBP die zorgen voor controle over de celcyclus, en MyoD en Myogenin voor myogenese, zijn bekend deze processen te reguleren. Volledige details over hun bindingsplaatsen en regulatie zijn echter onbekend. Daarnaast zijn vele andere transcriptiefactoren nog niet ontdekt of gerelateerd aan beide processen. We hebben een aanzet gemaakt om onze kennis over de controle van celcyclus en myogenese via transcriptiefactoren te verbreden. In hoofdstuk 2 introduceren we de webapplicatie CORE TF (Conserved and Over-REpresented Transcription Factor binding sites) die transcriptiefactoren 135 9 Samenvatting identificeert die vaker voorkomen in een experimentele set sequenties, ten opzichte van een willekeurige set. Het geeft ook de mogelijkheid om transcriptiefactor-bindingsplaatsen te identificeren die geconserveerd zijn tussen verschillende organismen. In eerste instantie is dit ontwikkeld om transcriptiefactoren te vinden die mogelijk co-gexpresseerde genen reguleren binnen micro-array studies. Echter, CORE TF kan ook worden gebruikt met next-generation sequencing expressie studies en om co-regulatoren te vinden met behulp van data van micro-arrays of next-generation sequencing van ChIP monsters. Het principe van identificatie van overgerepresenteerde transcriptiefactor-bindingsplaatsen met CORE TF wordt verder uitgelicht in hoofdstuk 3. In plaats van CORE TF’s Match om bindingsrichtpunten te identificeren, is gebruikt gemaakt van de opkomende software Sunflower. Sunflower modelleert de competiviteit tussen transcriptiefactoren die binden aan dezelfde nucleotide sequenties waarmee dit beter bij de biologische werkelijkheid aansluit. Nadat potentiële bindingsplaatsen zijn gevonden door Sunflower, is dezelfde statistische test gebruikt als in CORE TF, om transcriptiefactor-bindingsplaatsen te identificeren die verrijkt zijn in een experimentele set ten opzichte van een willekeurige set. Dit proces is minder gebruiksvriendelijk en snel dan CORE TF, maar geeft betere resultaten. Op het moment dat ons eigen laboratoriumwerk met een next-generation sequencing machine (Illumina’s Genome Analyzer) tot stand kwam, realiseerden wij ons dat een algemeen protocol nodig was om met de data analyse te beginnen. Hiervoor is GAPSS (General Analysis Pipeline for Second-generation Sequencers) ontwikkeld. In hoofdstuk 4 staat beschreven hoe GAPSS de mogelijkheid biedt om snel vervuilende linker sequenties weg te filteren, data naar het genoom te mappen, te visualiseren in een genoom browser en te presenteren in gedefinieerde regio’s. In hoofdstuk 5 wordt de celcyclus controle, gereguleerd door de transcriptiefactoren CBP en p300, nader onderzocht. Hiervoor is een ChIP-seq uitgevoerd op een cellijn model. De data is in eerste instantie geanalyseerd met GAPSS, zoals beschreven in hoofdstuk 4. Met behulp van CORE TF (hoofdstuk 2) werden transcriptiefactoren geı̈dentificeerd die samenwerken met CBP en p300. Ondanks dat deze transcriptiefactoren sterk overeenkomen en dezelfde genen lijken te reguleren, waren we alsnog in staat om bindingsplaatsen specifiek voor iedere transcriptiefactor en potentiële regulerende partners te identificeren (bijv. AP-1, AP-2, SP1 en SRF). Het werk in hoofdstuk 2 en 3 berust vooral op het analyseren van promotoren. Niettemin worden alternatieve (of voorheen onbekende) promotoren gebruikt tijdens bepaalde processen, in verschillende weefsels en in verschillende tijdspunten. In hoofdstuk 6 worden CAGE en SAGE technieken gekoppeld aan next-generation sequencing om een beter inzicht te krijgen in promotoren en genen die verschillen tussen vermenigvuldigende en differentiërende muisspierstamcellen. Hierbij is voor de initiële data analyse gebruik gemaakt van GAPSS uit hoofdstuk 4. Om te bewijzen dat deze nieuwe promotoren specifiek zijn voor spieren is er met succes gezocht naar overrepresentatie van spierspecifieke transcriptiefactoren. Dit proefschrift demonstreert technieken om proces regulerende transcriptiefactoren te identificeren door middel van nieuwe, in silico en moderne laboratorium technieken zoals next-generation sequencing van ChIP DNA. 136 Daarnaast verduidelijken we de rol van myogenese en celcyclus controlerende transcriptiefactoren. In het bijzonder MyoD, Myog, CBP en p300. Deze technieken kunnen echter toegepast worden op de transcriptionele controle van elk willekeurig biologisch proces. 137 9 Samenvatting 138