Chapter 9 Samenvatting

advertisement
Chapter 9
Samenvatting
Transcriptiefactoren zijn een essentieel deel van genregulatie.
Mutaties in
transcriptiefactoren en hun bindingsplaatsen kunnen resulteren in spierziekten zoals
myotone dystrofie, rhabdomyosarcoma, Waardenburg syndrome type 2, congenitale
myasthenia en andere spierafbraak gerelateerde ziektes (overzicht in Martin 2003
(26)). Vijftig procent van de tumoren die het gevolg zijn van het verliezen van de
controle over de celcyclus bevatten een mutatie in transcriptiefactor p53 (18). Om
deze ziektes te genezen is het noodzakelijk dat we begrijpen wat transcriptiefactoren
zijn, waar deze binden en wat hun functie is.
Een onderzoeksgebied dat enorm verbeterd is met de moderne
sequencing
technologieën
is
het
bestuderen
van
transcriptiefactoren.
Chromatine-ImmunoPrecipitatie (ChIP) maakt het mogelijk om DNA strengen
te isoleren die gebonden zijn aan een eiwit, bijvoorbeeld een transcriptiefactor.
Deze DNA fragmenten kunnen gesequenced worden wat resulteert in een
genoomwijde identificatie van transcriptiefactor-bindingsplaatsen.
Voorheen
zijn met polymerase-kettingreactie (PCRs) en micro-arrays vooral specifieke
regio’s bestudeerd, zoals promotoren, waardoor veel bindingsplaatsen werden
gemist. Vandaag de dag zorgt de next-generation sequencing van ChIP DNA voor
genoomwijde resultaten tegen lagere kosten en met hogere reproduceerbaarheid.
Daarnaast geeft het de mogelijkheid om bindingsplaatsen met een lage affiniteit te
detecteren.
We hebben onze aandacht gericht op twee essentiële biologische processen: de
celcyclus en spier differentiatie. De celcyclus is belangrijk voor de replicatie en
deling, en myogenese voor spierontwikkeling en reparatie. Defecten in de celcyclus
resulteren in kanker, en spierdystrofieën zijn het gevolg van nadelig beı̈nvloede
myogenese. Transcriptiefactoren zoals p300 of CBP die zorgen voor controle over
de celcyclus, en MyoD en Myogenin voor myogenese, zijn bekend deze processen
te reguleren. Volledige details over hun bindingsplaatsen en regulatie zijn echter
onbekend. Daarnaast zijn vele andere transcriptiefactoren nog niet ontdekt of
gerelateerd aan beide processen. We hebben een aanzet gemaakt om onze kennis
over de controle van celcyclus en myogenese via transcriptiefactoren te verbreden.
In hoofdstuk 2 introduceren we de webapplicatie CORE TF (Conserved and
Over-REpresented Transcription Factor binding sites) die transcriptiefactoren
135
9 Samenvatting
identificeert die vaker voorkomen in een experimentele set sequenties, ten
opzichte van een willekeurige set.
Het geeft ook de mogelijkheid om
transcriptiefactor-bindingsplaatsen te identificeren die geconserveerd zijn tussen
verschillende organismen. In eerste instantie is dit ontwikkeld om transcriptiefactoren
te vinden die mogelijk co-gexpresseerde genen reguleren binnen micro-array studies.
Echter, CORE TF kan ook worden gebruikt met next-generation sequencing expressie
studies en om co-regulatoren te vinden met behulp van data van micro-arrays of
next-generation sequencing van ChIP monsters.
Het
principe
van
identificatie
van
overgerepresenteerde
transcriptiefactor-bindingsplaatsen met CORE TF wordt verder uitgelicht in
hoofdstuk 3.
In plaats van CORE TF’s Match om bindingsrichtpunten te
identificeren, is gebruikt gemaakt van de opkomende software Sunflower. Sunflower
modelleert de competiviteit tussen transcriptiefactoren die binden aan dezelfde
nucleotide sequenties waarmee dit beter bij de biologische werkelijkheid aansluit.
Nadat potentiële bindingsplaatsen zijn gevonden door Sunflower, is dezelfde
statistische test gebruikt als in CORE TF, om transcriptiefactor-bindingsplaatsen
te identificeren die verrijkt zijn in een experimentele set ten opzichte van een
willekeurige set. Dit proces is minder gebruiksvriendelijk en snel dan CORE TF,
maar geeft betere resultaten.
Op het moment dat ons eigen laboratoriumwerk met een next-generation
sequencing machine (Illumina’s Genome Analyzer) tot stand kwam, realiseerden wij
ons dat een algemeen protocol nodig was om met de data analyse te beginnen.
Hiervoor is GAPSS (General Analysis Pipeline for Second-generation Sequencers)
ontwikkeld. In hoofdstuk 4 staat beschreven hoe GAPSS de mogelijkheid biedt om
snel vervuilende linker sequenties weg te filteren, data naar het genoom te mappen,
te visualiseren in een genoom browser en te presenteren in gedefinieerde regio’s.
In hoofdstuk 5 wordt de celcyclus controle, gereguleerd door de
transcriptiefactoren CBP en p300, nader onderzocht. Hiervoor is een ChIP-seq
uitgevoerd op een cellijn model. De data is in eerste instantie geanalyseerd met
GAPSS, zoals beschreven in hoofdstuk 4. Met behulp van CORE TF (hoofdstuk
2) werden transcriptiefactoren geı̈dentificeerd die samenwerken met CBP en p300.
Ondanks dat deze transcriptiefactoren sterk overeenkomen en dezelfde genen lijken
te reguleren, waren we alsnog in staat om bindingsplaatsen specifiek voor iedere
transcriptiefactor en potentiële regulerende partners te identificeren (bijv. AP-1,
AP-2, SP1 en SRF).
Het werk in hoofdstuk 2 en 3 berust vooral op het analyseren van promotoren.
Niettemin worden alternatieve (of voorheen onbekende) promotoren gebruikt tijdens
bepaalde processen, in verschillende weefsels en in verschillende tijdspunten. In
hoofdstuk 6 worden CAGE en SAGE technieken gekoppeld aan next-generation
sequencing om een beter inzicht te krijgen in promotoren en genen die verschillen
tussen vermenigvuldigende en differentiërende muisspierstamcellen. Hierbij is voor de
initiële data analyse gebruik gemaakt van GAPSS uit hoofdstuk 4. Om te bewijzen
dat deze nieuwe promotoren specifiek zijn voor spieren is er met succes gezocht naar
overrepresentatie van spierspecifieke transcriptiefactoren.
Dit
proefschrift
demonstreert
technieken
om
proces
regulerende
transcriptiefactoren te identificeren door middel van nieuwe, in silico en moderne
laboratorium technieken zoals next-generation sequencing van ChIP DNA.
136
Daarnaast verduidelijken we de rol van myogenese en celcyclus controlerende
transcriptiefactoren. In het bijzonder MyoD, Myog, CBP en p300. Deze technieken
kunnen echter toegepast worden op de transcriptionele controle van elk willekeurig
biologisch proces.
137
9 Samenvatting
138
Download