Algorithms for the Description of Molecular Sequences

advertisement
Cover Page
The handle http://hdl.handle.net/1887/45045 holds various files of this Leiden University
dissertation.
Author: Vis, J.K.
Title: Algorithms for the description of molecular sequences
Issue Date: 2016-12-21
Samenvatting
In dit proefschrift wordt een onderdeel van de bio-informatica bestudeerd.
Er is bijzondere aandacht voor het berekenen van beschrijvingen van moleculaire sequenties. Hierbij wordt een (geobserveerde) sequentie beschreven
ten opzichte van een referentiesequentie. Moleculaire sequentie komen veel
voor in de biologie. Hieronder wordt onder andere verstaan: DNA (en RNA)
sequenties en eiwitsequenties. In een klinische omgeving worden veelal de individuele verschillen van deze sequentie bestudeerd en in verband gebracht met
allerlei fenotypen (onder andere aandoeningen). Tijdens dit proces spelen de
beschrijvingen een belangrijke rol. Veelal worden deze beschrijvingen gegeven
in een domein specifieke taal; de HGVS nomenclatuur. Deze schrijft voor hoe
bepaalde typen varianten, zoals substituties, inserties en deleties, dienen te
worden omschreven. Het streven hier is een ondubbelzinnig uitlegbare beschrijving voor alle varianten in een bepaald individu. Deze HGVS beschrijvingen
worden al geruime tijd intensief gebruikt, maar een effectieve methode voor
het berekenen (construeren) van deze beschrijvingen ontbrak.
In Hoofdstuk 3 wordt een effectieve methode beschreven voor het genereren
van dit soort beschrijvingen. Daarin zijn kwaliteiten zoals de lengte van de
berekende beschrijving, de complexiteit van de berekening, maar ook de
biologische betekenis van de beschrijving van belang. Zo wordt er onder
meer rekening gehouden met het complementaire karakter van DNA. In dit
hoofdstuk wordt ook een aanvulling op de HGVS nomenclatuur voorgesteld;
(samengestelde) transposities, waarin delen van de referentiesequentie kunnen
worden verplaatst en/of gekopieerd. Wij laten zien dat onze methode in staat
is beschrijvingen te genereren voor complete chromosomen en dat de door
109
110
Samenvatting
onze methode gegenereerde beschrijvingen nuttig kunnen worden ingezet voor
het cureren van databases.
In Hoofdstuk 4 verleggen wij de aandacht van DNA naar eiwitsequenties.
Eiwitten worden in tripletten gecodeerd in bepaalde delen van het DNA. Juist
deze tripletcodering zorgt ervoor dat veranderingen in het DNA leiden tot
zogenaamde verschuivingen in de eiwitsequentie, omdat de tripletten op een
andere manier over de DNA-sequentie zijn verdeeld. Deze verschuivingen
geven aanleiding tot het maken van beschrijvingen op eiwitsequenties. In dit
hoofdstuk gebruiken wij deels technieken uit Hoofdstuk 3 en deels nieuwe
technieken voor het genereren van beschrijvingen voor eiwitsequenties. In
het bijzonder valt te berekenen van de waarschijnlijkheid is wanneer een
kandidaatverschuiving wordt beschouwd. Vervolgens tonen wij aan dat deze
verschuivingen, in het bijzonder binnen een soort, veelvuldig voorkomen.
In Hoofdstuk 5 kijken wij naar een bijzondere vorm van DNA-sequenties; sequenties waarin vele kleine herhalingen voorkomen. Deze herhalingen hebben
een bijzonder gebruik in forensisch onderzoek. Op de eerste plaats geven wij
een methode voor het vinden van kandidaatherhalingen in een sequentie. Ten
tweede presenteren wij een methode die, gebruikmakend van een verzameling
van herhalingen, een beschrijving van een herhalingsstructuur geeft. En ten
slotte, kan deze beschrijven worden gecombineerd met een beschrijving van
de omliggende sequenties ten opzichte van de herhalingsstructuur. Naast de
methoden voor het maken van deze beschrijvingen, geven wij ook aanwijzingen
voor het correct gebruik van referentiesequenties in de forensische toepassing.
Wij nemen afstand van het berekenen van beschrijvingen in Hoofdstuk 6.
In dit hoofdstuk kijken wij op een exploratieve manier naar het datalandschap
waarin de bio-informatica veelal opereert. De analyse van grote cohortstudies,
waarin groepen heterogene data kunnen worden samengebracht, staat centraal. Het effect van het samenvoegen van verschillende groepen data wordt
onderzocht in het kader van het kunnen classificeren van een fenotype uit deze
data. Hiertoe worden enkele veelgebruikte classificatietechnieken toegepast.
Daarnaast wordt ook gekeken naar het samenvoegen van data uit andere (ongerelateerde) cohortstudies, wederom met als doel het classificeren van een
fenotype. De resultaten worden steeds vergeleken met klassieke risicofactoren
111
voor dat fenotype. Het blijkt dat deze risicofactoren veelal goede classificatiekriteria zijn en dat naïef het toevoegen van groepen data niet direct tot een beter
resultaat leidt. Slecht wanneer alle beschikbare data wordt gecombineerd in
een hiërarchische manier wordt een marginaal beter resultaat behaald.
Download