Cover Page The handle http://hdl.handle.net/1887/45045 holds various files of this Leiden University dissertation. Author: Vis, J.K. Title: Algorithms for the description of molecular sequences Issue Date: 2016-12-21 Samenvatting In dit proefschrift wordt een onderdeel van de bio-informatica bestudeerd. Er is bijzondere aandacht voor het berekenen van beschrijvingen van moleculaire sequenties. Hierbij wordt een (geobserveerde) sequentie beschreven ten opzichte van een referentiesequentie. Moleculaire sequentie komen veel voor in de biologie. Hieronder wordt onder andere verstaan: DNA (en RNA) sequenties en eiwitsequenties. In een klinische omgeving worden veelal de individuele verschillen van deze sequentie bestudeerd en in verband gebracht met allerlei fenotypen (onder andere aandoeningen). Tijdens dit proces spelen de beschrijvingen een belangrijke rol. Veelal worden deze beschrijvingen gegeven in een domein specifieke taal; de HGVS nomenclatuur. Deze schrijft voor hoe bepaalde typen varianten, zoals substituties, inserties en deleties, dienen te worden omschreven. Het streven hier is een ondubbelzinnig uitlegbare beschrijving voor alle varianten in een bepaald individu. Deze HGVS beschrijvingen worden al geruime tijd intensief gebruikt, maar een effectieve methode voor het berekenen (construeren) van deze beschrijvingen ontbrak. In Hoofdstuk 3 wordt een effectieve methode beschreven voor het genereren van dit soort beschrijvingen. Daarin zijn kwaliteiten zoals de lengte van de berekende beschrijving, de complexiteit van de berekening, maar ook de biologische betekenis van de beschrijving van belang. Zo wordt er onder meer rekening gehouden met het complementaire karakter van DNA. In dit hoofdstuk wordt ook een aanvulling op de HGVS nomenclatuur voorgesteld; (samengestelde) transposities, waarin delen van de referentiesequentie kunnen worden verplaatst en/of gekopieerd. Wij laten zien dat onze methode in staat is beschrijvingen te genereren voor complete chromosomen en dat de door 109 110 Samenvatting onze methode gegenereerde beschrijvingen nuttig kunnen worden ingezet voor het cureren van databases. In Hoofdstuk 4 verleggen wij de aandacht van DNA naar eiwitsequenties. Eiwitten worden in tripletten gecodeerd in bepaalde delen van het DNA. Juist deze tripletcodering zorgt ervoor dat veranderingen in het DNA leiden tot zogenaamde verschuivingen in de eiwitsequentie, omdat de tripletten op een andere manier over de DNA-sequentie zijn verdeeld. Deze verschuivingen geven aanleiding tot het maken van beschrijvingen op eiwitsequenties. In dit hoofdstuk gebruiken wij deels technieken uit Hoofdstuk 3 en deels nieuwe technieken voor het genereren van beschrijvingen voor eiwitsequenties. In het bijzonder valt te berekenen van de waarschijnlijkheid is wanneer een kandidaatverschuiving wordt beschouwd. Vervolgens tonen wij aan dat deze verschuivingen, in het bijzonder binnen een soort, veelvuldig voorkomen. In Hoofdstuk 5 kijken wij naar een bijzondere vorm van DNA-sequenties; sequenties waarin vele kleine herhalingen voorkomen. Deze herhalingen hebben een bijzonder gebruik in forensisch onderzoek. Op de eerste plaats geven wij een methode voor het vinden van kandidaatherhalingen in een sequentie. Ten tweede presenteren wij een methode die, gebruikmakend van een verzameling van herhalingen, een beschrijving van een herhalingsstructuur geeft. En ten slotte, kan deze beschrijven worden gecombineerd met een beschrijving van de omliggende sequenties ten opzichte van de herhalingsstructuur. Naast de methoden voor het maken van deze beschrijvingen, geven wij ook aanwijzingen voor het correct gebruik van referentiesequenties in de forensische toepassing. Wij nemen afstand van het berekenen van beschrijvingen in Hoofdstuk 6. In dit hoofdstuk kijken wij op een exploratieve manier naar het datalandschap waarin de bio-informatica veelal opereert. De analyse van grote cohortstudies, waarin groepen heterogene data kunnen worden samengebracht, staat centraal. Het effect van het samenvoegen van verschillende groepen data wordt onderzocht in het kader van het kunnen classificeren van een fenotype uit deze data. Hiertoe worden enkele veelgebruikte classificatietechnieken toegepast. Daarnaast wordt ook gekeken naar het samenvoegen van data uit andere (ongerelateerde) cohortstudies, wederom met als doel het classificeren van een fenotype. De resultaten worden steeds vergeleken met klassieke risicofactoren 111 voor dat fenotype. Het blijkt dat deze risicofactoren veelal goede classificatiekriteria zijn en dat naïef het toevoegen van groepen data niet direct tot een beter resultaat leidt. Slecht wanneer alle beschikbare data wordt gecombineerd in een hiërarchische manier wordt een marginaal beter resultaat behaald.