1. Wat is het verschil tussen sequentie-homologie en sequentie-similariteit? 2. Geef een voorbeeld van een orthologe of paraloge genrelatie. 3. Wanneer gebruiken we bij voorkeur een globale alineëring. 4. Waarom is een lokale alineëring geschikter voor het vinden van sequentie-similariteit tussen eiwitsequenties? 5. Waarin onderscheid de dotplot methode zich van de andere alineëringsmethoden? 6. Wat is het belang van scorematrices in de alineëring van eiwitsequenties? 7. Waarom bestaan er verschillende soorten scorematrices zoals BLOSUM en PAM? 8. Wanneer gebruiken we BLOSUM en wanneer PAM scorematrices? 9. Alignment methoden voor moleculaire sequenties worden ook gebruikt om sequenties die uit verschillende laboratoria komen met elkaar te vergelijken. Stel je voor dat een zelfde stuk DNA is opgehelderd in twee verschillende laboratoria. Dit stuk DNA codeert voor een eiwit. Bij het controleren van de twee DNA sequenties blijkt dat er een foutje in het sequeneren van de DNA sequentie in één van de laboratoria is geslopen, want er wordt een verschil op één alignment positie aangetroffen. Bij het aligneren van de eiwitsequenties die gecodeerd worden door ieder van de DNA sequenties blijkt dat de eerste 11 aminozuren in beide sequenties hetzelfde zijn, maar dan worden de aminozuren opeens compleet verschillend. Vraag: Wat is hier misgegaan? Raad de fout in de DNA sequentie (en op welke positie) en verklaar waarom dit leidt tot het bovenstaande verschil in de eiwitsequenties. 10. Single nucleotide polymorphisms (SNPs) in DNA sequenties komen in de mens ongeveer met de volgende frequentie voor: a. 1 op de 15 nucleotiden b. 1 op de 150 nucleotiden c. 1 op de 1500 nucleotiden d. 1 op de 15000 nucleotiden 11. Bereken de score van de DNA sequentie alineëring hieronder gebruik makend van de volgende regels: +1 voor een match, -2 voor een mismatch, -3 voor het openen van een gap en -1 voor elke positie in de gap: TCACGGCGGACA--GTG ||||| || ||| ||| TCACGACGCACACAGTG 12. De “affine gap penalty” is het meest gebruikte type van gap penalty. Waarom zou dit zijn? 13. Wanneer wordt TBLASTX het best gebruikt? 14. Wat zijn de belangrijkste redenen waarom BLAST zoveel sneller is dan SmithWaterman alineëring? 15. Toch gebruiken we nog steeds de Smith-Waterman alineëringsmethode. Wat is hiervoor de belangrijkste reden? Wat is m.a.w. het zwakke punt van BLAST t.o.v. het Smith-Waterman algoritme? 16. Waarom moeten we de gebieden met lage complexiteit zoals repetitieve sequenties in query sequenties verwijderen vooraleer we gaan zoeken in sequentiedatabanken met bvb. BLAST? 17. PSI-BLAST wordt aanbevolen als de beste methode voor een zoektocht in eiwitsequentie databanken. Waarom zou dit zijn? 18. PSI-BLAST mag dan wel een zeer krachtig werktuig zijn voor het zoeken naar sequentie-similariteit, toch moet je voor één ding oppassen wanneer je PSI-BLAST gebruikt. Wat is het en hoe kan je het vermijden? 19. Wat is het meest geconserveerd tussen 2 homologe proteinen, hun sequentie of hun structuur? 20. Wat is ‘homology modelling’ en wanneer kunnen we dit toepassen? 21. Beschrijf de verschillende stappen in een homology modelling project. 22. Welke van de volgende sequenties bevat het motief G-H-E-x(2)-G-x(5)-[GA] uit de PROSITE databank: Seq. A: GHKNGVLVYLGA Seq. B: GHEKRGKVYLVG Seq. C: GHEGGRYVKRGA Seq. D: GVLYVKGRKARV 23. Gegeven hieronder een alineëring van 4 bindingsites voor een transcriptiefactor: TTCGAC GTGGAC GTCGAC GTCAAC Welke van de volgende 3 positie-specifieke score matrices (PSSM) is het meest waarschijnlijk correct? Een analyse van 77 bindingssites voor een transcriptiefactor geeft volgende PSSM: De sequentiefragmenten hieronder bevatten de bindingsite. Geef aan welk fragment de meest sterke en meest zwakke bindingsite bevat: fragment 1: ACCTGCG fragment 2: CACTGTC fragment 3: TGCTGAC 24. Hoeveel artikels die handelen over virussen zijn tot nu toe gepubliceerd in het tijdschrift ‘Bioinformatics’? [Zoek dit op gebruik makend van PubMed.] 25. Vind het RefSeq accessienummer van menselijk beta-globine? Op welk chromosoom is dit gen gelocalizeerd? (bvb. 12q23-q24.1, 1q34, etc…) 26. Extraheer de promoter sequentie van dit gen tot 1000 bp stroomopwaarts van de transcriptie startsite. [hint: zowel UCSC als Ensembl zijn beide handig hiervoor…] 27. Vind de genomische locatie van NM_004635.2? [hint: gebruik BLAT] 28. De volgende sequentie komt uit een boek van Michael Crichton, de auteur van ‘Jurassic Park’. Doe een blastx search en kijk zorgvuldig naar het resultaat van de tophit. Hierin zit een boodschap verborgen van de bioinformaticus Mark Bogulski. Wat is die boodschap? [hint: let op de gaps…] >LostWorld gaattccgga gacgtgtggc atggagttcg gccggagcct tcctaccccc accccccagt caaccccccc gggcccccac gcaacgccgc tgcgggctct ctgcgggtga tccaccacca gcctgcggcc ggaatccaaa gggggaaacc tctatgcccc gctctcggcc tttggggggg ataactctga cctcggcaat cagataagca gacaaatccc aaattactgt tcggaggcgg DinoDNA from the book agcgagcaag agataagtcc agctcccgca gaggattcac tggcgctggg ggggccggat tcctggggct gggggggggc cctcaggccg cgtgtccctg gggtgccgcc cgccacccaa ggggcagccc cccccatccc cctgcgaggc ccgtgagtgc tgtggcgccg ggacggcacc accaccgcct caacggccag gtaagcgcgc aggcacagtg ctctgtggcg tcgcagcccc tctactacaa actgcaccaa cccgaaaccg caaagtttcc cctccgccac cgcgggaggg ccccgccgcc ccccccggcc ccgtggtcct ttcgggccat gggcgggggg ttacacggcc cgtgggcaag tgggccttgc tgcagagggt cgatctccac ctttgctccc tggactgaaa tgtgaaaggt aaaagtcgga gaatattgta aatatatata catggaccca gcgtagatca The Lost World tggcatcaga tacagttgga tggaagtgca ttacctatcc gcgggctccc ccactccgtt gagaggacgg aggcgggggg gtgccgtggg cagacacggg atggagcccc cccactacct tcctccgggc ccctactgcc gtcatggcca ggaagaactg gggcattacc tgtgcaactg aaccgcccgc tcatccgccc tgcagccacg agcgtgaaaa atgggggacc ccgtctgcaa gtgaaccgcc ccctcacgat tccaagggta aaaagcggcg ggcgctccta tggggggagg gccgcccccc ctcaaagcga tttctgccct ttggaaactc cccccggggc tgagcccgca tgagaagaca gtgtaacata tttggacaca acagggctac aagaaaggat ttatctgttt cacagcaatc gattatttct tatatatata tatatctgta tgctggattt gtactgccgg gataaggacg catgggagcc ccctgatgaa gctgctggcc tactttgggg ggagctgctg actcagcagc cggagcgacg ggcctcagcc caaaaagcgc ctgccagaca caacattcac gcgcaaagac ccccccgggg gggggacccc cgctctgtac cggagggttt gatttaaata ataatttgca tcggtaggac gcttcttgct cgcctgtgtg tagaacagcc aattc