Naam: Studentnummer: Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 30 maart 2007 van 8.45-10.45 uur in zaal Q105 NB: geef je antwoorden op dit formulier. Er zijn extra vellen achteraan bijgevoegd die je kunt gebruiken om antwoorden verder uit te werken, mocht je over een pagina heen gaan. Vermeld duidelijk welke vraag je beantwoordt op de extra vellen. Het tentamen bestaat uit 20 meerkeuzevragen (deel A) en 7 open vragen (deel B) Deel A. Meerkeuzevragen: 1. Het centrale dogma in de Moleculaire Biologie is “DNA makes RNA makes Protein”. De twee stappen aangeduid in dit dogma zijn achtereenvolgend: a. Translatie en transcriptie, samen expressie geheten b. Expressie en transcriptie, samen translatie geheten c. Transcriptie en expressie, samen translatie geheten d. Transcriptie en translatie, samen expressie geheten 2. Ks is gedefinieerd als het aantal synonieme mutaties (mutaties binnen een codon die niet leiden tot een veranderd aminozuur) en Ka als het aantal niet-synonieme mutaties (mutaties binnen een codon die leiden tot een veranderd aminozuur). Welke van de onderstaande stellingen is juist? a. Wanneer de Ka/Ks ratio groter is dan 1 dan spreken we van positieve selectie b. Wanneer de Ka/Ks ratio groter is dan 1 dan spreken we van negatieve selectie c. Wanneer de Ka/Ks ratio gelijk is aan 1 dan spreken we van negatieve selectie d. Wanneer de Ka/Ks ratio kleiner is dan 1 dan spreken we van neutrale selectie 3. Voor twee objecten zijn de volgende eigenschappen gemeten: Object A: Object B: Eigenschap 1 15 9 Eigenschap 2 24 27 Eigenschap 3 27 33 Een wiskundige heeft als afstand tussen deze twee objecten de waarde 9 gemeten. Dit betekent dat als afstandmaat is genomen: a. b. c. d. City block distance Euclidean distance Single linkage clustering Complete linkage distance 4. De nearest neighbour clustering (single linkage) methode wordt een space contracting cluster methode genoemd omdat a. de oorspronkelijke datapunten tijdens het clusteren naar elkaar toe schuiven en dus steeds dichter bij elkaar komen te liggen b. als afstand tussen twee clusters de kleinste inter-cluster afstand genomen wordt, waardoor tijdens het clusteren de verwachte afstand tussen groeiende clusters afneemt. c. chaining optreedt en hierdoor de clusters steeds kleiner worden. d. deze methode maar éen enkel punt clustert. 1 uit 14 Naam: Studentnummer: 5. In sequence alignment methoden wordt rekening gehouden met de volgende evolutionaire operaties geobserveerd in sequenties (meerdere antwoorden zijn mogelijk): a. Mutaties b. Insertions/Deletions c. Repeats d. Inversions 6. Welke van de volgende 4 antwoorden is NIET juist: een sequence alignment wordt gemaakt om a. een mogelijke homologie tussen de sequenties vast te stellen. b. te bewijzen dat er mogelijk geen homologie tussen de sequenties bestaat. c. ideeën over structureel en/of functioneel belangrijke aminozuren op te doen. d. conserveringspatronen van aminozuren te zien. 7. Bij het maken van een alignment tussen twee sequenties die homoloog zijn, en dus twee op elkaar lijkende tertiaire structuren hebben, is de corresponderende secundaire structuur die we het meest verwachten in posities van het alignment waar gaps voorkomen: a. de β-strand. b. de α-helix. c. de loop structuur. d. geen van de drie voorgaande structuren want er is geen verschil in het verwachte aantal gaps voor ieder van deze structuren. 8. De eenvoudigste implementatie van het Dynamic Programming algoritme heeft de formule H(i,j) = Max H(i-1, j-1) + S(i, j) H(i-1, j) - g H(i, j-1) – g waar H(i, j) de waarde is die uitgerekend is voor cel (i, j) in de search matrix, S(i, j) de exchange value is tussen residu i in de ene sequentie en residu j in de andere, en g de gap penalty. Deze formule wordt gebruikt met het volgende soort gap penalties: a. logarithmic gap penalties b. affine gap penalties c. linear gap penalties d. exponential gap penalties 9. Gap penalties hebben altijd een negatieve invloed op de alignment score (gap penalties berekend voor gaps worden van de score afgetrokken). Dit betekent het volgende voor de evolutionaire waarschijnlijkheid van het optreden van gaps: a. Gaps zijn waarschijnlijker dan je op grond van gedrag in random sequenties zou verwachten. b. Gaps zijn minder waarschijnlijk dan je op grond van gedrag in random sequenties zou verwachten. c. Gaps moeten kost wat kost voorkomen worden. d. Gaps zijn altijd onwaarschijnlijker dan aminozuur mutaties. 10. Semi-global alignment is een alignment techniek a. waarbij de waarden in de dynamische programmeringmatrix niet beneden 0 kunnen komen. b. waarbij de gebruikte amino acid exchange matrix alleen waarden ≥ 0 heeft. c. waarbij N- en C-terminale end-gaps niet meetellen, d.w.z. niet bestraft worden met gap penalties. d. waarbij de N-terminale helften van sequenties globaal aligned worden. 2 uit 14 Naam: Studentnummer: 11. Twee stellingen over dynamic programming: (1) Het algoritme garandeert bij een global pairwise alignment altijd de maximale alignment score, gegeven een scoring system en gap penalty waarden (2) In het progressive alignment protocol wordt het algoritme o.a. gebruikt om profiles te alignen. a. Stelling 1 en 2 zijn beide juist b. Stelling 1 is juist, 2 is onjuist c. Stelling 1 is onjuist, 2 is juist d. Stelling 1 en 2 zijn beide onjuist 12. Stel dat in een alignment tussen twee sequenties een interne gap met een lengte van meer dan honderd aminozuren gemaakt moet worden, bijv. om over een inserted domain in een van de sequenties heen te springen. Gegeven dat het DP algoritme gebruikt maakt van affine gap penalties, dan leveren de volgende parameterwaarden waarschijnlijk de langste gaps (>100) op: a. Gap-opening = 10, gap-extension = 2 b. Gap-opening = 2, gap-extension = 10 c. Gap-opening = 140, gap-extension = 0 d. Gap-opening = 0, gap-extension = 150 13. Evolutie kan gezien worden als een conserverend ontwikkelingsproces omdat a. selectiedruk maakt dat de meerderheid van veranderingen, zoals mutaties en indels, geaccepteerd wordt, maar dus niet allemaal. b. bijna alle mutaties en indels de individuele fitness verminderen of zelfs lethaal kunnen zijn. c. Darwin een conservatief mens was. d. survival of the fittest betekent dat steeds de genen van de sterkste naar de volgende generatie gaan. 14. Twee stellingen: (1) splicing (d.w.z. de intron/exon structuur van genen) is in 1976 ontdekt in prokaryoten, en (2) het merendeel van de eukaryotische genen bestaat uit een enkele exon. a. Stelling 1 en 2 zijn beide juist. b. Stelling 1 is juist, 2 is onjuist. c. Stelling 1 is onjuist, 2 is juist. d. Stelling 1 en 2 zijn beide onjuist. 15. Twee stellingen: (1) Een gen B dat paraloog is met gen A in soort 1 kan nooit een hogere sequentie-similariteit hebben met het orthologe gen A’ in soort 2 (gen A in soort 1 is ortholoog met gen A’ in soort 2) dan gen A en A’ hebben. (2) Het vinden van orthologen is belangrijk voor een juiste vergelijking van genen. a. Stelling 1 en 2 zijn beide juist. b. Stelling 1 is juist, 2 is onjuist. c. Stelling 1 is onjuist, 2 is juist. d. Stelling 1 en 2 zijn beide onjuist. 16. Watson-Crick base-pairs in DNA zijn G-C en A-T. G-C paren hebben drie waterstofbruggen en A-T paren hebben twee waterstofbruggen. Binnen archeabacteria die bij warmwaterbronnen leven (hoge temperaturen) verwachten we eiwitten met de volgende eigenschap: a. Een hoge G-C content b. Een lage G-C content c. Een G-C/A-T ratio van 1 d. Een G-C/A-T ratio van 0 3 uit 14 Naam: Studentnummer: 17. Structural alignments (alignments gemaakt d.m.v. vergelijken (superponeren) van tertiaire eiwitstructuren) worden vaak gebruikt om programma’s voor sequence alignment te testen. Dit hangt samen met het volgende dogma: a. Sequence more conserved than structure b. DNA makes RNA makes Protein c. Structure more conserved than sequence d. Structure less important than sequence 18. Welk van de volgende beweringen is juist: a. twee genen zijn orthologen van elkaar wanneer ze zijn ontstaan ten gevolge van een speciatie b. twee genen zijn paralogen van elkaar wanneer ze zijn ontstaan ten gevolge van een speciatie c. orthologen hebben meestal niet dezelfde functies d. bij een sequence alignment worden meestal paraloge sequenties met elkaar vergeleken omdat op deze manier de evolutie van een gen tussen species kan worden bestudeerd 19. ‘Het’ probleem van de standaard progressive alignment methode is dat: a. er wordt gestart met de twee meest op elkaar lijkende sequenties. b. een eenmaal gemaakte fout niet meer hersteld kan worden. c. de gemaakte guide tree vaak niet de juiste fylogenetische boom is. d. het maken van de profile-profile alignments computationeel intensief is. 20. Phylogeny: De UPGMA methode kan correct toegepast worden op phylogenetische data wanneer de afstanden tussen de objecten ultrametric zijn. De neighbour joining (NJ) clustermethode verlangt alleen dat de afstanden additive zijn. De volgende stelling met betrekking tot deze twee criteria is juist: a. Wanneer afstanden ultrametric zijn, dan zijn ze zeker ook additive. b. Wanneer afstanden additive zijn, dan zijn ze zeker ook ultrametric. c. Bij een tree gebaseerd op additive afstanden, zijn de afstanden van de leaves naar de root van de boom altijd gelijk. d. Ultrametricity is mathematisch equivalent met additivity. 4 uit 14 Naam: Studentnummer: Deel B. Open vragen: B.1. Beschrijf vier eigenschappen die nodig zijn om Darwiniaanse evolutie te krijgen. 5 uit 14 Naam: Studentnummer: B.2. Reverse engineering -- hieronder staat de DNA codon tabel: Amino Acid SLC DNA codons Isoleucine Leucine Valine Phenylalanine Methionine I L V F M ATT, ATC, ATA CTT, CTC, CTA, CTG, TTA, TTG GTT, GTC, GTA, GTG TTT, TTC ATG Cysteine C TGT, TGC Alanine Glycine Proline Threonine Serine Tyrosine Tryptophan Glutamine Asparagine Histidine Glutamic acid Aspartic acid Lysine Arginine Stop codons A G P T S Y W Q N H E D K R Stop GCT, GCC, GCA, GCG GGT, GGC, GGA, GGG CCT, CCC, CCA, CCG ACT, ACC, ACA, ACG TCT, TCC, TCA, TCG, AGT, AGC TAT, TAC TGG CAA, CAG AAT, AAC CAT, CAC GAA, GAG GAT, GAC AAA, AAG CGT, CGC, CGA, CGG, AGA, AGG TAA, TAG, TGA Gegeven de volgende eiwit sequentie in single-letter code: TRDLW (a) vraag: hoeveel verschillende DNA sequenties coderen voor dit eiwit? (b) opdracht: Reverse-engineer twee DNA sequenties die beide coderen voor deze eiwit sequentie, gebruikmakend van de bovenstaande codon tabel, zodanig dat de twee DNA sequenties maximaal verschillen. Bepaal de afstand tussen twee codons door niet-identieke posities te tellen. Geef de twee DNA sequenties en bereken de Hamming distance (het aantal niet-identieke posities in de twee DNA sequenties). 6 uit 14 Naam: Studentnummer: B.3. Gebruik het UPGMA clusteralgoritme om de sequenties te clusteren waarvoor het volgende multiple alignment gegeven is: Seq1. Seq2. Seq3. Seq4. STAVYLGYRS SAHWYLGFKS STPVFFGWHT STPHYIGYHT Opdracht 1: Gebruik sequentie-identiteiten om de onderstaande matrix in te vullen. Aan de ingevulde cellen kun je zien of je aminozuur matches of mismatches moet tellen (en dus of de onderstaande matrix een distance- of een similariteitsmatrix is). 0 Seq1 Seq2 Seq3 Seq4 0 0 Seq1 Seq2 Seq3 Opdracht 2: Voor de clustering uit, teken het dendrogram (boom) voor de vier sequenties en geef afstanden (branch lengths). Het UPGMA algoritme: Initialisation: • • Fill distance matrix with pairwise distances Start with N clusters of 1 element each Iteration: • • • Merge cluster C i and Cj for which dij is minimal Place internal node connecting C i and Cj at height dij/2 Delete C i and Cj (keep internal node) Termination: • When two clusters i, j remain, place root of tree at height dij/2 De afstand di,j tussen cluster C i end cluster Cj is gedefinieerd als: 1 di,j = ———————— ΣpΣq dp,q, where p ∈ Ci and q ∈ Cj |Ci| × |Cj| 7 uit 14 0 Seq4 Naam: Studentnummer: Extra vel voor B3 8 uit 14 Naam: Studentnummer: B.4. Bereken m.b.v. dynamic programming het optimale semi-global alignment van de onder aangegeven nucleotide sequenties (zie search matrix). Geef het optimale semi-global alignment en de bijbehorende alignment score. Maak gebruik van de volgende formule: H(i-1, j-1) +/- 1 H(i-1, j) - 2 H(i, j-1) - 2 0 H(i,j) = Max , d.w.z. match = 1 (dezelfde nucleotiden) , mismatch is –1 (verschillende nucleotiden), gap = 2 (linear gaps) Gebruik de onderstaande matrix: j i 0 - 1 G 2 A 3 G 4 G 5 C 0 1 2 3 4 - G A G T Alignment: Alignment score: 9 uit 14 Naam: Studentnummer: 10 uit 14 Naam: Studentnummer: B.6. Beschrijf de algoritmische stappen van de progressive alignment strategie. 11 uit 14 Naam: Studentnummer: B.7. Profile (PSSM) comparison: de volgende twee MSA fragmenten worden met elkaar vergeleken: -GAYK -GAYK SGVFK SGVFR SGLF- en DHA-V EYP-EHP-V EYA-V GHPGI De twee dikgedrukte alignment kolommen staan hieronder: A A V V L en A P P A P Deze zijn het onderwerp van de onderstaande vragen: a) Maak de profile voor ieder van deze alignment kolommen (ieder van de twee kolommen representeren een kolom van een multiple alignment van 5 sequenties). b) Bereken de score voor het matchen van deze twee alignment posities, gebruik makend van twee profile kolommen gemaakt in a). NB: Bereken de score gewogen naar de frequenties in de profiles. De benodigde residue exchange matrix voor de aminozuren die voorkomen in de alignment kolommen is als volgt (waarden volgens PAM250): A L P V 2 -2 1 0 A 6 -3 2 L 6 -1 P 4 V 12 uit 14 Naam: Studentnummer: Extra vel 1 13 uit 14 Naam: Studentnummer: Extra vel 2 14 uit 14