Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 30

advertisement
Naam:
Studentnummer:
Bioinformatica tentamen D1 voor 2MNW, 3I, 3PHAR op vrijdag 30 maart 2007 van
8.45-10.45 uur in zaal Q105
NB: geef je antwoorden op dit formulier. Er zijn extra vellen achteraan bijgevoegd die je kunt
gebruiken om antwoorden verder uit te werken, mocht je over een pagina heen gaan. Vermeld duidelijk
welke vraag je beantwoordt op de extra vellen.
Het tentamen bestaat uit 20 meerkeuzevragen (deel A) en 7 open vragen (deel B)
Deel A. Meerkeuzevragen:
1. Het centrale dogma in de Moleculaire Biologie is “DNA makes RNA makes Protein”. De twee
stappen aangeduid in dit dogma zijn achtereenvolgend:
a. Translatie en transcriptie, samen expressie geheten
b. Expressie en transcriptie, samen translatie geheten
c. Transcriptie en expressie, samen translatie geheten
d. Transcriptie en translatie, samen expressie geheten
2. Ks is gedefinieerd als het aantal synonieme mutaties (mutaties binnen een codon die niet leiden tot
een veranderd aminozuur) en Ka als het aantal niet-synonieme mutaties (mutaties binnen een codon
die leiden tot een veranderd aminozuur). Welke van de onderstaande stellingen is juist?
a. Wanneer de Ka/Ks ratio groter is dan 1 dan spreken we van positieve selectie
b. Wanneer de Ka/Ks ratio groter is dan 1 dan spreken we van negatieve selectie
c. Wanneer de Ka/Ks ratio gelijk is aan 1 dan spreken we van negatieve selectie
d. Wanneer de Ka/Ks ratio kleiner is dan 1 dan spreken we van neutrale selectie
3. Voor twee objecten zijn de volgende eigenschappen gemeten:
Object A:
Object B:
Eigenschap 1
15
9
Eigenschap 2
24
27
Eigenschap 3
27
33
Een wiskundige heeft als afstand tussen deze twee objecten de waarde 9 gemeten. Dit betekent dat
als afstandmaat is genomen:
a.
b.
c.
d.
City block distance
Euclidean distance
Single linkage clustering
Complete linkage distance
4. De nearest neighbour clustering (single linkage) methode wordt een space contracting cluster
methode genoemd omdat
a. de oorspronkelijke datapunten tijdens het clusteren naar elkaar toe schuiven en dus steeds
dichter bij elkaar komen te liggen
b. als afstand tussen twee clusters de kleinste inter-cluster afstand genomen wordt, waardoor
tijdens het clusteren de verwachte afstand tussen groeiende clusters afneemt.
c. chaining optreedt en hierdoor de clusters steeds kleiner worden.
d. deze methode maar éen enkel punt clustert.
1
uit 14
Naam:
Studentnummer:
5. In sequence alignment methoden wordt rekening gehouden met de volgende evolutionaire operaties
geobserveerd in sequenties (meerdere antwoorden zijn mogelijk):
a. Mutaties
b. Insertions/Deletions
c. Repeats
d. Inversions
6. Welke van de volgende 4 antwoorden is NIET juist: een sequence alignment wordt gemaakt om
a. een mogelijke homologie tussen de sequenties vast te stellen.
b. te bewijzen dat er mogelijk geen homologie tussen de sequenties bestaat.
c. ideeën over structureel en/of functioneel belangrijke aminozuren op te doen.
d. conserveringspatronen van aminozuren te zien.
7. Bij het maken van een alignment tussen twee sequenties die homoloog zijn, en dus twee op elkaar
lijkende tertiaire structuren hebben, is de corresponderende secundaire structuur die we het meest
verwachten in posities van het alignment waar gaps voorkomen:
a. de β-strand.
b. de α-helix.
c. de loop structuur.
d. geen van de drie voorgaande structuren want er is geen verschil in het verwachte aantal gaps
voor ieder van deze structuren.
8. De eenvoudigste implementatie van het Dynamic Programming algoritme heeft de formule
H(i,j) = Max
H(i-1, j-1) + S(i, j)
H(i-1, j) - g
H(i, j-1) – g
waar H(i, j) de waarde is die uitgerekend is voor cel (i, j) in de search matrix, S(i, j) de exchange
value is tussen residu i in de ene sequentie en residu j in de andere, en g de gap penalty.
Deze formule wordt gebruikt met het volgende soort gap penalties:
a. logarithmic gap penalties
b. affine gap penalties
c. linear gap penalties
d. exponential gap penalties
9. Gap penalties hebben altijd een negatieve invloed op de alignment score (gap penalties berekend
voor gaps worden van de score afgetrokken). Dit betekent het volgende voor de evolutionaire
waarschijnlijkheid van het optreden van gaps:
a. Gaps zijn waarschijnlijker dan je op grond van gedrag in random sequenties zou
verwachten.
b. Gaps zijn minder waarschijnlijk dan je op grond van gedrag in random sequenties zou
verwachten.
c. Gaps moeten kost wat kost voorkomen worden.
d. Gaps zijn altijd onwaarschijnlijker dan aminozuur mutaties.
10. Semi-global alignment is een alignment techniek
a. waarbij de waarden in de dynamische programmeringmatrix niet beneden 0 kunnen komen.
b. waarbij de gebruikte amino acid exchange matrix alleen waarden ≥ 0 heeft.
c. waarbij N- en C-terminale end-gaps niet meetellen, d.w.z. niet bestraft worden met gap
penalties.
d. waarbij de N-terminale helften van sequenties globaal aligned worden.
2
uit 14
Naam:
Studentnummer:
11. Twee stellingen over dynamic programming:
(1) Het algoritme garandeert bij een global pairwise alignment altijd de maximale alignment score,
gegeven een scoring system en gap penalty waarden
(2) In het progressive alignment protocol wordt het algoritme o.a. gebruikt om profiles te alignen.
a. Stelling 1 en 2 zijn beide juist
b. Stelling 1 is juist, 2 is onjuist
c. Stelling 1 is onjuist, 2 is juist
d. Stelling 1 en 2 zijn beide onjuist
12. Stel dat in een alignment tussen twee sequenties een interne gap met een lengte van meer dan
honderd aminozuren gemaakt moet worden, bijv. om over een inserted domain in een van de
sequenties heen te springen. Gegeven dat het DP algoritme gebruikt maakt van affine gap penalties,
dan leveren de volgende parameterwaarden waarschijnlijk de langste gaps (>100) op:
a. Gap-opening = 10, gap-extension = 2
b. Gap-opening = 2, gap-extension = 10
c. Gap-opening = 140, gap-extension = 0
d. Gap-opening = 0, gap-extension = 150
13. Evolutie kan gezien worden als een conserverend ontwikkelingsproces omdat
a. selectiedruk maakt dat de meerderheid van veranderingen, zoals mutaties en indels,
geaccepteerd wordt, maar dus niet allemaal.
b. bijna alle mutaties en indels de individuele fitness verminderen of zelfs lethaal kunnen zijn.
c. Darwin een conservatief mens was.
d. survival of the fittest betekent dat steeds de genen van de sterkste naar de volgende generatie
gaan.
14. Twee stellingen: (1) splicing (d.w.z. de intron/exon structuur van genen) is in 1976 ontdekt in
prokaryoten, en (2) het merendeel van de eukaryotische genen bestaat uit een enkele exon.
a. Stelling 1 en 2 zijn beide juist.
b. Stelling 1 is juist, 2 is onjuist.
c. Stelling 1 is onjuist, 2 is juist.
d. Stelling 1 en 2 zijn beide onjuist.
15. Twee stellingen:
(1) Een gen B dat paraloog is met gen A in soort 1 kan nooit een hogere sequentie-similariteit
hebben met het orthologe gen A’ in soort 2 (gen A in soort 1 is ortholoog met gen A’ in soort 2)
dan gen A en A’ hebben.
(2) Het vinden van orthologen is belangrijk voor een juiste vergelijking van genen.
a. Stelling 1 en 2 zijn beide juist.
b. Stelling 1 is juist, 2 is onjuist.
c. Stelling 1 is onjuist, 2 is juist.
d. Stelling 1 en 2 zijn beide onjuist.
16. Watson-Crick base-pairs in DNA zijn G-C en A-T. G-C paren hebben drie waterstofbruggen en A-T
paren hebben twee waterstofbruggen. Binnen archeabacteria die bij warmwaterbronnen leven (hoge
temperaturen) verwachten we eiwitten met de volgende eigenschap:
a. Een hoge G-C content
b. Een lage G-C content
c. Een G-C/A-T ratio van 1
d. Een G-C/A-T ratio van 0
3
uit 14
Naam:
Studentnummer:
17. Structural alignments (alignments gemaakt d.m.v. vergelijken (superponeren) van tertiaire
eiwitstructuren) worden vaak gebruikt om programma’s voor sequence alignment te testen. Dit
hangt samen met het volgende dogma:
a. Sequence more conserved than structure
b. DNA makes RNA makes Protein
c. Structure more conserved than sequence
d. Structure less important than sequence
18. Welk van de volgende beweringen is juist:
a. twee genen zijn orthologen van elkaar wanneer ze zijn ontstaan ten gevolge van een
speciatie
b. twee genen zijn paralogen van elkaar wanneer ze zijn ontstaan ten gevolge van een speciatie
c. orthologen hebben meestal niet dezelfde functies
d. bij een sequence alignment worden meestal paraloge sequenties met elkaar vergeleken
omdat op deze manier de evolutie van een gen tussen species kan worden bestudeerd
19. ‘Het’ probleem van de standaard progressive alignment methode is dat:
a. er wordt gestart met de twee meest op elkaar lijkende sequenties.
b. een eenmaal gemaakte fout niet meer hersteld kan worden.
c. de gemaakte guide tree vaak niet de juiste fylogenetische boom is.
d. het maken van de profile-profile alignments computationeel intensief is.
20. Phylogeny: De UPGMA methode kan correct toegepast worden op phylogenetische data wanneer de
afstanden tussen de objecten ultrametric zijn. De neighbour joining (NJ) clustermethode verlangt
alleen dat de afstanden additive zijn. De volgende stelling met betrekking tot deze twee criteria is
juist:
a. Wanneer afstanden ultrametric zijn, dan zijn ze zeker ook additive.
b. Wanneer afstanden additive zijn, dan zijn ze zeker ook ultrametric.
c. Bij een tree gebaseerd op additive afstanden, zijn de afstanden van de leaves naar de root
van de boom altijd gelijk.
d. Ultrametricity is mathematisch equivalent met additivity.
4
uit 14
Naam:
Studentnummer:
Deel B. Open vragen:
B.1. Beschrijf vier eigenschappen die nodig zijn om Darwiniaanse evolutie te krijgen.
5
uit 14
Naam:
Studentnummer:
B.2. Reverse engineering -- hieronder staat de DNA codon tabel:
Amino Acid
SLC DNA codons
Isoleucine
Leucine
Valine
Phenylalanine
Methionine
I
L
V
F
M
ATT, ATC, ATA
CTT, CTC, CTA, CTG, TTA, TTG
GTT, GTC, GTA, GTG
TTT, TTC
ATG
Cysteine
C
TGT, TGC
Alanine
Glycine
Proline
Threonine
Serine
Tyrosine
Tryptophan
Glutamine
Asparagine
Histidine
Glutamic acid
Aspartic acid
Lysine
Arginine
Stop codons
A
G
P
T
S
Y
W
Q
N
H
E
D
K
R
Stop
GCT, GCC, GCA, GCG
GGT, GGC, GGA, GGG
CCT, CCC, CCA, CCG
ACT, ACC, ACA, ACG
TCT, TCC, TCA, TCG, AGT, AGC
TAT, TAC
TGG
CAA, CAG
AAT, AAC
CAT, CAC
GAA, GAG
GAT, GAC
AAA, AAG
CGT, CGC, CGA, CGG, AGA, AGG
TAA, TAG, TGA
Gegeven de volgende eiwit sequentie in single-letter code:
TRDLW
(a) vraag: hoeveel verschillende DNA sequenties coderen voor dit eiwit?
(b) opdracht: Reverse-engineer twee DNA sequenties die beide coderen voor deze eiwit sequentie,
gebruikmakend van de bovenstaande codon tabel, zodanig dat de twee DNA sequenties maximaal
verschillen. Bepaal de afstand tussen twee codons door niet-identieke posities te tellen. Geef de twee
DNA sequenties en bereken de Hamming distance (het aantal niet-identieke posities in de twee DNA
sequenties).
6
uit 14
Naam:
Studentnummer:
B.3. Gebruik het UPGMA clusteralgoritme om de sequenties te clusteren waarvoor het volgende
multiple alignment gegeven is:
Seq1.
Seq2.
Seq3.
Seq4.
STAVYLGYRS
SAHWYLGFKS
STPVFFGWHT
STPHYIGYHT
Opdracht 1: Gebruik sequentie-identiteiten om de onderstaande matrix in te vullen. Aan de ingevulde
cellen kun je zien of je aminozuur matches of mismatches moet tellen (en dus of de onderstaande matrix
een distance- of een similariteitsmatrix is).
0
Seq1
Seq2
Seq3
Seq4
0
0
Seq1
Seq2
Seq3
Opdracht 2: Voor de clustering uit, teken het dendrogram (boom) voor de vier sequenties en geef
afstanden (branch lengths).
Het UPGMA algoritme:
Initialisation:
•
•
Fill distance matrix with pairwise distances
Start with N clusters of 1 element each
Iteration:
•
•
•
Merge cluster C i and Cj for which dij is minimal
Place internal node connecting C i and Cj at height dij/2
Delete C i and Cj (keep internal node)
Termination:
•
When two clusters i, j remain, place root of tree at height dij/2
De afstand di,j tussen cluster C i end cluster Cj is gedefinieerd als:
1
di,j = ———————— ΣpΣq dp,q, where p ∈ Ci and q ∈ Cj
|Ci| × |Cj|
7
uit 14
0
Seq4
Naam:
Studentnummer:
Extra vel voor B3
8
uit 14
Naam:
Studentnummer:
B.4. Bereken m.b.v. dynamic programming het optimale semi-global alignment van de onder
aangegeven nucleotide sequenties (zie search matrix). Geef het optimale semi-global alignment en de
bijbehorende alignment score. Maak gebruik van de volgende formule:
H(i-1, j-1) +/- 1
H(i-1, j) - 2
H(i, j-1) - 2
0
H(i,j) = Max
,
d.w.z. match = 1 (dezelfde nucleotiden) , mismatch is –1 (verschillende nucleotiden), gap = 2 (linear
gaps)
Gebruik de onderstaande matrix:
j
i
0
-
1
G
2
A
3
G
4
G
5
C
0
1
2
3
4
-
G
A
G
T
Alignment:
Alignment score:
9
uit 14
Naam:
Studentnummer:
10
uit 14
Naam:
Studentnummer:
B.6. Beschrijf de algoritmische stappen van de progressive alignment strategie.
11
uit 14
Naam:
Studentnummer:
B.7. Profile (PSSM) comparison: de volgende twee MSA fragmenten worden met elkaar vergeleken:
-GAYK
-GAYK
SGVFK
SGVFR
SGLF-
en
DHA-V
EYP-EHP-V
EYA-V
GHPGI
De twee dikgedrukte alignment kolommen staan hieronder:
A
A
V
V
L
en
A
P
P
A
P
Deze zijn het onderwerp van de onderstaande vragen:
a) Maak de profile voor ieder van deze alignment kolommen (ieder van de twee kolommen
representeren een kolom van een multiple alignment van 5 sequenties).
b) Bereken de score voor het matchen van deze twee alignment posities, gebruik makend van twee
profile kolommen gemaakt in a).
NB: Bereken de score gewogen naar de frequenties in de profiles. De benodigde residue exchange
matrix voor de aminozuren die voorkomen in de alignment kolommen is als volgt (waarden volgens
PAM250):
A
L
P
V
2
-2
1
0
A
6
-3
2
L
6
-1
P
4
V
12
uit 14
Naam:
Studentnummer:
Extra vel 1
13
uit 14
Naam:
Studentnummer:
Extra vel 2
14
uit 14
Download