1. Wat is het verschil tussen sequentie-homologie en

advertisement
1. Wat is het verschil tussen sequentie-homologie en sequentie-similariteit?
2. Geef een voorbeeld van een orthologe of paraloge genrelatie.
3. Wanneer gebruiken we bij voorkeur een globale alineëring.
4. Waarom is een lokale alineëring geschikter voor het vinden van sequentie-similariteit
tussen eiwitsequenties?
5. Waarin onderscheid de dotplot methode zich van de andere alineëringsmethoden?
6. Wat is het belang van scorematrices in de alineëring van eiwitsequenties?
7. Waarom bestaan er verschillende soorten scorematrices zoals BLOSUM en PAM?
8. Wanneer gebruiken we BLOSUM en wanneer PAM scorematrices?
9. Alignment methoden voor moleculaire sequenties worden ook gebruikt om sequenties
die uit verschillende laboratoria komen met elkaar te vergelijken. Stel je voor dat een
zelfde stuk DNA is opgehelderd in twee verschillende laboratoria. Dit stuk DNA
codeert voor een eiwit.
Bij het controleren van de twee DNA sequenties blijkt dat er een foutje in het
sequeneren van de DNA sequentie in één van de laboratoria is geslopen, want er wordt
een verschil op één alignment positie aangetroffen.
Bij het aligneren van de eiwitsequenties die gecodeerd worden door ieder van de DNA
sequenties blijkt dat de eerste 11 aminozuren in beide sequenties hetzelfde zijn, maar
dan worden de aminozuren opeens compleet verschillend.
Vraag: Wat is hier misgegaan? Raad de fout in de DNA sequentie (en op welke
positie) en verklaar waarom dit leidt tot het bovenstaande verschil in de
eiwitsequenties.
10. Single nucleotide polymorphisms (SNPs) in DNA sequenties komen in de mens
ongeveer met de volgende frequentie voor:
a. 1 op de 15 nucleotiden
b. 1 op de 150 nucleotiden
c. 1 op de 1500 nucleotiden
d. 1 op de 15000 nucleotiden
11. Bereken de score van de DNA sequentie alineëring hieronder gebruik makend van de
volgende regels: +1 voor een match, -2 voor een mismatch, -3 voor het openen van
een gap en -1 voor elke positie in de gap:
TCACGGCGGACA--GTG
||||| || |||
|||
TCACGACGCACACAGTG
12. De “affine gap penalty” is het meest gebruikte type van gap penalty. Waarom zou dit
zijn?
13. Wanneer wordt TBLASTX het best gebruikt?
14. Wat zijn de belangrijkste redenen waarom BLAST zoveel sneller is dan SmithWaterman alineëring?
15. Toch gebruiken we nog steeds de Smith-Waterman alineëringsmethode. Wat is
hiervoor de belangrijkste reden? Wat is m.a.w. het zwakke punt van BLAST t.o.v. het
Smith-Waterman algoritme?
16. Waarom moeten we de gebieden met lage complexiteit zoals repetitieve sequenties in
query sequenties verwijderen vooraleer we gaan zoeken in sequentiedatabanken met
bvb. BLAST?
17. PSI-BLAST wordt aanbevolen als de beste methode voor een zoektocht in
eiwitsequentie databanken. Waarom zou dit zijn?
18. PSI-BLAST mag dan wel een zeer krachtig werktuig zijn voor het zoeken naar
sequentie-similariteit, toch moet je voor één ding oppassen wanneer je PSI-BLAST
gebruikt. Wat is het en hoe kan je het vermijden?
19. Wat is het meest geconserveerd tussen 2 homologe proteinen, hun sequentie of hun
structuur?
20.
Wat is ‘homology modelling’ en wanneer kunnen we dit toepassen?
21.
Beschrijf de verschillende stappen in een homology modelling project.
22.
Welke van de volgende sequenties bevat het motief G-H-E-x(2)-G-x(5)-[GA]
uit de PROSITE databank:
Seq. A: GHKNGVLVYLGA
Seq. B: GHEKRGKVYLVG
Seq. C: GHEGGRYVKRGA
Seq. D: GVLYVKGRKARV
23. Gegeven hieronder een alineëring van 4 bindingsites voor een transcriptiefactor:
TTCGAC
GTGGAC
GTCGAC
GTCAAC
Welke van de volgende 3 positie-specifieke score matrices (PSSM) is het meest
waarschijnlijk correct?
Een analyse van 77 bindingssites voor een transcriptiefactor geeft volgende PSSM:
De sequentiefragmenten hieronder bevatten de bindingsite. Geef aan welk fragment de meest
sterke en meest zwakke bindingsite bevat:
fragment 1: ACCTGCG
fragment 2: CACTGTC
fragment 3: TGCTGAC
24. Hoeveel artikels die handelen over virussen zijn tot nu toe gepubliceerd in het
tijdschrift ‘Bioinformatics’? [Zoek dit op gebruik makend van PubMed.]
25. Vind het RefSeq accessienummer van menselijk beta-globine? Op welk chromosoom
is dit gen gelocalizeerd? (bvb. 12q23-q24.1, 1q34, etc…)
26. Extraheer de promoter sequentie van dit gen tot 1000 bp stroomopwaarts van de
transcriptie startsite. [hint: zowel UCSC als Ensembl zijn beide handig hiervoor…]
27. Vind de genomische locatie van NM_004635.2? [hint: gebruik BLAT]
28.
De volgende sequentie komt uit een boek van Michael Crichton, de auteur van
‘Jurassic Park’. Doe een blastx search en kijk zorgvuldig naar het resultaat van de
tophit. Hierin zit een boodschap verborgen van de bioinformaticus Mark Bogulski.
Wat is die boodschap? [hint: let op de gaps…]
>LostWorld
gaattccgga
gacgtgtggc
atggagttcg
gccggagcct
tcctaccccc
accccccagt
caaccccccc
gggcccccac
gcaacgccgc
tgcgggctct
ctgcgggtga
tccaccacca
gcctgcggcc
ggaatccaaa
gggggaaacc
tctatgcccc
gctctcggcc
tttggggggg
ataactctga
cctcggcaat
cagataagca
gacaaatccc
aaattactgt
tcggaggcgg
DinoDNA from the book
agcgagcaag agataagtcc
agctcccgca gaggattcac
tggcgctggg ggggccggat
tcctggggct gggggggggc
cctcaggccg cgtgtccctg
gggtgccgcc cgccacccaa
ggggcagccc cccccatccc
cctgcgaggc ccgtgagtgc
tgtggcgccg ggacggcacc
accaccgcct caacggccag
gtaagcgcgc aggcacagtg
ctctgtggcg tcgcagcccc
tctactacaa actgcaccaa
cccgaaaccg caaagtttcc
cctccgccac cgcgggaggg
ccccgccgcc ccccccggcc
ccgtggtcct ttcgggccat
gggcgggggg ttacacggcc
cgtgggcaag tgggccttgc
tgcagagggt cgatctccac
ctttgctccc tggactgaaa
tgtgaaaggt aaaagtcgga
gaatattgta aatatatata
catggaccca gcgtagatca
The Lost World
tggcatcaga tacagttgga
tggaagtgca ttacctatcc
gcgggctccc ccactccgtt
gagaggacgg aggcgggggg
gtgccgtggg cagacacggg
atggagcccc cccactacct
tcctccgggc ccctactgcc
gtcatggcca ggaagaactg
gggcattacc tgtgcaactg
aaccgcccgc tcatccgccc
tgcagccacg agcgtgaaaa
atgggggacc ccgtctgcaa
gtgaaccgcc ccctcacgat
tccaagggta aaaagcggcg
ggcgctccta tggggggagg
gccgcccccc ctcaaagcga
tttctgccct ttggaaactc
cccccggggc tgagcccgca
tgagaagaca gtgtaacata
tttggacaca acagggctac
aagaaaggat ttatctgttt
cacagcaatc gattatttct
tatatatata tatatctgta
tgctggattt gtactgccgg
gataaggacg
catgggagcc
ccctgatgaa
gctgctggcc
tactttgggg
ggagctgctg
actcagcagc
cggagcgacg
ggcctcagcc
caaaaagcgc
ctgccagaca
caacattcac
gcgcaaagac
ccccccgggg
gggggacccc
cgctctgtac
cggagggttt
gatttaaata
ataatttgca
tcggtaggac
gcttcttgct
cgcctgtgtg
tagaacagcc
aattc
Download