Bio-informatica Biologische databanken

advertisement
Bio-informatica
Biologische databanken
Peter De Rijk
3
Biologische databanken
●
●
●
●
●
●
●
●
●
Nucleinezuur sequentie databanken
Proteine sequentie databanken
Gespecialiseerde sequentie databanken
Genoom databanken
Publicaties
OMIM
Taxonomie
PDB
Software
Vroeger →
sequenties in
paper
Nucleinezuur sequentie
databanken
●
Belangrijkste nucleinezuur databases
–
–
–
–
EMBL (EBI, UK)
GenBank (NCBI, USA)
DDBJ (Japan)
nr
●
●
Genbank+EMBL+DDBJ+PDB sequenties
Non redundant: gedupliceerde sequenties werden
verwijderd
Nucleinezuur sequentie
databanken
●
Werkwijze
–
–
Wetenschappers submitten sequenties met
annotatie gegevens bij een van de drie centra bv.
via WEBIN (EBI) of BankIt (NCBI)
Data wordt onderling uitgewisseld
–
–
●
Bevatten alle 3 dezelfde data (bij benadering)
Formaten en manier van toegang verschillen
Gevaren:
–
–
–
Geen controle op kwaliteit van submissies
Annotatie en sequentie kwaliteit is de
verantwoordelijkheid van de auteurs
Fouten
Refseq (reference Sequence)
●
Refseq
–
–
–
●
Doel: 1 sequentie voor elk
natuurlijk voorkomend DNA,
RNA of proteine
Afgeleid van de publieke
databanken
Gecureerd door ncbi
Eigenschappen
–
–
–
–
Niet redundant
Gevalideerd
extra annotatie
Specifieke accessie nummers
Genbank formaat
●
●
●
Flatfile
Verschillende entries gescheiden door //
Een entry bevat
–
Annotatie gegevens
●
–
Feature tabel
●
–
informatie over de sequentie (accessietaxonomie,
literatuurgegevens, ...)
Plaats van features zoals bv. coderende regio in de
sequentie
Sequentie
Genbank formaat
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
MEDLINE
REFERENCE
AUTHORS
TITLE
JOURNAL
MEDLINE
REFERENCE
AUTHORS
TITLE
JOURNAL
SCU49845
5028 bp
DNA
PLN
21-JUN-1999
Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
(AXL2) and Rev7p (REV7) genes, complete cds.
U49845
U49845.1 GI:1293613
.
baker's yeast.
Saccharomyces cerevisiae
Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales;
Saccharomycetaceae; Saccharomyces.
1 (bases 1 to 5028)
Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.
Cloning and sequence of REV7, a gene whose function is required for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae
Yeast 10 (11), 1503-1509 (1994)
95176709
2 (bases 1 to 5028)
Roemer,T., Madden,K., Chang,J. and Snyder,M.
Selection of axial growth sites in yeast requires Axl2p, a novel
plasma membrane glycoprotein
Genes Dev. 10 (7), 777-793 (1996)
96194260
3 (bases 1 to 5028)
Roemer,T.
Direct Submission
Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New
Haven, CT, USA
FEATURES
source
CDS
gene
CDS
Genbank formaat
Location/Qualifiers
1..5028
/organism="Saccharomyces cerevisiae"
/db_xref="taxon:4932"
/chromosome="IX"
/map="9"
<1..206
/codon_start=3
/product="TCP1-beta"
/protein_id="AAA98665.1"
/db_xref="GI:1293614"
/translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA
AEVLLRVDNIIRARPRTANRQHM"
complement(3300..4037)
/gene="REV7"
complement(3300..4037)
/gene="REV7"
/codon_start=1
/product="Rev7p"
/protein_id="AAA98667.1"
/db_xref="GI:1293616"
/translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ
FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD
KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR
RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK
LISGDDKILNGVYSQYEEGESIFGSLF"
Genbank formaat
BASE COUNT
1510 a
1074 c
ORIGIN
1 gatcctccat atacaacggt
61 ccgacatgag acagttaggt
121 ctgcatctga agccgctgaa
181 gaaccgccaa tagacaacat
241 ccacactgtc attattataa
301 agacgcgaaa aaaaaagaac
361 attttggcaa cttatgtttc
421 aatacccatc gtaggtatgg
481 gagtcgccct cctttgtcga
541 tttactctca catcctgtag
601 acaattactt aatagaaaaa
661 cgtatatcaa gaagcattca
721 ctactatatc actactccat
781 aacaataccc cccagtggca
841 cctataaatc gtctgtagac
901 gctggctttc gtttgactct
961 tatctgatgc gaacaccacg
1021 acagcacgtc tttgaacaat
1081 tatcgtcaga tttcaatcta
1141 acgctctgaa actagatcct
1201 ctaacgaaga atccattgtg
//
835 g
atctccacct
atcgtcgaga
gttctactaa
atgtaacata
ttagaaacag
aacgcgtcat
ctcttcgagc
ttaaagatag
gtaattttca
tgattgacac
ttatatcttc
cttaccatga
ctagtagtgg
agagtcaatg
aagacagctc
agttctagaa
ttgtatttca
acataccaat
ttggcgttgt
aatgaagtct
tcgtattacg
1609 t
caggtttaga
gttacaagct
gggtggataa
tttaggatat
aacgcaaaaa
agaacttttg
agtactcgag
catctccaca
cttttcatat
tgcaacagcc
ctcgaaacga
cacagcttca
ccacgcccta
aatcgtttac
aaataacata
cgttctcagg
atgtaatact
ttgttgttac
taaaaaacta
tcaacgtgac
gacgttctca
tctcaacaac
aaaacgagca
catcatccgt
acctcgaaaa
ttatccacta
gcaattcgcg
ccctgtctca
acctcaaagc
gagaacttat
accatcacta
tttcctgctt
gatttcatta
tgaggcatat
atttcaaatt
caattgcttc
tgaaccttct
cgagggtacg
aaaccgtcca
tggttatact
ttttgaccgt
gttgtataat
ggaaccattg
gtagtcagct
gcaagaccaa
taataaaccg
tataattcaa
tcacaaataa
agaatgtaat
tccttgccga
tttcttattc
gaagaacaga
ccaacatcta
ttgctgacag
cctatcggaa
tccaatgata
gacttaccga
tctgacttac
gactctgccg
tccatctcgc
aacggcaaaa
tcaatgttca
gcgccgttac
ID
XX
AC
XX
SV
XX
DT
DT
XX
DE
XX
KW
XX
OS
OC
OC
XX
RN
RP
RX
RA
RA
RT
RT
RT
RL
XX
DR
DR
XX
CC
CC
XX
HSAK1
standard; DNA; HUM; 12229 BP.
J04809;
J04809.1
EMBL formaat
22-APR-1990 (Rel. 23, Created)
02-JUL-1999 (Rel. 60, Last updated, Version 5)
Human cytosolic adenylate kinase (AK1) gene, complete cds.
adenylate kinase.
Homo sapiens (human)
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
Eutheria; Primates; Catarrhini; Hominidae; Homo.
[1]
1-12229
MEDLINE; 89255503.
Matsuura S., Igarashi M., Tanizawa Y., Yamada M., Kishi F., Kajii T.,
Fujii H., Miwa S., Sakurai M., Nakazawa A.;
"Human adenylate kinase deficiency associated with hemolytic anemia. A
single base substitution affecting solubility and catalytic activity of the
cytosolic adenylate kinase";
J. Biol. Chem. 264(17):10148-10155(1989).
GDB; 119664; AK1.
SWISS-PROT; P00568; KAD1_HUMAN.
Draft entry and computer-readable sequence for [1] kindly provided
by A.Nakazawa, 10-JUL-1989.
FH
FH
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
XX
Key
Location/Qualifiers
source
1..12229
/db_xref="taxon:9606"
/organism="Homo sapiens"
/tissue_lib="of T.Maniatis"
/map="9q34.1"
902..908
944..983
/note="G00-119-664"
/number=1
/partial
/gene="AK1"
join(944..983,3948..3988,5534..5569,5742..5905,6656..6772,
10075..10266,10508..12188)
/note="G00-119-664"
/gene="AK1"
/product="adenylate kinase"
join(944..983,3948..3988,5534..5569,5742..5905,6656..6772,
10075..10266,10508..12188)
/gene="AK1"
984..3947
/note="G00-119-664; does not fit consensus"
/number=1
/gene="AK1"
3948..3988
/note="G00-119-664"
/number=2
/gene="AK1"
join(3982..3988,5534..5569,5742..5905,6656..6772,
10075..10266,10508..10576)
/codon_start=1
/db_xref="SWISS-PROT:P00568"
/gene="AK1"
/product="adenylate kinase"
/protein_id="AAA51686.1"
/translation="MEEKLKKTKIIFVVGGPGSGKGTQCEKIVQKYGYTHLSTGDLLRS
EVSSGSARGKKLSEIMEKGQLVPLETVLDMLRDAMVAKVNTSKGFLIDGYPREVQQGEE
FERRIGQPTLLLYVDAGPETMTQRLLKRGETSGRVDDNEETIKKRLETYYKATEPVIAF
YEKRGIVRKVNAEGSVDSVFSQVCTHLDALK"
5534..5569
/note="G00-119-664"
/number=3
TATA_signal
exon
mRNA
gene
intron
exon
CDS
exon
EMBL formaat
SQ
//
Sequence 12229 BP; 2417 A; 3457 C; 3877 G; 2478 T; 0 other;
tagcctataa tacaaattcc aacccacctc atctggggct gctgcctggg ctcccatccc
tgcccggcta catcactgag cacctactac tatgtgccag tctccctgca aaacgctgga
taaacacgtg gctttctacc agggaacctc ccgcaaggta tttgacatgc tcgcctcccg
ttctctgctg tgtctaagga ttcacagatg cggctggagt ctgctgctta gcacagtgag
tcgtcattat gggagctatt cttcttatca agaccgcaaa tcccctctct ggctatccac
agccttctga atgtcccggg caactccagg ggagcagggc tggttttcta taatcttcta
ccttactggg tggtctttgg ggtctggcgg gttccagtcc cagaggagct cgaagggtcc
ctccaacagg ggaagaggag tcccaggtgg gtcctggcca gggcctctgg gcaggctctg
agggcgggct tggggactgt ggccagcaaa gcccctgagt cgatgcctca gccctctcgc
tccctggtct ggcctctctc tggcaccaat gcgctgtggg attttgcgga aagagccgct
cttctctgag cctcagtttc tccagctatc atagggaaag cctggccttg taccttgagc
acagtcgggg tatcgcaatg gaaaactctt ggcaaactgt aaagtgtagt tcgcgtgtgt
gtgggcacag ccacctgggg gtccacggtg cggggcacac ggtgcgggtg cggtgtcgcc
gcgcacccgg ctcgggctcg gtcccgcccc gcttcccggt ccctggtccg ctctccctcc
ctccttcccg ccctccctgc cttcgggaac gccggctccc gatgccgcgc gctgacagcc
ttataaatag tcgcctttgc cggccgccgc gaggacgggc agggcacgca ctggccccgg
cgcccacccg cacccctccc caggtcagtg cgtgcccgcg cgtgtctggg ggggcgcctc
tgcggggagg ggcagcggca ccgggggagg gcgggggcgt cctggtgcgg ggctccctgg
gggctgtgcc ggctgtgtat ccgtggttgt gatccgtgtg tgtttgcgtg gctgtgttcc
ccgggcgctg gggatctgtg cctcgctgcc tgtgcctttg tggatccgtg cgtgtgtgtg
cgtgtgtgtt tgtgtgtgtt gcagcccctt ccagcctccg agatagtcac ccctttgttc
tggctggcac tcccggggct ccaggtcact gcccttggca tgtcccagct tgggcccaga
gagggagagc tgtggcctgg ctccctgccc cagaggacct ggacaggggc agcctctgtg
ctccgtaggc tatcgtgtca ctccacttct agtgctgggt gcattggaga acaccccctg
gatgctcaga gcttgcccta gcctcctgac cagggccagc gcttggggcc ttcccacagc
60
120
180
240
300
360
420
480
540
600
660
720
780
840
900
960
1020
1080
1140
1200
1260
1320
1380
1440
1500
Proteïne sequentie databanken
●
UniProt
●
●
Samenwerking Expasy (U.Geneva),EBI,PIR
Subdatabanken:
–
–
–
●
UniProtKB (Knowledge Base) : protein sequenties en informatie
UniRef (Reference Clusters) : combineren van verwante sequenties
voor snelle searches
UniParc (Archive) : geschiedenis van sequenties
UniProtKB/Swiss-Prot
–
Gecurateerd / gereviewed
●
Uitgebreide en betrouwbare annotatie
–
●
●
–
–
functie, domein structuur, post-translationele modificaties, varianten
Varianten en fragmenten in 1 entry
Minder snelle groei: veel werk
Beschikbaar via ExPASy, EBI en NCBI
~ EMBL formaat
Proteïne sequentie databanken
●
UniProtKB/TrEMBL en GenPept
–
–
–
Vertalingen van CDS features in EMBL en
GenBank (Translated EMBL)
Meest uitgebreid
Minste kwaliteit / minder betrouwbaar
●
●
Kan zelfs sequenties bevatten die niet echt voorkomen
bv. Van een voorspeld CDS
Nr: Non redundant:
–
Samenvoeging van alle databanken met
verwijdering van duplicaten
●
SWISS-PROT + PIR + PRF + TrEMBL + GenPept +
TrDDBJ + PDB sequenties
Gespecialiseerde sequentie
databanken
●
Vele gespecialiseerde databanken
●
●
●
●
Overzicht in database issue Nucleic Acids Research
(tijdschrift)
Gewoonlijk een beperkte set informatie: bv. Voor rRNA
sequenties
Start van een primaire databank
Mogelijke voordelen
●
●
●
●
●
Onderhouden door specialisten in het veld
Gecorrigeerde en niet redundante informatie
Gestandaardiseerde zoek woorden
Goed gedefinieerde data sets
Extra informatie niet aanwezig in de algemene databanken
Gespecialiseerde sequentie
databanken
●
Voorbeelden
–
Unigene
–
–
Eukaryotic Promoter Database (EPD)
–
–
HIV en SIV sequenties
HOVERGEN
–
–
ribosomale RNA sequenties met alignementen en structuur
Aidsbase
–
–
experimenteel bepaalde promotoren voor RNA polymerase II
European rRNA database (RUG, Belgium)
–
–
geexpresseerde sequenties, geclusterd per gen
...
Vertebraat genen geclassifieerd per proteïne familie
Genoom databanken
●
Sectie met volledige genoom sequenties op
EBI, NCBI en UCSC
–
–
–
Annotatie door automatische annotatie
pipelines
Integratie met mapping data e.d.
Specifieke interfaces (WWW)
●
●
●
Mapviewer
Ensembl
UCSC genome browser
Publicaties
●
Medline / Pubmed
–
–
–
–
Verzameling referenties en abstracts (meestal)
van de publicaties in de meeste medische en
“life sciences” journals
Beschikbaar op NCBI
Kan doorzocht worden op basis van auteur,
journal, titel, abstract, ...
Links naar
●
●
Sites met “full text articles”
Gerelateerde artikels
Pubmed
OMIM: humane genetica
●
OMIM: Online Mendelian Inheritance in Man
–
–
–
–
–
Beschikbaar via NCBI
Cataloog van humane genen en genetische
ziekten (en de correlatie tussen genen en
ziekten)
tekstuele informatie, beelden en referenties
links naar MEDLINE artikels en sequentie
informatie (via NCBI's Entrez)
OMIM Morbid Map: Cataloog van genetische
ziekten en hun cytogenetische map locaties
Taxonomie databank (NCBI)
Taxonomie databank (NCBI)
Gene Ontology
●
Gene Ontology (GO)
–
–
Gecontroleerde, goed gedefinieerde, standaard vocabulaires om eigenschappen
en functies van genen weer te geven
3 domeinen
●
●
●
–
cellulaire componenten: de delen van een cel of de extracellulaire omgeving;
moleculaire functie: de elementaire activiteiten van een genproduct op moleculaire schaal,
zoals binding of enzymatische katalyse;
biologische processen: activiteiten of een verzameling van moleculaire gebeurtenissen
GO-termen hebben
●
●
●
●
●
●
Accession of Id: een unieke, alfanumerieke waarde om de eigenschap mee te identificeren
Naam: één of meerdere woorden;
Definitie met wetenschappelijke bronnen;
Namespace (ontology): naamruimte om → tot welk domein behoort de term .
Verder kan ook: synoniemen, referenties (xref) naar equivalente concepten in andere
andere databanken, commentaar over de term of zijn gebruik bevatten.
Relaties met andere GO-termen (→ hierarchie)
–
–
–
is_a: is een subtype van, bv. lyase activity is a catalytic activity
part_of: is een (noodzakelijk) deel van, bv. Replication fork is part of chromosome
regulates: reguleert, bv. cell cycle checkpoint regulates the cell cycle
Gene Ontology
Hiërarchie in GO
3D structuur
●
PDB
–
–
–
Protein Data Bank
3D structuur
Beschikbaar via ExPASy
PDBe
DBREF: identificatie structuu
Proteine sequentie
Secundaire
structuur
3D coordinaten per
atoom
Databanken doorzoeken op basis
van metadata en annotatie
●
●
●
●
●
Queries op basis van annotatie
Entrez
SRS
Mapviewer
Ensembl
Queries op annotatie
●
Zoeken naar keywords
–
–
Naam van gen, accessienummer, ...
Geen uniforme terminologie
●
●
Vals negatieven wegens alternatieve benamingen,
foute spelling
Vals positieven bij te weinig specifieke keywords,
overlappende benamingen
–
–
●
●
b.v. 16S voor bacterieel kleine subeenheid rRNA en grote
subeenheid rRNA van dierlijke mitochondrieen
b.v. 16S ribosomaal RNA
●
16s ribosomal rna (6143), 16s rrna gene (1741), 16s rrna
(569), 16s rdna (70), 16s ribosomal dna (107), 16s
ribosoaml rna (4), …
Combinatie van keywords
Eventueel beperkt tot bepaalde velden
Entrez (NCBI)
●
●
●
Integratie
verschillende
databanken
Je kan specifiëren in
welke database je wil
zoeken
Links tussen entries in
alle databanken
–
b.v. Van sequentie
naar publicatie over de
sequentie
Entrez interfaces
●
●
Email: [email protected]
network entrez
–
–
–
●
lokaal programma dat met de NCBI site
connecteert
Nentrez: grafische interface (Windows,
Macintosh, X-Windows)
nclever: commando lijn interface
WWW: http://www.ncbi.nlm.nih.gov/Entrez
Gebruik Entrez
●
●
●
Selecteer databank
Zoek termen
Limits
●
●
Beperkingen op basis van type van sequentie,
chromosome, ...
Advanced search or Preview/Index
●
●
●
Samenstellen query
Selecteer velden van lijst
boolean operators ( “AND” “OR” “NOT”)
●
●
Specifieer of alle zoektermen samen moeten voorkomen, of slechts
een van de zoektermen voldoende is
History
●
●
Geschiedenis van alle searches dat je hebt gedaan
Combinatie of verfijnen van vroegere zoektochten
SRS: Sequence Retrieval System
●
Historiek
–
–
–
●
EMBL-EBI
Since v. 6 commercieel bedrijf LION
Vrij voor academisch gebruik via EBI
Omchrijving
–
–
–
Doorzoeken vele databases via 1 web interface
Keywords, boolean
Links naar andere databanken
MapViewer
●
Deel van Entrez genomes (NCBI)
●
Specifieke interface om in genoom databanken
te zoeken
●
Overzicht, visualisatie van volledige genomen
●
●
●
●
Geintegreerde mapping data voor elk chromosoom
Sequentie data
Links naar andere databanken
Doorzoekbaar
●
Gen symbool, map positie, ...
MapViewer: vier niveaus van detail
●
Home Page
–
–
●
Genome View
–
●
Grafische display chromosoom ideogrammen
Map View
–
–
–
●
Samenvatting beschikbare resources per organisme
Kies build
1 of meer mappen van een bepaald chromosoom
alignatie t.o.v. een “master map” op basis van corresponderende objecten
Verschillende resoluties (start – einde)
Sequence View
–
–
–
Sequentie data en biologische gegevens
Locatie van genen, STSs, FISH mapped clones, ESTs, GenomeScan
models, en variaties
Gebaseerd op NCBI contigs en BAC tiling path (the 'GenBank' map)
1. Select organism/build
Mapviewer
2. Genome view
3. Map view
4. Sequence view
Ensembl
●
EBI-Sanger genoom browser
–
–
–
Genoom sequenties
Maps
Annotaties
●
●
●
–
–
Genen (ook voorspellingen pipeline)
Ziekten
...
Web interface via http://www.ensembl.org/
Ook database interface
Genoom databanken
●
Verschil in data tussen genoom databanken
–
–
–
Verschillende genoomdatabanken gebruiken eigen,
verschillende analyses om genen, verschillende
isovormen, etc. terug vinden
Gegevens worden niet standaard uitgewisseld
Van een bepaald gen kunnen er b.v. meer
isovormen bekend zijn in Ensembl, voor een ander
gen in Mapviewer
Download