Bio-informatica Biologische databanken Peter De Rijk 3 Biologische databanken ● ● ● ● ● ● ● ● ● Nucleinezuur sequentie databanken Proteine sequentie databanken Gespecialiseerde sequentie databanken Genoom databanken Publicaties OMIM Taxonomie PDB Software Vroeger → sequenties in paper Nucleinezuur sequentie databanken ● Belangrijkste nucleinezuur databases – – – – EMBL (EBI, UK) GenBank (NCBI, USA) DDBJ (Japan) nr ● ● Genbank+EMBL+DDBJ+PDB sequenties Non redundant: gedupliceerde sequenties werden verwijderd Nucleinezuur sequentie databanken ● Werkwijze – – Wetenschappers submitten sequenties met annotatie gegevens bij een van de drie centra bv. via WEBIN (EBI) of BankIt (NCBI) Data wordt onderling uitgewisseld – – ● Bevatten alle 3 dezelfde data (bij benadering) Formaten en manier van toegang verschillen Gevaren: – – – Geen controle op kwaliteit van submissies Annotatie en sequentie kwaliteit is de verantwoordelijkheid van de auteurs Fouten Refseq (reference Sequence) ● Refseq – – – ● Doel: 1 sequentie voor elk natuurlijk voorkomend DNA, RNA of proteine Afgeleid van de publieke databanken Gecureerd door ncbi Eigenschappen – – – – Niet redundant Gevalideerd extra annotatie Specifieke accessie nummers Genbank formaat ● ● ● Flatfile Verschillende entries gescheiden door // Een entry bevat – Annotatie gegevens ● – Feature tabel ● – informatie over de sequentie (accessietaxonomie, literatuurgegevens, ...) Plaats van features zoals bv. coderende regio in de sequentie Sequentie Genbank formaat LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL MEDLINE REFERENCE AUTHORS TITLE JOURNAL MEDLINE REFERENCE AUTHORS TITLE JOURNAL SCU49845 5028 bp DNA PLN 21-JUN-1999 Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. U49845 U49845.1 GI:1293613 . baker's yeast. Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. 1 (bases 1 to 5028) Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae Yeast 10 (11), 1503-1509 (1994) 95176709 2 (bases 1 to 5028) Roemer,T., Madden,K., Chang,J. and Snyder,M. Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein Genes Dev. 10 (7), 777-793 (1996) 96194260 3 (bases 1 to 5028) Roemer,T. Direct Submission Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES source CDS gene CDS Genbank formaat Location/Qualifiers 1..5028 /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" complement(3300..4037) /gene="REV7" complement(3300..4037) /gene="REV7" /codon_start=1 /product="Rev7p" /protein_id="AAA98667.1" /db_xref="GI:1293616" /translation="MNRWVEKWLRVYLKCYINLILFYRNVYPPQSFDYTTYQSFNLPQ FVPINRHPALIDYIEELILDVLSKLTHVYRFSICIINKKNDLCIEKYVLDFSELQHVD KDDQIITETEVFDEFRSSLNSLIMHLEKLPKVNDDTITFEAVINAIELELGHKLDRNR RVDSLEEKAEIERDSNWVKCQEDENLPDNNGFQPPKIKLTSLVGSDVGPLIIHQFSEK LISGDDKILNGVYSQYEEGESIFGSLF" Genbank formaat BASE COUNT 1510 a 1074 c ORIGIN 1 gatcctccat atacaacggt 61 ccgacatgag acagttaggt 121 ctgcatctga agccgctgaa 181 gaaccgccaa tagacaacat 241 ccacactgtc attattataa 301 agacgcgaaa aaaaaagaac 361 attttggcaa cttatgtttc 421 aatacccatc gtaggtatgg 481 gagtcgccct cctttgtcga 541 tttactctca catcctgtag 601 acaattactt aatagaaaaa 661 cgtatatcaa gaagcattca 721 ctactatatc actactccat 781 aacaataccc cccagtggca 841 cctataaatc gtctgtagac 901 gctggctttc gtttgactct 961 tatctgatgc gaacaccacg 1021 acagcacgtc tttgaacaat 1081 tatcgtcaga tttcaatcta 1141 acgctctgaa actagatcct 1201 ctaacgaaga atccattgtg // 835 g atctccacct atcgtcgaga gttctactaa atgtaacata ttagaaacag aacgcgtcat ctcttcgagc ttaaagatag gtaattttca tgattgacac ttatatcttc cttaccatga ctagtagtgg agagtcaatg aagacagctc agttctagaa ttgtatttca acataccaat ttggcgttgt aatgaagtct tcgtattacg 1609 t caggtttaga gttacaagct gggtggataa tttaggatat aacgcaaaaa agaacttttg agtactcgag catctccaca cttttcatat tgcaacagcc ctcgaaacga cacagcttca ccacgcccta aatcgtttac aaataacata cgttctcagg atgtaatact ttgttgttac taaaaaacta tcaacgtgac gacgttctca tctcaacaac aaaacgagca catcatccgt acctcgaaaa ttatccacta gcaattcgcg ccctgtctca acctcaaagc gagaacttat accatcacta tttcctgctt gatttcatta tgaggcatat atttcaaatt caattgcttc tgaaccttct cgagggtacg aaaccgtcca tggttatact ttttgaccgt gttgtataat ggaaccattg gtagtcagct gcaagaccaa taataaaccg tataattcaa tcacaaataa agaatgtaat tccttgccga tttcttattc gaagaacaga ccaacatcta ttgctgacag cctatcggaa tccaatgata gacttaccga tctgacttac gactctgccg tccatctcgc aacggcaaaa tcaatgttca gcgccgttac ID XX AC XX SV XX DT DT XX DE XX KW XX OS OC OC XX RN RP RX RA RA RT RT RT RL XX DR DR XX CC CC XX HSAK1 standard; DNA; HUM; 12229 BP. J04809; J04809.1 EMBL formaat 22-APR-1990 (Rel. 23, Created) 02-JUL-1999 (Rel. 60, Last updated, Version 5) Human cytosolic adenylate kinase (AK1) gene, complete cds. adenylate kinase. Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. [1] 1-12229 MEDLINE; 89255503. Matsuura S., Igarashi M., Tanizawa Y., Yamada M., Kishi F., Kajii T., Fujii H., Miwa S., Sakurai M., Nakazawa A.; "Human adenylate kinase deficiency associated with hemolytic anemia. A single base substitution affecting solubility and catalytic activity of the cytosolic adenylate kinase"; J. Biol. Chem. 264(17):10148-10155(1989). GDB; 119664; AK1. SWISS-PROT; P00568; KAD1_HUMAN. Draft entry and computer-readable sequence for [1] kindly provided by A.Nakazawa, 10-JUL-1989. FH FH FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT FT XX Key Location/Qualifiers source 1..12229 /db_xref="taxon:9606" /organism="Homo sapiens" /tissue_lib="of T.Maniatis" /map="9q34.1" 902..908 944..983 /note="G00-119-664" /number=1 /partial /gene="AK1" join(944..983,3948..3988,5534..5569,5742..5905,6656..6772, 10075..10266,10508..12188) /note="G00-119-664" /gene="AK1" /product="adenylate kinase" join(944..983,3948..3988,5534..5569,5742..5905,6656..6772, 10075..10266,10508..12188) /gene="AK1" 984..3947 /note="G00-119-664; does not fit consensus" /number=1 /gene="AK1" 3948..3988 /note="G00-119-664" /number=2 /gene="AK1" join(3982..3988,5534..5569,5742..5905,6656..6772, 10075..10266,10508..10576) /codon_start=1 /db_xref="SWISS-PROT:P00568" /gene="AK1" /product="adenylate kinase" /protein_id="AAA51686.1" /translation="MEEKLKKTKIIFVVGGPGSGKGTQCEKIVQKYGYTHLSTGDLLRS EVSSGSARGKKLSEIMEKGQLVPLETVLDMLRDAMVAKVNTSKGFLIDGYPREVQQGEE FERRIGQPTLLLYVDAGPETMTQRLLKRGETSGRVDDNEETIKKRLETYYKATEPVIAF YEKRGIVRKVNAEGSVDSVFSQVCTHLDALK" 5534..5569 /note="G00-119-664" /number=3 TATA_signal exon mRNA gene intron exon CDS exon EMBL formaat SQ // Sequence 12229 BP; 2417 A; 3457 C; 3877 G; 2478 T; 0 other; tagcctataa tacaaattcc aacccacctc atctggggct gctgcctggg ctcccatccc tgcccggcta catcactgag cacctactac tatgtgccag tctccctgca aaacgctgga taaacacgtg gctttctacc agggaacctc ccgcaaggta tttgacatgc tcgcctcccg ttctctgctg tgtctaagga ttcacagatg cggctggagt ctgctgctta gcacagtgag tcgtcattat gggagctatt cttcttatca agaccgcaaa tcccctctct ggctatccac agccttctga atgtcccggg caactccagg ggagcagggc tggttttcta taatcttcta ccttactggg tggtctttgg ggtctggcgg gttccagtcc cagaggagct cgaagggtcc ctccaacagg ggaagaggag tcccaggtgg gtcctggcca gggcctctgg gcaggctctg agggcgggct tggggactgt ggccagcaaa gcccctgagt cgatgcctca gccctctcgc tccctggtct ggcctctctc tggcaccaat gcgctgtggg attttgcgga aagagccgct cttctctgag cctcagtttc tccagctatc atagggaaag cctggccttg taccttgagc acagtcgggg tatcgcaatg gaaaactctt ggcaaactgt aaagtgtagt tcgcgtgtgt gtgggcacag ccacctgggg gtccacggtg cggggcacac ggtgcgggtg cggtgtcgcc gcgcacccgg ctcgggctcg gtcccgcccc gcttcccggt ccctggtccg ctctccctcc ctccttcccg ccctccctgc cttcgggaac gccggctccc gatgccgcgc gctgacagcc ttataaatag tcgcctttgc cggccgccgc gaggacgggc agggcacgca ctggccccgg cgcccacccg cacccctccc caggtcagtg cgtgcccgcg cgtgtctggg ggggcgcctc tgcggggagg ggcagcggca ccgggggagg gcgggggcgt cctggtgcgg ggctccctgg gggctgtgcc ggctgtgtat ccgtggttgt gatccgtgtg tgtttgcgtg gctgtgttcc ccgggcgctg gggatctgtg cctcgctgcc tgtgcctttg tggatccgtg cgtgtgtgtg cgtgtgtgtt tgtgtgtgtt gcagcccctt ccagcctccg agatagtcac ccctttgttc tggctggcac tcccggggct ccaggtcact gcccttggca tgtcccagct tgggcccaga gagggagagc tgtggcctgg ctccctgccc cagaggacct ggacaggggc agcctctgtg ctccgtaggc tatcgtgtca ctccacttct agtgctgggt gcattggaga acaccccctg gatgctcaga gcttgcccta gcctcctgac cagggccagc gcttggggcc ttcccacagc 60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1020 1080 1140 1200 1260 1320 1380 1440 1500 Proteïne sequentie databanken ● UniProt ● ● Samenwerking Expasy (U.Geneva),EBI,PIR Subdatabanken: – – – ● UniProtKB (Knowledge Base) : protein sequenties en informatie UniRef (Reference Clusters) : combineren van verwante sequenties voor snelle searches UniParc (Archive) : geschiedenis van sequenties UniProtKB/Swiss-Prot – Gecurateerd / gereviewed ● Uitgebreide en betrouwbare annotatie – ● ● – – functie, domein structuur, post-translationele modificaties, varianten Varianten en fragmenten in 1 entry Minder snelle groei: veel werk Beschikbaar via ExPASy, EBI en NCBI ~ EMBL formaat Proteïne sequentie databanken ● UniProtKB/TrEMBL en GenPept – – – Vertalingen van CDS features in EMBL en GenBank (Translated EMBL) Meest uitgebreid Minste kwaliteit / minder betrouwbaar ● ● Kan zelfs sequenties bevatten die niet echt voorkomen bv. Van een voorspeld CDS Nr: Non redundant: – Samenvoeging van alle databanken met verwijdering van duplicaten ● SWISS-PROT + PIR + PRF + TrEMBL + GenPept + TrDDBJ + PDB sequenties Gespecialiseerde sequentie databanken ● Vele gespecialiseerde databanken ● ● ● ● Overzicht in database issue Nucleic Acids Research (tijdschrift) Gewoonlijk een beperkte set informatie: bv. Voor rRNA sequenties Start van een primaire databank Mogelijke voordelen ● ● ● ● ● Onderhouden door specialisten in het veld Gecorrigeerde en niet redundante informatie Gestandaardiseerde zoek woorden Goed gedefinieerde data sets Extra informatie niet aanwezig in de algemene databanken Gespecialiseerde sequentie databanken ● Voorbeelden – Unigene – – Eukaryotic Promoter Database (EPD) – – HIV en SIV sequenties HOVERGEN – – ribosomale RNA sequenties met alignementen en structuur Aidsbase – – experimenteel bepaalde promotoren voor RNA polymerase II European rRNA database (RUG, Belgium) – – geexpresseerde sequenties, geclusterd per gen ... Vertebraat genen geclassifieerd per proteïne familie Genoom databanken ● Sectie met volledige genoom sequenties op EBI, NCBI en UCSC – – – Annotatie door automatische annotatie pipelines Integratie met mapping data e.d. Specifieke interfaces (WWW) ● ● ● Mapviewer Ensembl UCSC genome browser Publicaties ● Medline / Pubmed – – – – Verzameling referenties en abstracts (meestal) van de publicaties in de meeste medische en “life sciences” journals Beschikbaar op NCBI Kan doorzocht worden op basis van auteur, journal, titel, abstract, ... Links naar ● ● Sites met “full text articles” Gerelateerde artikels Pubmed OMIM: humane genetica ● OMIM: Online Mendelian Inheritance in Man – – – – – Beschikbaar via NCBI Cataloog van humane genen en genetische ziekten (en de correlatie tussen genen en ziekten) tekstuele informatie, beelden en referenties links naar MEDLINE artikels en sequentie informatie (via NCBI's Entrez) OMIM Morbid Map: Cataloog van genetische ziekten en hun cytogenetische map locaties Taxonomie databank (NCBI) Taxonomie databank (NCBI) Gene Ontology ● Gene Ontology (GO) – – Gecontroleerde, goed gedefinieerde, standaard vocabulaires om eigenschappen en functies van genen weer te geven 3 domeinen ● ● ● – cellulaire componenten: de delen van een cel of de extracellulaire omgeving; moleculaire functie: de elementaire activiteiten van een genproduct op moleculaire schaal, zoals binding of enzymatische katalyse; biologische processen: activiteiten of een verzameling van moleculaire gebeurtenissen GO-termen hebben ● ● ● ● ● ● Accession of Id: een unieke, alfanumerieke waarde om de eigenschap mee te identificeren Naam: één of meerdere woorden; Definitie met wetenschappelijke bronnen; Namespace (ontology): naamruimte om → tot welk domein behoort de term . Verder kan ook: synoniemen, referenties (xref) naar equivalente concepten in andere andere databanken, commentaar over de term of zijn gebruik bevatten. Relaties met andere GO-termen (→ hierarchie) – – – is_a: is een subtype van, bv. lyase activity is a catalytic activity part_of: is een (noodzakelijk) deel van, bv. Replication fork is part of chromosome regulates: reguleert, bv. cell cycle checkpoint regulates the cell cycle Gene Ontology Hiërarchie in GO 3D structuur ● PDB – – – Protein Data Bank 3D structuur Beschikbaar via ExPASy PDBe DBREF: identificatie structuu Proteine sequentie Secundaire structuur 3D coordinaten per atoom Databanken doorzoeken op basis van metadata en annotatie ● ● ● ● ● Queries op basis van annotatie Entrez SRS Mapviewer Ensembl Queries op annotatie ● Zoeken naar keywords – – Naam van gen, accessienummer, ... Geen uniforme terminologie ● ● Vals negatieven wegens alternatieve benamingen, foute spelling Vals positieven bij te weinig specifieke keywords, overlappende benamingen – – ● ● b.v. 16S voor bacterieel kleine subeenheid rRNA en grote subeenheid rRNA van dierlijke mitochondrieen b.v. 16S ribosomaal RNA ● 16s ribosomal rna (6143), 16s rrna gene (1741), 16s rrna (569), 16s rdna (70), 16s ribosomal dna (107), 16s ribosoaml rna (4), … Combinatie van keywords Eventueel beperkt tot bepaalde velden Entrez (NCBI) ● ● ● Integratie verschillende databanken Je kan specifiëren in welke database je wil zoeken Links tussen entries in alle databanken – b.v. Van sequentie naar publicatie over de sequentie Entrez interfaces ● ● Email: [email protected] network entrez – – – ● lokaal programma dat met de NCBI site connecteert Nentrez: grafische interface (Windows, Macintosh, X-Windows) nclever: commando lijn interface WWW: http://www.ncbi.nlm.nih.gov/Entrez Gebruik Entrez ● ● ● Selecteer databank Zoek termen Limits ● ● Beperkingen op basis van type van sequentie, chromosome, ... Advanced search or Preview/Index ● ● ● Samenstellen query Selecteer velden van lijst boolean operators ( “AND” “OR” “NOT”) ● ● Specifieer of alle zoektermen samen moeten voorkomen, of slechts een van de zoektermen voldoende is History ● ● Geschiedenis van alle searches dat je hebt gedaan Combinatie of verfijnen van vroegere zoektochten SRS: Sequence Retrieval System ● Historiek – – – ● EMBL-EBI Since v. 6 commercieel bedrijf LION Vrij voor academisch gebruik via EBI Omchrijving – – – Doorzoeken vele databases via 1 web interface Keywords, boolean Links naar andere databanken MapViewer ● Deel van Entrez genomes (NCBI) ● Specifieke interface om in genoom databanken te zoeken ● Overzicht, visualisatie van volledige genomen ● ● ● ● Geintegreerde mapping data voor elk chromosoom Sequentie data Links naar andere databanken Doorzoekbaar ● Gen symbool, map positie, ... MapViewer: vier niveaus van detail ● Home Page – – ● Genome View – ● Grafische display chromosoom ideogrammen Map View – – – ● Samenvatting beschikbare resources per organisme Kies build 1 of meer mappen van een bepaald chromosoom alignatie t.o.v. een “master map” op basis van corresponderende objecten Verschillende resoluties (start – einde) Sequence View – – – Sequentie data en biologische gegevens Locatie van genen, STSs, FISH mapped clones, ESTs, GenomeScan models, en variaties Gebaseerd op NCBI contigs en BAC tiling path (the 'GenBank' map) 1. Select organism/build Mapviewer 2. Genome view 3. Map view 4. Sequence view Ensembl ● EBI-Sanger genoom browser – – – Genoom sequenties Maps Annotaties ● ● ● – – Genen (ook voorspellingen pipeline) Ziekten ... Web interface via http://www.ensembl.org/ Ook database interface Genoom databanken ● Verschil in data tussen genoom databanken – – – Verschillende genoomdatabanken gebruiken eigen, verschillende analyses om genen, verschillende isovormen, etc. terug vinden Gegevens worden niet standaard uitgewisseld Van een bepaald gen kunnen er b.v. meer isovormen bekend zijn in Ensembl, voor een ander gen in Mapviewer