Bio – informatica
Eline van Overbeeke 2011-2012
Biologische databanken = archieven met consistente data die worden opgeslagen op uniforme en efficiënte
manier
2 soorten:
Primaire / archiefdatabank
→ Bevatten informatie en annotatie van DNA – en proteïnesequenties, DNA – en
proteïnestructuren en DNA – en proteïne – expressieprofielen
Secundaire / afgeleide databanken
→ Bevatten resultaten van analyses op primaire bronnen, inclusief informatie over
sequentiepatronen – of motieven, polymorfismen en mutaties, en evolutionaire
verwantschappen
Data – analyse = extraheren van betekenisvolle informatie uit massa gegevens
Databanken
Nucleotide sequence databases
Nucleotide sequence databases = collectie
van alle publiek beschikbare
nucleotidesequenties
Vb: EMBL, NCBI
Flatfile
Flatfile = tekstbestand met karakters zonder
opmaak
Genbank – formaat
3 componenten:
Header: algemene informatie
Features: hoofdkenmerken
CDS / Coding Sequence: join ( X … Y )
geeft aantal exonen
X = base waar exon start
Y = base waar exon eindigt
Sequentie
Bevat ook vaak een tabel/grafiek
1
FASTA – formaat
3 componenten:
> : duidt aan waar nieuwe sequentie begint
Sequence identifier: unieke code
Sequentie
NCBI
NCBI = National Center for Biotechnology Information
Exercise 1 NCBI-notepad-artemis
• Find publication in PubMed with ID 8663200
Ga naar pubmed, laat database op pubmed staan en geef 8663200 in.
Geeft:
Alternatively spliced transcripts from the Drosophila eIF4E gene produce two different Cap-binding
proteins.
• Go to nucleotide via links
Klik rechts onderaan op nucleotide
Geeft:
Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) gene, alternative splice products,
complete cds
GenBank: U54469.1
• Display Fasta, GenBank, and Graphics
Te veranderen links boven aan bij siplay settings
• Download GenBank formatted flatfile
Klik op send complete record, file, Genbank
opslaanals txt file.. door bij computer dit file te selecteren en bij organize: change name
• Open NotePad++ (computers ghb: notepad)
Open de file
• Visualize/edit/analyze a GenBank-formatted sequence file locally:
‣ Example: open the GenBank file with the Artemis software
- launch Artemis using Java Web Start
Google: artemis sanger
eerste link
Klik op download
Artemis for windows
Open nu de file door naar file manager te gaan en op all files te klikken, hierna kan je de file zoeken in
je bastanden en openen.
- Select CDS for product 4E-II and “Create->Exon Features”
Nu boven aan:
Select al CDS features
Create exon features
‣ Artemis has some basic sequence analysis features
- example: plot the GC Content (%) along the sequence
Bovenaan: graph GC Content %
2
‣ In Artemis you can also create new features and edit features
Aanmaak nieuw exon feature van kleinste exon
Create: New Feature
Key: exon
Location: 201 .. 224
EMBL
EMBL = European Molecular Biology Laboratory
Verschil met GenBank: indeling
EMBL ook bruikbaar in Artemis
Exercise 2
• Find the corresponding record in the EMBL
nucleotide sequence database
‣ Download in EMBL format
Ga naar EMBL via google.. typ in de bovenste balk bij EMBL 8663200
Klik op Nucleotides Sequences
Klik op in EMBL format
Weer opslaan als txt, kan weer openen in artemis
‣ What are the differences between GenBank and EMBL
format?
GENBANK
EMBL
3
RefSeq
RefSeq = gecureerde secundaire database met als doel een begrijpbare, geïntegreerde, non – redundante set
van sequenties aan te bieden
Doel: referentiesequentie voor elk molecule in centraal dogma
DNA, RNA en proteïnen
Nucleotide – en proteïnesequenties zijn expliciet gelinked
Distinct accession number: 2 letters _ 6 cijfers
2 types:
- NT / NM / NP: genomic contigs
- XM / XP: voorspellingen
http://www.ncbi.nlm.nih.gov/RefSeq/key.html#query = site van refseq, geeft ook informative over
het gebruik.
Exercise 3
• Restrict Entrez query to RefSeq collection
‣ http://www.ncbi.nlm.nih.gov/RefSeq/key.html#query
‣ Use “Limit” in Entrez
‣ How many alternative transcripts are known today for Drosophila melanogaster eIF-4E?
Ga naar NCBI, database: gene. Geef in: eIF-4E
Ga naar limits:
- include: enkel refseqs
- D. Melanogaster
search
klik op eerste link
- i.e., how many different RefSeqs?
7, helemaal onderaan te zien bij refseqs
‣ Go back to original publication of exercise 1 and use thelink “RefSeq”
Pubmed: 8663200
Klik onderaan op nucleotides(refseq)
Ook 7 resultaten
4
Protein sequence databases
Kunnen vertaald worden uit nucleotidesequenties
Worden bekomen door translatie van nucleotidesequenties. Daarom zijn secundaire databanken.
Er zijn 2 types :
-sequence repositories ( sequentie opslagplaats) ; data ligt opgeslagen met weinig of geen manuele
tussenkomst vb. GenPept
-curated databases ; experts beheren de originele data door toevoegen van nieuwe informatie vb. RefSeq,
Uniprot
Uniprot Uniprot = eiwit - referentie
Uniprot heeft 2 onderdelen:
-Swiss-Prot: handmatig becommentarieerde verslagen, gebaseerd op informatie van de literatuur of
beheerste, geëvalueerde computeranalyse.
-TrEMBL: Computer analyse verslagen die nog handmatig becommentarieerd moeten worden. (info in verband
met een proteïne in de databank bij dat proteïne zetten.)
Exercise 4a
• Find the human hemoglobin alpha protein in Uniprot
‣ what is the entry name?
Google: uniprot
Laat UniProtKB staan
query: human hemoglobin alpha protein
Geeft lijst met “overeenkomstige” proteïnen
Zoeken naar de juiste geeft: HBA_HUMAN
• Look at the different sections of information in Swiss-Prot
Klik op de entry P69905
‣ Names
‣ General annotation (comments)
‣ Ontologies
‣ Interactions
‣ Sequence annotation (Features)
‣ References
‣ Cross-references (e.g., to 3D structure, etc)
• Look at the flatfile (“Text”)
Rechtsbovenaan staan de files: txt
• What other formats are available?
Naast txt: xml, rdf/xml, gff en fasta
5
GFF format
Vb. van GFF format
Een GFF format telt 10 kolommen
FASTA en GFF horen samen
GFF = general feature format, gene-finding format en generic feature format
GFF is een file formaat die wordt gebruikt voor het beschrijven van genen en andere kenmerken van
DNA, RNA en eiwitsequenties. Men herkent deze documenten aan .GFF.
Exercise 4b
• Save FASTA sequence of human hemoglobin alpha protein from UniProt
Zoek human hemoglobin alpha protein van UniProt en open in FASTA file, opslaan als .txt
• Save GFF formatted list of features
Openen als GFF, opslaan als .txt
• Load FASTA into Artemis and add GFF features
‣ Use “File->Read an entry..”
Open de fasta file weer via file manager, all files
Via read an entry de GFF file toevoegen
Exercise 4c
• The DCC gene has a role in cellular differentiation and colorectal tumorigenesis (Hedrick et al. 1994)
‣ find the paper in PubMed
Kopieren en plakken in pubmed
‣ based on the Swiss-Prot entry for the DCC precursor,which residues comprise the signal sequence?
Klik op protein (refseq), hier staan nu onderaan overeenkomende eiwitten,
Eiwitten met een P zijn swissprot eitwitten
RecName: Full=Netrin receptor DCC; AltName: Full=Colorectal cancer suppressor; AltName:
Full=Immunoglobulin superfamily DCC subclass member 1; AltName: Full=Tumor suppressor
protein DCC; Flags: Precursor
UniProtKB/Swiss-Prot: P43146.2
6
Specialized databases
Entrez Gene
Entrez Gene = centrale gendatabank waarin kenmerken van genen van verschillende organismen zijn
opgeslagen
Organismen: mens, muis, rat, fruitvlieg, zebravis
Opbouw:
Summary
Beknopte informatie gen
Grafische weergave
Genomic context
Genomic regions, transcripts, and products
Bibliography
GeneRIF / Gene Reference Into Functions: geeft zinnen weer die informatie bevatten over gen
Interactions
Interacties met andere genen
General gene information
Gene Ontology:
- Function: moleculaire functie gen
- Process: proces waarin gen
betrokken is
- Component: locatie gen
7
NCBI Reference Sequences (RefSeq)
Aantal RefSeqs
Model organism databases
Model organism databases = specifieke databanken voor welbepaalde organismen
Soorten:
MGI / Mouse Genome Informatics
RGD / Rat Genome Database
FlyBase (Drosophila melanogaster)
WormBase (C. Elegans)
SGD / Saccharomyces Genome Database (Gist)
Ecogene (E. coli)
Gene Ontology
Gene Ontology = beschrijving genproducten in termen van hun geassocieerde biologische processen, cellulaire
componenten en moleculaire functies op een soort – onafhankelijke manier
annotation of genes and proteins in genomic and protein databases
Gene Ontology: geen vlakke lijst biologische termen
Termen zijn gerelateerd binnen hiërarchie
DAG: Directed Acyclic Graph
Termen kunnen meer dan 1 ouder hebben
Termen kunnen 0, 1 of meer kinderen hebben
Structuur:
Cellular component
Waar genproduct werkt
Enzymcomplexen refereren naar plaatsen
Niet naar activiteiten
Molecular function
Activiteiten genproduct
Mogelijk meerdere functies
Set van functies: biologisch proces
Biological process
Algemeen herkenbare serie van gebeurtenissen
Annotatie = categorisatie genproducten
8
GO databases:
- FlyBase (Drosophila)
- MGI (Mouse)
- SGD (S. cerevisae)
- TAIR (Arabadopsis)
- TIGR (microbes including prokaryotes)
- SWISS-PROT (several thousand species inc. human)
- PSU (P. falciparum)
- ZFIN (zebrafish)
- PAMGO (plant pathogens)
GO is a member of OBO:
An umbrella project for grouping different ontologies in biological/medical field
- a repository for ontologies with defined set of standards
- Available from a single source: http://obo.sourceforge.net/
To be part of OBO, ontologies must:
- Be open, can be used by all without any constraint
- Be in a common shared syntax
- Not overlap with other ontologies in OBO
- Share a unique identifier space
- Include text definitions of their terms
9
GO exercise
• Find the GO annotation of the human PAX6 in UniProtKB, mouse Pax6 in MGI, and fly ey in Flybase.
‣ What is the function of PAX6/Pax6/ey? Is it conserved?
Uniprot PAX6:
Klik op het humane protein en ga helemaal onder aan naar GO
Klik op Complete GO annotation...
MGI mouse pax6:
Ga naar MGI, zoek pax6 en klik op dit eerste, ga nu naar Gene Ontology(GO) classifications
Flybase fly ey: ga naar flybase geef ey in en klik op genen.. klik op de eerste:
Zoek nu Gene Ontology: Function, Process & Cellular Component ( 22 unique terms )
‣ In which developmental process is PAX6/Pax6/ey involved? Is that also conserved?
‣ What is the cellular localization of PAX6/Pax6/ey?
• Search for PAX6 at www.geneontology.org
‣ which organism has the most associations? Via gene or protein name
Rattus norvegicus
• Search for cardiac development at www.geneontology.org
- What is the correct GO term and identifier?
-zoek ‘cardiac development’ op GO
-correcte GO term (hier: heart development) en identifier zoeken (hier: 0007507).
-klik op ‘view in tree’ en zet filters op homo sapiens voor mens en mus musculus voor muis
- How many human gene products are known to be involved in cardiac development? And how many
mouse gene products?
1.
Filter lineage gene product counts: species
H. sapiens: 238 gene products
M. musculus: 295 gene products
- How many GO terms are direct child terms of cardiac development?
- Download all associations in a tab delimited text file 3119 gene product associations
tab delimited file
OMIM Exercise
• How many genes are associated with Huntington Disease (HD), with Alzheimer Disease (AD) and
with Parkinson Disease (PD)?
OMIM via pubmed
‣ MIM ID #104300 ALZHEIMER DISEASE; AD 16
‣ #143100. HUNTINGTON DISEASE; HD 1
‣ #168600. PARKINSON DISEASE, LATE-ONSET; PD 4
10
Genomic databases
UCSC
UCSC Genome Browser: genomische annotatie in de vorm van tracks
Elke track geeft ander kenmerk weer
Vb: SNP’s, genen, …
Sommige tracks: aanwezig voor alle species
Vaak ook soort – specifieke tracks
Opzoekingen: Genome Browser / Genome
Belangrijke eigenschappen:
Breedste banden = exonen
Dunste banden = intronen
Kleurcodes:
-
Zwart: corresponderende PDB / Protein Data Bank entry
-
Donkerblauw: corresponderende gevalideerde sequentie
-
Lichtblauw: niet – RefSeq sequentie
Annotation track menu: opties
Hide: verwijdert track uit beeld
Dense: alle items worden op 1 regel geplaatst
11
Squish: elk item op een aparte regel, maar efficiënt gestapeld op 50 % van de grootte
Pack: elk item op een aparte regel, maar efficiënt gestapeld op 100 % van de grootte
Full: elk item op een aparte regel
DNA – sequentie:
Genome Browser: DNA
Bevat Extended Case / Color Options
Genome Browser: track
Description and Page Index: Sequence and Links
Sequence and Links to Tools and Databases: Genomic Sequence
Exercises UCSC
• “Genomes”
‣ Search for TP53, and download genomic sequence of longest transcript, including 5’UTR, CDS
exons, 3’UTR, and introns (using “DNA”) (UCSC tutorial)
Zoek TP53 in UCSC.. klik op langste transcript, nu staat hier onder Sequence and Links to Tools and
Databases: Genomic Sequence (chr17:7,571,720-7,590,863)
Klik hierop, 5’UTR, CDS exons, 3’UTR, and introns laten staan.
Selecteer all uppercase (alles in hoofdletters)
Download nu
‣ Obtain 10kb upstream sequence of ADAM10 (Baxevanis)
Doe hetzlefde als bij TP53, nu alleen upstream en downstream laten staan met 10000.
Weer all upercase.. download
‣ goto location on chromosome 3 around 120,564,000-120,610,000 (Human Mar 2006 assembly)
- which gene is located there? Begin op begin pagina van ucsc genomes.. typ daar chr3-120,564,000120,610,000 en selecteer Mar 2006 CDGAP ligt hier
12
- which genes are upstream and downstream of this gene?
Zoom out: TMEM39A en B4GALT4
‣ Find Drosophila eIF-4E from the previous class
Insect, D.melanogaster, eIF-4E
- Can you find back the 7 RefSeqs? Ja bij refseq genes in tabel.. zijn er 7
- Are there UCSC genes annotated in the Drosophila genome? Nee
More exercises Genome Browsing
• Find a coding exon of TP53 that is more than 250 bp long
TP53, inzoomen op langste exon
• How many non-synonymous coding SNPs are known in this exon?
13
• Retrieve the DNA sequence of this exon
Klik op DNA, get DNA
CCGTGCAAGTCACAGACTTGGCTGTCCCAGAATGCAAGAAGCCCAGACGG
AAACCGTAGCTGCCCTGGTAGGTTTTCTGGGAAGGGACAGAAGATGACAG
GGGCCAGGAGGGGGCTGGTGCAGGGGCCGCCGGTGTAGGAGCTGCTGGTG
CAGGGGCCACGGGGGGAGCAGCCTCTGGCATTCTGGGAGCTTCATCTGGA
CCTGGGTCTTCAGTGAACCATTGTTCAATATCGTCCGGGGACAGCATCAA
ATCATCCATTGCTTGGGACGGCAAGGGGGACTGTA
• Design primers to amplify this exon using Primer3
Ga een stapje terug, klik op extended DNA Case/Color Options
Ga naar primer3plus en plak sequentie hierin
Klik rechtsbovenaan op pickprimers
14
• Test whether these primers generate a unique amplicon, using in silico PCR
ga naar UCSC en klik op PCR. Sequentie van forward en reverse primer er naar kopiëren
En submit
15
More exercises Genome Browsing
• human PCNA
‣ how many different transcripts? 2
‣ how many proteins? 9
‣ any regulatory elements annotated?
- use ORegAnno track (use hg18 assembly)
ORegAnno track onder regulqtion op dense zetten
Er zijn er 3
16
More exercises Genome Browsing
• Find the signal peptide sequence of human DCC and use BLAT to locate this sequence in
the human genome
Ga naar uniprot: zoek DCC, zoek human:
P43146DCC_HUMAN
‣ how many hits does BLAT give?
scroll naar beneden tot sequence annotation signal peptide (op 1-25 klikken)
Ga nu naar UCSC kopieer de sequentie van uniprot naar BLAT van ucsc en klik op submit
1 hit
Als je nu op browser klikt krijg je genome browser
• If you BLAT the same sequence against the mouse genome, do you also find a hit?
Ga 1 klik terug vanaf je BLAT results, geef nu mouse in ipv human
Ook 1 hit.
17
Ensembl
Ensembl: onafhankelijke genannotatie
Ensembl exercise
• Ensembl does independent gene annotation
‣ Ensembl genes (e.g., ENSG.... for human)
• How many transcripts does Ensembl predict for the human gene ACHE?
Ga naar ensemble, geef ACHe en human in
15 transcripts
• Ensembl is good for orthologue predictions
‣ (reciprocal BLAST, see later)
‣ Exercise: Find the mouse orthologue of the human SSBP4
Ensembl – All species: SSBP4
By Feature Type – Gene: Homo sapiens (1)
Artikel: SSBP4
Zijbalk: Comparative Genomics – Orthologues
Zoeken naar Mouse: Ssbp4
‣ Does this gene have paralogues? 2
18
Database structures
3 grote structuren:
Flatfile indexing system
Geïndexeerde opslag in directories
Vb: GenBank
Relational database
SQL / Structured Query Language
Vb: GO, UCSC
GUI / Graphical User Interface
Web – based (HTML) en meer geavanceerde dynamische programmering
Flatfile database
Flatfile database = geordende verzameling van gelijkaardige files, meestal geconformeerd naar een
standaardformaat voor hun inhoud
Doel indexering: optimale snelheid en kwaliteit in zoeken
Extraheren specifiek attribuut uit file
Koppeling aan naam en locatie
Voorbeeld
Voorbeeld flatfile database:
Probleem: enkel informatie in welk document woord voorkomt
Geen informatie over frequentie / positie woord
Boolean index
Relational database
Relational database = opslag informatie in verzameling tabellen (relations), waarbij reeksen
overeenkomen met individuele records (tuples) en de kolommen met attributen
Software: MySQL
SQL / Structured Query Language = database computertaal ontworpen voor het ophalen en beheer
data in relationele database managementsystemen, aanmaak en modificatie databaseschema’s en
database object access control management
19
3 – tier architectuur
3 niveau’s in architectuur:
Client / Presentation tier
Eigen computer / software
Business Logic tier
Presentation tier: informatie verkrijgen
Data tier: informatie toevoegen / wijzigen
Data tier
UCSC Table Browser
Table Browser:
‣ In the Human genome, search for simple repeats on a chromosome 4 location with copy number
more than 10 and download the sequence. (UCSC tutorial)
1.
UCSC Genome Browser – Tables: Table Browser
Eigenschappen:
-
Genome: Human
-
Group: Variation and Repeats
-
Track: Simple Repeats
-
Table: simpleRepeat
-
Region – Position: chr4
20
2.
Filter: Create
Filter on Fields from hg19.simpleRepeat
CopyNum: > 10
Submit
3.
Output format: Sequence
Get output: Simple Repeats Genomic Sequence
Get sequence
21
Find simple repeats (copy number > 10) within known genes and download the sequence (UCSC
tutorial)
Intersection: Create
Intersect with Simple Repeats
All Simple Repeats records that have any overlap with UCSC genes
Submit
22
Output format: Sequence
Get output: Simple Repeats Genomic Sequence
Get sequence
23
How many genes are located between the STS markers SWXD113 andDXS52?
UCSC Genome Browser: SWXD113
Submit
SWXD113: STS Marker SWXD113
Coördinaten opschrijven: chrX:138,543,949-138,744,169
24
UCSC Genome Browser: DXS52
Submit
DXS52: STS Marker DXS7083
Coördinaten opschrijven: chrX:151,897,379-152,097,452
UCSC Genome Browser – Tables: Table Browser
Eigenschappen:
-
Group: Genes and Gene Prediction Tracks
-
Table: knownGene
-
Region – Position: chrX:138643949-151997542
Summary / Statistics: UCSC Genes (knownGene) Summary Statistics
Item count: 247
25
Table Browser
‣ Download FASTA file containing all human 3’UTR sequences
UCSC Genome Browser – Tables: Table Browser
Eigenschappen:
-
Group: Genes and Gene Prediction Tracks
-
Table: knownGene
-
Region: genome
-
Output format: sequence
Get output: Select sequence type for UCSC Genes
Genomic: Submit
UCSC Genes Genomic Sequence
3’ UTR Exons: Get sequence
‣ Download FASTA file containing all human 1kb proximal promoters
UCSC Genome Browser – Tables: Table Browser
Eigenschappen:
-
Group: Genes and Gene Prediction Tracks
-
Table: knownGene
-
Region: genome
-
Output format: sequence
Get output: Select sequence type for UCSC Genes
Genomic: Submit
UCSC Genes Genomic Sequence
Promot/upstream by 1000: Get sequence
26
Data – analyse
Classificaties
Biologische classificatie
Analysis at nucleotide level:
Predictive methods using DNA sequences
Predictive methods using RNA sequences
SNP / Single Nucleotide Polymorphism
Analysis at protein level:
Predictive methods using protein sequences
Analysis of biological networks
Interfering relationships:
Pairwise sequence similarity
Multiple sequence alignment
Phylogenetic analysis
Comparative genomics
DNA microarrays to assay gene expression
Proteomics and protein identification
Technische classificatie
Web – based tools
Draaien op server en beschikbaar via HTML – interface
Stand – alone tools
2 opties:
-
Lokaal downloaden en installeren
-
Direct starten vanaf webpagina door Java Web Start
Vb: Artemis
Command line scripts en programma’s in Linux
Bediening via CLI / Command Line Interface in Linux
Vb: Emboss
Spreadsheet software
Vb: Microsoft Excel, OpenOffice Calc
27
OS / Operating System
OS / Operating System: behandelt low – level processen die hardware doen samenwerken
Functies:
Voorziet omgeving waarin programma’s kunnen worden ontwikkeld / gebruikt
Voorziet makkelijke toegang tot files en programma’s
Unix
Unix = OS van het World Wide Web
Multi – user system: networking, multitasking, security
Linux
Linux = open source – versie van Unix
Principe: CLI / Command – Line Interface
Interactie met OS of software door typen commando’s
Functies CLI:
Uitvoeren Command – Line Programs / Scripts
Ontleding tekstfiles
Sorteren en knippen van informatie
Programma’s ‘in batch’ runnen
SSH / Secure Shell: verbonden aan Unix – machine
F – Secure SSH Client (LUDIT)
Inloggen:
-
IP – adres:
10.33.126.50
-
Username:
user179
-
Paswoord:
user179
Thuis: inloggen op netwerk
Link: http://extranet.kuleuven.be
Na login: connectie maken met Linux – server
28
Belangrijke commando’s
Commando
Output
ls
Weergave inhoud directory
ls –l
ls –lt
Inhoud directory met informatie over naam,
grootte, auteur
Inhoud directory gesorteerd op datum van
aanmaak
cd
Home directory van huidige directory
cd ..
Parent directory van huidige directory
mkdir
Creëert subdirectory in huidige directory
cat
Weergave inhoud file
Commando
Output
more
Weergave inhoud file met pauze op einde vol
scherm en vraag om op toets te drukken
head
Weergave eerste aantal regels in file
tail
Weergave laatste aantal regels in file
grep
Selectie alle regels in file die zoekterm
bevatten
sort
Alfabetische rangschikking
sort –n
Numerieke rangschikking
cut –f
Knippen geselecteerde velden uit elke regel
van file
man
Linux manual
|
Creatie complexere commando’s
q
Quit
clear
Schoonvegen scherm
wc –l
Telt woorden in file
29
1.
F – Secure SSH Client: man who ( q )
Output: manual entry voor who
2.
F – Secure SSH Client: clear
Output: leeg scherm
3.
F – Secure SSH Client: echo 5+4 | bc
Output: oplossing berekening
30
Exercise linux
Download a tab delimited file containing all annotated genes involved in the regulation of the cell
cycle (using Gene Ontology), across species.
Copy this file to your home account on the linux server: Use file transfer window (yellow button in
F-Secure SSH client software)
Note:from a terminal under linux or Mac OS use secure copy scp cellcyclegenes.txt 10.33.126.50:
try in your home dir:
cat cellcyclegenes.txt | wc -l
less cellcyclegenes.txt
cat cellcyclegenes.txt | grep MGI
cat cellcyclegenes.txt | grep Ccnd
cat cellcyclegenes.txt | grep -i Ccnd
cat cellcyclegenes.txt | grep MGI | grep Ccnd > ccnd_mouse.txt
cat cellcyclegenes.txt | sort -k3
cat cellcyclegenes.txt | cut -f7 | sort -u
cat cellcyclegenes.txt | grep IDA | grep MGI | grep cyclin
Gene Ontology – GO term or ID: cell cycle
Term Search Results – GO:0007049
Artikel: cell cycle
31
Term Neighborhood for cell cycle GO:0007049
Filter lineage gene product counts – Species: M. musculus
Gene products
Gene Product Associations to cell cycle: Gene Association Format
Opslaan als .txt – file
F – Secure SSH Client: New File Transfer Window
Sleep bestand naar Linux
F – Secure SSH Client: cat cellcycle.txt | wc –l
32
F – Secure SSH Client: less cellcycle.txt
F – Secure SSH Client: cat cellcycle.txt | grep MGI
F – Secure SSH Client: cat cellcycle.txt | grep Ccnd
F – Secure SSH Client: cat cellcycle.txt | grep -i Ccnd
Output: case – insensitive zoekopdracht
33
F – Secure SSH Client: cat cellcycle.txt | grep MGI | grep Ccnd > ccnd_mouse.txt
Aanmaak file in directory
F – Secure SSH Client: cat cellcycle.txt | sort –k3
F – Secure SSH Client: cat cellcycle.txt | grep MGI | cut –f3 | sort –u | wc –l
34
Emboss
EMBOSS = European Molecular Biology Open Software Suite
Inloggen:
F – Secure SSH Client
Web interface
Link: http://10.33.126.50/emboss
Emboss exercise 1
• accession L07770
‣ download EMBL or GB formatted file, and name it xlrhodop.embl
• man seqret
• seqret (type “seq” then press tab key for tab completion)
• seqret xlrhodop.embl -outseq l07770.fasta -feature
‣ cat l07770.gff
• showfeat xlrhodop.embl: how many CDS features?
• infoseq xlrhodop.embl: how long, what is GC content?
• download EMBL or GB formatted file for accession number U23808
• extract FASTA and GFF using seqret
EMBL Nucleotide Sequence Database: accession number L07770
View in EMBL format
Opslaan als .embl – file
35
1e manier: F – Secure SSH Client
F – Secure SSH Client: seqret
–sequence L07770.embl –outseq l07770.fasta –feature
F – Secure SSH Client: cat l07770.gff
F – Secure SSH Client: cat l07770.fasta
F – Secure SSH Client: showfeat –sequence L07770.embl –outfile L07770_showfeat.txt
F – Secure SSH Client: cat L07770_showfeat.txt
Aantal CDS features: 1684
F – Secure SSH Client: infoseq –sequence L07770.embl –outfile L07770_infoseq.txt
F – Secure SSH Client: cat L07770_infoseq.txt
GC – content: 45, 72 %
36
2e manier: EMBOSS Web Interface : google: emboss explorer
EMBOSS Web Interface – Edit: Seqret
Upload L07770.embl
Run Seqret
EMBOSS Web Interface – Display: Showfeat
Upload L07770.embl
Run Showfeat
37
EMBOSS Web Interface – Information: Infoseq
Upload L07770.embl
Run Infoseq
38
Exercise emboss 2
• retrieve the sequence of the last coding exon of C.elegans gene mec-8
• translate this sequence using transeq (Emboss)
‣ how many nucleotides (use cat, pipe and wc)
• reverse complement this sequence (revseq)
UCSC Genome Browser: mec – 8
Clade: Nematode
Genome: C. elegans
Submit
RefSeq Genes: mec – 8
Inzoomen op laatste coderende exon
DNA: Get DNA
Opslaan als .txt – file
39
Zorg ervoor dat je in notepad alles rond de sequentie weghaalt
1e manier: F – Secure SSH Client
F – Secure SSH Client: transeq –sequence Mec8.txt –outseq Mec8_transeq.pep
F – Secure SSH Client: cat Mec8_transeq.pep
user179@teach-srv-01:~$ cat mec8_transeq.pep | wc
3
3
109
Dus 109 nucleotides
F – Secure SSH Client: revseq –sequence mec8.txt –outseq Mec8_revseq.txt
F – Secure SSH Client: cat Mec8_revseq.txt
40
1.
2e manier: EMBOSS Web Interface
EMBOSS Web Interface – Nucleic Translation: Transeq
Upload Mec8.txt
Run Transeq
2.
EMBOSS Web Interface – Edit: Revseq
Upload Mec8.txt
Run Revseq
41
Predictive methods using DNA sequences
Genoom sequenced en geassembleerd: lokaliseren proteïnecoderende genen
Moeilijker in eukaryoten:
Grotere afstanden tussen naburige genen
Exon – intronstructuur is moeilijk te voorspellen
Huidige computermethodes: niet sterk genoeg
Geen precieze voorspelling genstructuur grote sequentie
Gevolg: terugvallen op compositional bias
Indien geen bijkomende informatie: hypothetische voorspellingen
Methodes
Gene prediction = voorspellen locatie genen in genoomsequentie door combinatie 1 / meer methodes
Methodes:
Zoeken op signaal
Zoeken op inhoud
Homology – based gene prediction
Intrinsieke methoden
Ab initio – methoden: intrinsiek
Zoeken op signaal en inhoud
Geen vergelijking met andere sequenties
Dynamic programming = veel exonvoorspellingen samenvoegen tot genstructuur
Vb: GeneID
HMM / Hidden Markov Model: hulpmiddel voor genpredictie
Definiëring complexe patronen
Extrinsieke methoden
Homology – based methoden: extrinsiek
Soorten:
BLASTX
Vertaling nucleotiden vergelijken met proteïnedatabanken
EST / Expressed Sequence Tags
BLAT / BLASTN
Comparative gene prediction
Twee genomen vergelijken
Geconserveerde domeinen zijn exonen
Exon – bepalende signalen
Detectie: PMW / Position Weight Matrix
Signalen:
- Translation start site
- 5’ donor splice site
- 3’ acceptor splice site
- Translation stop codon
Voorspelling en score exonen
3 types:
Initiële exonen
Aanduiding ORF door startcodon en 5’ – donorsite
Interne exonen
Aanduiding ORF door 3’ – acceptorsite en 5’ – donorsite
Terminale exonen
Aanduiding ORF door 3’ – acceptorsite en stopcodon
Coderende statistieken: gebruik andere codons in exonen en intronen
42
Exercise
• Retrieve sequence of the first megabase of human chromosome 20 (use hg18) in linux
‣ download chr20 from http://hgdownload.cse.ucsc.edu/ goldenPath/hg19/chromosomes/
- copy link of chr20 and use wget on linux (then gunzip to unzip the .gz file)
‣ or use /home/saerts/chr20/chr20.fa
‣ use “extractseq” EMBOSS program to extract the first 1Mb
• how to get the fasta sequence for this region using the UCSC Genome Browser, the UCSC
Table Browser, or the Ensembl database?
1.
Internet Explorer: http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/
File: chr20.fa.gz
2.
F – Secure SSH Client: gunzip chr20.fa.gz
3.
F – Secure SSH Client: extractseq –sequence chr20.fa –regions 1:1000000 –outseq chr20_firstMB.fa
4.
UCSC Genome Browser: chr20:1-1000000
Submit
43
5.
DNA: Get DNA
6.
UCSC Genome Browser – Tables: Table Browser
Region – Position: chr20:1-1000000
Get output
44
ORF exercise
‣ getorf (Emboss) [what are the default settings for minsize and maxsize?]
- for example, the complete chr21 has 2006698 predicted ORFs
- chr20:1-1000000: how many ORFs?
• use grep and “wc -l”
‣ try plotorf (Emboss)
- graphtype = “png”
1.
F – Secure SSH Client: getorf –sequence chr20_firstMB.fa –outseq ORFs.fa –minsize 100
2.
F – Secure SSH Client: cat ORFs.fa | grep “>” | wc –l
3.
F – Secure SSH Client: plotorf –sequence chr20_firstMB.fa –graph png
Openen door plotorf.1.png in gele mapje naar boven te slepen, hierna kan je het openen door naar
mijn computer te gaan en dubbel te klikken.
45
Exercise coding statistics (1)
• use the same 1 exon gene
• use Emboss syco to calculate codon usage
• codon usage file for human: Ehum.cut
‣ (ls -l /usr/share/EMBOSS/data/CODONS/*.cut )
1.
UCSC Genome Browser – Tables: Table Browser
Eigenschappen:
- Track: RefSeq Genes
- Table: refGene
- Region – Position: chr4
- Output format: hyperlinks to Genome Browser
2.
Filter: Create
Filter on Fields from hg19.refGene
ExonCount = 1
3.
Hyperlinks to Genome Browser: NM 005172 at chr4:94750078-94751142
46
4.
DNA: Get DNA
Opslaan als .txt – file
5.
F – Secure SSH Client: syco – sequence ATOH1.txt –cfile Ehum.cut –graph png –outfile
ATOH1_syco.out
47
Exercise coding statistics (2)
‣ tcode combines codon usage with periodicity scores
‣ tcode -plot -graph cps
‣ tcode -sequence mySeq.fasta -outfile tcode.out -window 200 -plot -graph png
1.
F – Secure SSH Client: tcode –sequence ATOH1.txt –window 200 –outfile ATOH1.tcode –graph png –plot
48
GeneID
GeneID = voorspelling genen in genomische sequenties
see http://genome.imim.es/software/geneid/
Hiërarchie:
Splice sites / startcodon / stopcodons
Building exons
Scoring exons
Finaal: samenstelling genstructuur
GeneID
• see http://genome.imim.es/software/geneid/docs/
• geneid -P human3iso.param chr20_FirstMb.fa -G > chr20_FirstMb_geneid.gff
‣ -G for GFF format
‣ -v “verbose = display info messages”
‣ -P parameter file
- located in /home/saerts/software/geneid/param directory
F – Secure SSH Client: geneid –P home/saerts/software/geneid/param/human3iso.param chr20_firstMB.fa –G
49
a second geneid exercise
‣ Download 1Mb sequence around the human URO-D gene
Genome browser: UROD
Get DNA
500000 upstream en 500000 downstream -> 1 miljoen + gen
Save als UROD.txt
‣ Use a gene prediction program (Geneid, or Genscan) to predict genes in this region
‣ Make a ‘custom track file’ in BED or GFF format, from
the gene prediction output, containing genomic
coordinates of the gene predictions (e.g., using Excel)
‣ Upload this file to create a custom track, and visualize
your predictions in relation with UCSC and RefSeq gene
annotations, in this region
1.
UCSC Genome Browser: chr1:44,977,830-45,977,829
2.
DNA: Get DNA
Opslaan als .txt – file
Bovenste regel Notepad++: chr1
50
3.
F – Secure SSH Client: File Transfer Window
File uploaden
F – Secure SSH Client: geneid –P home/saerts/software/geneid/param/human3iso.param –G urod.fa >
UROD_Mb_GeneID.gff
4.
Excel: Openen
Alle bestanden: UROD_Mb_GeneID.gff
Wizard: Volgende – Volgende – Voltooien
5.
Excel – Gegevens: Sorteren
Sorteren op kolom A
51
6.
Excel: verwijder commentaren (#)
7.
Excel – kolom M: ingeven startpositie (44977830)
Kolom J: =D1+$M$1-1
Rechtsonder klikken en slepen naar onder
Kolom K: =E1+$M$1-1
Rechtsonder klikken en slepen naar onder
8.
Excel: kopieer kolom J en K
Selecteer kolom D en E
Start – Plakken: Waarden plakken
Verwijder kolom J, K en M
52
9.
Opslaan als: Tekst
Opslaan als .txt – file
10. UCSC Genome Browser – Tables: Table Browser
Add Custom Tracks: Bladeren
Submit
11. Manage Custom Tracks: Go to Genome Browser
12. Genomes – UCSC Genome Browser: UROD
53
13. RefSeq Genes: UROD at chr1:45477805-45481341
54
°Oef.1 (slide 145)
-Geneid is een programma om genen te voorspellen in een DNA sequentie.
Gen voorspellen in UROD-seq:
Zoeken op UCSC naar UROD , vervolgens 1 Mb errond met gen in het midden houden 500k naar
links en 500k naar rechts via de position/searchs aanpassen zodat men exact 1Mbp heeft
Vb. 1 Mb rond chr1: 45,250,417-45,252,835
44,750,000 tot 45,750,000
Of via alternatief via DNA en upstream/downstream aanduiden = 1 mil + URODgen dus meer dan 1
mil bp
Genome browser: UROD
Get DNA
500000 upstream en 500000 downstream -> 1 miljoen + gen
Sequentie opvragen en vervolgens saven (save page as: text file): UROD_1Mb_flank.fa
Is op toledo gezet
Openen met WordPad
Weten van waar tot waar het gen zit als referentie zie ID waar je het vandaan gehaald hebt.
(Zie bovenaan voor de ID : chr1:44750417-45752835)
55
-lengte van sequentie = 1002418
Secure Shell: cat… (fasta file)
grep-v
°Geneid web server
-https://genome.imim.es/geneid.html
56
Deze webinterface draait niet op onze server maar ergens in Spanje.
Enige wat eigenlijk moet gebeuren is file opvragen want we werken in human, we willen een GFF en
de rest is onbelangrijk, na het ingeven van de fasta file via browse verkrijgen we deze gff file op de
server in Spanje:
Organisme: mens
Strands: forward en reverse
Output: GF
Rest laten zoals ‘t is
Submit (net boven predictions options)
Wat je krijgt => GFF
Command: wat daar op linux server draait
Geneid 2527kotnet… => file
-weergegeven in volgorde van kolommen: naam, source, beschrijving (first, terminal), start, stop,
score, strand, frame, extra commentaar/naam. Na hekje: commentaar
- deze GFFoutput saven als text file selecteren, copy en pasten in text editor (WinEdit) of excel
(openen, kies: all files)
57
- Pasted in WinEdit file save as
Saven: UROD_1MbFlank_geneid.gff
Uploaden naar UCSC genome browser
-naam en van… tot… veranderen
1000+begin en 2000+begin (begin: 44,750,417)
1ste kolom moet chr1 komen te staan ipv hg… bij locatie moet niet 1700 maar 1700
locatie van het gen!
Dit doen we in Excel
Excel: GFF hierin openen (all files selecteren onderaan bij open file)
58
- Melding op excel:
Commando’s: next, next, finish
Excel zet file in kolommen
- Formules:
C4: =A4+B4 (op vakjes klikken)
Kopiëren: rechtsonder hokje vastnemen en naar beneden slepen
- GFF in Excel:
Kolom D en E knippen en in N en O plakken
(Start stop kolommen tijdelijk verplaatsen en formule intypen in originele plaats)
59
- Nieuwe getallen in D:
Door de formule = 44750417 + naam rij/kolom (bv =44750417+N7-1), vervolgens 1 kolom naar rechts
slepen, wordt de formule ingegeven. Daarna selecteren we de 2 formules en slepen we deze
helemaal tot beneden.
N7=1700 en -1, want anders 1 teveel (44,750,417 = 1 bij ons)
Nieuwe getallen in E: kopiëren vanuit D (rechtsonder vastnemen en naar rechts slepen)
Kopiëren in alle kolommen (rechtsonder vastnemen en naar beneden slepen)
-Naam hg… moet chr1 worden (maar eerst commentaren wegdoen, want storend)
Links bovenaan (hoek tussen 1 en A): alles selecteren, data, sort, kolom ingeven (kolom
N)
Commentaarlijnen staan onderaan
60
Commentaarlijnen eruit knippen.
- vervolgens deleten we de laagste (niet kolomwaarden)
- in kolom A moet chr 1 staan
wanneer je kopieert: chr2, chr3,…
in 2de hokje ook chr1, beide selecteren en naar beneden slepen
of ctrl D (kopieert je formule in alle hokjes)
- Gedeelte dat we nodig hebben selecteren (kolom A tot I), ctrl+C, vervolgens ctrl+N: dit opent een
nieuwe sheet en vervolgens klikken we op home dan paste en paste values want anders worden de
formules mee gekopieerd en krijgen we foutieve waarden
Formules niet pasten, want hokjes zijn anders dus zullen formules niet kloppen
Links boven: paste values selecteren
Save as type: Text (Tab…) UROD_1MBflank_geneid_genomiccoord.gff
Verschillende meldingen: altijd op ‘yes’ klikken
61
$-teken zorgt ervoor dat 1 bepaald vakje in de formule behouden blijft zodat men bv in heel de
kolom N7 wordt opgeteld zet men deze tussen $-tekens
- Omzetten naar text file door save as tekst save as text file tab delimited
62
Accuraatheid
3 maten:
Sensitiviteit
Percentage echte positieven die voorspeld zijn als positieven
Formule:
Specificiteit
Percentage echte negatieven die voorspeld zijn als negatieven
Formule:
PPV / Positive Predictive Value
Percentage voorspelde genen die true positives zijn
Formule:
Correlatie: combinatie SN en SP
Tussen 1 en – 1:
-
+ 1: volledig correcte voorspelling
-
– 1: volledig incorrecte voorspelling
63
Exercise on accuracy
• Use the intersections of tracks in the Table Browser to estimate the specificity and sensitivity of
your own gene predictions compared to the UCSC gene track
‣ at the ‘gene’ level (not at nucleotide or exon)
• how many geneid predicted genes overlap with UCSC genes (i.e., how many true positives?)
• how many and what kind of UCSC genes are missed by geneid (i.e., how many false negatives)?
• how many genes are predicted by geneid that are no UCSC genes? (i.e., how many false positives)
Oefening S.183
Werkwijze:
1.
UCSC Genome Browser – Tables: Table Browser
Intersection: Create
2.
Intersect with User Track: All User Track records that have at least 80 % overlap with UCSC Genes
Submit
3.
Table Browser: Summary / Statistics
64
4.
Tables: Table Browser
Eigenschappen:
5.
-
Group: Genes and Gene Prediction Tracks
-
Track: RefSeq Genes
-
Table: RefGene
-
Region – Position: chr1:44,977,830-45,977,829
-
Intersection: Clear
Table Browser: Summary / Statistics
Volgens RefSeq: 39 genen in dat gebied
65
66
Biological classification
Pairwise sequence similarity
Pairwise sequence similarity = nagaan verband tussen 2 sequenties door vergelijking
Pairwise alignment = 2 sequenties positie per positie vergelijken
Similarity en homologie
Similarity: kwantitatieve meting die weergeeft hoe gelijkend 2 sequenties zijn
Basis: pairwise alignment
Mechanisme: aantal gelijke residuen tellen
Percent identity
Hoog: gelijke functie / evolutionair verwante sequenties
Homologie: hypothetische conclusie
Basis:
-
Orthologe genen
Gescheiden door vorming nieuwe species
-
Paraloge genen
Gescheiden door duplicatie
3 types mutaties:
Inserties
AAGA wordt AAGTA
Deleties
AAGA wordt AGA
Substituties
AAGA wordt AACA
Positieve score:
Perfect match
Negatieve score:
Mismatch
Indels
Dotplots
Dotplot: visuele manier van sequentievergelijking
Dot: overeenkomst
Identificatie regio’s: verbinden bolletjes
67
Oefening S.195
Werkwijze:
1.
PubMed – Nucleotide: AAB08987
FASTA: opslaan als fasta – file
2.
PubMed – Nucleotide: AAH02824
FASTA: opslaan als fasta – file
3.
1e manier: Google – Dotlet
Input: HMG1 – sequentie ingeven
Name: HMG1
Input: SOX10 – sequentie ingeven
Name: SOX10
68
4.
Dotlet: overeenkomstige AZ naar 51
Compute
5.
Dotlet:Greyscale aanpassen
Diagonalen
6.
2e manier: F – Secure SSH Client
File Transfer Window: HMG1.fa en SOX10.fa uploaden
7.
F – Secure SSH Client: dotmatcher –asequence HMG1.fa –bsequence SOX10.fa
Graph type [x11]: png
69
70
Scoring matrices
Scoring matrix: in rekening brengen positie – overlap en eigenschappen residuen
Belangrijk:
Conservatie
Frequentie
Evolutie
Nucleotide scoring matrix
Normaal: alleen matches / mismatches
Assumptie: 25 % kans op elke nucleotide
A
T
G
C
A
5
–4
–4
–4
T
–4
5
–4
–4
G
–4
–4
5
–4
C
–4
–4
–4
5
Gaps en gap penalties
Gaps in alignments: compensatie InDels tussen vergelijkende sequenties
Regel: niet meer dan 1 per 20 residuen
Affine gap penalty:
Vaste vermindering score voor maken gap
Bijkomende vermindering lengte gap
Regel:
G = gap opening penalty
L = gap extension penalty
n = lengte gap
G > L : lange gap is beter dan vele kleine gaps
Non – affine gap penalty:
Geen vermindering score voor maken gap
Vaste mismatch vermindering per positie gap
71
Oefening S.201
Werkwijze:
1.
1e manier: EMBOSS Web Interface
EMBOSS Web Interface – Alignment Global: Needle
Sequenties ingeven
2.
EMBOSS Web Interface – Matrix File: EBLOSUM62
Eigenschappen:
-
Gap opening penalty: 11
-
Gap extension penalty: 1
Run Needle
72
3.
2e manier: F – Secure SSH Client
File Transfer Window: sequenties uploaden
4.
F – Secure SSH Client: needle –asequence Gap_Sequence1.txt –bsequence Gap_Sequence2.txt
gapopen 11 –gapextend 1 –outfile Test_Needle.txt
73
Protein alignment
Protein – based searches: krachtiger dan nucleotide – based searches
Beter in:
Bepalen similarity
Bepalen homologie
Alignment algoritmes
Naïeve benadering: alle mogelijke alignments voor 2 sequenties genereren
Alignment met hoogste score kiezen
Probleem: te tijdrovend
Alignment algoritmes = gebruik van dynamisch programmeren om alignment met hoogste score te vinden
2 soorten:
Smith – Waterman
Lokaal
Needleman – Wunsch
Globaal
Globale vs. lokale sequentie – alignments
Globale alignment = lokaliseren beste alignment over volledige sequenties
Lokale alignment = lokalisatie meest gelijkende regio’s in delen sequenties
Voordeel: subsequenties ontdekken
BLAST
BLAST / Basic Local Alignment Search Tool: meest gebruikte methode voor detective similarity
Types:
BLASTP
Proteïnesequenties zoeken tegen proteïnedatabank
BLASTN
Nucleotidesequenties zoeken tegen nucleotidedatabank
TBLASTN
Proteïnesequenties zoeken tegen nucleotidedatabank
BLASTX
Nucleotidesequenties zoeken tegen proteïnedatabank
Ruwe scores: afhankelijk van opbouw query, doelsequenties, …
Oplossing: berekening Expectation Value
E / Expectation Value = aantal hoog – scorende segmentparen die puur door kans verwacht worden
74
Oefening S.215
Werkwijze:
1.
PubMed – Protein: Drosophila Melanogaster prospero protein isoform F
Filter your results: RefSeq (1)
FASTA: opslaan als fastafile
2.
Google – BLAST: BLASTP
3.
Bladeren: file uploaden
Job Title: Prospero, isoform F
BLAST
75
4.
Protein Sequence (1703 letters)
Graphic Summary: aantal hits
5.
Homologie: Bits / E – value
Lager in lijst: minder homologie en meer gaps
76
DNA microarrays to assay gene expression
Microarray data processing
Microarray data processing = analyse genexpressie met behulp van microarrays
Principe: aanmaak / binding oligonucleotiden op drager
RNA:
-
Controle: groen
-
Patiënt: rood
DNA: hybridisatie op plaat
Competitie tussen controle en patiënt
Resultaat:
-
Controle: groen
-
Patiënt: rood
-
Controle + patiënt: geel
Meting: laser
Gene set – analyse
Oefening S.230
Werkwijze:
1.
PubMed: Warner Nature Methods
Limits
2.
Limits: Dates
Published in the Last: Specify date range
2008 – 2008
77
Search
3.
Images from this publication: Free Text
Scroll naar beneden – Supplementary Material: Supplementary Table 1
Opslaan als .xls – file
4.
Google: Ensembl Biomart
Ensembl: Biomart
Dataset:
78
5.
-
Ensembl Genes 62
-
Homo sapiens genes (GRCh37.p3)
Filters: Gene
ID List Limit: RefSeq DNA ID(s) [e.g. NR_003682]
Plakken: NM_XXXXXX (Cluster 0)
6.
Attributes – Features: Gene
Ensembl: alles uitvinken
79
7.
Attributes – Features: External
External References: UniProt / SwissProt ID
Results
8.
Results: GO
Opslaan als .txt – file
80
9.
Filters: Gene
ID List Limit: EMBL ID(s) [e.g. AK090412]
Plakken: overige Genbank / RefSeq ID’s (Cluster 0)
Results
10. Results: GO
Opslaan als .txt – file
11. Beide bestanden samenvoegen: Biomart_Export_EMBLRefSeq.txt
12. Google: http://go.princeton.edu/cgi-bin/GOTermFinder/GOTermFinder
Required Basic Input Options: Biomart_Export_EMBLRefSeq.txt uploaden
81
13. Choose annotation: GOA – H. sapiens (Human)
Search for GO Terms
82
Oefening S.238
Werkwijze:
1.
Ensembl Biomart
Ensembl: Biomart
Dataset:
2.
-
Ensembl Genes 62
-
Homo sapiens genes (GRCh37.p3)
Filters: Gene
ID List Limit: UniProt / SwissProt ID(s) [e.g. YA23_HUMAN]
Plakken: Biomart_Export_EMBLRefSeq.txt
83
3.
Attributes – Homologs: Gene
Ensembl: alles uitvinken
4.
Attributes – Homologs: Orthologs
Mouse Orthologs: Mouse Ensembl Gene ID
Results
5.
Results: GO
Opslaan als .txt – file
84
6.
Dataset: Ensembl Genes 62
Mus musculus genes (NCBIM37)
7.
Filters: Gene
ID List Limit: Ensembl Gene ID(s) [e.g. ENSG00000139618]
Plakken: Biomart_Export_Mouse.txt
8.
Attributes – Features: Gene
Ensembl: alles uitvinken
85
9.
Attributes – Features: External
External References: MGI ID
Results
10. Results: GO
Opslaan als .txt – file
11. Google: http://go.princeton.edu/cgi-bin/GOTermFinder/GOTermFinder
Required Basic Input Options: Biomart_Export_Mouse_Homologs.txt uploaden
86
12. Choose annotation: MGI – M. musculus (Mouse)
Search for GO Terms
13. Drosophila melanogaster Mus musculus
87
Pattern matching
Elke letter x : AZ – residu
Voorbeeld:
Verklaring:
x(4,7):
Minimum 4 en maximum 7 residuen tussen beide AZ
[NGH]:
Enkel N, G of H tussen beide AZ
x(2):
Exact 2 residuen tussen beide AZ
{GP}:
Alle residuen behalve Gly en Pro tussen beide AZ
88
Oefening S.242
Werkwijze:
1.
Toledo – Bioinformatica: Course Documents
102 NFkappaB targets
2.
Google: Ensembl Biomart
Ensembl: Biomart
Dataset:
3.
-
Ensembl Genes 62
-
Homo sapiens genes (GRCh37.p3)
Filters: Gene
ID List Limit: RefSeq DNA ID(s) [e.g. ]
Plakken: NF_KappaB_Targets.txt
89
4.
Attributes – Sequences: Sequences
Sequences: Flank (Gene)
Upstream flank: 1000
5.
Attributes – Sequences: Header Information
Gene Information:
6.
-
Ensembl Gene ID uitvinken
-
Associated Gene Name aanvinken
Attributes – Sequences: Header Information
Transcript information: Ensembl Transcript ID uitvinken
Results
90
7.
Results: GO
Opslaan als .txt – file
8.
1e manier: EMBOSS Web Interface
EMBOSS Web Interface – Nucleic Motifs: Fuzznuc
Upload Biomart_Export_NF_KappaB_Targets.txt
Run Fuzznuc
91
9.
2e manier: F – Secure SSH Client
F – Secure SSH Client: fuzznuc –sequence Biomart_Export_NF_KappaB_Targets.txt –rformat
gff –outfile NF_KappaB_Fuzznuc.gff –pmismatch 0 –pattern
GGGNNNNNCC –complement
10. F – Secure SSH Client: cat NF_KappaB_Fuzznuc.gff | grep –v ‘##’ | wc –l
11. Google: TOUCAN
TOUCAN: Launch Now
12. TOUCAN – File: Load Seq
File Name: Biomart_Export_NF_KappaB_Targets.fasta
92
13. TOUCAN – Annotation: Annotate GFF
File Name: NF_KappaB_Fuzznuc.gff
Blokje boven: + strand
Blokje beneden: - strand
93
Oefening S.255
Werkwijze:
1.
PubMed – Protein: CTCF
Artikel: CTCF [Homo Sapiens]
FASTA: opslaan als fastafile
2.
F – Secure SSH Client: fuzzpro –sequence CTCF_Human.fa –outfile CTCF_human_ZincFinger.gff
–rformat gff –pattern “C–x(2,4)Cx(3)[LIVMFYWC]x(8)Hx(3,5)H”
3.
F – Secure SSH Client: cat CTCF_Human_ZincFinger.gff | grep –v ‘##’ | wc –l
94
Python – permission krijgen: chmod a+x file.py
OEFENING
#!/usr/bin/env python
# This program takes a DNA sequence (without checking)
# and shows its length and the nucleotide composition
DNASeq = "ATGTCTCATTCAAAGCA"
#DNASeq = raw_input("Enter a sequence: ")
DNASeq = DNASeq.upper() # Convert to upper case for .count() function
DNASeq = DNASeq.replace(" ", "") # Remove spaces
print 'Sequence:', DNASeq
# Below an example of nested functions: first find the length, then make it
float
SeqLength = float(len(DNASeq))
print 'Sequence Length: ', SeqLength
NumberA = DNASeq.count('A')
NumberC = DNASeq.count('C')
NumberG = DNASeq.count('G')
NumberT = DNASeq.count('T')
# Calculate percentage and output to 1 decimal
print "A: {0:.1f}".format(100 * NumberA / SeqLength)
print "C: {0:.1f}".format(100 * NumberC / SeqLength)
print "G: {0:.1f}".format(100 * NumberG / SeqLength)
print "T: {0:.1f}".format(100 * NumberT / SeqLength)
# Calculating primer melting points with different formulas by length
TotalStrong = NumberG + NumberC
TotalWeak = NumberA + NumberT
if SeqLength >= 14:
# Formula for sequences >= 14 nucleotides long
MeltTempLong = 64.9 + 41 * (TotalStrong - 16.4) / SeqLength
print "Tm Long (>14): {0:.1f} C".format(MeltTempLong)
else:
# Formula for sequences less than 14 nucleotides long
MeltTemp = (4 * TotalStrong) + (2 * TotalWeak)
print "Tm Short: {0:.1f} C".format(MeltTemp)
OEFENING 1
#!/usr/bin/env python
# Ask user for a DNA sequence and check the inputted sequence
DNASeq = raw_input('Give a DNA Sequence: ')
DNASeq = DNASeq.replace(" ", "")
DNASeq = DNASeq.upper()
# Calculate the CG content as percentage
SeqLength = len(DNASeq)
NumberC = DNASeq.count('C')
NumberG = DNASeq.count('G')
GCContent = 100.0 * (float(NumberG+NumberC)/SeqLength)
print "The GC content for your sequence is {0:.1f} %.".format(GCContent)
95
OEFENING 2
#!/usr/bin/env python
# Ask user for a DNA sequence and check the inputted sequence
DNASeq = raw_input('Give a DNA Sequence: ')
DNASeq = DNASeq.replace(" ", "")
DNASeq = DNASeq.upper()
# Display reverse complement
for nucleotide in reversed(DNASeq):
if nucleotide == 'A': print 'T',
elif nucleotide == 'T': print 'A',
elif nucleotide == 'G': print 'C',
else: print 'G',
print
PROTEIN EXERCISE
#!/usr/bin/env python
# This program takes a protein sequence
# and determines its molecular weight
# The look-up table is generated from a web page
# throught a series of regular expression replacements
# This program is described in Chapter 9 of PCfB
AminoDict={
'A':89.09, 'R':174.20, 'N':132.12, 'D':133.10, 'C':121.15, 'Q':146.15,
'E':147.13, 'G':75.07,
'H':155.16, 'I':131.17, 'L':131.17, 'K':146.19, 'M':149.21, 'F':165.19,
'P':115.13, 'S':105.09,
'T':119.12, 'W':204.23, 'Y':181.19, 'V':117.15, 'X':0.0, '-':0.0, '*':0.0 }
#starting sequence string, on which to perform calculations
ProteinSeq="FDILSATFTYGNR"
MolWeight=0
# step through each character in the ProteinSeq string,
# setting the AminoAcid variable to its value
for AminoAcid in ProteinSeq:
# look up the value corresponding to the current amino acid
# add its value of the present amino acid to the running total
MolWeight = MolWeight + AminoDict[AminoAcid]
# once the loop is completed, print protseq and the molecular weight
print "Protein:", ProteinSeq
print "Molecular weight: {0:.1f}".format(MolWeight)
96