Presentatie

advertisement
Modificatie van Galaxy voor
Next-Generation Sequencing
Bataillie Michiel
2010 – 2011
Bachelorproef
Hoge School West-Vlaanderen Dept. Simon Stevin
Overzicht
 Stageplaats
 Project
 Galaxy
 High-Throughput Sequencing
 Resultaten
 Besluit
Stageplaats
 VIB – BITS
• Bioinformatics Training and Service Facility
 support aan alle onderzoeksdepartementen binnen het VIB
Project
 Nieuwe server
 Klaarzetten van server voor gebruik binnen het VIB voor
analyse van biologische data
 BITS Galaxy server
Server
 Specificaties
• 12 CPU – 24 cores
•
96 GB RAM
 Hoofdbesturingssysteem: Red Hat Enterprise Linux 6
 KVM  OS werkt virtueel op server
 Virtuele machines  CentOS = guest OS
 Iedere virtuele machine heeft eigen specifiek doel
• Default Galaxy  ongewijzigd
• Development Galaxy  ontwikkelen
• …
Galaxy
 Webplatform voor managen van:
• Bio-informatica tools
• Datasets
• Analyses
 Voordelen:
• Applicaties verzameld op één plaats  gebruiksvriendelijk
• Workflows/pijplijn
• Reproduceerbaarheid
Framework Galaxy
Lijst van tools
Framework Galaxy
Werkpaneel
Framework Galaxy
Output
bekijken in
werkpaneel
Geschiedenis
High-Throughput sequencing
 BITS Galaxy server  tools gericht op High-Throughput Sequencing (HTS)
 Next-Generation Sequencing (NGS)  tweede generatie sequentieplatformen
 Genereert miljoenen kleine sequentiefragmenten (= reads) in korte tijdspanne
• Illumina (HiSeq)  korte fragmenten: 50 – 150 bp  gigabasen / run
• AB (SOLiD)  korte fragmenten: 60 – 90 bp  gigabasen / run
• Roche (454)  lange fragmenten: 300 – 800 bp  megabasen / run
Mapping
 Mapping = alignering korte nucleotide sequenties (reads) tegen een
referentie sequentie (bv.: humaan genoom)
 Mapping in Galaxy
 duurt uren tot dagen
 Mappers = Applicatie om reads te aligneren
•
Bowtie
•
BWA
•
BFAST
•
LastZ
•
MAQ
• …
 Elke mapper is efficiënter in mappen van reads met specifieke lengte
 Input: FASTQ
 Output: SAM file
Mapping
 FASTQ
 Iedere read = 4 lijnen
• 1ste lijn: begint steeds met ‘@’ dan omschrijving + naam van fragment
• 2de lijn: ruwe sequentie in lettertekens
• 3de lijn: begint altijd met ‘+’
• 4de lijn: kwaliteitswaarden voor sequentie op lijn 2
 lengte lijn 4 = lengte lijn 2
 ieder symbool (ASCII) representeert numerieke waarde =
kwaliteitsscore
Mapping
 SAM = Sequence Alignment Map
 Algemeen formaat voor het opslaan van de resultaten van mappers
• Alignment informatie van sequenties tegen referentiegenomen
• Hoofdsectie en aligneringssectie
• Formaat ondersteunt short & long reads
Resultaten
 BITS Galaxy server  zelf tools ontwikkelen  implementeren
• Histogram tool  “oefening”
• CG Graph Reports tool  rapport met grafieken
• Script Install tool  installeert tools vanuit interface
• IGV tool  integratie van IGV in Galaxy
• Monitor tool  benchmarking mappers
Implementeren van tools in Galaxy
 Ontwikkeling van tools: script + xml
• Perl
• Python
• Bash (Linux)
IGV tool
 Input: BAM file = Binary Alignment Map
 Binaire representatie van SAM file  exact dezelfde
informatie  maar omvang kleiner  schijfruimte besparen
 Output: IGV (= genoombrowser) met BAM file en vooringestelde
parameters
IGV tool
 Galaxy conferentie: 25 – 26 mei
 IGV integratie onlangs aanwezig
 Toegevoegd in release van 8 april 2011
Monitor tool
 Benchmarking mappers
 Monitor
• CPU verbruik
• RAM verbruik
• Tijd
• SAM analyse
Monitor tool
 Twee outputs:
• SAM file = normale output
• Mapping report = extra output
NBIC Benchmark tool
 Netherlands Bioinformatics Centre (NBIC)
 Andere aanpak:
Aparte tool
Geïntegreerd in mappers
NBIC Benchmark tool
Eigen Monitor tool
 Perl
 Python
 Wrapper script  herschreven
 Wrapper script  behouden
 Mappers:
 Mappers:
• BWA
• Bowtie
• MAQ
• BWA
 SAM analyse: uitvoeriger
• BFAST
• aantal juist gemapped
• LastZ
• aantal verkeerd gemapped
• …
• aantal niet gemapped
 SAM analyse: eenvoudig
• unique + multiple hits
Besluit
 Galaxy  flexibel platform met veel mogelijkheden
 Analyses gemakkelijk door gebruik van workflows
 Reproduceerbaarheid
 Default Galaxy & Development Galaxy operationeel
 Production Galaxy  Benchmarking mappers
Modificatie van Galaxy voor
Next-Generation Sequencing
Bataillie Michiel
2010 – 2011
Bachelorproef
Hoge School West-Vlaanderen Dept. Simon Stevin
Download