Modificatie van Galaxy voor Next-Generation Sequencing Bataillie Michiel 2010 – 2011 Bachelorproef Hoge School West-Vlaanderen Dept. Simon Stevin Overzicht Stageplaats Project Galaxy High-Throughput Sequencing Resultaten Besluit Stageplaats VIB – BITS • Bioinformatics Training and Service Facility support aan alle onderzoeksdepartementen binnen het VIB Project Nieuwe server Klaarzetten van server voor gebruik binnen het VIB voor analyse van biologische data BITS Galaxy server Server Specificaties • 12 CPU – 24 cores • 96 GB RAM Hoofdbesturingssysteem: Red Hat Enterprise Linux 6 KVM OS werkt virtueel op server Virtuele machines CentOS = guest OS Iedere virtuele machine heeft eigen specifiek doel • Default Galaxy ongewijzigd • Development Galaxy ontwikkelen • … Galaxy Webplatform voor managen van: • Bio-informatica tools • Datasets • Analyses Voordelen: • Applicaties verzameld op één plaats gebruiksvriendelijk • Workflows/pijplijn • Reproduceerbaarheid Framework Galaxy Lijst van tools Framework Galaxy Werkpaneel Framework Galaxy Output bekijken in werkpaneel Geschiedenis High-Throughput sequencing BITS Galaxy server tools gericht op High-Throughput Sequencing (HTS) Next-Generation Sequencing (NGS) tweede generatie sequentieplatformen Genereert miljoenen kleine sequentiefragmenten (= reads) in korte tijdspanne • Illumina (HiSeq) korte fragmenten: 50 – 150 bp gigabasen / run • AB (SOLiD) korte fragmenten: 60 – 90 bp gigabasen / run • Roche (454) lange fragmenten: 300 – 800 bp megabasen / run Mapping Mapping = alignering korte nucleotide sequenties (reads) tegen een referentie sequentie (bv.: humaan genoom) Mapping in Galaxy duurt uren tot dagen Mappers = Applicatie om reads te aligneren • Bowtie • BWA • BFAST • LastZ • MAQ • … Elke mapper is efficiënter in mappen van reads met specifieke lengte Input: FASTQ Output: SAM file Mapping FASTQ Iedere read = 4 lijnen • 1ste lijn: begint steeds met ‘@’ dan omschrijving + naam van fragment • 2de lijn: ruwe sequentie in lettertekens • 3de lijn: begint altijd met ‘+’ • 4de lijn: kwaliteitswaarden voor sequentie op lijn 2 lengte lijn 4 = lengte lijn 2 ieder symbool (ASCII) representeert numerieke waarde = kwaliteitsscore Mapping SAM = Sequence Alignment Map Algemeen formaat voor het opslaan van de resultaten van mappers • Alignment informatie van sequenties tegen referentiegenomen • Hoofdsectie en aligneringssectie • Formaat ondersteunt short & long reads Resultaten BITS Galaxy server zelf tools ontwikkelen implementeren • Histogram tool “oefening” • CG Graph Reports tool rapport met grafieken • Script Install tool installeert tools vanuit interface • IGV tool integratie van IGV in Galaxy • Monitor tool benchmarking mappers Implementeren van tools in Galaxy Ontwikkeling van tools: script + xml • Perl • Python • Bash (Linux) IGV tool Input: BAM file = Binary Alignment Map Binaire representatie van SAM file exact dezelfde informatie maar omvang kleiner schijfruimte besparen Output: IGV (= genoombrowser) met BAM file en vooringestelde parameters IGV tool Galaxy conferentie: 25 – 26 mei IGV integratie onlangs aanwezig Toegevoegd in release van 8 april 2011 Monitor tool Benchmarking mappers Monitor • CPU verbruik • RAM verbruik • Tijd • SAM analyse Monitor tool Twee outputs: • SAM file = normale output • Mapping report = extra output NBIC Benchmark tool Netherlands Bioinformatics Centre (NBIC) Andere aanpak: Aparte tool Geïntegreerd in mappers NBIC Benchmark tool Eigen Monitor tool Perl Python Wrapper script herschreven Wrapper script behouden Mappers: Mappers: • BWA • Bowtie • MAQ • BWA SAM analyse: uitvoeriger • BFAST • aantal juist gemapped • LastZ • aantal verkeerd gemapped • … • aantal niet gemapped SAM analyse: eenvoudig • unique + multiple hits Besluit Galaxy flexibel platform met veel mogelijkheden Analyses gemakkelijk door gebruik van workflows Reproduceerbaarheid Default Galaxy & Development Galaxy operationeel Production Galaxy Benchmarking mappers Modificatie van Galaxy voor Next-Generation Sequencing Bataillie Michiel 2010 – 2011 Bachelorproef Hoge School West-Vlaanderen Dept. Simon Stevin