Bijlage 1 - Inventarisatie Data verzamelingen werkgroepen CEME Inventarisatie RE – P. Herman (aangeleverd door T. Ysebaert) Naast het beheren van alle data die verzameld worden (projectdata, data verzameld door AIO's, studenten, etc.) in een centrale database, zien wij vooral een grote nood aan het linken van data verzameld door de monitoring taakgroep (dit zijn hoofdzakelijk benthos data) met data die wij verzamelen (bijv. sediment data) of onder de vorm van gis-bestanden aangeleverd krijgen door derden (bijv. Rijkswaterstaat). In het laatste geval gaat het dus om het centraal beschikbaar stellen van data waarvan we denken dat ze bruikbaar zijn voor anderen of die wij willen koppelen met andere data. De bestanden waarmee wij hoofdzakelijk werken zijn access en excel bestanden en GIS bestanden. Heel wat van onze data zijn uiteraard ook reeds opgeslagen in het LIMS (alle data die door het analytisch lab zijn geanalyseerd). Daarnaast worden er ook heel wat hydrodynamische metingen verricht die als asci files (dit gaat om zeer veel files) worden opgeslagen. Dit is slechts een beperkt overzicht van de data die we verzamelen. Inventarisatie ES – C. Heip (aangeleverd door K. Soeteart) De meeste data is opgeslagen in LIMS (SQL server) maar niet altijd goed genoeg gedocumenteerd (vooral indien het experimenten betreft). Soms is er een project waarbij er bepaalde dier- of plantengroepen geteld worden. Die gegevens worden dan meestal in EXCEL opgeslagen, en als het niet meezit dan resulteert dit in een groot aantal, moeilijk te doorgronden files (zie OMEX.zip, een tot de helft gereduceerde file). Sommige onderzoekers zetten hun data direct in een database (ACCESS) –zie jeroen.zip – hoewel toch nogal wat redundanties. De inschatting is dat de meeste data sets, die niet in LIMS zitten, relatief klein zijn, maar dat kan fout zijn, aangezien totnogtoe geen verplichting voor indienen van datasets bestond. Inventarisatie MM – L. Stal (aangeleverd door J. Kromkamp) Uitgezonderd de PARADOX files, zijn alle andere files zeer slecht of niet gedocumenteerd. Het is dus niet zinvol om deze files in het data-integratie systeem op te nemen. Het integreren zou veel tijd en geld kosten terwijl de files toch niet meer gebruikt kunnen worden. Deze onvolledig beschreven files moeten wel worden gearchiveerd. MM zal vanaf de opzet van het systeem files voor data-integratie aanleveren. De oude files worden (uitgezonderd de PARADOX files) worden dus niet voor data-integratie aangeboden, alleen voor data-archivering. Excel 343 MB per jaar, en de grootte varieert tussen 30 kb tot 3 GB: gemiddelde is niet aan te geven en totaal aantal ook niet. Access 9 MB per jaar, variërend van 0.1-3MB: nog weinig gebruikt in onze groep, maar gebruik zal vermoed ik groeien JPEG 105 GB! per jaar: grootte tussen 500 kB tot 50 GB: er zitten hier grootte tussen door gebruik van de confocal laser scan microscoop (50 GB max, meestal 1 GB) en microscoop foto’s (9.5 GB). Photoshop 1 GB, gemiddelde grootte 50MN, 20 stuks per jaar (1 opgave). PIM-files 40MB per jaar: nieuw type apparaat file (imagingPAM, ongeveer 1 MB groot, dus 40 per jaar?): hoe zich dit zal ontwikkelen is onduidelijk. Hieronder nog informatie over de verschillende programma’s in gebruik: vnl. voor correspondentie en artikelen, dus niet in database. Als het metafiles (beschrijving wat in datafile zit zou het wel moeten, maar wordt beperkt word gedaan, < 2 MB per jaar voor groep schat ik) zie tabel: sommige files groot door vele grafieken of lange datafiles uit Excel machines acces zie tabel vnl. voor grafische toepassingen en statistiek, data staat dan ook meest in Excel: sigmaplot dus lijkt niet nodig voor database pdf afgeleide zaken, dus niet voor database jpeg foto’s, tekeningen etc: wel geschikt voor database endnote nogal persoonlijk, moet vermoed ik niet in database? 3 MB per jaar: het betreft hier een oude database in paradox-3 waarin een paradox flinke rekenmodule (in pascal) verborgen zit waarmee de primaire productie (DOS wordt verwerkt en opgeslagen. Dringend vernieuwing nodig! Totale grootte op versie!): dit moment 27MB en groei dus surfer weinig gebruikt, < 5 MB? zeer variabel, maar laatste 4 jaar ongeveer 4 GB/jaar en file grootte variabel arcview/GIS tussen 6KB en 300 MB PIM-files datafiles van PAM imaging systems, lijkt wel geschikt voor database zal vnl. Access worden: als alleen tekstfiles erin gaan (sequenties), file klein, < 50 MB per jaar: met chromatogrammen groter, maar is nog geen beslissing over sequencing: genomen. GenBank ??? Bitmap: 1 opgave: 15 MB MT – Hummel Ook al is aangegeven dat de data niet openbaar wordt gemaakt, uit het antwoord van MT blijkt dat deze groep haar data niet in het systeem wenst op te slaan. De directie wil hier echter nog nader over spreken. In dit stadium is het nog onbekend of MT data zal gaan aanleveren. “ De Monitor Taakgroep slaat al haar data op in een relationele database. (MSSQLserver). Deze bestaat uit een hoeveelheid vaste gegevens (taxonomie, uitwisseling met databases opdrachtgevers, enz) en daarnaast worden de monsterlocaties, determinaties, gewichten en sediment data opgeslagen. De database is redelijk compact van opbouw en groeit met zo'n 15 MB per jaar. De Monitor Taakgroep moet voor de volle 100 % zijn eigen geld verdienen. Het grootste deel van de inkomsten komt van de opdrachtgevers, maar het onderhoud van de data en de ondersteuning bij het gebruik van de data kost ook tijd (dus geld). Hierdoor moeten we een vergoeding vragen voor het gebruik van de data. Een deel van de data mag ook niet aan derden worden doorgegeven zonder toestemming van de opdrachtgevers. Hierdoor moet (een groot deel van) de data van de Monitortaakgroep afgeschermd blijven voor andere medewerkers van het NIOO (CEME). Naast deze data zijn er uiteraard de offertes en rapporten, maar die vallen buiten de offerte.”