Bijlage 1 - Inventarisatie Data verzamelingen werkgroepen CEME

advertisement
Bijlage 1 - Inventarisatie Data verzamelingen werkgroepen CEME
Inventarisatie RE – P. Herman (aangeleverd door T. Ysebaert)
Naast het beheren van alle data die verzameld worden (projectdata, data verzameld
door AIO's, studenten, etc.) in een centrale database, zien wij vooral een grote nood
aan het linken van data verzameld door de monitoring taakgroep (dit zijn
hoofdzakelijk benthos data) met data die wij verzamelen (bijv. sediment data) of
onder de vorm van gis-bestanden aangeleverd krijgen door derden (bijv.
Rijkswaterstaat). In het laatste geval gaat het dus om het centraal beschikbaar stellen
van data waarvan we denken dat ze bruikbaar zijn voor anderen of die wij willen
koppelen met andere data.
De bestanden waarmee wij hoofdzakelijk werken zijn access en excel bestanden en
GIS bestanden. Heel wat van onze data zijn uiteraard ook reeds opgeslagen in het
LIMS (alle data die door het analytisch lab zijn geanalyseerd). Daarnaast worden er
ook heel wat hydrodynamische metingen verricht die als asci files (dit gaat om zeer
veel files) worden opgeslagen. Dit is slechts een beperkt overzicht van de data die
we verzamelen.
Inventarisatie ES – C. Heip (aangeleverd door K. Soeteart)
De meeste data is opgeslagen in LIMS (SQL server) maar niet altijd goed genoeg
gedocumenteerd (vooral indien het experimenten betreft). Soms is er een project
waarbij er bepaalde dier- of plantengroepen geteld worden. Die gegevens worden dan
meestal in EXCEL opgeslagen, en als het niet meezit dan resulteert dit in een groot
aantal, moeilijk te doorgronden files (zie OMEX.zip, een tot de helft gereduceerde
file). Sommige onderzoekers zetten hun data direct in een database (ACCESS) –zie
jeroen.zip – hoewel toch nogal wat redundanties.
De inschatting is dat de meeste data sets, die niet in LIMS zitten, relatief klein zijn,
maar dat kan fout zijn, aangezien totnogtoe geen verplichting voor indienen van
datasets bestond.
Inventarisatie MM – L. Stal (aangeleverd door J. Kromkamp)
Uitgezonderd de PARADOX files, zijn alle andere files zeer slecht of niet
gedocumenteerd. Het is dus niet zinvol om deze files in het data-integratie systeem op
te nemen. Het integreren zou veel tijd en geld kosten terwijl de files toch niet meer
gebruikt kunnen worden. Deze onvolledig beschreven files moeten wel worden
gearchiveerd. MM zal vanaf de opzet van het systeem files voor data-integratie
aanleveren. De oude files worden (uitgezonderd de PARADOX files) worden dus niet
voor data-integratie aangeboden, alleen voor data-archivering.
 Excel
343 MB per jaar, en de grootte varieert tussen 30 kb tot 3 GB: gemiddelde is
niet aan te geven en totaal aantal ook niet.
 Access
9 MB per jaar, variërend van 0.1-3MB: nog weinig gebruikt in onze groep,
maar gebruik zal vermoed ik groeien
 JPEG
105 GB! per jaar: grootte tussen 500 kB tot 50 GB: er zitten hier grootte
tussen door gebruik van de confocal laser scan microscoop (50 GB max,
meestal 1 GB) en microscoop foto’s (9.5 GB).
 Photoshop
1 GB, gemiddelde grootte 50MN, 20 stuks per jaar (1 opgave).
 PIM-files
40MB per jaar: nieuw type apparaat file (imagingPAM, ongeveer 1 MB groot,
dus 40 per jaar?): hoe zich dit zal ontwikkelen is onduidelijk.
Hieronder nog informatie over de verschillende programma’s in gebruik:
vnl. voor correspondentie en artikelen, dus niet in database. Als het metafiles
(beschrijving wat in datafile zit zou het wel moeten, maar wordt beperkt
word
gedaan, < 2 MB per jaar voor groep schat ik)
zie tabel: sommige files groot door vele grafieken of lange datafiles uit
Excel
machines
acces
zie tabel
vnl. voor grafische toepassingen en statistiek, data staat dan ook meest in Excel:
sigmaplot
dus lijkt niet nodig voor database
pdf
afgeleide zaken, dus niet voor database
jpeg
foto’s, tekeningen etc: wel geschikt voor database
endnote
nogal persoonlijk, moet vermoed ik niet in database?
3 MB per jaar: het betreft hier een oude database in paradox-3 waarin een
paradox
flinke rekenmodule (in pascal) verborgen zit waarmee de primaire productie
(DOS
wordt verwerkt en opgeslagen. Dringend vernieuwing nodig! Totale grootte op
versie!):
dit moment 27MB en groei dus
surfer
weinig gebruikt, < 5 MB?
zeer variabel, maar laatste 4 jaar ongeveer 4 GB/jaar en file grootte variabel
arcview/GIS tussen 6KB en 300 MB
PIM-files
datafiles van PAM imaging systems, lijkt wel geschikt voor database
zal vnl. Access worden: als alleen tekstfiles erin gaan (sequenties), file klein, <
50 MB per jaar: met chromatogrammen groter, maar is nog geen beslissing over
sequencing: genomen.
GenBank
???
Bitmap:
1 opgave: 15 MB
MT – Hummel
Ook al is aangegeven dat de data niet openbaar wordt gemaakt, uit het antwoord van
MT blijkt dat deze groep haar data niet in het systeem wenst op te slaan. De directie
wil hier echter nog nader over spreken. In dit stadium is het nog onbekend of MT data
zal gaan aanleveren.
“ De Monitor Taakgroep slaat al haar data op in een relationele database. (MSSQLserver). Deze bestaat uit een hoeveelheid vaste gegevens (taxonomie, uitwisseling met
databases opdrachtgevers, enz) en daarnaast worden de monsterlocaties,
determinaties, gewichten en sediment data opgeslagen. De database is redelijk
compact van opbouw en groeit met zo'n 15 MB per jaar.
De Monitor Taakgroep moet voor de volle 100 % zijn eigen geld verdienen. Het
grootste deel van de inkomsten komt van de opdrachtgevers, maar het onderhoud van
de data en de ondersteuning bij het gebruik van de data kost ook tijd (dus geld).
Hierdoor moeten we een vergoeding vragen voor het gebruik van de data. Een deel
van de data mag ook niet aan derden worden doorgegeven zonder toestemming van de
opdrachtgevers. Hierdoor moet (een groot deel van) de data van de Monitortaakgroep
afgeschermd blijven voor andere medewerkers van het NIOO (CEME).
Naast deze data zijn er uiteraard de offertes en rapporten, maar die vallen buiten de
offerte.”
Download