Naar een discipline-onafhankelijk DANS - DANS-KNAW

advertisement
Naar een discipline-onafhankelijk DANS
Visienota voor de DANS-strategie 2011-2015
Peter Doorn
Data Archiving and Networked Services
Den Haag, Juni 2010
Samenvatting
Uitgangspositie en vooruitblik
DANS is in 2005 door de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW)
en de Nederlandse organisatie voor Wetenschappelijk Onderzoek (NWO) opgericht als
data-instituut voor de alfa- en gamma- wetenschappen. De bètawetenschappen kunnen op
datagebied ‘hun eigen broek wel ophouden’, zo werd en wordt nog steeds vaak
aangenomen. De schaal van de dataopslag is daar veel groter. Voor onderzoek in de
levenswetenschappen, de hoge energiefysica en de sterrenkunde is bijvoorbeeld in het
kader van BIG Grid 1 enorme fysieke opslagruimte en rekencapaciteit beschikbaar. Toch
heeft vooral de duurzaamheid van de datavoorziening ook in de bètawetenschappen te
lijden van versnippering in taken en verantwoordelijkheden en in de hele organisatie.
Als DANS wordt uitgebouwd tot een disciplineonafhankelijke dataorganisatie – het
werkgebied dus wordt uitgebreid van de alfa- en gamma- naar de bètawetenschappen –
kan die versnippering worden tegengegaan. Maar er zijn meer voordelen te behalen.
Schaalvoordelen bijvoorbeeld. Er zal minder dubbel werk hoeven te worden gedaan. Er
ontstaat een grotere eenheid in de datavoorziening; data worden beter vindbaar. Zo’n
brede positionering van DANS is ook goed voor het bevorderen van digitale duurzaamheid
waarvoor niet alleen de Nationale Coalitie Digitale Duurzaamheid (NCDD) pleit maar ook
organisaties als KNAW en NWO. Beide laatste hebben zich ook verbonden aan het streven
naar Open Access. DANS zal daar als disciplineonafhankelijke organisatie een sterke
impuls aan kunnen geven.
Datzelfde geldt voor de Nederlandse positie in de ontwikkeling van internationale
wetenschappelijke data-infrastructuren. DANS is partner in de meeste grote Europese en
enkele andere internationale infrastructuurprojecten op datagebied voor de humaniora en
sociale wetenschappen. Maar DANS is ook betrokken bij niet-disciplinegebonden
initiatieven om de onderzoeksinfrastructuur te verbeteren.
Tenslotte zal een disicipline-onafhankelijk DANS bij kunnen dragen aan een duidelijke
rolverdeling in Nederland op het gebied van duurzame toegankelijkheid.
Diensten voor verschillende vakgebieden
Een deel van het huidige werk is gebonden aan bepaalde vakgebieden, maar een groot
deel is dat niet. DANS is er al op ingesteld om verschillende gebieden op verschillende
manieren te benaderen en de dienstverlening toe te spitsen op de behoeften van de
klanten-onderzoekers. Enkele voorbeelden:
•
DANS heeft samen met de Rijksdienst Cultureel Erfgoed en de universiteiten EDNA
opgezet: het e-Depot voor de Nederlandse Archeologie;
•
DANS beheert sociaal-wetenschappelijke en historische data-archieven;
1
Een samenwerkingsproject waarin duizenden computers als één computer opereren voor het opslaan
en verwerken van zeer grote hoeveelheden data.
2
•
DANS zal een belangrijke bijdrage kunnen leveren aan de datavoorziening zoals
voorgesteld in het advies van de Raad voor Gezondheidsonderzoek 2;
•
De datafaciliteit die wordt opgebouwd door de federatie van technische universiteiten
3TU zal als thematisch archief kunnen aansluiten bij DANS.
Door van DANS een algemeen data-instituut te maken kan de beschikbare opslag beter
worden benut. Bovendien kan de rol die het instituut nu speelt bij het opstellen van regels
voor het archiveren, de kwaliteitsborging, de toegang en het delen van data heel goed
worden uitgebreid tot de bètawetenschappen. Dat zal tot een grotere opbrengst leiden van
veel investeringen in tijd en deskundigheid. In zo’n nieuw discipline-onafhankelijk DANS
staan de volgende activiteiten centraal:
•
Best practices voor archivering van en toegang tot data (Datakeurmerk, standaarden
voor o.a. metadata);
•
Gedragscodes voor gebruik van gegevens;
•
Beheren van registers van dataverzamelingen;
•
Duurzame langetermijn opslag van data (zoals persistent identifiers, back-up faciliteit)
en het delen van opslagsystemen;
•
Koppelen van datasets aan elkaar, aan publicaties en aan onderzoeksinformatie;
•
Hulp bij het delen van data, het realiseren van collaboratories en (methoden voor) het
verzamelen van gegevens;
•
Onderzoek en ontwikkeling op het gebied van oplossingen voor duurzame
toegankelijkheid (data curation);
•
Aanbieden van juridische expertise (auteursrecht, privacy, licenties).
E-research en de vereiste infrastructuur
In verschillende onderzoekdisciplines neemt onderzoek waarin de computer niet enkel een
behulpzame maar een centrale rol vervult een hoge vlucht. Voor dergelijk onderzoek, dat
vaak wordt aangeduid als e-research (veelal datagedreven) en computationele wetenschap
(doorgaans modelgedreven), is een goed toegankelijke datavoorziening een vereiste.
DANS is goed toegerust om datagefundeerde e-research te versterken en om als brug te
fungeren tussen de alfa’s, gamma’s en bèta’s die computationeel onderzoek doen. DANS
wil graag deelnemen in een zich ontwikkelend programma voor e-humanities, maar met
name ook de banden versterken met de informatica en e-science.
Combinaties van data, onderzoeksinformatie en publicaties
Het onderscheid tussen publicaties en datasets is in het digitale ecosysteem geleidelijk aan
het vervagen. Er komen steeds meer ‘verrijkte publicaties’ (waarin bronnen,
onderzoeksresultaten en data zijn gekoppeld) en andere publicatievormen, zoals e-journals
met een data availability policy. Wetenschappers hebben behoefte aan een gemakkelijke
en persistente toegang tot alle voor hun onderzoek relevante informatie, ongeacht of het
nu datasets, publicaties, software (onderzoekstools) of projectinformatie betreft. Daarom
werkt DANS aan een betere integratie van deze vormen van wetenschappelijke informatie,
2
Rapport Van gegevens verzekerd, oktober 2009
3
samen met onder meer de Koninklijke Bibliotheek en de afdeling Onderzoekinformatie van
de KNAW.
4
1. Inleiding
Het rapport ‘Toekomst voor ons digitale geheugen’ 3 van de Nationale Coalitie Digitale
Duurzaamheid schetst de huidige stand van de duurzame toegang tot informatie voor de
sectoren overheid, cultuur en wetenschap in Nederland (zie ook bijlage 1).
In de wetenschap is die toegang versnipperd en verschilt ze aanzienlijk van discipline tot
discipline. Er is in Nederland geen duidelijke verantwoordelijke of koers op dit gebied:
‘vaak is onduidelijk wie eigenaar van gegevens is en/of wie verantwoordelijk is voor
langetermijn toegang.’ Dit terwijl juist in de wetenschap digitale dataverwerking onmisbaar
is geworden.
‘Een belangrijke constatering is dat er in Nederland weinig organisaties zijn die expliciet en
structureel activiteiten ontplooien om de langetermijn archivering van wetenschappelijke
digitale objecten te verzorgen. Er zijn daarentegen wel een vrij groot aantal repositories
die de toegang tot een groot aantal digitale wetenschappelijke objecten mogelijk maken,
maar die niet ingericht zijn op langetermijn bewaring. Er dient meer aandacht te komen
voor de langetermijn archivering van digitale wetenschappelijke objecten. Hierbij is het
van belang in samenwerking te komen tot een gemeenschappelijke basisinfrastructuur
voor digitale archivering en voor de manier waarop digitale wetenschappelijke objecten
kunnen worden hergebruikt.’
DANS is in 2005 opgericht door de Koninklijke Nederlandse Akademie van Wetenschappen
(KNAW) en de Nederlandse organisatie voor Wetenschappelijk Onderzoek (NWO). Het zou
een landelijke organisatie zijn voor opslag en blijvende toegankelijkheid van
onderzoeksgegevens in de alfa- en gamma- wetenschappen.
De bètawetenschappen kunnen op datagebied ‘hun eigen broek wel ophouden’, zo werd en
wordt nog steeds vaak aangenomen. De schaal van de data-opslag in de
bètawetenschappen is inderdaad veel groter dan die in de alfa- en gammawetenschappen.
Over de totale omvang van de wetenschappelijke data-opslag in Nederland kunnen slechts
gissingen worden gemaakt. Voor gebruikersgemeenschappen in onder andere de
levenswetenschappen, de hoge energiefysica en de sterrenkunde zijn in het kader van BIG
Grid 4 grote hoeveelheden fysieke opslagruimte en rekencapaciteit beschikbaar. Toch blijkt
uit zowel het NCDD-rapport als buitenlandse onderzoeken fragmentatie in de organisatie,
taken en verantwoordelijkheden ten aanzien van de duurzaamheid van de datavoorziening
in de bètawetenschappen.
In deze notitie wordt betoogd dat het zinvol is om het werkgebied van DANS te verbreden
naar alle wetenschapsvelden. Deze gedachte is aan de orde gekomen in gesprekken met
vertegenwoordigers van onder meer de National Computer facilities Foundation (NCF),
NWO en het gemeenschappelijk datacentrum van de drie technische universiteiten (3TU
Datacentrum). Ze werd en wordt door de gesprekspartners interessant of aantrekkelijk
gevonden, dan wel met klem aangeraden. Door DANS te verbreden worden data beter
3
‘Toekomst voor ons digitaal geheugen’; Den Haag, NCDD, 2009.
Een samenwerkingsproject waarin duizenden computers als één computer opereren voor het opslaan
en verwerken van zeer grote hoeveelheden data.
4
5
vindbaar, worden versnippering en dubbel werk tegengegaan, kunnen schaalvoordelen
worden geïncasseerd en zal een grotere eenheid in de datavoorziening ontstaan.
Nederland zal daardoor ook internationaal sterker staan in de ontwikkeling van datainfrastructuren. DANS neemt nu al een vooruitgeschoven positie in als data-instituut. Een
multidisciplinair DANS, dat zich richt op alle wetenschapsgebieden, zou belangrijk in het
voordeel zijn om vanuit die uitgangspositie uit te groeien tot een van de sterkste
datavoorzieningen in Europa en in de wereld.
Een disicipline-onafhankelijk DANS zal bijdragen aan een duidelijke rolverdeling in
Nederland op het gebied van de digitale duurzaamheid. Als de KB zich primair richt op
publicaties, het Nationaal Archief op overheidsinformatie, en Beeld en Geluid op
audiovisuele informatie, zal DANS de wetenschap op datagebied bedienen. Er zullen altijd
bepaalde grijze zones blijven, omdat ook onderzoekers beeld- en geluidmateriaal
analyseren en produceren, wetenschappelijke publicaties steeds meer hybride worden, en
erfgoedinformatie en digitale overheidsarchieven belangrijk zijn voor
geesteswetenschappelijk onderzoek. Maar tussen vier grote partijen die zorg dragen voor
de digitale duurzaamheid zal het goed mogelijk zijn om praktische afspraken te maken
over de taakverdeling.
2. DANS en disciplines
Een deel van het werk van DANS is disciplinegebonden, maar een deel is dat ook niet. Dat
laatste geldt bijvoorbeeld voor het Datakeurmerk (Data Seal of Approval, DSA), persistent
identifiers, richtlijnen en best practices voor standaard bestandsformaten, metadata en
datamigratie, voor onderzoek naar dataopslag, archiveringsmethoden, ontsluiting van data
(data curation) en voor juridische expertise (privacy, auteursrecht, licenties).
Alleen in de coördinatiegroep Archief en Beschikbaarstelling van DANS is een deel van het
werk naar vakgebied ingedeeld. Het DANS archiefsysteem EASY is weliswaar ontwikkeld
voor het archiveren van datasets in de alfa- en gammawetenschappen, maar het is ook
eenvoudig uit te breiden naar andere vakgebieden 5. Het zijn vooral de vakafhankelijke
metadata-standaarden die aanpassingen vergen.
Hierbij moet niet vergeten worden dat ook binnen de alfa- en gammawetenschappen
aanzienlijke verschillen bestaan tussen verschillende disciplines: psychologen stellen
andere eisen dan archeologen, historici andere dan taalkundigen. DANS is er al op
ingesteld om verschillende gebieden op verschillende wijzen te benaderen en de
dienstverlening toe te spitsen op de behoeften van de klanten-onderzoekers. Daarbij wordt
uiteraard gedeeld wat wel overeenkomstig is, en dat is soms meer dan de specialisten
binnen de gebieden zich bewust zijn.
5
Voor datasets die te groot zijn om via een gewone internetverbinding te deponeren gebruikt DANS
aangepaste werkwijzen.
6
3. DANS en de technische- en gezondheidswetenschappen
In 2009 bracht de Raad voor Gezondheidsonderzoek een advies aan drie ministeries (WVS,
OCW en EZ) uit over de datavoorziening voor volksgezondheid en wetenschap 6. De situatie
die daarin wordt geschetst past in het beeld van het hiervoor genoemde NCDD-rapport. De
beschreven databehoeften voor het onderzoek en de aanbevelingen voor verbetering lijken
grotendeels sterk op die in de sociale wetenschappen.
Aanbevelingen uit het RGO-rapport ‘Van gegevens verzekerd’
1. Bevorder een efficiënt gebruik van gegevensverzamelingen
a. Stel een register van gegevensverzamelingen in
b. Zorg voor een optimale toegankelijkheid van gegevens
c. Optimaliseer de mogelijkheden tot gegevenskoppeling
d. Vergemakkelijk het delen van gegevens
2. Hef tekorten aan gegevens op en voorkom nieuwe tekorten
a. Voorzie in herhaald dwarsdoorsnede-onderzoek van voldoende omvang
b. Garandeer de continuïteit van de registratie van zorggebruik in
ziekenhuizen
c. Zorg voor adequate financiering van longitudinale epidemiologische
gegevensverzamelingen
3. Creëer meer ruimte voor verzoeken om collectieve financiering van nieuwe
gegevensverzamelingen en beoordeel deze systematisch
DANS, dat voor dit adviesrapport is geraadpleegd, heeft het recept en bijna alle
ingrediënten in huis om aanbeveling 1 te kunnen faciliteren. Overigens biedt DANS nu al
toegang tot circa 90 dataverzamelingen op het gebied van volksgezondheid en
epidemiologie. Activiteiten als genoemd in aanbeveling 2 en 3 worden door DANS voor de
sociale wetenschappen gesteund in het voorstel voor een Data Infrastructure for the Social
Sciences (DISS). Omdat de gezondheidswetenschappen niet tot het primaire domein van
DANS behoren, ligt het niet zonder meer voor de hand dat DANS hier een rol gaat spelen.
In een presentatie op een workshop over het rapport en gesprekken met het ministerie
van VWS en de Nederlandse organisatie voor Gezondheidsonderzoek en Zorginnovatie
(ZonMw) heeft DANS wel de mogelijkheid geopperd.
Voor de opslag van onderzoeksdata uit de technische wetenschappen ontwikkelt de
3TU.Federatie een datacentrum, momenteel nog als tweejarig project. Dit centrum zet zijn
kennis, ervaring en gereedschappen in om de langetermijn opslag en permanente
toegang, en daarmee de herbruikbaarheid van datasets uit de technische wetenschappen,
te waarborgen. De komende jaren bouwt het centrum een data-archief voor de technische
wetenschappen. Daarnaast adviseert het over duurzame archivering. Hoewel DANS
regelmatig contact onderhoudt met het 3TU.Datacentrum, is het de vraag of het zinvol is
om naast DANS een apart datacentrum te laten ontstaan voor de technische
wetenschappen. Bij een discipline-onafhankelijk DANS zou het 3TU.Datacentrum zich als
6
Rapport ‘Van gegevens verzekerd’, oktober 2009
7
thematisch archief kunnen aansluiten bij het DANS-netwerk. Deze wens is door 3TU
verscheidene malen uitgesproken.
4. DANS en e-research/e-infrastructuur
In verschillende onderzoekdisciplines neemt onderzoek waarin de computer niet enkel een
behulpzame maar een centrale rol vervult een hoge vlucht. Er wordt in Nederland op
diverse plaatsen gewerkt aan plannen voor dergelijk onderzoek, dat ook wel wordt
aangeduid als e-research of computationele wetenschap. Binnen de KNAW is een
commissie Computational Humanities aan de slag en houdt de Raad voor de Technische
Wetenschappen, Wiskunde, Informatica, Natuur- en Sterrenkunde en Scheikunde (TWINS)
zich bezig met plannen rond computational science. Op twee studiedagen in 2009 werd
geconstateerd dat het onderscheid tussen de e-humanities en e-science niet fundamenteel
is. Ook in het nieuwe Elsevier tijdschrift Journal of Computational Science worden de
computationele humaniora als onderdeel van de computationele wetenschappen gezien.
Sinds vorig jaar ontwikkelen verschillende partijen, gebundeld in ICT Regie, plannen voor
een nieuw e-Science Research Centrum (E-SRC). Ook SURF speelt daarin een belangrijke
rol als organisatie voor wetenschappelijke ICT-infrastructuur. Als DANS datafuncties gaat
vervullen voor alle vakgebieden, zal dat de samenwerking met SURF verder versterken en
vergemakkelijken.
Een goed toegankelijke datavoorziening is nodig voor de nieuwe opzet. Dat biedt voor
DANS interessante aanknopingspunten, zowel aan de researchkant als aan de
infrastructuurkant.
DANS heeft een zeer bescheiden budget voor onderzoek en doet tot nu toe vooral
toegepaste research & development met externe projectmiddelen. DANS is echter goed
toegerust om het datagefundeerde e-research te versterken en om als brug te fungeren
tussen de alfa’s, gamma’s en bèta’s die computationeel onderzoek doen. DANS wil graag
deelnemen in een zich ontwikkelend programma voor e-humanities, maar met name ook
de banden versterken met de informatica en e-science.
In de loop van 2010 geeft Herbert van de Sompel (Los Alamos National Laboratory,
grondlegger van onder andere het Open Archives Initiative) als visiting professor bij DANS
mede vorm aan het research programma. DANS zal in 2010 in een afzonderlijke notitie
een eerste opzet van het geambieerde e-research programma presenteren. Daarbij wordt
in ieder geval een plaats ingeruimd voor internationaal vooraanstaande fellows.
5. Internationale ontwikkelingen
DANS is partner in de meeste grote Europese, en enkele andere internationale e-research
infrastructuurprojecten voor de humaniora en sociale wetenschappen. Voorbeelden zijn
CESSDA (Council of European Social Science Data Archives), CLARIN (Common Language
Resources and Technology Infrastructure), DARIAH (Digital Research Infrastructure for the
Arts and Humanities) en ESS (European Social Survey). Maar DANS is ook betrokken bij
niet disciplinegebonden initiatieven voor een betere onderzoeksinfrastructuur. Daarbij gaat
het bijvoorbeeld om PRACE (Partnership for Advanced Computing in Europe),
8
PARSE.Insight (Permanent Access to the Records of Science in Europe), EGI (European
Grid Initiative), E-IRG (E-Infrastructures Reflection Group), OpenAIRE (Open Access
Infrastructure for Research in Europe) en APA (Alliance for Permanent Access).
Recent is het initiatief PARADE (Partnership for Accessing Data in Europe) genomen,
waaraan DANS ook wil meewerken. De motieven om tot een Europese datastructuur te
komen zijn vergelijkbaar met de in deze notitie genoemde argumenten op nationale
schaal, blijkt uit een white paper van PARADE: ‘Although several progressive and
collaborative data initiatives, launched, e.g., by the ESFRI roadmap, are under way, the
field remains compartmentalised. This hinders adjacent user communities and data service
providers to learn from each other and fully benefit from the best practices. The ultimate
consequences are financial due to overlapping work.’
7
Internationaal dreigt een zekere wildgroei van over elkaar heen buitelende
infrastructuurinitiatieven, waarbij gevreesd moet worden dat het wiel nog enkele malen
gaat worden uitgevonden. Het is te verwachten dat na een fase van ‘laat honderd bloemen
bloeien’ in de nabije toekomst gewied en gesnoeid gaat worden, waarbij de sterkste
infrastructuren zullen overblijven. Voor DANS is het belangrijk om goed af te wegen in
welke internationale initiatieven te investeren. Wij verwachten dat DANS zich de komende
jaren zal concentreren op de ondersteuning van de niet-vakgebonden activiteiten, die in
bijna alle research-data-infrastructuren voorkomen (kwaliteitskeurmerk, metadatastandaarden, persistent identifiers, etc.; zie ook bijlage 2).
6. Gevolgen voor ESFRI en Nationale Roadmap
De gekozen strategische koers van DANS leidt tot een heroriëntatie op de positie van het
instituut in landelijke en internationale research infrastructuren. In dergelijke
infrastructuren zijn veel van de doelen en activiteiten op het gebied van
databeschikbaarheid gelijksoortig. DANS streeft daarom niet langer naar een centrale rol in
één of twee infrastructuren, maar stelt zich als doel een verbindende functie te vervullen
tussen thematische of disciplinegerichte infrastructuren. Daarbij concentreert DANS zich op
die activiteiten, die voor een aanzienlijk deel van de faciliteiten en netwerken belangrijk
zijn. Zulke activiteiten zijn veelal niet afhankelijk van of beperkt tot een bepaald
vakgebied.
Het verschaffen van toegang tot databases is een expliciet doel van meer dan de helft van
de vijfentwintig voorgestelde grootschalige faciliteiten op de Nationale Roadmap. Dat dit
doel bij de andere voorstellen geen enkele rol speelt is nauwelijks denkbaar. Naast het
verschaffen van toegang zijn de meest genoemde activiteiten: data-integratie en
interoperabiliteit, standaarden en metadata en datakwaliteit. Het is efficiënter en
waarschijnlijk goedkoper om DANS te betrekken bij die data-activiteiten. Onlangs is DANS
door het LIFE WATCH project al benaderd met de vraag of er
samenwerkingsmogelijkheden zijn. Wij willen de Nationale Roadmapcommissie in
overweging geven om DANS bij meer datafaciliteiten een rol te geven.
7
PARADE: Strategy for a European Data Infrastructure, White paper, september 2009.
9
7. Diensten voor verschillende vakgebieden
DANS zal niet op alle gebieden dezelfde diensten aanbieden. Dat gebeurt nu ook niet in de
alfa- en gammasector. Welke rol kan worden gespeeld op welk gebied, wordt bepaald door
de behoeften, en die worden in overleg met de verschillende onderzoeksgemeenschappen
vastgesteld. DANS hoeft bijvoorbeeld niet de opslag voor de astronomen of de
deeltjesfysici te verzorgen. Maar DANS werkt wel met de BIG Grid partijen samen om de
bestaande opslagvoorzieningen efficiënter te gebruiken. Door van DANS een disciplineonafhankelijk data-instituut te maken kan het ervoor zorgen dat de beschikbare opslag
beter wordt benut. Dat zal tot een grotere opbrengst leiden van veel investeringen in tijd
en deskundigheid. In zo’n nieuw discipline-onafhankelijk DANS staan de volgende
activiteiten centraal:
•
Best practices voor archivering van en toegang tot data;
•
Gedragscodes voor gebruik van gegevens;
•
Het beheren van registers van dataverzamelingen;
•
Duurzame, langetermijn opslag van data (ook als backup-faciliteit) en het delen van
opslagsystemen;
•
Koppelen van datasets (onderling en aan publicaties en onderzoeksinformatie);
•
Hulp bij delen van data, collaboratories;
•
Ondersteunen van (methoden voor) gegevensverwerving;
•
Onderzoek naar digitale duurzame oplossingen en datatoegang (data curation);
•
Juridische expertise (auteursrecht, privacy, licenties).
8. Data, onderzoeksinformatie en publicaties
Databestanden vormen zowel resultaat van als instrument voor onderzoek. Steeds meer
tijdschriften stellen de open beschikbaarheid van de data waarop publicaties gebaseerd
zijn verplicht, dissertaties verwijzen naar websites, monografieën bevatten digitale
bijlagen, enz. Het onderscheid tussen publicaties en datasets is in het digitale ecosysteem
geleidelijk aan het vervagen. Er komen steeds meer ‘verrijkte publicaties’ (waarin
bronnen, onderzoeksresultaten en data zijn gebundeld terwijl ze op verschillende
weblocaties zijn opgeslagen) en andere vormen, zoals e-journals met een data availability
policy. Wetenschappers hebben behoefte aan een gemakkelijke toegang tot alle voor hun
onderzoek relevante informatie, ongeacht of het datasets, publicaties, software
(onderzoekstools) of projectinformatie betreft. Daarom streeft DANS naar een betere
integratie van deze vormen van wetenschappelijke informatie.
De afdeling Onderzoeksinformatie (OI) van de KNAW beheert de Nederlandse Onderzoek
Databank (NOD) met informatie over het wetenschappelijk onderzoek in Nederland.
Hoewel de dekking niet volledig is, verschaft de NOD informatie over circa 7.600
hoogleraren en universitair hoofddocenten, 40.000 onderzoekers en experts, 750
universitaire en nietā€universitaire onderzoeksinstellingen en 120 onderzoeksscholen. De
NOD bevat 20.000 beschrijvingen van lopende projecten en 18.000 beschrijvingen van
afgesloten onderzoek. OI beheert ook de portal NARCIS die informatie uit de NOD, ruim
250.000 digitale publicaties uit de academische ‘DARE-repositories’ en zo’n 7000
10
databestanden uit het DANS-archief gebundeld aanbiedt. Verdere integratie met andere
vormen van wetenschappelijke informatie ligt in de lijn van de behoeften van de
onderzoekgemeenschap en de publieke financiers.
Wat het startpunt ook is (project, persoon, dataset, publicatie), van ieder object moet
gemakkelijk de bijbehorende informatie kunnen worden gevonden. Datasets zouden ook
moeten worden geregistreerd in de academische Metis (en vergelijkbare) systemen.
9. Open Access
Nederland is ondertekenaar van de Verklaring over toegang tot publiek gefinancierde
onderzoeksgegevens van de Organisatie voor Economische Samenwerking en Ontwikkeling
(OESO). De regering steunt de daarop gebaseerde ‘OECD Principles and Guidelines for
Access to Research Data from Public Funding’. De Nederlandse universiteiten en
wetenschappelijke koepelorganisaties als KNAW en NWO zijn ondertekenaars van de Berlin
Declaration on Open Access to Knowledge in the Sciences and Humanities. De president
van de KNAW en voorzitter van NWO bevestigden bij verschillende gelegenheden hun
steun voor de open toegang tot onderzoeksresultaten. NWO heeft aangekondigd €5
miljoen voor Open Access beschikbaar te stellen.
DANS geeft uitvoering aan deze verklaringen en richtlijnen door drempels voor
datatoegang zoveel mogelijk uit de weg te ruimen. Onderzoeksdata kunnen overigens niet
altijd open toegankelijk zijn: de privacy van onderzoekspersonen moet worden beschermd,
archeologische vindplaatsen moeten worden behoed voor schatgravers. Ook willen niet alle
onderzoekers hun data onmiddellijk delen, omdat ze ervoor beducht zijn dat anderen
(eerder of onzorgvuldig) publiceren over de door hen met veel tijd en moeite verzamelde
gegevens. DANS hanteert daarom het motto ‘Open als het kan, beschermd als het moet’.
Het EASY archiefsysteem maakt dit nu al mogelijk. In de praktijk is open toegang voor de
helft tot tweederde van de datasets in EASY, afhankelijk van het vakgebied, geen
probleem. Voor de publicaties in de DARE-repositories ligt deze verhouding vergelijkbaar.
Een deel van de data bij DANS wordt pas na verloop van tijd vrij toegankelijk. DANS
bepleit dat de onderzoeksfinanciers, die bij uitstek in de positie zijn om open toegang
(onder eventuele tijdelijke restricties en met bescherming van respondenten en
bodemschatten) af te dwingen, uitvoering geven aan het ‘public access to public data’
beleid. Dat dit in de praktijk ook werkt blijkt uit de nauwe samenwerking van DANS met de
NWO-gebieden Geesteswetenschappen en Maatschappij- en Gedragswetenschappen op het
gebied van investeringsaanvragen.
In de komende jaren zullen DANS en ook andere partijen steeds meer diensten bouwen op
de repositories. Deze diensten kunnen alleen worden ontwikkeld als de bronnen
(publicaties, data, onderzoekers en projecten) open toegankelijk zijn. Nauwe afstemming
en samenwerking tussen de bronhouders (waaronder de KB, OI-KNAW en de academische
repositories, maar ook internationale partijen) zal hierbij van groot belang zijn.
10. Onderzoekcapaciteit
11
DANS heeft op dit moment geen formatieve capaciteit voor research, maar voert wel
extern gefinancierde R&D-projecten uit, met een sterke nadruk op ‘D’. In de nieuwe
situatie zal echter een flinke researchcapaciteit wel nodig zijn. De formatie van de
researchgroep zal groot genoeg moeten zijn om extern gefinancierde projecten op te
zetten en aan te vragen, doorgaans in samenwerking met onderzoeksgroepen, andere
nationale duurzaamheidscoördinatoren, en internationale research infrastructures. Het
ontwikkelen van een excellente researchsectie, die fundamenteel en toegepast onderzoek
doet naar de technische èn de organisatorische kant van digitale duurzaamheid en toegang
tot onderzoeksdata, zal het instituut tot een wereldwijd gezaghebbende speler maken.
DANS zal bij uitstek een brugfunctie kunnen vervullen tussen de eSciences en de
eHumanities.
11. Personele bezetting
De alfa- en gammawetenschappen beslaan circa een kwart van het wetenschapsbedrijf in
termen van aantallen wetenschappelijk medewerkers. Binnen die wetenschappen bedient
DANS niet alle disciplines even intensief. Datzelfde zal gelden voor de levens-, natuur- en
technische wetenschappen. Niettemin zal de totale formatie flink moeten toenemen om
ook op die gebieden diensten te kunnen aanbieden (die in een vervolgnotitie nog per
vakgebied zullen worden gespecificeerd). Ook op de nieuwe terreinen zal maar een deel
van het personeel een duidelijke binding met een bepaald vakgebied hebben.
Voor wat betreft de vaste formatie zal de groei vooral plaatsvinden in de sfeer van het
onderzoek. In de variabele formatie valt groei te voorzien door een toename van de
archivering van datasets ’op stuksbasis’, dat wil zeggen tegen een vergoeding per te
archiveren bestand. Voorwaarde voor het heffen van een bijdrage voor het beheer van
datasets is dat er een verplichting voor het deponeren van data bestaat 8. Ook zullen
steeds meer aan publicaties gekoppelde datasets en verrijkte publicaties, die onderdeel
zijn van een applicatie, worden beheerd. Ook daarvoor zal een vergoeding noodzakelijk
zijn. Voor dit type archivering zullen zoveel medewerkers worden aangesteld als
gefinancierd kunnen worden uit de ‘stuksvergoeding’.
Gestreefd wordt daarnaast naar een groei van de projectomvang en dus van het aantal
projectmedewerkers. Toch zal die groei in de eerste jaren geen gelijke tred houden met
die van het gehele instituut, vooral omdat DANS eerst een naam moet opbouwen als
projectpartner buiten de humaniora en sociale wetenschappen.
Voor de totale personeelsbezetting betekent de verbreding van DANS op termijn een
verdubbeling tot verdrievoudiging van huidige omvang. Die uitbreiding zal stapsgewijs
verlopen, in een tempo dat is afgestemd op dat van de groeiende vraag naar DANSdiensten.
12. Budget: kosten en financiering
Het stijgende niveau van activiteiten en de daarbij behorende uitbreiding van de formatie,
in een tempo overigens dat door de vraag zal worden gedicteerd, brengen natuurlijk
8
Een dergelijke verplichting bestaat al voor de z.g. Malta-archeologie en voor door NWO-GW en
MaGW gefinancierde projecten.
12
gevolgen mee voor de geraamde kosten en de benodigde inkomsten om die te dekken. Er
wordt gerekend op een verdubbeling tot verdrievoudiging van het budget van DANS. De
uitgaven voor datacontracten zullen ongeveer gelijk blijven maar de variabele kosten, voor
de hiervoor genoemde stuks-archivering, verdrievoudigen in de eerstkomende jaren om
vervolgens door te stijgen in het tempo waarin datasets worden aangeboden. Deze laatste
kosten zullen worden geneutraliseerd door gelijke opbrengsten omdat ze door de
onderzoekers worden meebegroot in hun projectvoorstellen. De projectkosten, die uit de
aard van hun karakter zullen worden gedekt door projectopbrengsten, verdubbelen.
Voor de financiering vormen de huidige bijdragen van de KNAW en NWO het uitgangspunt.
Om de rol van DANS als “voortrekker” voor het gebied wetenschap in de NCDD te
realiseren, is het ministerie van OCW om een extra bijdrage van 2 mln. op jaarbasis
gevraagd. De KNAW financiert aanvullend een deel van de infrastructuur gericht op de
koppeling van publicaties, data en onderzoeksinformatie. Een deel van de researchinspanningen wordt gefinancierd uit het door de KNAW in te stellen programma voor
Computational Humanities. Van NWO wordt een extra investering gevraagd om de
dienstverlening voor nieuwe gebieden uit te werken en te ontwikkelen en om Open Access
tot data (gekoppeld aan publicaties) te realiseren.
Voor de DANS-taken op het gebied van gezondheidsdata/epidemiologie wordt een beroep
gedaan op ZonMw/Ministerie VWS. Een bijdrage voor de archivering van datasets uit de
technische wetenschappen zal deels moeten worden gedekt door dit veld.
13. Vervolgstappen
De inhoud van deze notitie wordt op hoofdlijnen gesteund door de Wetenschappelijke
Adviesraad en de Stuurgroep van DANS. Met instemming van KNAW en NWO, is de
volgende stap om het plan nader uit te werken, waarbij in ieder geval de belangrijkste
spelers en vakgebieden worden geconsulteerd. Ook de kosten en
financieringsmogelijkheden zullen nader in kaart worden gebracht, alsmede de gewenste
organisatorische en bestuurlijke structuur. Hiermee is inmiddels een begin gemaakt. DANS
hoopt in het najaar een uitgewerkte strategienota te presenteren met daarbij een
uitvoeringsplan, een onderzoeksplan en een nieuw communicatieplan voor de periode
2011-2015.
Eind 2010 vindt ook een review van DANS plaats door een externe visitatiecommissie,
waarbij naast de resultaten van de eerste vijf jaar ook de nieuwe plannen ter beoordeling
zullen worden voorgelegd.
13
Bijlage 1: Conclusies uit het NCDD rapport
Nationale Verkenning Digitale Duurzaamheid: Inputnotitie sector wetenschap
(door René van Horik - 1 juli 2009)
[...] In Nederland [zijn] maar weinig organisaties en initiatieven op het gebied van de
digitale archivering van onderzoeksdata die ervoor zorgen dat na afloop van een project de
onderzoeksdata duurzaam worden gearchiveerd. Daar staat tegenover dat er een grote
heterogene data-infrastructuur is ontstaan die vele vormen van dataverwerking en -beheer
mogelijk maken. De inrichting en aanpak van deze infrastructuur is enerzijds sterk
disciplinegericht en anderzijds gebaseerd op bestaande organisaties die een rol spelen in
het wetenschapsbedrijf.
Het is belangrijk dat wetenschappers als domeindeskundigen betrokken worden bij het
inrichten van een optimale duurzame data-infrastructuur. Ook is specifieke kennis vereist
op het gebied van data-archivering, bijvoorbeeld op het gebied van auteursrecht, Open
Access, open standaarden en ‘repository’ systemen. Er bestaat een aantal toetsingskaders,
waaronder het ‘Data Seal of Approval’ dat als leidraad kan dienen bij het inrichten van een
bewaarplaats voor digitale wetenschappelijke objecten.
[...] Digitale data in de wetenschap hebben vele verschijningsvormen.
Het meest duidelijk zijn de wetenschappelijke publicaties en octrooien en patenten,
waarvoor inmiddels databewaarplaatsen zijn ingericht. Ook voor de archivering van
datasets die het resultaat zijn van afgesloten onderzoek in de geestes- en sociale
wetenschappen is een data-archief opgezet. Maar daarnaast bestaat er nog een groot
aantal andere soorten wetenschappelijke dataobjecten, waarvan de aard, waarde en
vereiste duurzaamheid nog niet eenduidig is vast te stellen.
Nader onderzoek is nodig om een goede classificatie te verkrijgen van digitale
dataobjecten die een rol spelen in het wetenschapsbedrijf. Uiteraard dient dit te gebeuren
in de vorm van een samenwerking tussen wetenschappers, informatiekundigen en
archiefspecialisten. Het is aan te bevelen een werkgroep op te richten die onderzoekt
welke soorten digitale onderzoeksobjecten een rol spelen bij wetenschappelijk onderzoek.
Op basis van deze classificatie kan bepaald worden welke objecten duurzaam bewaard
moeten worden. Vervolgens dient dan vastgesteld te worden op welke wijze deze bewaring
het beste georganiseerd kan worden. Er zijn inmiddels toetsingskaders beschikbaar om
deze werkzaamheden uit te voeren.
Binnen de wetenschap speelt de informatietechnologie een grote rol.
De wetenschapper verwacht toegang te hebben via internet tot alle voor het vakgebied
relevante wetenschappelijke literatuur en databanken met essentiële onderzoeksdata. De
analyse-, simulatie-, en visualisatiesoftware van onderzoeksdata wordt steeds
14
geavanceerder en biedt de onderzoeker gereedschap om de kwaliteit van het
wetenschappelijk onderzoek te verhogen. De financiers van het wetenschappelijk
onderzoek realiseren zich in toenemende mate dat de duurzaamheid van de data en tools
van belang is. Maar een eenduidige visie en strategie op de langetermijn bewaring van
onderzoeksdata bestaat er alleen op het gebied van digitale publicaties en voor een aantal
disciplinegebonden wetenschappelijke datasets.
Het vastleggen van selectiecriteria van dataobjecten die in aanmerking komen voor
bewaring dient per wetenschappelijke discipline verder uitgewerkt te worden. Gezien de
groei van het aantal digitale objecten is het niet mogelijk ze allemaal te archiveren.
De opslagcapaciteit van onderzoeksdata groeit, maar de kosten hiervoor bedragen een
fractie van de totale kosten voor digitale duurzaamheid. Het beheer van de
onderzoeksdata is aanzienlijk duurder. Hieronder vallen kosten voor documentatie,
beschikbaarstelling, kwaliteitscontrole en verwerking. De financiers van wetenschappelijk
onderzoek zijn bij uitstek de partij die sturend kan optreden bij het verbeteren van de
duurzaamheid van de wetenschappelijke data-infrastructuur door wetenschappers te
verplichten data goed te documenteren en over te dragen aan een duurzame
bewaarplaats. Ook onderzoeksprogramma’s en thema’s dienen aandacht te schenken aan
de langetermijn bewaring van en toegang tot de onderzoeksdata die het resultaat zijn van
deze projecten.
De wetenschap dient meer erkenning te geven aan activiteiten rondom het maken,
beheren en de beschikbaarstelling van onderzoeksdata. Van oudsher gaat de meeste
wetenschappelijke erkenning uit naar de publicatie. Door ook professionele erkenning te
krijgen voor bijdragen aan de data-infrastructuur, neemt de waarde van onderzoeksdata
toe, waardoor er ook meer aandacht zal zijn voor de duurzame archivering van de
onderzoeksdata.
Met name binnen de exacte wetenschappen is het vaak vanzelfsprekend om
onderzoeksdata te hergebruiken, maar bij een aantal wetenschapsgebieden wordt nog
onvoldoende gekeken of bestaande onderzoeksbestanden hergebruikt kunnen worden. De
bestaande ‘beloningsinitiatieven’ om dit hergebruik te stimuleren dienen gecontinueerd en
uitgebreid te worden.
Scholing en training op het gebied van de aanleg en het (her)gebruik van onderzoeksdata
is van belang om ervoor te zorgen dat wetenschappers ook daadwerkelijk meewerken aan
de realisering van een duurzame data-infrastructuur. Hierbij is internationale afstemming
van groot belang.
Bij alle hierboven genoemde aanbevelingen is het van belang dat deze in samenwerking
met alle betrokkenen wordt uitgevoerd. Een goede vorm om dit te organiseren zou kunnen
15
zijn in de vorm van werkgroepen die een aantal deelaspecten nader uitwerken,
bijvoorbeeld op het gebied van financieringsmodellen, metadata-standaarden en
datacuratie-tools. Op een aantal terreinen is al een begin gemaakt met dit overleg.
16
Download