Naar een discipline-onafhankelijk DANS Visienota voor de DANS-strategie 2011-2015 Peter Doorn Data Archiving and Networked Services Den Haag, Juni 2010 Samenvatting Uitgangspositie en vooruitblik DANS is in 2005 door de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) en de Nederlandse organisatie voor Wetenschappelijk Onderzoek (NWO) opgericht als data-instituut voor de alfa- en gamma- wetenschappen. De bètawetenschappen kunnen op datagebied ‘hun eigen broek wel ophouden’, zo werd en wordt nog steeds vaak aangenomen. De schaal van de dataopslag is daar veel groter. Voor onderzoek in de levenswetenschappen, de hoge energiefysica en de sterrenkunde is bijvoorbeeld in het kader van BIG Grid 1 enorme fysieke opslagruimte en rekencapaciteit beschikbaar. Toch heeft vooral de duurzaamheid van de datavoorziening ook in de bètawetenschappen te lijden van versnippering in taken en verantwoordelijkheden en in de hele organisatie. Als DANS wordt uitgebouwd tot een disciplineonafhankelijke dataorganisatie – het werkgebied dus wordt uitgebreid van de alfa- en gamma- naar de bètawetenschappen – kan die versnippering worden tegengegaan. Maar er zijn meer voordelen te behalen. Schaalvoordelen bijvoorbeeld. Er zal minder dubbel werk hoeven te worden gedaan. Er ontstaat een grotere eenheid in de datavoorziening; data worden beter vindbaar. Zo’n brede positionering van DANS is ook goed voor het bevorderen van digitale duurzaamheid waarvoor niet alleen de Nationale Coalitie Digitale Duurzaamheid (NCDD) pleit maar ook organisaties als KNAW en NWO. Beide laatste hebben zich ook verbonden aan het streven naar Open Access. DANS zal daar als disciplineonafhankelijke organisatie een sterke impuls aan kunnen geven. Datzelfde geldt voor de Nederlandse positie in de ontwikkeling van internationale wetenschappelijke data-infrastructuren. DANS is partner in de meeste grote Europese en enkele andere internationale infrastructuurprojecten op datagebied voor de humaniora en sociale wetenschappen. Maar DANS is ook betrokken bij niet-disciplinegebonden initiatieven om de onderzoeksinfrastructuur te verbeteren. Tenslotte zal een disicipline-onafhankelijk DANS bij kunnen dragen aan een duidelijke rolverdeling in Nederland op het gebied van duurzame toegankelijkheid. Diensten voor verschillende vakgebieden Een deel van het huidige werk is gebonden aan bepaalde vakgebieden, maar een groot deel is dat niet. DANS is er al op ingesteld om verschillende gebieden op verschillende manieren te benaderen en de dienstverlening toe te spitsen op de behoeften van de klanten-onderzoekers. Enkele voorbeelden: • DANS heeft samen met de Rijksdienst Cultureel Erfgoed en de universiteiten EDNA opgezet: het e-Depot voor de Nederlandse Archeologie; • DANS beheert sociaal-wetenschappelijke en historische data-archieven; 1 Een samenwerkingsproject waarin duizenden computers als één computer opereren voor het opslaan en verwerken van zeer grote hoeveelheden data. 2 • DANS zal een belangrijke bijdrage kunnen leveren aan de datavoorziening zoals voorgesteld in het advies van de Raad voor Gezondheidsonderzoek 2; • De datafaciliteit die wordt opgebouwd door de federatie van technische universiteiten 3TU zal als thematisch archief kunnen aansluiten bij DANS. Door van DANS een algemeen data-instituut te maken kan de beschikbare opslag beter worden benut. Bovendien kan de rol die het instituut nu speelt bij het opstellen van regels voor het archiveren, de kwaliteitsborging, de toegang en het delen van data heel goed worden uitgebreid tot de bètawetenschappen. Dat zal tot een grotere opbrengst leiden van veel investeringen in tijd en deskundigheid. In zo’n nieuw discipline-onafhankelijk DANS staan de volgende activiteiten centraal: • Best practices voor archivering van en toegang tot data (Datakeurmerk, standaarden voor o.a. metadata); • Gedragscodes voor gebruik van gegevens; • Beheren van registers van dataverzamelingen; • Duurzame langetermijn opslag van data (zoals persistent identifiers, back-up faciliteit) en het delen van opslagsystemen; • Koppelen van datasets aan elkaar, aan publicaties en aan onderzoeksinformatie; • Hulp bij het delen van data, het realiseren van collaboratories en (methoden voor) het verzamelen van gegevens; • Onderzoek en ontwikkeling op het gebied van oplossingen voor duurzame toegankelijkheid (data curation); • Aanbieden van juridische expertise (auteursrecht, privacy, licenties). E-research en de vereiste infrastructuur In verschillende onderzoekdisciplines neemt onderzoek waarin de computer niet enkel een behulpzame maar een centrale rol vervult een hoge vlucht. Voor dergelijk onderzoek, dat vaak wordt aangeduid als e-research (veelal datagedreven) en computationele wetenschap (doorgaans modelgedreven), is een goed toegankelijke datavoorziening een vereiste. DANS is goed toegerust om datagefundeerde e-research te versterken en om als brug te fungeren tussen de alfa’s, gamma’s en bèta’s die computationeel onderzoek doen. DANS wil graag deelnemen in een zich ontwikkelend programma voor e-humanities, maar met name ook de banden versterken met de informatica en e-science. Combinaties van data, onderzoeksinformatie en publicaties Het onderscheid tussen publicaties en datasets is in het digitale ecosysteem geleidelijk aan het vervagen. Er komen steeds meer ‘verrijkte publicaties’ (waarin bronnen, onderzoeksresultaten en data zijn gekoppeld) en andere publicatievormen, zoals e-journals met een data availability policy. Wetenschappers hebben behoefte aan een gemakkelijke en persistente toegang tot alle voor hun onderzoek relevante informatie, ongeacht of het nu datasets, publicaties, software (onderzoekstools) of projectinformatie betreft. Daarom werkt DANS aan een betere integratie van deze vormen van wetenschappelijke informatie, 2 Rapport Van gegevens verzekerd, oktober 2009 3 samen met onder meer de Koninklijke Bibliotheek en de afdeling Onderzoekinformatie van de KNAW. 4 1. Inleiding Het rapport ‘Toekomst voor ons digitale geheugen’ 3 van de Nationale Coalitie Digitale Duurzaamheid schetst de huidige stand van de duurzame toegang tot informatie voor de sectoren overheid, cultuur en wetenschap in Nederland (zie ook bijlage 1). In de wetenschap is die toegang versnipperd en verschilt ze aanzienlijk van discipline tot discipline. Er is in Nederland geen duidelijke verantwoordelijke of koers op dit gebied: ‘vaak is onduidelijk wie eigenaar van gegevens is en/of wie verantwoordelijk is voor langetermijn toegang.’ Dit terwijl juist in de wetenschap digitale dataverwerking onmisbaar is geworden. ‘Een belangrijke constatering is dat er in Nederland weinig organisaties zijn die expliciet en structureel activiteiten ontplooien om de langetermijn archivering van wetenschappelijke digitale objecten te verzorgen. Er zijn daarentegen wel een vrij groot aantal repositories die de toegang tot een groot aantal digitale wetenschappelijke objecten mogelijk maken, maar die niet ingericht zijn op langetermijn bewaring. Er dient meer aandacht te komen voor de langetermijn archivering van digitale wetenschappelijke objecten. Hierbij is het van belang in samenwerking te komen tot een gemeenschappelijke basisinfrastructuur voor digitale archivering en voor de manier waarop digitale wetenschappelijke objecten kunnen worden hergebruikt.’ DANS is in 2005 opgericht door de Koninklijke Nederlandse Akademie van Wetenschappen (KNAW) en de Nederlandse organisatie voor Wetenschappelijk Onderzoek (NWO). Het zou een landelijke organisatie zijn voor opslag en blijvende toegankelijkheid van onderzoeksgegevens in de alfa- en gamma- wetenschappen. De bètawetenschappen kunnen op datagebied ‘hun eigen broek wel ophouden’, zo werd en wordt nog steeds vaak aangenomen. De schaal van de data-opslag in de bètawetenschappen is inderdaad veel groter dan die in de alfa- en gammawetenschappen. Over de totale omvang van de wetenschappelijke data-opslag in Nederland kunnen slechts gissingen worden gemaakt. Voor gebruikersgemeenschappen in onder andere de levenswetenschappen, de hoge energiefysica en de sterrenkunde zijn in het kader van BIG Grid 4 grote hoeveelheden fysieke opslagruimte en rekencapaciteit beschikbaar. Toch blijkt uit zowel het NCDD-rapport als buitenlandse onderzoeken fragmentatie in de organisatie, taken en verantwoordelijkheden ten aanzien van de duurzaamheid van de datavoorziening in de bètawetenschappen. In deze notitie wordt betoogd dat het zinvol is om het werkgebied van DANS te verbreden naar alle wetenschapsvelden. Deze gedachte is aan de orde gekomen in gesprekken met vertegenwoordigers van onder meer de National Computer facilities Foundation (NCF), NWO en het gemeenschappelijk datacentrum van de drie technische universiteiten (3TU Datacentrum). Ze werd en wordt door de gesprekspartners interessant of aantrekkelijk gevonden, dan wel met klem aangeraden. Door DANS te verbreden worden data beter 3 ‘Toekomst voor ons digitaal geheugen’; Den Haag, NCDD, 2009. Een samenwerkingsproject waarin duizenden computers als één computer opereren voor het opslaan en verwerken van zeer grote hoeveelheden data. 4 5 vindbaar, worden versnippering en dubbel werk tegengegaan, kunnen schaalvoordelen worden geïncasseerd en zal een grotere eenheid in de datavoorziening ontstaan. Nederland zal daardoor ook internationaal sterker staan in de ontwikkeling van datainfrastructuren. DANS neemt nu al een vooruitgeschoven positie in als data-instituut. Een multidisciplinair DANS, dat zich richt op alle wetenschapsgebieden, zou belangrijk in het voordeel zijn om vanuit die uitgangspositie uit te groeien tot een van de sterkste datavoorzieningen in Europa en in de wereld. Een disicipline-onafhankelijk DANS zal bijdragen aan een duidelijke rolverdeling in Nederland op het gebied van de digitale duurzaamheid. Als de KB zich primair richt op publicaties, het Nationaal Archief op overheidsinformatie, en Beeld en Geluid op audiovisuele informatie, zal DANS de wetenschap op datagebied bedienen. Er zullen altijd bepaalde grijze zones blijven, omdat ook onderzoekers beeld- en geluidmateriaal analyseren en produceren, wetenschappelijke publicaties steeds meer hybride worden, en erfgoedinformatie en digitale overheidsarchieven belangrijk zijn voor geesteswetenschappelijk onderzoek. Maar tussen vier grote partijen die zorg dragen voor de digitale duurzaamheid zal het goed mogelijk zijn om praktische afspraken te maken over de taakverdeling. 2. DANS en disciplines Een deel van het werk van DANS is disciplinegebonden, maar een deel is dat ook niet. Dat laatste geldt bijvoorbeeld voor het Datakeurmerk (Data Seal of Approval, DSA), persistent identifiers, richtlijnen en best practices voor standaard bestandsformaten, metadata en datamigratie, voor onderzoek naar dataopslag, archiveringsmethoden, ontsluiting van data (data curation) en voor juridische expertise (privacy, auteursrecht, licenties). Alleen in de coördinatiegroep Archief en Beschikbaarstelling van DANS is een deel van het werk naar vakgebied ingedeeld. Het DANS archiefsysteem EASY is weliswaar ontwikkeld voor het archiveren van datasets in de alfa- en gammawetenschappen, maar het is ook eenvoudig uit te breiden naar andere vakgebieden 5. Het zijn vooral de vakafhankelijke metadata-standaarden die aanpassingen vergen. Hierbij moet niet vergeten worden dat ook binnen de alfa- en gammawetenschappen aanzienlijke verschillen bestaan tussen verschillende disciplines: psychologen stellen andere eisen dan archeologen, historici andere dan taalkundigen. DANS is er al op ingesteld om verschillende gebieden op verschillende wijzen te benaderen en de dienstverlening toe te spitsen op de behoeften van de klanten-onderzoekers. Daarbij wordt uiteraard gedeeld wat wel overeenkomstig is, en dat is soms meer dan de specialisten binnen de gebieden zich bewust zijn. 5 Voor datasets die te groot zijn om via een gewone internetverbinding te deponeren gebruikt DANS aangepaste werkwijzen. 6 3. DANS en de technische- en gezondheidswetenschappen In 2009 bracht de Raad voor Gezondheidsonderzoek een advies aan drie ministeries (WVS, OCW en EZ) uit over de datavoorziening voor volksgezondheid en wetenschap 6. De situatie die daarin wordt geschetst past in het beeld van het hiervoor genoemde NCDD-rapport. De beschreven databehoeften voor het onderzoek en de aanbevelingen voor verbetering lijken grotendeels sterk op die in de sociale wetenschappen. Aanbevelingen uit het RGO-rapport ‘Van gegevens verzekerd’ 1. Bevorder een efficiënt gebruik van gegevensverzamelingen a. Stel een register van gegevensverzamelingen in b. Zorg voor een optimale toegankelijkheid van gegevens c. Optimaliseer de mogelijkheden tot gegevenskoppeling d. Vergemakkelijk het delen van gegevens 2. Hef tekorten aan gegevens op en voorkom nieuwe tekorten a. Voorzie in herhaald dwarsdoorsnede-onderzoek van voldoende omvang b. Garandeer de continuïteit van de registratie van zorggebruik in ziekenhuizen c. Zorg voor adequate financiering van longitudinale epidemiologische gegevensverzamelingen 3. Creëer meer ruimte voor verzoeken om collectieve financiering van nieuwe gegevensverzamelingen en beoordeel deze systematisch DANS, dat voor dit adviesrapport is geraadpleegd, heeft het recept en bijna alle ingrediënten in huis om aanbeveling 1 te kunnen faciliteren. Overigens biedt DANS nu al toegang tot circa 90 dataverzamelingen op het gebied van volksgezondheid en epidemiologie. Activiteiten als genoemd in aanbeveling 2 en 3 worden door DANS voor de sociale wetenschappen gesteund in het voorstel voor een Data Infrastructure for the Social Sciences (DISS). Omdat de gezondheidswetenschappen niet tot het primaire domein van DANS behoren, ligt het niet zonder meer voor de hand dat DANS hier een rol gaat spelen. In een presentatie op een workshop over het rapport en gesprekken met het ministerie van VWS en de Nederlandse organisatie voor Gezondheidsonderzoek en Zorginnovatie (ZonMw) heeft DANS wel de mogelijkheid geopperd. Voor de opslag van onderzoeksdata uit de technische wetenschappen ontwikkelt de 3TU.Federatie een datacentrum, momenteel nog als tweejarig project. Dit centrum zet zijn kennis, ervaring en gereedschappen in om de langetermijn opslag en permanente toegang, en daarmee de herbruikbaarheid van datasets uit de technische wetenschappen, te waarborgen. De komende jaren bouwt het centrum een data-archief voor de technische wetenschappen. Daarnaast adviseert het over duurzame archivering. Hoewel DANS regelmatig contact onderhoudt met het 3TU.Datacentrum, is het de vraag of het zinvol is om naast DANS een apart datacentrum te laten ontstaan voor de technische wetenschappen. Bij een discipline-onafhankelijk DANS zou het 3TU.Datacentrum zich als 6 Rapport ‘Van gegevens verzekerd’, oktober 2009 7 thematisch archief kunnen aansluiten bij het DANS-netwerk. Deze wens is door 3TU verscheidene malen uitgesproken. 4. DANS en e-research/e-infrastructuur In verschillende onderzoekdisciplines neemt onderzoek waarin de computer niet enkel een behulpzame maar een centrale rol vervult een hoge vlucht. Er wordt in Nederland op diverse plaatsen gewerkt aan plannen voor dergelijk onderzoek, dat ook wel wordt aangeduid als e-research of computationele wetenschap. Binnen de KNAW is een commissie Computational Humanities aan de slag en houdt de Raad voor de Technische Wetenschappen, Wiskunde, Informatica, Natuur- en Sterrenkunde en Scheikunde (TWINS) zich bezig met plannen rond computational science. Op twee studiedagen in 2009 werd geconstateerd dat het onderscheid tussen de e-humanities en e-science niet fundamenteel is. Ook in het nieuwe Elsevier tijdschrift Journal of Computational Science worden de computationele humaniora als onderdeel van de computationele wetenschappen gezien. Sinds vorig jaar ontwikkelen verschillende partijen, gebundeld in ICT Regie, plannen voor een nieuw e-Science Research Centrum (E-SRC). Ook SURF speelt daarin een belangrijke rol als organisatie voor wetenschappelijke ICT-infrastructuur. Als DANS datafuncties gaat vervullen voor alle vakgebieden, zal dat de samenwerking met SURF verder versterken en vergemakkelijken. Een goed toegankelijke datavoorziening is nodig voor de nieuwe opzet. Dat biedt voor DANS interessante aanknopingspunten, zowel aan de researchkant als aan de infrastructuurkant. DANS heeft een zeer bescheiden budget voor onderzoek en doet tot nu toe vooral toegepaste research & development met externe projectmiddelen. DANS is echter goed toegerust om het datagefundeerde e-research te versterken en om als brug te fungeren tussen de alfa’s, gamma’s en bèta’s die computationeel onderzoek doen. DANS wil graag deelnemen in een zich ontwikkelend programma voor e-humanities, maar met name ook de banden versterken met de informatica en e-science. In de loop van 2010 geeft Herbert van de Sompel (Los Alamos National Laboratory, grondlegger van onder andere het Open Archives Initiative) als visiting professor bij DANS mede vorm aan het research programma. DANS zal in 2010 in een afzonderlijke notitie een eerste opzet van het geambieerde e-research programma presenteren. Daarbij wordt in ieder geval een plaats ingeruimd voor internationaal vooraanstaande fellows. 5. Internationale ontwikkelingen DANS is partner in de meeste grote Europese, en enkele andere internationale e-research infrastructuurprojecten voor de humaniora en sociale wetenschappen. Voorbeelden zijn CESSDA (Council of European Social Science Data Archives), CLARIN (Common Language Resources and Technology Infrastructure), DARIAH (Digital Research Infrastructure for the Arts and Humanities) en ESS (European Social Survey). Maar DANS is ook betrokken bij niet disciplinegebonden initiatieven voor een betere onderzoeksinfrastructuur. Daarbij gaat het bijvoorbeeld om PRACE (Partnership for Advanced Computing in Europe), 8 PARSE.Insight (Permanent Access to the Records of Science in Europe), EGI (European Grid Initiative), E-IRG (E-Infrastructures Reflection Group), OpenAIRE (Open Access Infrastructure for Research in Europe) en APA (Alliance for Permanent Access). Recent is het initiatief PARADE (Partnership for Accessing Data in Europe) genomen, waaraan DANS ook wil meewerken. De motieven om tot een Europese datastructuur te komen zijn vergelijkbaar met de in deze notitie genoemde argumenten op nationale schaal, blijkt uit een white paper van PARADE: ‘Although several progressive and collaborative data initiatives, launched, e.g., by the ESFRI roadmap, are under way, the field remains compartmentalised. This hinders adjacent user communities and data service providers to learn from each other and fully benefit from the best practices. The ultimate consequences are financial due to overlapping work.’ 7 Internationaal dreigt een zekere wildgroei van over elkaar heen buitelende infrastructuurinitiatieven, waarbij gevreesd moet worden dat het wiel nog enkele malen gaat worden uitgevonden. Het is te verwachten dat na een fase van ‘laat honderd bloemen bloeien’ in de nabije toekomst gewied en gesnoeid gaat worden, waarbij de sterkste infrastructuren zullen overblijven. Voor DANS is het belangrijk om goed af te wegen in welke internationale initiatieven te investeren. Wij verwachten dat DANS zich de komende jaren zal concentreren op de ondersteuning van de niet-vakgebonden activiteiten, die in bijna alle research-data-infrastructuren voorkomen (kwaliteitskeurmerk, metadatastandaarden, persistent identifiers, etc.; zie ook bijlage 2). 6. Gevolgen voor ESFRI en Nationale Roadmap De gekozen strategische koers van DANS leidt tot een heroriëntatie op de positie van het instituut in landelijke en internationale research infrastructuren. In dergelijke infrastructuren zijn veel van de doelen en activiteiten op het gebied van databeschikbaarheid gelijksoortig. DANS streeft daarom niet langer naar een centrale rol in één of twee infrastructuren, maar stelt zich als doel een verbindende functie te vervullen tussen thematische of disciplinegerichte infrastructuren. Daarbij concentreert DANS zich op die activiteiten, die voor een aanzienlijk deel van de faciliteiten en netwerken belangrijk zijn. Zulke activiteiten zijn veelal niet afhankelijk van of beperkt tot een bepaald vakgebied. Het verschaffen van toegang tot databases is een expliciet doel van meer dan de helft van de vijfentwintig voorgestelde grootschalige faciliteiten op de Nationale Roadmap. Dat dit doel bij de andere voorstellen geen enkele rol speelt is nauwelijks denkbaar. Naast het verschaffen van toegang zijn de meest genoemde activiteiten: data-integratie en interoperabiliteit, standaarden en metadata en datakwaliteit. Het is efficiënter en waarschijnlijk goedkoper om DANS te betrekken bij die data-activiteiten. Onlangs is DANS door het LIFE WATCH project al benaderd met de vraag of er samenwerkingsmogelijkheden zijn. Wij willen de Nationale Roadmapcommissie in overweging geven om DANS bij meer datafaciliteiten een rol te geven. 7 PARADE: Strategy for a European Data Infrastructure, White paper, september 2009. 9 7. Diensten voor verschillende vakgebieden DANS zal niet op alle gebieden dezelfde diensten aanbieden. Dat gebeurt nu ook niet in de alfa- en gammasector. Welke rol kan worden gespeeld op welk gebied, wordt bepaald door de behoeften, en die worden in overleg met de verschillende onderzoeksgemeenschappen vastgesteld. DANS hoeft bijvoorbeeld niet de opslag voor de astronomen of de deeltjesfysici te verzorgen. Maar DANS werkt wel met de BIG Grid partijen samen om de bestaande opslagvoorzieningen efficiënter te gebruiken. Door van DANS een disciplineonafhankelijk data-instituut te maken kan het ervoor zorgen dat de beschikbare opslag beter wordt benut. Dat zal tot een grotere opbrengst leiden van veel investeringen in tijd en deskundigheid. In zo’n nieuw discipline-onafhankelijk DANS staan de volgende activiteiten centraal: • Best practices voor archivering van en toegang tot data; • Gedragscodes voor gebruik van gegevens; • Het beheren van registers van dataverzamelingen; • Duurzame, langetermijn opslag van data (ook als backup-faciliteit) en het delen van opslagsystemen; • Koppelen van datasets (onderling en aan publicaties en onderzoeksinformatie); • Hulp bij delen van data, collaboratories; • Ondersteunen van (methoden voor) gegevensverwerving; • Onderzoek naar digitale duurzame oplossingen en datatoegang (data curation); • Juridische expertise (auteursrecht, privacy, licenties). 8. Data, onderzoeksinformatie en publicaties Databestanden vormen zowel resultaat van als instrument voor onderzoek. Steeds meer tijdschriften stellen de open beschikbaarheid van de data waarop publicaties gebaseerd zijn verplicht, dissertaties verwijzen naar websites, monografieën bevatten digitale bijlagen, enz. Het onderscheid tussen publicaties en datasets is in het digitale ecosysteem geleidelijk aan het vervagen. Er komen steeds meer ‘verrijkte publicaties’ (waarin bronnen, onderzoeksresultaten en data zijn gebundeld terwijl ze op verschillende weblocaties zijn opgeslagen) en andere vormen, zoals e-journals met een data availability policy. Wetenschappers hebben behoefte aan een gemakkelijke toegang tot alle voor hun onderzoek relevante informatie, ongeacht of het datasets, publicaties, software (onderzoekstools) of projectinformatie betreft. Daarom streeft DANS naar een betere integratie van deze vormen van wetenschappelijke informatie. De afdeling Onderzoeksinformatie (OI) van de KNAW beheert de Nederlandse Onderzoek Databank (NOD) met informatie over het wetenschappelijk onderzoek in Nederland. Hoewel de dekking niet volledig is, verschaft de NOD informatie over circa 7.600 hoogleraren en universitair hoofddocenten, 40.000 onderzoekers en experts, 750 universitaire en nietāuniversitaire onderzoeksinstellingen en 120 onderzoeksscholen. De NOD bevat 20.000 beschrijvingen van lopende projecten en 18.000 beschrijvingen van afgesloten onderzoek. OI beheert ook de portal NARCIS die informatie uit de NOD, ruim 250.000 digitale publicaties uit de academische ‘DARE-repositories’ en zo’n 7000 10 databestanden uit het DANS-archief gebundeld aanbiedt. Verdere integratie met andere vormen van wetenschappelijke informatie ligt in de lijn van de behoeften van de onderzoekgemeenschap en de publieke financiers. Wat het startpunt ook is (project, persoon, dataset, publicatie), van ieder object moet gemakkelijk de bijbehorende informatie kunnen worden gevonden. Datasets zouden ook moeten worden geregistreerd in de academische Metis (en vergelijkbare) systemen. 9. Open Access Nederland is ondertekenaar van de Verklaring over toegang tot publiek gefinancierde onderzoeksgegevens van de Organisatie voor Economische Samenwerking en Ontwikkeling (OESO). De regering steunt de daarop gebaseerde ‘OECD Principles and Guidelines for Access to Research Data from Public Funding’. De Nederlandse universiteiten en wetenschappelijke koepelorganisaties als KNAW en NWO zijn ondertekenaars van de Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities. De president van de KNAW en voorzitter van NWO bevestigden bij verschillende gelegenheden hun steun voor de open toegang tot onderzoeksresultaten. NWO heeft aangekondigd €5 miljoen voor Open Access beschikbaar te stellen. DANS geeft uitvoering aan deze verklaringen en richtlijnen door drempels voor datatoegang zoveel mogelijk uit de weg te ruimen. Onderzoeksdata kunnen overigens niet altijd open toegankelijk zijn: de privacy van onderzoekspersonen moet worden beschermd, archeologische vindplaatsen moeten worden behoed voor schatgravers. Ook willen niet alle onderzoekers hun data onmiddellijk delen, omdat ze ervoor beducht zijn dat anderen (eerder of onzorgvuldig) publiceren over de door hen met veel tijd en moeite verzamelde gegevens. DANS hanteert daarom het motto ‘Open als het kan, beschermd als het moet’. Het EASY archiefsysteem maakt dit nu al mogelijk. In de praktijk is open toegang voor de helft tot tweederde van de datasets in EASY, afhankelijk van het vakgebied, geen probleem. Voor de publicaties in de DARE-repositories ligt deze verhouding vergelijkbaar. Een deel van de data bij DANS wordt pas na verloop van tijd vrij toegankelijk. DANS bepleit dat de onderzoeksfinanciers, die bij uitstek in de positie zijn om open toegang (onder eventuele tijdelijke restricties en met bescherming van respondenten en bodemschatten) af te dwingen, uitvoering geven aan het ‘public access to public data’ beleid. Dat dit in de praktijk ook werkt blijkt uit de nauwe samenwerking van DANS met de NWO-gebieden Geesteswetenschappen en Maatschappij- en Gedragswetenschappen op het gebied van investeringsaanvragen. In de komende jaren zullen DANS en ook andere partijen steeds meer diensten bouwen op de repositories. Deze diensten kunnen alleen worden ontwikkeld als de bronnen (publicaties, data, onderzoekers en projecten) open toegankelijk zijn. Nauwe afstemming en samenwerking tussen de bronhouders (waaronder de KB, OI-KNAW en de academische repositories, maar ook internationale partijen) zal hierbij van groot belang zijn. 10. Onderzoekcapaciteit 11 DANS heeft op dit moment geen formatieve capaciteit voor research, maar voert wel extern gefinancierde R&D-projecten uit, met een sterke nadruk op ‘D’. In de nieuwe situatie zal echter een flinke researchcapaciteit wel nodig zijn. De formatie van de researchgroep zal groot genoeg moeten zijn om extern gefinancierde projecten op te zetten en aan te vragen, doorgaans in samenwerking met onderzoeksgroepen, andere nationale duurzaamheidscoördinatoren, en internationale research infrastructures. Het ontwikkelen van een excellente researchsectie, die fundamenteel en toegepast onderzoek doet naar de technische èn de organisatorische kant van digitale duurzaamheid en toegang tot onderzoeksdata, zal het instituut tot een wereldwijd gezaghebbende speler maken. DANS zal bij uitstek een brugfunctie kunnen vervullen tussen de eSciences en de eHumanities. 11. Personele bezetting De alfa- en gammawetenschappen beslaan circa een kwart van het wetenschapsbedrijf in termen van aantallen wetenschappelijk medewerkers. Binnen die wetenschappen bedient DANS niet alle disciplines even intensief. Datzelfde zal gelden voor de levens-, natuur- en technische wetenschappen. Niettemin zal de totale formatie flink moeten toenemen om ook op die gebieden diensten te kunnen aanbieden (die in een vervolgnotitie nog per vakgebied zullen worden gespecificeerd). Ook op de nieuwe terreinen zal maar een deel van het personeel een duidelijke binding met een bepaald vakgebied hebben. Voor wat betreft de vaste formatie zal de groei vooral plaatsvinden in de sfeer van het onderzoek. In de variabele formatie valt groei te voorzien door een toename van de archivering van datasets ’op stuksbasis’, dat wil zeggen tegen een vergoeding per te archiveren bestand. Voorwaarde voor het heffen van een bijdrage voor het beheer van datasets is dat er een verplichting voor het deponeren van data bestaat 8. Ook zullen steeds meer aan publicaties gekoppelde datasets en verrijkte publicaties, die onderdeel zijn van een applicatie, worden beheerd. Ook daarvoor zal een vergoeding noodzakelijk zijn. Voor dit type archivering zullen zoveel medewerkers worden aangesteld als gefinancierd kunnen worden uit de ‘stuksvergoeding’. Gestreefd wordt daarnaast naar een groei van de projectomvang en dus van het aantal projectmedewerkers. Toch zal die groei in de eerste jaren geen gelijke tred houden met die van het gehele instituut, vooral omdat DANS eerst een naam moet opbouwen als projectpartner buiten de humaniora en sociale wetenschappen. Voor de totale personeelsbezetting betekent de verbreding van DANS op termijn een verdubbeling tot verdrievoudiging van huidige omvang. Die uitbreiding zal stapsgewijs verlopen, in een tempo dat is afgestemd op dat van de groeiende vraag naar DANSdiensten. 12. Budget: kosten en financiering Het stijgende niveau van activiteiten en de daarbij behorende uitbreiding van de formatie, in een tempo overigens dat door de vraag zal worden gedicteerd, brengen natuurlijk 8 Een dergelijke verplichting bestaat al voor de z.g. Malta-archeologie en voor door NWO-GW en MaGW gefinancierde projecten. 12 gevolgen mee voor de geraamde kosten en de benodigde inkomsten om die te dekken. Er wordt gerekend op een verdubbeling tot verdrievoudiging van het budget van DANS. De uitgaven voor datacontracten zullen ongeveer gelijk blijven maar de variabele kosten, voor de hiervoor genoemde stuks-archivering, verdrievoudigen in de eerstkomende jaren om vervolgens door te stijgen in het tempo waarin datasets worden aangeboden. Deze laatste kosten zullen worden geneutraliseerd door gelijke opbrengsten omdat ze door de onderzoekers worden meebegroot in hun projectvoorstellen. De projectkosten, die uit de aard van hun karakter zullen worden gedekt door projectopbrengsten, verdubbelen. Voor de financiering vormen de huidige bijdragen van de KNAW en NWO het uitgangspunt. Om de rol van DANS als “voortrekker” voor het gebied wetenschap in de NCDD te realiseren, is het ministerie van OCW om een extra bijdrage van 2 mln. op jaarbasis gevraagd. De KNAW financiert aanvullend een deel van de infrastructuur gericht op de koppeling van publicaties, data en onderzoeksinformatie. Een deel van de researchinspanningen wordt gefinancierd uit het door de KNAW in te stellen programma voor Computational Humanities. Van NWO wordt een extra investering gevraagd om de dienstverlening voor nieuwe gebieden uit te werken en te ontwikkelen en om Open Access tot data (gekoppeld aan publicaties) te realiseren. Voor de DANS-taken op het gebied van gezondheidsdata/epidemiologie wordt een beroep gedaan op ZonMw/Ministerie VWS. Een bijdrage voor de archivering van datasets uit de technische wetenschappen zal deels moeten worden gedekt door dit veld. 13. Vervolgstappen De inhoud van deze notitie wordt op hoofdlijnen gesteund door de Wetenschappelijke Adviesraad en de Stuurgroep van DANS. Met instemming van KNAW en NWO, is de volgende stap om het plan nader uit te werken, waarbij in ieder geval de belangrijkste spelers en vakgebieden worden geconsulteerd. Ook de kosten en financieringsmogelijkheden zullen nader in kaart worden gebracht, alsmede de gewenste organisatorische en bestuurlijke structuur. Hiermee is inmiddels een begin gemaakt. DANS hoopt in het najaar een uitgewerkte strategienota te presenteren met daarbij een uitvoeringsplan, een onderzoeksplan en een nieuw communicatieplan voor de periode 2011-2015. Eind 2010 vindt ook een review van DANS plaats door een externe visitatiecommissie, waarbij naast de resultaten van de eerste vijf jaar ook de nieuwe plannen ter beoordeling zullen worden voorgelegd. 13 Bijlage 1: Conclusies uit het NCDD rapport Nationale Verkenning Digitale Duurzaamheid: Inputnotitie sector wetenschap (door René van Horik - 1 juli 2009) [...] In Nederland [zijn] maar weinig organisaties en initiatieven op het gebied van de digitale archivering van onderzoeksdata die ervoor zorgen dat na afloop van een project de onderzoeksdata duurzaam worden gearchiveerd. Daar staat tegenover dat er een grote heterogene data-infrastructuur is ontstaan die vele vormen van dataverwerking en -beheer mogelijk maken. De inrichting en aanpak van deze infrastructuur is enerzijds sterk disciplinegericht en anderzijds gebaseerd op bestaande organisaties die een rol spelen in het wetenschapsbedrijf. Het is belangrijk dat wetenschappers als domeindeskundigen betrokken worden bij het inrichten van een optimale duurzame data-infrastructuur. Ook is specifieke kennis vereist op het gebied van data-archivering, bijvoorbeeld op het gebied van auteursrecht, Open Access, open standaarden en ‘repository’ systemen. Er bestaat een aantal toetsingskaders, waaronder het ‘Data Seal of Approval’ dat als leidraad kan dienen bij het inrichten van een bewaarplaats voor digitale wetenschappelijke objecten. [...] Digitale data in de wetenschap hebben vele verschijningsvormen. Het meest duidelijk zijn de wetenschappelijke publicaties en octrooien en patenten, waarvoor inmiddels databewaarplaatsen zijn ingericht. Ook voor de archivering van datasets die het resultaat zijn van afgesloten onderzoek in de geestes- en sociale wetenschappen is een data-archief opgezet. Maar daarnaast bestaat er nog een groot aantal andere soorten wetenschappelijke dataobjecten, waarvan de aard, waarde en vereiste duurzaamheid nog niet eenduidig is vast te stellen. Nader onderzoek is nodig om een goede classificatie te verkrijgen van digitale dataobjecten die een rol spelen in het wetenschapsbedrijf. Uiteraard dient dit te gebeuren in de vorm van een samenwerking tussen wetenschappers, informatiekundigen en archiefspecialisten. Het is aan te bevelen een werkgroep op te richten die onderzoekt welke soorten digitale onderzoeksobjecten een rol spelen bij wetenschappelijk onderzoek. Op basis van deze classificatie kan bepaald worden welke objecten duurzaam bewaard moeten worden. Vervolgens dient dan vastgesteld te worden op welke wijze deze bewaring het beste georganiseerd kan worden. Er zijn inmiddels toetsingskaders beschikbaar om deze werkzaamheden uit te voeren. Binnen de wetenschap speelt de informatietechnologie een grote rol. De wetenschapper verwacht toegang te hebben via internet tot alle voor het vakgebied relevante wetenschappelijke literatuur en databanken met essentiële onderzoeksdata. De analyse-, simulatie-, en visualisatiesoftware van onderzoeksdata wordt steeds 14 geavanceerder en biedt de onderzoeker gereedschap om de kwaliteit van het wetenschappelijk onderzoek te verhogen. De financiers van het wetenschappelijk onderzoek realiseren zich in toenemende mate dat de duurzaamheid van de data en tools van belang is. Maar een eenduidige visie en strategie op de langetermijn bewaring van onderzoeksdata bestaat er alleen op het gebied van digitale publicaties en voor een aantal disciplinegebonden wetenschappelijke datasets. Het vastleggen van selectiecriteria van dataobjecten die in aanmerking komen voor bewaring dient per wetenschappelijke discipline verder uitgewerkt te worden. Gezien de groei van het aantal digitale objecten is het niet mogelijk ze allemaal te archiveren. De opslagcapaciteit van onderzoeksdata groeit, maar de kosten hiervoor bedragen een fractie van de totale kosten voor digitale duurzaamheid. Het beheer van de onderzoeksdata is aanzienlijk duurder. Hieronder vallen kosten voor documentatie, beschikbaarstelling, kwaliteitscontrole en verwerking. De financiers van wetenschappelijk onderzoek zijn bij uitstek de partij die sturend kan optreden bij het verbeteren van de duurzaamheid van de wetenschappelijke data-infrastructuur door wetenschappers te verplichten data goed te documenteren en over te dragen aan een duurzame bewaarplaats. Ook onderzoeksprogramma’s en thema’s dienen aandacht te schenken aan de langetermijn bewaring van en toegang tot de onderzoeksdata die het resultaat zijn van deze projecten. De wetenschap dient meer erkenning te geven aan activiteiten rondom het maken, beheren en de beschikbaarstelling van onderzoeksdata. Van oudsher gaat de meeste wetenschappelijke erkenning uit naar de publicatie. Door ook professionele erkenning te krijgen voor bijdragen aan de data-infrastructuur, neemt de waarde van onderzoeksdata toe, waardoor er ook meer aandacht zal zijn voor de duurzame archivering van de onderzoeksdata. Met name binnen de exacte wetenschappen is het vaak vanzelfsprekend om onderzoeksdata te hergebruiken, maar bij een aantal wetenschapsgebieden wordt nog onvoldoende gekeken of bestaande onderzoeksbestanden hergebruikt kunnen worden. De bestaande ‘beloningsinitiatieven’ om dit hergebruik te stimuleren dienen gecontinueerd en uitgebreid te worden. Scholing en training op het gebied van de aanleg en het (her)gebruik van onderzoeksdata is van belang om ervoor te zorgen dat wetenschappers ook daadwerkelijk meewerken aan de realisering van een duurzame data-infrastructuur. Hierbij is internationale afstemming van groot belang. Bij alle hierboven genoemde aanbevelingen is het van belang dat deze in samenwerking met alle betrokkenen wordt uitgevoerd. Een goede vorm om dit te organiseren zou kunnen 15 zijn in de vorm van werkgroepen die een aantal deelaspecten nader uitwerken, bijvoorbeeld op het gebied van financieringsmodellen, metadata-standaarden en datacuratie-tools. Op een aantal terreinen is al een begin gemaakt met dit overleg. 16