OAI protocol voor metadata harvesting (OAI-PMH)

advertisement
OAI protocol voor metadata harvesting (OAI-PMH)
Het Open Archive Initiative (OAI) is in essentie een initiatief om materiaal dat op het web in
archieven en repositories beschikbaar is openlijk toegankelijk te maken en te delen. Hun missie is door
het OAI als volgt geformuleerd: “Het Open Archive Initiative ontwikkelt en promoot interoperabiliteit
standaarden met als doel het faciliteren van de disseminatie van content”. In eerste instantie was dit
gericht op e-prints, maar nu wordt het voor allerlei materiaal gebruikt. Iedere community kan daarom
profiteren van de OAI aanpak. Materiaal kan daardoor beter en breder toegankelijk gemaakt worden.
Bovendien kan de mogelijkheid om materiaal uit verschillende repositories te benaderen betere en
nieuwe diensten opleveren ten bate van de gebruiker. OAI vormt tevens een alternatief en nieuw
model voor de wetenschappelijke communicatie.
Beleidsbeslissingen over het OAI worden genomen door een ‘Steering Committee’ bestaande uit 12
mensen. De interoperabiliteit infrastructuur is ontwikkeld door een technische commissie. Herbert Van
de Sompel en Carl Lagoze zijn verantwoordelijk voor de coördinatie van OAI activiteiten. OAI wordt
(financieel) ondersteund door de Digital Library Federation, Coalition for Networked Information, en
met een National Science Foundation Grant.
Een van de basis technologieën die het OAI helpt te ondersteunen is het Open Archives Initiative
Protocol voor Metadata Harvesting (OAI-PMH). Het OAI-PMH is een eenvoudig mechanisme voor
de interoperabiliteit van repositories.
Data providers zijn repositories die gestructureerde metadata beschikbaar stellen via OAI-PMH.
Service providers stellen OAI-PMH vragen om de metadata op te halen (harvesten) en diensten mee te
bouwen. Het OAI-PMH is een eenvoudig op internet (http) gebaseerd protocol, waarbij men zes
vragen (verbs) aan de data provider kan stellen. De data provider geeft dan ‘antwoord’ op de gestelde
vraag, bijvoorbeeld metadata in een XML formaat van de meest recente toegevoegde content in de
repository.
Antwoorden zijn geëncodeerd in XML syntaxis. Als metadataformaat is Dublin Core verplicht bij
OAI-PMH, maar in principe is het mogelijk om daarnaast metadata in elk gewenst ander formaat aan
te bieden.
Schematisch kunnen de functies van OAI-PMH als volgt worden weergegeven:
Fig. 1 Functies van OAI-PMH
Het gebruik van http in het protocol betekent dat elke repository eenvoudig via een URL, dus via het
adresveld van elke webbrowser, kan worden ondervraagd. OAI-PMH ondersteunt zes typen vragen
(bekend als ‘verbs’), bijvoorbeeld:
http://archive.org/oai?verb=ListRecords
De vragen worden samengesteld uit een baseURL van de repository gevolgd door een ? en de
betreffende vraag. In bovenstaand voorbeeld is de baseURL http://archive.org/oai en wordt alle
metadata gevraagd van records in de repository met verb=ListRecords.
Zeven kernbegrippen
Fig. 2 Kernbegrippen
Harvester
Het manueel ondervragen van een repository is één mogelijkheid, maar er bestaat speciale software
om dit automatisch te doen en eventueel de resultaten te verwerken in een database: de zogenaamde
‘harvester’ software. Eenvoudig gezegd is een harvester een programma dat in staat is metadata te
oogsten van verschillende repositories via OAI-PMH.
Repository
Een repository is een via het netwerk toegankelijke server welke de zes OAI-PMH vragen juist kan
verwerken. Een repository wordt beheerd door een data provider om metadata beschikbaar te stellen
aan harvesters.
Resource
Is het object of ‘ding’ waar de metadata over gaat en valt buiten de scope van OAI-PMH.
Item
Een item is een onderdeel van een repository welke de metadata van de ‘resource’ in meerdere
formaten (records) kan verspreiden; heeft een unieke identifier.
Record
Metadata in een specifiek metadata formaat.
Sets
Data providers kunnen sets definiëren om items in een repository te groeperen. Bijvoorbeeld een set
op een bepaald vakgebied. Een service provider die alleen geïnteresseerd is om diensten op te zetten in
dat vakgebied hoeft dan alleen die set te harvesten.
Records
Een record is de metadata in een specifiek metadata formaat. Een record heeft drie onderdelen: een
header, de metadata en optioneel een verklaring over de metadata.
header (verplicht )
identifier (verplicht: slechts 1 )
datestamp (verplicht: slechts 1 )
setSpec elements (optioneel: 0, 1 of meer)
status attribute (optioneel: voor verwijderde items)
metadata (verplicht)
XML encoded metadata met root tag, namespace
repositories moeten Dublin Core ondersteunen, maar mogen andere formaten ondersteunen
over de metadata (optioneel)
rechten
provenance
OAI-PMH vragen
De standaard ‘vragen’ (verbs) die men kan stellen aan een repository zijn:






Identify: vraag naar informatie over de repository. Bijvoorbeeld:
http://archive.org/oai?verb=Identify
ListMetadataFormats: vraag naar de beschikbare metadataformaten.
ListSets: vraag naar de beschikbare sets. Records kunnen in een repository gestructureerd
worden in sets.
ListRecords: vraag de volledige metadata op van records (de vraag kan beperkt worden op
datum van/tot en op set, bovendien kan het gewenste metadataformaat gevraagd worden).
ListIdentifiers: idem als ListRecords, maar geeft per record slechts een verkort resultaat
(identifier en datum) in plaats van de volledige metadata. Bijvoorbeeld:
http://archive.org/oai?verb=ListIdentifiers&metadataPrefix=oai_dc
GetRecord: vraag een specifiek record op.
Het ‘antwoord’ op de vraag komt terug in XML formaat en kan gemakkelijk automatisch verwerkt
worden maar kan ook gewoon als tekst bekeken worden in het browservenster.
Toepassingen
Er zijn diverse diensten beschikbaar op basis van OAI-PMH. De meest gangbare manier is dat een
service provider metadata oogst van meerdere repositories via OAI-PMH en de metadata in een
database opslaat en diensten, zoals een zoekinterface, aanbied aan gebruikers.
DAREnet is zo’n dienst gebaseerd op het netwerk van repositories in Nederland. Het biedt een centrale
ingang voor de lokale verzamelingen digitale bestanden van alle Nederlandse universiteiten en enkele
gerelateerde instellingen, met een uniforme wijze van presenteren.
Een ander voorbeeld is OAIster. Met behulp van OAIster (een project van de Universiteit van
Michigan) kan men heel eenvoudig zoeken in een internationale context, in zo veel mogelijk open
wetenschappelijke repositories.
Ook zijn er meer onderwerps- of materiaalgerichte diensten die op basis van OAI-PMH tot stand zijn
gekomen, bijvoorbeeld:
- Connecting-Africa, een dienst voor Afrikastudies, een website met onderzoeksresultaten van
Afrikanisten van universiteiten in Nederland en daarbuiten.
- SCHOLAR(s) Economic Community website, in deze virtuele omgeving kan specifiek gezocht
worden naar wetenschappelijke publicaties op onderwerpen zoals scholing, arbeidsmarkt en
economische ontwikkeling van meerdere universiteiten.
- Sheet Music Consortium is een dienst die toegang geeft tot gedigitaliseerd bladmuziek van diverse
bibliotheken.
Eveneens zijn er service providers die met behulp van de metadata van repositories toegevoegde
diensten verzorgen:
- Citebase Search geeft gebruikers bijvoorbeeld de mogelijkheid om naar wetenschappelijke
literatuur uit verschillende repositories te zoeken, waarbij de resultaten geordend kunnen worden
naar citatie impact.
Ontwikkeling van de standaard
De OAI-PMH standaard heeft zich ontwikkeld van specifiek naar algemeen – van het toegankelijk
maken van e-prints naar het delen van beschrijvingen van elke bron of object. De huidige standaard is
OAI-PMH versie 2.0 en is een stabiele en productie versie, zodat bij volgende versies aandacht wordt
besteed aan ‘backward compatibility’.
OAI-ORE is een nieuw project van het Open Archive Initiative. ORE zal specificaties ontwikkelen
wat repositories in staat moet stellen om informatie uit te wisselen over samengestelde digitale
objecten (complexe objecten). Onder samengestelde digitale objecten wordt verstaan content die
bijvoorbeeld bestaat uit tekst, audio, video, datasets, maar ook versies of afgeleiden.
De specificaties moeten een nieuwe generatie diensten voor het gebruik en hergebruik van
samengestelde digitale objecten of onderdelen van deze objecten over de grenzen van repositories
heen mogelijk maken. Denk bijvoorbeeld aan het linken van citaties in een artikel naar andere
artikelen of datasets in andere repositories.
Verder lezen…
Een hele goede introductie op OAI-PMH wordt gegeven op de website:
OAI for Beginners - the Open Archives Forum online tutorial:
http://www.oaforum.org/tutorial/
De officiële OAI website is:
Open Archives Initiative: http://www.openarchives.org/
Andere genoemde websites in dit artikel zijn:
DAREnet: http://www.darenet.nl
OAIster: http://oaister.umdl.umich.edu
Connecting-Africa: http://www.connecting-africa.net/
SCHOLAR(s) Economic Community website: http://sec.uva.nl/
Sheet Music Consortium: http://digital.library.ucla.edu/sheetmusic/
Citebase Search: http://www.citebase.org
Renze Brandsma
Hoofd Digitaal Productiecentrum
Universiteitsbibliotheek Amsterdam
Download