DE OPZET VAN EEN DATAWAREHOUSE TEN BEHOEVE

advertisement
DE OPZET VAN EEN DATAWAREHOUSE TEN BEHOEVE RISICOMODELLERING OP
GEBIED VAN ARBEIDSONGEVALLEN
DoorJeanet Kemmeren, Stichting Consument & Veiligheid, Amsterdam
Achtergrond
De Nederlandse overheid heeft in samenwerking met het bedrijfsleven gerichte inspanningen
ondernomen om risico’s voor de arbeidsveiligheid te verbeteren. Er is tot nu toe veel bereikt
maar in bepaalde bedrijfstakken en doelgroepen is nog steeds sprake van een
onbevredigende situatie ten aanzien van de arbeidsveiligheid. Het Programma Versterking
Arbeidsveiligheid in Nederland heeft als doel het aantal arbeidsongevallen en/of de
gemiddelde verzuimduur als gevolg van een arbeidsongeval met 10-15% te verminderen.
Een van de methoden om dit te bereiken is de ontwikkeling van een kwantitatief risicomodel.
Met dit risicomodel kan inzichtelijk worden gemaakt wat voor risico’s werknemers lopen op
de arbeidsplek, hoe deze risico’s zich tot elkaar verhouden en wat voor effecten
risicobeperkende maatregelen hebben.
Er bestaan diverse nationale en internationale bronnen met gegevens over
arbeidsongevallen die als input kunnen dienen voor het risicomodel. Deze zijn echter
verschillend in vorm en inhoud. Het streven is een Datawarehouse op te zetten die al deze
ongelijksoortige gegevens voor zover mogelijk combineert en zo bruikbare informatie
oplevert over arbeidsongevallen in Nederland.
Structuur Datawarehouse
Database bronbestanden
Alvorens een Datawarehouse kan worden opgezet, zal allereerst een database worden
gecreëerd waarin bronbestanden worden opgenomen. Deze bronbestanden bestaan uit:
• Registratiesystemen (beschrijvingen van individuele arbeidsongevallen en gegevens over
arbeidsomstandigheden);
• Referentiegegevens (gegevens die noodzakelijk zijn om de registratiesystemen te
kunnen interpreteren, classificeren en valideren zoals classificatiesystemen en
codeerstelsels). De referentiegegevens bevatten de sleutel voor de juiste en consistente
interpretatie van de registratiesystemen;
• Rapporten met geaggregeerde gegevens;
• Synthetische gegevens en aannames.
De bronbestanden zullen in hun oorspronkelijke vorm worden opgenomen zodat door het
verzamelen van die gegevens geen informatie verloren gaat. Dan kan later nog worden
nagegaan of additionele vragen door een gerichte analyse van de oorspronkelijke gegevens
kunnen worden beantwoord.
Datawarehouse
Het Datawarehouse is de centrale omgeving waarin alle beschikbare data met betrekking tot
arbeidsongevallen wordt vastgelegd. Het is een systeem waar gegevens in worden gebracht,
geordend worden opgeslagen, bewerkt en er weer uit worden gehaald. Het Datawarehouse
fungeert daarom als de “masterdatabase” waarin de datasets zijn opgeslagen. Hieruit zullen
gegevens worden gedistribueerd voor het opzetten van de risicomodellen.
Door het bewerken van gegevens uit de bronbestanden zullen afgeleide gegevens worden
gegenereerd. Deze gegevens zullen worden opgenomen in het Datawarehouse. Dit
Datawarehouse wordt primair ontwikkeld om gegevens beschikbaar te kunnen stellen voor
de beleidsmatige toepassing van de operationele risicomodellen.
Afgeleide gegevens kunnen op twee verschillende manieren tot stand komen:
• Door het extraheren van gegevens uit de Database Bronbestanden
• Door het bewerken (transformeren) van gegevens uit de bronbestanden. Dit gebeurt door
het leggen van vaak complexe verbanden tussen verschillende bronbestanden. Hierdoor
kunnen gebruikers bijvoorbeeld beschikken over gegevens van de kansen op soorten
arbeidsongevallen in bepaalde doelgroepen. Ook kunnen afgeleide gegevens inzicht
geven in relevante oorzaak-gevolg relaties zoals de verbanden tussen activiteit,
begeleidende omstandigheden, soort arbeidsongeval en soort letsel.
Uiteindelijk zullen een twintigtal risicomodellen worden ontwikkeld, elk betrekking hebbend
op een bepaalde activiteit en/of doelgroep. Voor elk risicomodel zal één dataset worden
samengesteld. Aan elke dataset moet de eis worden gesteld dat deze betrouwbaar,
valideerbaar en reproduceerbaar is omdat de dataset het bijbehorende risicomodel in hoge
mate bestuurt en beïnvloedt. Een Datawarehouse bied in dit verband de volgende voordelen:
• Door uit 1 bron te putten worden analyses uitgevoerd op een uniforme data ; dit verhoogt
de kwaliteit van de analyses.
• Er is efficiëncy-winst doordat bewerkingen maar éénmalig worden uitgevoerd.
• Het Datawarehouse kan in een later stadium ook gebruikt worden als betrouwbare bron
van informatie over arbeidsongevallen en bijbehorende risico’s, bijv. voor
onderzoeksdoeleinden.
Software om datawarehouse te ontwikkelen
Voor het genereren van afgeleide gegevens wordt gebruik gemaakt van zogenaamde ETLsoftware. Met deze software worden drie handelingen verricht:
• Het binnenhalen van gegevens uit de Database Bronbestanden (extraheren)
• Het bewerken van de gegevens conform de vraagstelling (transformeren)
• Het opslaan van de resultaten van deze bewerking in databestanden voor verder gebruik
(laden)
Het gebruik van ETL-software biedt de volgende voordelen:
• ETL-software, die onderdeel is van de Datawarehouse infrastructuur, is bij uitstek
geschikt om de complexe transformaties uit te voeren, die nodig zijn om de
brongegevens te kunnen koppelen aan classificatiesystemen en codeerstelsels, en te
relateren aan (bijv.) demografische gegevens;
• Met ETL-software kan het complexe proces van Extractie, Transformatie en Laden van
brongegevens worden geautomatiseerd, zodat het reproduceerbaar wordt;
• Omdat de uiteindelijke stabiele informatiebehoefte van elk risicomodel deels overeen zal
komen met de informatiebehoefte ten tijde van de ontwikkeling van dat risicomodel,
kunnen de ETL-procedures, die gebuikt zijn bij het produceren van datasets, tenminste
deels worden hergebruikt voor het produceren van nieuwe datasets;
Bronnen voor risicomodellering
Nationaal en internationaal bestaan er diverse registratiesystemen met gegevens over
arbeidsongevallen en arbeidsomstandigheden die geschikt zijn opgenomen te worden in de
database Bronbestanden. Het verkrijgen van deze bestanden is over het algemeen een
tijdrovende zaak bijv. doordat de gegevens in een registratiesysteem in een aantal gevallen
geanonimiseerd dienen te worden en er allerlei procedures doorlopen dienen te worden
voordat een bestand beschikbaar gesteld wordt.
Wanneer bestanden beschikbaar zijn gekomen zullen deze worden gecodeerd,
gestandaardiseerd en gevalideerd met behulp van de referentiegegevens, waardoor
afgeleide gegevens ontstaan. Deze worden opgeslagen in het Datawarehouse en
vervolgens, waar mogelijk, gekoppeld, zodat ze gebruikt kunnen worden voor de
ontwikkeling van het risicomodel. In een aantal gevallen zullen de bronbestanden echter zo
van elkaar verschillen qua opzet, structuur en inhoud, dat het niet mogelijk blijkt te zijn om ze
te koppelen. Afhankelijk van de vraagstelling zal dan bekeken worden welke databron het
meest geschikt is om de gewenste informatie te leveren.
Inhoud gegevensbronnen
Voor de ontwikkeling van een risicomodel leveren een aantal gegevens essentiële
informatie, andere gegevens zijn niet absoluut noodzakelijk maar wel wenselijk. Het is
daarom van belang om zo gedetailleerd mogelijke databestanden te verkrijgen. De generieke
dataset voor de risicomodellering bestaat uit:
• Kenmerken van het slachtoffer (o.a. leeftijd, geslacht, beroep)
• Bedrijfskenmerken (bedrijfstak, bedrijfsgrootte)
• Kenmerken van het ongeval (o.a. datum, locatie, activiteit ten tijde van het ongeval,
letselmechanisme)
• Effecten van het ongeval (o.a. type letsel, locatie van het letsel, verzuimduur)
• Populatiegegevens (verdeling van de activiteiten tijdens de normale werkzaamheden)
• Kwalitatieve gegevens (beschrijving van het ongeval)
Niet alle gegevens zullen echter als zodanig zijn gecodeerd, maar zijn in een aantal gevallen
wel af te leiden uit de toedrachtsbeschrijving van het betreffende ongeval. Door te zoeken op
trefwoord met bijv. de procedures Wordcount en Soundex zal getracht worden deze
gegevens alsnog boven water te halen. Er mag echter verwacht worden dat niet alle
informatie nodig voor de risicomodellering, beschikbaar is. Ook het gewenste detailniveau
van de gegevens zal naar alle waarschijnlijkheid in de praktijk lang niet altijd haalbaar zijn. Er
ontstaan dan een informatiedeficit. Men zal in dergelijke gevallen in een eerste stap
specifieke deskundigheid inzetten om de ontbrekende en voor de modelontwikkeling
noodzakelijke gegevens via twee invalshoeken in te vullen:
Er zullen synthetische gegevens worden gegenereerd
Er zullen bepaalde aannames worden getroffen.
Deze synthetische gegevens en aannames worden, in combinatie met de aangeleverde
gegevens uit het Datawarehouse, gebruikt bij de risicomodellering. In een tweede stap wordt
vervolgens nagegaan of de gegenereerde synthetische gegevens en aannames voor het
verzamelen van additionele gegevens kunnen worden geverifieerd, verbeterd of vervangen.
Kwaliteit van de bronbestanden
Er bestaat een grote verscheidenheid aan bestanden met brongegevens: de mate van detail
en de kwaliteit van de gegevens is zeer variabel. Er worden daarom criteria opgesteld
waaraan iedere bron zal worden getoetst. Hiermee kan inzichtelijk worden gemaakt hoe
valide, betrouwbaar en volledig de gegevens in de desbetreffende bron is. De criteria zijn
verdeeld in extrinsieke en intrinsieke kwaliteit: De extrinsieke kwaliteit betreft het
procesmatige proces, de inhoudelijke criteria toetsen de intrinsieke kwaliteit.
Extrinsieke criteria:
• Bruikbaarheid van de bron (relevantie, oorsprong van de bron)
• Ontsluitbaarheid, beschikbaarheid van de bron
• Jaar van dataverzameling
• Frequentie van beschikbaarheid
• Over welke bedrijfssector gaat de informatie
• Kosten
Intrinsieke criteria:
• Aantal records
• Dekkingsgraad
• Volledigheid van de gegevens
• Type classificatie
• Betrouwbaarheid van de gegevens
• Type registratiesysteem
Alle criteria zijn van belang, er zal echter wel een verschil in prioriteit worden gehanteerd.
Wanneer een databron goed beoordeeld wordt op de criteria met een hoge prioriteit is deze
geschikt voor opname in de database. Databronnen die minder goed beoordeeld worden
zullen ook in de database opgenomen worden. Deze data zullen echter minder geschikt zijn
voor het risicomodel, en zullen alleen worden gebruikt wanneer er geen betere bronnen
beschikbaar zijn.
Tot slot
Op dit moment wordt gewerkt aan het opzetten van de ICT-infrastructuur en het verkrijgen
van de bronbestanden. Verschillende classificatiesystemen zullen met elkaar worden
vergeleken en beoordeeld, waarna besloten zal worden met welk systeem gewerkt zal gaan
worden. Vervolgens zullen er, indien nodig en waar mogelijk, conversietabellen worden
ontwikkeld om de verschillende databronnen te harmoniseren. Daarna zullen de
bronbestanden worden geschoond, gekoppeld en geschikt gemaakt voor analyse.
Download