DE OPZET VAN EEN DATAWAREHOUSE TEN BEHOEVE RISICOMODELLERING OP GEBIED VAN ARBEIDSONGEVALLEN DoorJeanet Kemmeren, Stichting Consument & Veiligheid, Amsterdam Achtergrond De Nederlandse overheid heeft in samenwerking met het bedrijfsleven gerichte inspanningen ondernomen om risico’s voor de arbeidsveiligheid te verbeteren. Er is tot nu toe veel bereikt maar in bepaalde bedrijfstakken en doelgroepen is nog steeds sprake van een onbevredigende situatie ten aanzien van de arbeidsveiligheid. Het Programma Versterking Arbeidsveiligheid in Nederland heeft als doel het aantal arbeidsongevallen en/of de gemiddelde verzuimduur als gevolg van een arbeidsongeval met 10-15% te verminderen. Een van de methoden om dit te bereiken is de ontwikkeling van een kwantitatief risicomodel. Met dit risicomodel kan inzichtelijk worden gemaakt wat voor risico’s werknemers lopen op de arbeidsplek, hoe deze risico’s zich tot elkaar verhouden en wat voor effecten risicobeperkende maatregelen hebben. Er bestaan diverse nationale en internationale bronnen met gegevens over arbeidsongevallen die als input kunnen dienen voor het risicomodel. Deze zijn echter verschillend in vorm en inhoud. Het streven is een Datawarehouse op te zetten die al deze ongelijksoortige gegevens voor zover mogelijk combineert en zo bruikbare informatie oplevert over arbeidsongevallen in Nederland. Structuur Datawarehouse Database bronbestanden Alvorens een Datawarehouse kan worden opgezet, zal allereerst een database worden gecreëerd waarin bronbestanden worden opgenomen. Deze bronbestanden bestaan uit: • Registratiesystemen (beschrijvingen van individuele arbeidsongevallen en gegevens over arbeidsomstandigheden); • Referentiegegevens (gegevens die noodzakelijk zijn om de registratiesystemen te kunnen interpreteren, classificeren en valideren zoals classificatiesystemen en codeerstelsels). De referentiegegevens bevatten de sleutel voor de juiste en consistente interpretatie van de registratiesystemen; • Rapporten met geaggregeerde gegevens; • Synthetische gegevens en aannames. De bronbestanden zullen in hun oorspronkelijke vorm worden opgenomen zodat door het verzamelen van die gegevens geen informatie verloren gaat. Dan kan later nog worden nagegaan of additionele vragen door een gerichte analyse van de oorspronkelijke gegevens kunnen worden beantwoord. Datawarehouse Het Datawarehouse is de centrale omgeving waarin alle beschikbare data met betrekking tot arbeidsongevallen wordt vastgelegd. Het is een systeem waar gegevens in worden gebracht, geordend worden opgeslagen, bewerkt en er weer uit worden gehaald. Het Datawarehouse fungeert daarom als de “masterdatabase” waarin de datasets zijn opgeslagen. Hieruit zullen gegevens worden gedistribueerd voor het opzetten van de risicomodellen. Door het bewerken van gegevens uit de bronbestanden zullen afgeleide gegevens worden gegenereerd. Deze gegevens zullen worden opgenomen in het Datawarehouse. Dit Datawarehouse wordt primair ontwikkeld om gegevens beschikbaar te kunnen stellen voor de beleidsmatige toepassing van de operationele risicomodellen. Afgeleide gegevens kunnen op twee verschillende manieren tot stand komen: • Door het extraheren van gegevens uit de Database Bronbestanden • Door het bewerken (transformeren) van gegevens uit de bronbestanden. Dit gebeurt door het leggen van vaak complexe verbanden tussen verschillende bronbestanden. Hierdoor kunnen gebruikers bijvoorbeeld beschikken over gegevens van de kansen op soorten arbeidsongevallen in bepaalde doelgroepen. Ook kunnen afgeleide gegevens inzicht geven in relevante oorzaak-gevolg relaties zoals de verbanden tussen activiteit, begeleidende omstandigheden, soort arbeidsongeval en soort letsel. Uiteindelijk zullen een twintigtal risicomodellen worden ontwikkeld, elk betrekking hebbend op een bepaalde activiteit en/of doelgroep. Voor elk risicomodel zal één dataset worden samengesteld. Aan elke dataset moet de eis worden gesteld dat deze betrouwbaar, valideerbaar en reproduceerbaar is omdat de dataset het bijbehorende risicomodel in hoge mate bestuurt en beïnvloedt. Een Datawarehouse bied in dit verband de volgende voordelen: • Door uit 1 bron te putten worden analyses uitgevoerd op een uniforme data ; dit verhoogt de kwaliteit van de analyses. • Er is efficiëncy-winst doordat bewerkingen maar éénmalig worden uitgevoerd. • Het Datawarehouse kan in een later stadium ook gebruikt worden als betrouwbare bron van informatie over arbeidsongevallen en bijbehorende risico’s, bijv. voor onderzoeksdoeleinden. Software om datawarehouse te ontwikkelen Voor het genereren van afgeleide gegevens wordt gebruik gemaakt van zogenaamde ETLsoftware. Met deze software worden drie handelingen verricht: • Het binnenhalen van gegevens uit de Database Bronbestanden (extraheren) • Het bewerken van de gegevens conform de vraagstelling (transformeren) • Het opslaan van de resultaten van deze bewerking in databestanden voor verder gebruik (laden) Het gebruik van ETL-software biedt de volgende voordelen: • ETL-software, die onderdeel is van de Datawarehouse infrastructuur, is bij uitstek geschikt om de complexe transformaties uit te voeren, die nodig zijn om de brongegevens te kunnen koppelen aan classificatiesystemen en codeerstelsels, en te relateren aan (bijv.) demografische gegevens; • Met ETL-software kan het complexe proces van Extractie, Transformatie en Laden van brongegevens worden geautomatiseerd, zodat het reproduceerbaar wordt; • Omdat de uiteindelijke stabiele informatiebehoefte van elk risicomodel deels overeen zal komen met de informatiebehoefte ten tijde van de ontwikkeling van dat risicomodel, kunnen de ETL-procedures, die gebuikt zijn bij het produceren van datasets, tenminste deels worden hergebruikt voor het produceren van nieuwe datasets; Bronnen voor risicomodellering Nationaal en internationaal bestaan er diverse registratiesystemen met gegevens over arbeidsongevallen en arbeidsomstandigheden die geschikt zijn opgenomen te worden in de database Bronbestanden. Het verkrijgen van deze bestanden is over het algemeen een tijdrovende zaak bijv. doordat de gegevens in een registratiesysteem in een aantal gevallen geanonimiseerd dienen te worden en er allerlei procedures doorlopen dienen te worden voordat een bestand beschikbaar gesteld wordt. Wanneer bestanden beschikbaar zijn gekomen zullen deze worden gecodeerd, gestandaardiseerd en gevalideerd met behulp van de referentiegegevens, waardoor afgeleide gegevens ontstaan. Deze worden opgeslagen in het Datawarehouse en vervolgens, waar mogelijk, gekoppeld, zodat ze gebruikt kunnen worden voor de ontwikkeling van het risicomodel. In een aantal gevallen zullen de bronbestanden echter zo van elkaar verschillen qua opzet, structuur en inhoud, dat het niet mogelijk blijkt te zijn om ze te koppelen. Afhankelijk van de vraagstelling zal dan bekeken worden welke databron het meest geschikt is om de gewenste informatie te leveren. Inhoud gegevensbronnen Voor de ontwikkeling van een risicomodel leveren een aantal gegevens essentiële informatie, andere gegevens zijn niet absoluut noodzakelijk maar wel wenselijk. Het is daarom van belang om zo gedetailleerd mogelijke databestanden te verkrijgen. De generieke dataset voor de risicomodellering bestaat uit: • Kenmerken van het slachtoffer (o.a. leeftijd, geslacht, beroep) • Bedrijfskenmerken (bedrijfstak, bedrijfsgrootte) • Kenmerken van het ongeval (o.a. datum, locatie, activiteit ten tijde van het ongeval, letselmechanisme) • Effecten van het ongeval (o.a. type letsel, locatie van het letsel, verzuimduur) • Populatiegegevens (verdeling van de activiteiten tijdens de normale werkzaamheden) • Kwalitatieve gegevens (beschrijving van het ongeval) Niet alle gegevens zullen echter als zodanig zijn gecodeerd, maar zijn in een aantal gevallen wel af te leiden uit de toedrachtsbeschrijving van het betreffende ongeval. Door te zoeken op trefwoord met bijv. de procedures Wordcount en Soundex zal getracht worden deze gegevens alsnog boven water te halen. Er mag echter verwacht worden dat niet alle informatie nodig voor de risicomodellering, beschikbaar is. Ook het gewenste detailniveau van de gegevens zal naar alle waarschijnlijkheid in de praktijk lang niet altijd haalbaar zijn. Er ontstaan dan een informatiedeficit. Men zal in dergelijke gevallen in een eerste stap specifieke deskundigheid inzetten om de ontbrekende en voor de modelontwikkeling noodzakelijke gegevens via twee invalshoeken in te vullen: Er zullen synthetische gegevens worden gegenereerd Er zullen bepaalde aannames worden getroffen. Deze synthetische gegevens en aannames worden, in combinatie met de aangeleverde gegevens uit het Datawarehouse, gebruikt bij de risicomodellering. In een tweede stap wordt vervolgens nagegaan of de gegenereerde synthetische gegevens en aannames voor het verzamelen van additionele gegevens kunnen worden geverifieerd, verbeterd of vervangen. Kwaliteit van de bronbestanden Er bestaat een grote verscheidenheid aan bestanden met brongegevens: de mate van detail en de kwaliteit van de gegevens is zeer variabel. Er worden daarom criteria opgesteld waaraan iedere bron zal worden getoetst. Hiermee kan inzichtelijk worden gemaakt hoe valide, betrouwbaar en volledig de gegevens in de desbetreffende bron is. De criteria zijn verdeeld in extrinsieke en intrinsieke kwaliteit: De extrinsieke kwaliteit betreft het procesmatige proces, de inhoudelijke criteria toetsen de intrinsieke kwaliteit. Extrinsieke criteria: • Bruikbaarheid van de bron (relevantie, oorsprong van de bron) • Ontsluitbaarheid, beschikbaarheid van de bron • Jaar van dataverzameling • Frequentie van beschikbaarheid • Over welke bedrijfssector gaat de informatie • Kosten Intrinsieke criteria: • Aantal records • Dekkingsgraad • Volledigheid van de gegevens • Type classificatie • Betrouwbaarheid van de gegevens • Type registratiesysteem Alle criteria zijn van belang, er zal echter wel een verschil in prioriteit worden gehanteerd. Wanneer een databron goed beoordeeld wordt op de criteria met een hoge prioriteit is deze geschikt voor opname in de database. Databronnen die minder goed beoordeeld worden zullen ook in de database opgenomen worden. Deze data zullen echter minder geschikt zijn voor het risicomodel, en zullen alleen worden gebruikt wanneer er geen betere bronnen beschikbaar zijn. Tot slot Op dit moment wordt gewerkt aan het opzetten van de ICT-infrastructuur en het verkrijgen van de bronbestanden. Verschillende classificatiesystemen zullen met elkaar worden vergeleken en beoordeeld, waarna besloten zal worden met welk systeem gewerkt zal gaan worden. Vervolgens zullen er, indien nodig en waar mogelijk, conversietabellen worden ontwikkeld om de verschillende databronnen te harmoniseren. Daarna zullen de bronbestanden worden geschoond, gekoppeld en geschikt gemaakt voor analyse.