Record Linkage: Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014 Overzicht Achtergrond informatie Doel van simulatie Details simulatie Simulatie resultaten Conclusies 2 Achtergrond informatie Doel: Een “best practice” ontwikkelen voor het koppelen van privacy gevoelige data, o.b.v. persoonlijke identifiers (naam, geboortedatum, etc). De beschikbare literatuur over het koppelen van data beschrijft meestal zeer specifieke koppelprojecten. De gekozene koppelingsmethode is afhankelijk van persoonlijke keuze (bijv. voorkeur voor deterministisch koppelen omdat het makkelijker is). De gekozene koppelingsvariabelen zijn afhankelijk van alle beschikbare variabelen tussen de te koppelen datasets (hoe meer hoe beter). Het is nooit onderzocht of minder koppelingsvariabelen vergelijkbare resultaten zal opleveren. 3 Achtergrond informatie We houden rekening met de volgende factoren: 1. Variaties binnen de registraties Omvang Populatie dekking en kenmerken Kwaliteit van variabelen (afhankelijk van hoe belangrijk een variabele is voor het onderzoek) 2. Variaties tussen de te koppelen data Omvang van de populatie overlap Beschikbaarheid van koppelingsvariabelen 4 Doel van simulatie Vraag die we willen beantwoorden: Welke linking methode is geschikt bij bepaalde omvang van data sets en de omvang van fouten? 5 Simulatie gegevens Er zijn 3 simulatie onderdelen: 1. Genereren van simulatie data sets 2. Ontwikkelen van koppelingsscenario’s 3. Selecteren van koppelingsmethode 6 Simulatie gegevens Genereren van simulatie data 1. Drie data sets met verschillende omvang en populatie dekking die representatief te zijn voor biobank/registraties: Grote data set (160.000 records, algemene populatie dekking zoals beschreven in StatLine CBS) Medium data set (16.000 records, specifieke populatie dekking zoals beschreven op IKNL website over Kanker Statistiek) Klein data set (1.600 records, zeer specifieke populatie dekking geïmiteerd van OMEGA vrouwen cohort ) 2. Elke data set bevat: achternaam, geboortedatum, geslacht, postcode 3. Achternamen zijn gegenereerd met behulp van de meest populaire Nederlandse achternamen volgens het Meertens Instituut 7 Simulatie gegevens Ontwikkelen van koppelingsscenario’s Bepalen omvang van overlap (shared population: 10%, 60%, 90%), omvang van fouten (10%, 20%, 30%) Toevoegen van fouten aan de koppelingsvariabelen (behalve geslacht) Typische fouten in Nederlandse registraties (vooral o.b.v. CBS ervaring, zie Arts, Bakker & van Lith, 2000) Denkbare fouten genoemd in de literatuur (o.a. Oberaigner, 2007 en Christen & Pudjijono, 2009) 8 Simulatie gegevens 9 Simulatie gegevens Koppelingsmethode, bij voorkeur: Simpel maar doeltreffend, en geschikt voor encryptie Geselecteerde koppelingsmethode voor evaluatie: 1. Probabilistisch met afstand maat (Jaro-Winkler) 2. Probabilistisch met afstand maat, geschikt voor encryptie (Bigram) 3. Basic probabilistisch 4. Basic deterministisch 10 Simulatie resultaten: Sensitiviteit Sensitiviteit (aantal correcte links gevonden/totaal links), per error rate 11 Simulatie resultaten: Precisie Precisie (aantal correcte links/total links gevonden), per error rate 12 Belangrijkste conclusies Onze conclusies op grond van de simulatie resultaten: 1. Probabilistische methode is meer geschikt dan deterministisch methode indien: de kwaliteit van de variabelen laag is (in ons geval: 30% fout) meer variabelen beschikbaar zijn als koppelvariabelen, en bij voorkeur discriminerende variabelen 2. Deterministische methode is aan te raden voor het koppelen van data van hoge kwaliteit, vooral als de omvang van de overlap gering is (in ons geval 10%). 13