A national infrastructure for linkage of biobanks to medical

advertisement
Record Linkage:
Simulatie Resultaten
Adelaide Ariel
Biolink NL 28 maart 2014
Overzicht
 Achtergrond informatie
 Doel van simulatie
 Details simulatie
 Simulatie resultaten
 Conclusies
2
Achtergrond informatie
Doel:
Een “best practice” ontwikkelen voor het koppelen van privacy gevoelige
data, o.b.v. persoonlijke identifiers (naam, geboortedatum, etc).
De beschikbare literatuur over het koppelen van data beschrijft meestal zeer
specifieke koppelprojecten.

De gekozene koppelingsmethode is afhankelijk van persoonlijke keuze
(bijv. voorkeur voor deterministisch koppelen omdat het makkelijker is).

De gekozene koppelingsvariabelen zijn afhankelijk van alle beschikbare
variabelen tussen de te koppelen datasets (hoe meer hoe beter). Het is
nooit onderzocht of minder koppelingsvariabelen vergelijkbare resultaten
zal opleveren.
3
Achtergrond informatie
We houden rekening met de volgende factoren:
1. Variaties binnen de registraties



Omvang
Populatie dekking en kenmerken
Kwaliteit van variabelen (afhankelijk van hoe belangrijk een variabele
is voor het onderzoek)
2. Variaties tussen de te koppelen data


Omvang van de populatie overlap
Beschikbaarheid van koppelingsvariabelen
4
Doel van simulatie
Vraag die we willen beantwoorden:
Welke linking methode is geschikt bij bepaalde omvang van data sets en
de omvang van fouten?
5
Simulatie gegevens
Er zijn 3 simulatie onderdelen:
1. Genereren van simulatie data sets
2. Ontwikkelen van koppelingsscenario’s
3. Selecteren van koppelingsmethode
6
Simulatie gegevens
Genereren van simulatie data
1. Drie data sets met verschillende omvang en populatie dekking die
representatief te zijn voor biobank/registraties:
 Grote data set (160.000 records, algemene populatie dekking zoals
beschreven in StatLine CBS)

Medium data set (16.000 records, specifieke populatie dekking zoals
beschreven op IKNL website over Kanker Statistiek)

Klein data set (1.600 records, zeer specifieke populatie dekking
geïmiteerd van OMEGA vrouwen cohort )
2. Elke data set bevat: achternaam, geboortedatum, geslacht, postcode
3. Achternamen zijn gegenereerd met behulp van de meest populaire
Nederlandse achternamen volgens het Meertens Instituut
7
Simulatie gegevens
Ontwikkelen van koppelingsscenario’s
Bepalen omvang van overlap (shared population: 10%, 60%, 90%),
omvang van fouten (10%, 20%, 30%)
Toevoegen van fouten aan de koppelingsvariabelen (behalve geslacht)
 Typische fouten in Nederlandse registraties (vooral o.b.v. CBS
ervaring, zie Arts, Bakker & van Lith, 2000)
 Denkbare fouten genoemd in de literatuur (o.a. Oberaigner, 2007 en
Christen & Pudjijono, 2009)
8
Simulatie gegevens
9
Simulatie gegevens
Koppelingsmethode, bij voorkeur:
Simpel maar doeltreffend, en geschikt voor encryptie
Geselecteerde koppelingsmethode voor evaluatie:
1. Probabilistisch met afstand maat (Jaro-Winkler)
2. Probabilistisch met afstand maat, geschikt voor encryptie (Bigram)
3. Basic probabilistisch
4. Basic deterministisch
10
Simulatie resultaten: Sensitiviteit
Sensitiviteit (aantal correcte links gevonden/totaal links), per error rate
11
Simulatie resultaten: Precisie
Precisie (aantal correcte links/total links gevonden), per error rate
12
Belangrijkste conclusies
Onze conclusies op grond van de simulatie resultaten:
1.
Probabilistische methode is meer geschikt dan deterministisch methode
indien:
 de kwaliteit van de variabelen laag is (in ons geval: 30% fout)
 meer variabelen beschikbaar zijn als koppelvariabelen, en bij
voorkeur discriminerende variabelen
2.
Deterministische methode is aan te raden voor het koppelen van data
van hoge kwaliteit, vooral als de omvang van de overlap gering is (in ons
geval 10%).
13
Download