133 NEDERLANDS TIJDSCHRIFT VOOR DERMATOLOGIE EN VENEREOLOGIE | VOLUME 23 | NUMMER 03 | Maart 2013 Het doen van diagnostisch accuratesseonderzoek L. Hooft Klinisch epidemioloog, Dutch Cochrane Centre, Academisch Medisch Centrum, Amsterdam Correspondentieadres: Dr. Lotty Hooft E-mail: [email protected] Diagnostische tests kunnen worden gebruikt voor het stellen van een diagnose, het stadieren van de ziekte, om het beloop van een specifieke ziekte of aandoening te voorspellen of voor het monitoren van therapie-effecten. Binnen evidence-based medicine (EBM) ligt met betrekking tot medische tests al geruime tijd de nadruk op het bepalen van de diagnostische waarde (de diagnostische accuratesse). Hoe goed is de test in staat om onzekerheid die bestaat over de gezondheidstoestand van de patiënt te verminderen? Kan op basis van de testresultaten met grote zekerheid een specifieke ziekte of aandoening worden aangetoond dan wel worden uitgesloten? Het is daarbij de vraag of de test daadwerkelijk datgene meet wat de test dient te meten; ofwel wat is de diagnostische accuratesse van de test? In een diagnostisch evaluatieonderzoek wordt bepaald hoe goed een (nieuwe) test of teststramien in staat is om zieken van niet-zieken te onderscheiden. Hiervoor kunnen verschillende type onderzoeksontwerpen worden gebruikt, maar het meest gangbare type onderzoek om de waarde van een diagnostische test te bepalen is het dwarsdoorsnedeonderzoek (cross-sectioneel onderzoek). Hierin worden de testresultaten van de (nieuwe) test (de indextest) vergeleken met de resultaten van de referentietest (de gouden standaard; de beste manier om de aan- of afwezigheid van een specifieke ziekte of aandoening vast te kunnen stellen), bij voorkeur binnen een kort tijdsbestek onafhankelijk van elkaar uitgevoerd en beoordeeld, zonder overige klinische kennis, in een opeenvolgende reeks patiënten die overeenkomen met de patiënten waarbij de indextest in de praktijk zal worden toegepast. De resultaten worden vervolgens samengevat in diagnostische uitkomstmaten als sensitiviteit, specificiteit en voorspellende waarden met 95% betrouwbaarheidsintervallen. De sensitiviteit van een test is het percentage personen met de aandoening die tevens een positieve testuitslag hebben en de specificiteit is het percentage personen zonder de aandoening met een negatieve testuitslag. De positief voorspellende waarde is het percentage zieken onder de personen met een positieve testuitslag, ofwel de kans op de aanwezigheid van ziekte bij een positieve uitslag van de indextest. De negatief voorspellende waarde is het percentage niet-zieken onder de personen met een negatieve testuitslag, ofwel de kans op de afwezigheid van ziekte bij een negatieve uitslag van de indextest (zie tabel). De voorspellende waarden van een test zijn in de dagelijkse praktijk goed interpreteerbaar, maar zijn afhankelijk van de prevalentie van de ziekte in de onderzoekspopulatie. De sensitiviteit en speci­ficiteit van een test zijn min of meer onafhankelijk van de prevalentie, daarom worden deze maten bij voorkeur gebruikt om een test te karakteriseren. De ideale test heeft een sensitiviteit van 100% (zonder fout-negatieve testresultaten) en een specificiteit van 100% (zonder foutpositieve testresultaten). Naast de klassieke uitkomstmaten kunnen ook andere uitkomstmaten worden bepaald in een diagnostisch evaluatieonderzoek, zoals diagnostische oddsratio’s, likelihood ratio’s en number needed to screen. Wanneer een diagnostisch evaluatieonderzoek slecht is opgezet en uitgevoerd, kunnen de onderTabel: De berekening van diagnostische uitkomstmaten van een test. Ziekte Aanwezig Afwezig Totaal a b a+b Negatief c d c+d Totaal a+c b+d a+b+c+d Test Positief Sensitiviteit: (a/a+c) * 100% Specificiteit: (d/b+d) * 100% Positief voorspellende waarde: a/a+b Negatief voorspellende waarde: d/c+d Likelihoodratio positieve test (LR+) = Sens / (1–Spec) Likelihoodratio negatieve test (LR–) = (1–Sens) / Spec 134 NEDERLANDS TIJDSCHRIFT VOOR DERMATOLOGIE EN VENEREOLOGIE | VOLUME 23 | NUMMER 03 | Maart 2013 zoeksresultaten vertekend zijn. Hierdoor kan een (over het algemeen) te optimistisch beeld worden geschetst van de diagnostische uitkomstmaten van de test, waardoor in de dagelijkse praktijk suboptimale of verkeerde beslissingen worden genomen. Een zorgvuldige beoordeling van de methodologische kwaliteit (het potentieel voor bias/vertekening van resultaten in het onderzoek) waarin de diagnostische uitkomstmaten van (nieuwe) tests zijn bepaald, is daarom noodzakelijk. Hiervoor zijn vele methodologische checklists ontwikkeld, waarvan de QUADAS-2 wordt aanbevolen door internationale organisaties als NICE en de Cochrane Collaboration.1,2 De methodologische kwaliteit kan alleen worden bepaald wanneer de hiervoor benodigde gegevens terug te vinden zijn in de desbetreffende publicatie. Om de juistheid en volledigheid van de rapportage van diagnostisch evaluatieonderzoek te verbeteren is het STAndards Standards for Reporting of Diagnostic Accuracy-statement (STARD) opgesteld.3 Het STARDstatement bestaat uit een checklist met een stroomdiagram en kan worden gezien als een richtlijn voor rapportage van onderzoek met betrekking tot de opzet, de uitvoering en de resultaten van diagnostisch evaluatieonderzoek. Het STARD-initiatief is door verscheidende tijdschriften overgenomen, zoals Radiology, Annals of Internal Medicine, BMJ en Clinical Chemistry.4 Evidence-based beslissingen dienen bij voorkeur gebaseerd te worden op geaggregeerde evidence, zoals systematische reviews van goede kwaliteit. Geïnspireerd door het succes van de Cochrane systematic reviews of interventions is the Cochrane Collaboration in 2008 gestart met het maken en verspreiden van Diagnostic Test Accuracy (DTA) systematic reviews.5 Resultaten van individuele studies worden op een systematische wijze bijeengebracht en samengevat in een overzichtsartikel. DTA Cochrane reviews zijn echter gecompliceerder dan systematische reviews van randomized ­clinical ­trials. De afgelopen jaren wordt de focus op de diagnostische accuratesse in toenemende mate ter discussie gesteld. Het wordt steeds duidelijker dat diagnostische accuratesse niet alleen belangrijk is, maar dat tevens de gezondheidsuitkomsten (net als bij interventieonderzoek) voor de patiënten die de test ondergaan van waarde zijn; ofwel wat is het klinisch nut van een test?6 Het toepassen van een test met een hoge diagnostische accuratesse hoeft niet te betekenen dat de verkregen informatie nuttig is. Informatie over de gevolgen van de testuitslagen moeten bekend zijn om het klinisch nut van een test te kunnen beoordelen. Worden patiënten met een fout-positief testresultaat doorverwezen voor chirurgie of ondergaan ze eerst een ander (mogelijk invasief) onderzoek, of zullen ze een redelijke goedkope en onschadelijke behandeling ondergaan? En worden patiënten met een fout-negatieve testuitslag naar huis gestuurd en niet meer gezien, of zullen deze patiënten routinematig terugkomen waardoor het mogelijk is alsnog in te grijpen wanneer dat nodig wordt geacht? We kunnen concluderen dat het diagnostische veld volop in beweging is: nieuwe tests komen op de markt, bestaande tests worden voortdurend aangepast en verbeterd, en ook de methodologie om deze medische testen te evalueren is nog steeds in ontwikkeling. Literatuur 1. Whiting PF, Rutjes AW, Westwood ME, et al. QUADAS-2 Group. QUADAS-2: A Revised Tool for the Quality Assessment of Diagnostic Accuracy Studies. Ann Intern Med 2011;155(8):529-36. 2. http://srdta.cochrane.org/handbook-dta-reviews 3. Bossuyt PM, Reitsma JB, Bruns DE, et al. The STARD statement for reporting studies of diagnosticaccuracy: explanation and elaboration. Clin Chem 2003;49:7-18. 4. Smidt N, Overbeke J, Vet H de, Bossuyt P. Endorsement of the STARD Statement by biomedical journals: survey of instructions for authors. Clin Chem. 2007;53(11):1983-5. 5. http://srdta.cochrane.org 6. Bossuyt PM, Reitsma JB, Linnet K, Moons KG. Beyond Diagnostic Accuracy: The Clinical Utility of Diagnostic Tests. Clin Chem. 2012 Jun 22. [Epub ahead of print] Trefwoorden diagnostische accuratesse – sensitiviteit – specificiteit – voorspellende waarden – systematisch review