Evidence-based diagnostiek en klinische besluitvorming

advertisement
Thema: Evidence-based tandheelkunde
P.A. Mileman, W.B. van den Hout
Evidence-based diagnostiek en
klinische besluitvorming
De toepassing van ‘evidence-based’ tandheelkunde op diagnostiek moet ertoe leiden dat er minder foutieve beslissingen worden
genomen. Het aantal foutieve beslissingen wordt niet alleen bepaald door de diagnostische accuratesse, maar ook door de kans dat de
ziekte aanwezig is. Is deze kans laag dan kan het uitvoeren van een diagnostische test leiden tot meer foutieve beslissingen en
behandelingen dan wanneer wordt afgezien van testen en behandelen. Hierbij moet ook de waardering voor de mogelijke tandheelkundige uitkomsten in aanmerking worden genomen. Deze kan worden bepaald door een patiënt zijn waardering van een bepaalde
tandheelkundige situatie op een visueel analoge schaal te laten aanwijzen. Hoewel de besliskundige aanpak een weerslag begint te
krijgen in diagnostische richtlijnen dient de toepassing ervan in de tandheelkunde nog verder te worden ontwikkeld en onderzocht.
Mileman PA, Hout WB van den. Evidence-based diagnostiek en klinische besluitvorming
Ned Tijdschr Tandheelkd 2007; 114: 187-194
Inleiding
Diagnostiek is slechts een middel om de beste behandeling te
bepalen (Wulff, 1981). Het combineren van klinische bevindingen met radiologische observaties om tot een diagnose te
komen behoort tot de dagelijkse routine in de tandheelkundige praktijk. Deze vaardigheid is mogelijk geleerd van een
eminente professor, maar kan er zomaar van worden uitgegaan dat hij valide diagnosen stelde en in staat was deze kennis effectief over te dragen? Als er fouten worden gemaakt bij
diagnostiek dan worden aanwezige laesies onbehandeld gelaten en worden ‘laesies’ behandeld die er niet zijn. Zijn deze 2
typen fouten even belangrijk voor de patiënt en, zo niet, hoe
kan de beste balans tussen beide typen diagnostische fouten
worden verkregen? Het correct vaststellen van de pathologie
met behulp van een diagnostische test hangt mede af van de
waarschijnlijkheid vooraf dat er pathologie aanwezig is. Deze
en andere aspecten van ‘evidence-based’ tandheelkunde zullen het onderwerp zijn van dit overzichtsartikel.
Er bestaan verschillende Nederlandstalige inleidingen in
evidence-based diagnostiek en ook internationale richtlijnen
voor het rapporteren van diagnostisch onderzoek (Mileman
en Kievit, 1995; Offringa et al, 2000; Bossuyt et al, 2003). In
Europa en de Verenigde Staten zijn recent evidence-based
richtlijnen gepubliceerd voor het voorschrijven van röntgenopnamen (Europese Commissie, 2004). In dit artikel worden
belangrijke aspecten geïllustreerd van evidence-based tandheelkundige diagnostiek. Hoe moeten artikelen uit de literatuur worden beoordeeld en gebruikt in de kliniek? Daarbij
wordt uitgegaan van de besliskundige benadering (Rohlin
en Mileman, 2000). Hierin worden behandelkeuzes niet
alleen bepaald door het verzamelen van het gepubliceerde
Ned Tijdschr Tandheelkd 114 april 2007
bewijs, maar ook door het combineren van dat bewijs op
een rationele, transparante en systematische manier, om zo
de uitkomst voor de patiënt te optimaliseren (afb. 1).
Diagnostische accuratesse
Een diagnostische test poogt onzekerheid te verminderen
aangaande de aan- of afwezigheid van een bepaalde ziekte. Een ideale test geeft snel en volledig valide informatie,
zonder de gezondheid van de patiënt te schaden en zonder
kosten. Testen zijn zelden ideaal. De waarde van een test
Afb. 1. De weg naar een effectief besluit voor de patiënt wordt belemmerd
door mogelijke hobbels in de beleving van de tandarts. Boven elke hobbel zijn in
trefwoorden de aspecten van het besluitvormingsproces aangegeven die aandacht
nodig hebben. Door deze aspecten expliciet te maken kan evidence-based
diagnostiek een bijdrage leveren aan de optimalisering van de besluitvorming.
187
Thema: Evidence-based tandheelkunde
Algemene notatie:
Test positief
Test negatief
Totaal
Diagnose van: ‘zeker dentinecariës’ met
behulp van bitewing-opnamen
Ziekte
aanwezig
Ziekte
afwezig
Totaal
a (TP)
c (FN)
a+c
b (FP)
d (TN)
b+d
a+b
c+d
(a+b+c+d)
Maat voor nauwkeurigheid
Prevalentie
Sensitiviteit (Se)
Specificiteit (Sp)
Positief voorspellende waarde (PV+)
Negatief voorspellende waarde (PV-)
Positieve likelihood ratio (LR+)
Negatieve likelihood ratio (LR-)
Diagnostic odds ratio (DOR)
Receiver Operating Characteristic
(ROC)-curve
Oppervlakte (Az) onder ROC-curve
Bitewing+
BitewingTotaal
Cariës
aanwezig
Cariës
afwezig
Totaal
18
27
45
1
59
60
19
86
105
Definities
Berekening
Voorafkans op ziekte in specifieke populatie
(a + c) : (a + b + c + d)= 43%
Kans dat iemand met de ziekte daadwerkelijk een
a : (a + c) = 40%
positieve testuitslag heeft (terecht-positieve fractie)
Kans dat iemand zonder de ziekte daadwerkelijk een
d : (b + d) = 98%
negatieve testuitslag heeft (terecht-negatieve fractie)
Kans dat iemand met een positieve testuitslag
a : (a + b) = 95%
daadwerkelijk de ziekte heeft
Kans dat iemand met een negatieve testuitslag
d : (c + d) = 69%
daadwerkelijk de ziekte niet heeft
Verhouding tussen de kans op een positieve
(a :(a + c)) : (b :(b + d))
testuitslag bij personen met de ziekte en de
of Se: (1-Sp) =24,0
kans op een positieve testuitslag bij personen zonder de ziekte
Verhouding tussen de kans op een negatieve
(c : (a + c)) : (d : (b + d))
testuitslag bij personen met de ziekte en de kans op een
of (1-Se) : Sp = 0,61
negatieve testuitslag bij personen zonder de ziekte
Verhouding tussen de odds van een positieve testuitslag bij
(a x d) : (c x b) of
personen met de ziekte en de odds van een positieve testuitslag bij
LR+ : LR- = 39,3
personen zonder de ziekte (odds = kans/(1-kans) )
De ROC-curve is een grafische weergave van de relatie tussen de terecht positieve fractie (Se) en de
onterecht positieve fractie (1-Sp) van een diagnostische test, afhankelijk van de afkapwaarde voor
abnormaliteit
De oppervlakte onder deze curve is een maat voor het onderscheidend vermogen van de test
Tabel 1. Maten voor diagnostische nauwkeurigheid met definities en berekeningswijze. De berekeningen geven een realistisch voorbeeld van hoe
nauwkeurig tandartsen zijn bij het gebruik van bitewing-opnamen om de aanwezigheid van approximale dentinelaesies vast te stellen.
wordt uiteindelijk bepaald door de gezondheidswinst die
wordt bereikt door de behandeling die is gekozen op basis
van de testuitslag. Of de juiste behandeling wordt gekozen
hangt onder andere af van de diagnostische accuratesse van
de test.
Beeldvormende diagnostiek vereist vaak interpretatie van
het beeld door de beoordelaar, waardoor de beoordelaar een
onderdeel is van het diagnostisch systeem en mede bepalend
is voor de accuratesse. Er is aanzienlijke variatie in accuratesse
onder tandartsen bij het beoordelen van bitewing-opnamen
(Mileman en Van den Hout, 2002). Terugkoppeling over
de eigen diagnostische accuratesse en hoe deze kan worden
verbeterd zou daarom een essentieel onderdeel moeten zijn
van een evidence-based benadering van de tandheelkundige
diagnostiek. Voor de gangbare diagnostische problemen,
zoals cariës, parodontale aandoeningen en periapicale laesies,
zouden hiervoor instrumenten moeten worden ontwikkeld
(Mileman et al, 2004).
188
Innovatie van onderzoek naar het verbeteren van diagnostische accuratesse van beeldvormende diagnostiek omvat ook
technieken die de kenmerken van röntgenopnamen vertalen naar de kans op een geslaagde prognose en behandeling.
Deze benadering zou kunnen leiden tot een nauwkeuriger
voorspelling van complicaties van behandeling, bijvoorbeeld
bij de extractie van derde molaren (Sedaghatfar et al, 2005).
Het toepassen hiervan zal training vergen in het gebruik van
diagnostische hulpmiddelen en diagnostische ‘expertsystemen’ als Oral Radiographic Differential Diagnosis (ORAD)
op internet (White, 1989; Stheeman et al, 1995; White, 2006).
Met ORAD kan aan de hand van de aanwezigheid van röntgenologische beeldkenmerken een schatting worden gemaakt
van de kans op bepaalde afwijkingen.
Gouden standaard
Een vereiste om de nauwkeurigheid van een test te kunnen
evalueren, is de beschikbaarheid van een valide gouden of
Ned Tijdschr Tandheelkd 114 april 2007
Mileman en Van den Hout: Evidence-based diagnostiek en
besluitvorming
referentiestandaard. Een gouden standaard dient zorgvuldig te worden gekozen (Wenzel en Hintze, 1999), en op
een andere techniek dan de onderzochte test te zijn gebaseerd. Zo kan bijvoorbeeld beeldvormende diagnostiek bij
voorkeur worden vergeleken met een niet-beeldvormende
gouden standaard als histologie of biopsie. Dit vermindert
het gevaar dat de onderzochte test en de gouden standaard
structureel dezelfde fouten hebben, waardoor de onderzochte test als te gunstig wordt beoordeeld.
bij een bepaalde testuitslag. Oppervlakkig bezien wordt deze
vraag beantwoord door de positief en negatief voorspellende waarde (tab. 1) (Bhandri et al, 2003). Publicaties over
deze voorspellende waarden zijn echter alleen toepasbaar
op populaties met precies dezelfde prevalentie van ziekte als
die van de onderzoekspopulatie. Voor patiënten met andere
prevalenties zijn aanvullende berekeningen nodig. Voorspellende waarden zijn daarom slechte nauwkeurigheidsmaten
om verschillende publicaties onderling te vergelijken.
Maten voor diagnostische nauwkeurigheid
Bij de evaluatie van diagnostische tests wordt een breed
spectrum aan maten voor diagnostische nauwkeurigheid
gebruikt (Jaeschke et al, 1994; Hunink et al, 2001; Bhanddri et al, 2003). Tabel 1 geeft een overzicht hiervan, met een
toepassing op een eenvoudige dichotome test.
De sensitiviteit van een test is het percentage onder gevallen
met de ziekte dat daadwerkelijk een positieve testuitslag heeft.
De specificiteit van een test is het percentage onder gevallen
zonder de ziekte dat daadwerkelijk een negatieve testuitslag
heeft. De sensitiviteit en de specificiteit worden over het algemeen beschouwd als onafhankelijk van de prevalentie van de
ziekte. Eén van de problemen bij de evaluatie van een test
is dat sensitiviteit en specificiteit omgekeerd evenredig zijn.
Bij veel medische testen wordt een numerieke grenswaarde
(afkapwaarde) gebruikt om normale en abnormale testuitslagen van elkaar te onderscheiden. Een gunstige sensitiviteit
kan dan worden verkregen door de grenswaarde zodanig te
stellen dat weinig gevallen van ziekte worden gemist, maar
dit zal er over het algemeen toe leiden dat ook meer gevallen zonder ziekte als abnormaal worden beoordeeld, zodat
de specificiteit juist ongunstig wordt. ‘Receiver Operating
Characteristic’(ROC)-curves geven grafisch de samenhang
tussen sensitiviteit en specificiteit weer. De oppervlakte
onder de ROC-curve (weergegeven als Az) is een maat voor
in hoeverre een test gevallen mét ziekte kan onderscheiden
van gevallen zonder ziekte (Van Erkel en Pattynama, 1998),
zonder een klinische grenswaarde te specificeren en zonder
onderscheid te maken tussen het belang van fout-positieve en
fout-negatieve testuitslagen. De oppervlakte onder een ROCcurve kan variëren van 0,5 (een niet-informatieve test) tot 1,0
(een test die perfect onderscheid kan maken tussen gezond en
ziek) en kan worden gebruikt om verschillende diagnostische
technieken te vergelijken.
Door hun samenhang geven sensitiviteit en specificiteit
afzonderlijk geen compleet beeld van de nauwkeurigheid
van een test, wat in belangrijke mate heeft bijgedragen aan
de veelheid aan andere nauwkeurigheidsmaten. Maten die
sensitiviteit en specificiteit combineren zijn bijvoorbeeld de
likelihood ratio’s en de diagnostic odds ratio (tab. 1) (Devillé,
2001; Glas, 2003). Een andere reden waarom sensitiviteit en
specificiteit als uitkomstmaat op zich onvoldoende zijn, is dat
ze de verkeerde vraag beantwoorden, namelijk wat de kans op
een bepaalde testuitslag is bij aan- of afwezigheid van ziekte.
Een klinisch belangrijkere vraag is wat de kans op ziekte is
Diagnostisch ‘bewijs’ achterhalen in de literatuur
Ned Tijdschr Tandheelkd 114 april 2007
Eind vorige eeuw zijn de resultaten van de omvangrijke literatuur over therapieën in de gezondheidszorg samengevat met
behulp van systematische literatuuronderzoeken en metaanalyses (Devillé, 2001), waarbij de mate van wetenschappelijk bewijs werd vastgesteld en aanbevelingen werden gedaan
om de kwaliteit van onderzoek en rapportage te verbeteren.
Hoewel het nut van therapie begint bij een correcte diagnose,
is de ontwikkeling van evidence-based diagnostisch onderzoek achtergebleven bij die van therapeutisch onderzoek.
Het systematisch samenvatten van evidence over diagnostische nauwkeurigheid heeft een aantal problemen ondervonden: diagnostisch onderzoek was moeilijk te identificeren (Devillé, 2001), sensitiviteit en specificiteit dienden in
combinatie te worden geanalyseerd en onderzoekspopulaties
waren vaak heterogeen zonder rapportage van prevalenties
van de te diagnosticeren ziekte. Zonder expliciete vermelding van frequentiegegevens van testgebruik in diagnostisch
onderzoek is het bovendien onmogelijk verschillende onderzoeken te combineren in een meta-analyse. Vanwege deze
tekortkomingen zijn richtlijnen ontwikkeld voor de beoordeling van diagnostische onderzoeken door lezers (Jaeschke et al, 1994), en voor de rapportage ervan: het initiatief
‘Standards for Reporting of Diagnostic Accuracy’ (STARD)
(Bossuyt et al, 2003). Met deze richtlijnen kan diagnostische
literatuur worden gezocht in databases als MEDLINE met
behulp van PubMed en kan diagnostische literatuur worden
gecombineerd in een meta-analyse (Devillé, 2001).
Tandheelkundige diagnostiek waarover literatuur met
nauwkeurigheidsmaten beschikbaar is, omvat mondonderzoek, patiëntkenmerken (zoals leeftijd, geslacht, opleidingsniveau, woonregio), tandheelkundige anamnese en pijnklachten, elektrische en andere vormen van vitaliteitstesten
voor pulpanecrose, digitale en conventionele röntgenopnametechnieken voor approximale en occlusale cariës, parodontale en periapicale laesies, en ten slotte pocketmeting
voor parodontale defecten (Pretty en Maupomé, 2004).
Richtlijnen voor diagnostische publicaties
Het identificeren van diagnostische publicaties is recent
vereenvoudigd door de richtlijn om de trefwoorden ‘sensitivity and specificity’ of ‘accuracy’ te gebruiken. Ook kan
een gespecialiseerde zoekmachine met een filter in PubMed
worden gebruikt voor een snelle zoekstrategie naar diagnostische literatuur, waarbij artikelen worden geordend op basis
189
Thema: Evidence-based tandheelkunde
van criteria voor de sterkte van het bewijs (SUMSEARCH,
2006). Een zoekstrategie met de aanvullende trefwoorden
‘radiography’ en ‘dental caries’ leverde daarmee 695 artikelen op. De diagnostische filter reduceerde dit aantal tot 176
artikelen, waarvan 7 systematische literatuuroverzichten.
Kwaliteitscriteria voor onderzoek en voor de presentatie
van de resultaten zijn nodig gebleken om goed te kunnen
beoordelen of de conclusies van het gepubliceerd onderzoek toepasbaar zijn op de patiënten van de lezer (Devillé,
2001; Bhandari et al, 2003). Volgens deze criteria hoort een
diagnostisch onderzoek resultaten te rapporteren van een
onafhankelijke, prospectieve, dubbelblinde vergelijking van
de onderzochte test met een valide referentietest voor werkelijke pathologie (gouden standaard). Het onderzoek hoort te
rapporteren over de afkapwaarden van de onderzochte test
en de referentietest, over prevalentie en ernst van de ziekte,
voorgaande testen en verwijzingen en over demografische
eigenschappen van de patiënten. Resultaten horen te worden
weergegeven in frequentietabellen, zodat likelihood ratio’s
kunnen worden berekend (tab. 1). De reproduceerbaarheid
en de nauwkeurigheid van interpretatie van de test door de
klinische gebruiker moeten vergelijkbaar zijn met die binnen het gerapporteerde onderzoek. De resultaten van de
test moeten toepasbaar zijn op de patiënten in de praktijk,
moeten invloed kunnen hebben op het gekozen beleid en de
gezondheid van de patiënt verbeteren.
In een recent systematisch literatuuroverzicht over het
gebruik van bitewing-opnamen vergeleken met panoramische röntgenopnamen als test voor cariës werden slechts 5
publicaties gevonden van een voldoende kwaliteit om de
onderzoeksvraag te beantwoorden (Taylor-Weetman et al,
2002). Onvoldoende bewijs werd gevonden om het gebruik
van panoramische röntgenopnamen voor deze taak te rechtvaardigen. De auteurs concludeerden dat het niet mogelijk
was om de resultaten van de onderzoeken in een meta-analyse te aggregeren, omdat de populaties en de gebruikte referentietests te veel verschilden. Ook in andere systematische
tandheelkundige literatuuroverzichten werd geconcludeerd
dat het bewijs gebrekkig of zwak is (Bader en Ismail, 2004).
Diagnostische nauwkeurigheid samenvatten en
vergelijken
Meta-analyses van diagnostische literatuur zijn voor een
groot deel vergelijkbaar met die van therapeutische literatuur
(Van der Sanden et al, 2007). Volgens een vooraf omschreven procedure wordt de relevante literatuur verkregen en
worden de diagnostische gegevens daaruit geaggregeerd
en gewogen met een kwaliteitsscore volgens vastgestelde
criteria (Bossuyt et al, 2003). Specifiek voor diagnostische
onderzoeken is dat sensitiviteit en specificiteit zijn gecorreleerd, waardoor separaat vergelijken van deze kenmerken
een vertekend beeld kan geven van de nauwkeurigheid van
een diagnostische test. Om deze reden is de logaritme van de
‘diagnostic odds ratio’ voorgesteld als de relevante uitkomstmaat voor meta-analyses (tab. 1) (Devillé, 2001; Glas, 2003).
190
Een meer expliciete manier om rekening te houden met de
samenhang tussen sensitiviteit en specificiteit is de ‘Summary-Receiver Operating Characteristic’ (SROC)-methode
(Devillé, 2001). In de beeldvormende diagnostiek wordt het
gekozen afkappunt op de ROC-curve vaak bepaald door de
mate van zekerheid waarmee gesproken kan worden van een
abnormaal testresultaat. Verschillen tussen onderzoeken ontstaan deels door gebruik van verschillende afkappunten. De
SROC-methode beschouwt ieder onderzoek als onderdeel
van dezelfde ROC-curve, rekening houdend met het gebruik
van eventueel verschillende afkappunten.
Van prevalentie naar klinische besluitvorming
Voor een evaluatie van de uiteindelijke consequenties van
het gebruik van een diagnostische test is niet alleen bewijs
nodig over diagnostische nauwkeurigheid, maar ook over de
prevalentie van ziekte en de voorkeuren van de patiënt voor
de mogelijke uitkomsten van therapie (Hunink et al, 2001).
Prevalentie van ziekte
Een vereiste voor een beslissingsanalyse is een inschatting
van de kans op pathologie, rekening houdend met de persoonsgebonden kenmerken en symptomen van de patiënt.
Een eerste bron van informatie voor de tandarts over de
prevalentie zal vaak bestaan uit herinneringen op basis
van eerdere ervaringen, maar deze zijn vaak selectief. Een
andere bron van bewijs is de wetenschappelijke epidemiologische literatuur over prevalenties binnen de gemiddelde
bevolking. Patiënten in een tandartsenpraktijk die zich presenteren of verdacht worden van bijvoorbeeld periapicale
pathologie kunnen echter klachten hebben of andere kenmerken van ziekte, zoals verkleuring van gebitselementen, of
het betreffende gebitselement kan een kroon hebben. Deze
factoren en klinisch onderzoek beïnvloeden de kans dat er
daadwerkelijk sprake is van periapicale pathologie. Ook een
vitaliteitstest zal de kans op pathologie verder beïnvloeden,
al voordat een röntgenopname als toegevoegde diagnostiek
wordt overwogen.
Herberekenen van de kans op ziekte na diagnostiek
Een belangrijke determinant van de waarde van een diagnostische test is hoe de testuitslag de kans op ziekte verandert,
met andere woorden na de test moet het voldoende zeker
zijn dat de ziekte aan- of afwezig is om een therapeutische
beslissing te nemen. De voorafkans (prevalentie of a priori
kans) op ziekte voor patiënten in de wachtkamer kan samen
met likelihood ratio’s van de test worden gebruikt om de
achterafkans (a posteriori kans) op ziekte te berekenen. Deze
berekeningen zijn het eenvoudigst weer te geven in termen
van de odds. De odds is gerelateerd aan de kans (en dus met
prevalentie) volgens de formules: odds = kans/(1-kans) of
prevalentie/(1-prevalentie) en kans = odds/(1+odds). De
odds is de verhouding tussen de kansen op wel en niet optreden van een gebeurtenis en wordt vooral gebruikt in het
Angelsaksische spraakgebruik bij weddenschappen. De odds
Ned Tijdschr Tandheelkd 114 april 2007
Mileman en Van den Hout: Evidence-based diagnostiek en
besluitvorming
van ziekte, voordat en nadat het testresultaat beschikbaar is,
zijn gerelateerd volgens de volgende formule: achteraf odds
= likelihood ratio × vooraf odds. Deze formule is bekend
als het ‘Theorema van Bayes’ en wordt toegeschreven aan de
Engelse predikant Thomas Bayes (1702-1761). De betreffende likelihood ratio is de positieve dan wel negatieve likelihood ratio, afhankelijk van het willen diagnosticeren van
de aan- of afwezigheid van ziekte. Deze likelihood ratio’s zijn
respectievelijk groter en kleiner dan 1, zodat een positief en
een negatief resultaat de odds (en dus ook de kans) op ziekte
verhoogt respectievelijk verlaagt.
Neem als voorbeeld een prevalentie van 0,43 met een
positieve likelihood ratio van 24,0 (tab. 1). Na een positief
testresultaat kan de achterafkans op ziekte dan als volgt
worden berekend:
> vooraf odds = 0,43 / (1-0,43) = 0,754
> achteraf odds = 24,0 × 0,754 = 18,1
> achterafkans = 18,1 / (1+18,1) = 0,948
Dit wil dus zeggen dat voorafgaand aan de test de kans op
pathologie bij de patiënt 0,43 was en dat deze na de test is
gestegen naar 0,948. Deze test heeft dus in belangrijke mate
bijgedragen aan de zekerheid van de diagnose. Per definitie is de achterafkans gelijk aan de positief voorspellende
waarde. Als de prevalentie gelijk is aan 0,02 dan wordt de
achterafkans:
> vooraf odds = 0,02 / (1-0,02) = 0,020
> achteraf odds = 24,0 × 0,020 = 0,480
> achterafkans = (0,480) / (1+0,480) = 0,324
Met dezelfde diagnostische nauwkeurigheid leidt een lagere
voorafkans dus ook tot een lagere achterafkans. Voor het uitvoeren van deze berekeningen zijn ook rekenprogramma’s
op internet beschikbaar (bijvoorbeeld de EBP calculator op
http://sumsearch.uthscsa.edu/ of http://araw.mede.uic.edu/
cgi-alansz/testcalc.pl).
De test- en behandeldrempel
Met het theorema van Bayes kan de achterafkans op ziekte
worden berekend, als de testuitslag bekend is. Als de voorafkans laag is, dan kan zelfs na een positieve testuitslag de achterafkans te laag blijven om over te gaan tot behandelen (zie
het tweede rekenvoorbeeld in de vorige subparagraaf). Op
dezelfde manier kan de voorafkans dusdanig hoog zijn dat
het ook na een negatieve testuitslag onverantwoord is om af
te zien van behandeling. Bij dergelijke hoge en lage prevalenties zou het behandelen, respectievelijk het achterwege laten
van behandeling, op basis van een testuitslag leiden tot schade
voor de patiënt. Dan is het beter niet te testen.
Neem bijvoorbeeld de test beschreven in tabel 1 met een
sensitiviteit van 40% en een specificiteit van 98%. Ga verder
uit van een realistische prevalentie van proximale dentinecariës bij de jeugd van 2%. Behandeling op basis van een testuitslag leidt dan tot 3,2% onterechte beslissingen (60% van
2% = 1,2% fout-negatief en 2% van 98% = 2% fout-positief),
terwijl geheel afzien van testen en therapie leidt tot slechts 2%
onterechte beslissingen (alle fout-negatief). Ook voor hogere
Ned Tijdschr Tandheelkd 114 april 2007
prevalenties, tot 5%, leidt testen tot meer onterechte beslissingen dan afzien van therapie. Anderzijds, door de verre
van ideale sensitiviteit van 40%, leidt voor hoge prevalenties
boven de 62% het testen tot meer onterechte beslissingen dan
ongetest te behandelen. Alleen in de tussenrange van 5% tot
62% is de kans op een terechte beslissing het beste wanneer er
wordt behandeld op basis van de testuitslag.
Tenzij een test een perfecte sensitiviteit of specificiteit heeft,
zal bij lage prevalentie testen slechter zijn dan de optie niet
behandelen. Op dezelfde manier zal bij hoge prevalentie testen slechter zijn dan behandelen. De prevalentie waarboven
testen beter is dan niet behandelen (5% in het voorbeeld) heet
de ‘testdrempel’. De prevalentie waarboven behandelen beter
is dan testen (62% in het voorbeeld) heet de ‘test-behandeldrempel’ (Mileman en Kievit, 1995; Hunink et al, 2001). Zelfs
als de precieze waarden van deze drempels onbekend zijn, is
het toch belangrijk om bewust te zijn van hun bestaan. Testen
wordt vaak gezien als een veilige optie, zonder dat men zich
realiseert dat iedere niet-ideale test schade voor de patiënt
kan veroorzaken door foute testuitslagen. In een artikel werd
bijvoorbeeld een diagnostische nauwkeurigheid van röntgenopnamen voor periapicale aandoeningen gerapporteerd met
een sensitiviteit van 70% en een specificiteit van 77% (Pretty
en Maupomé, 2004). Met deze test zou tot een prevalentie
van 25% het aantal onterechte behandelingen groter zijn dan
het aantal terechte behandelingen.
De voorafkans op ziekte hangt samen met patiëntenonderzoek, verwijzing van patiënten en de selectie van patiënten
zoals aanbevolen in de internationale richtlijnen voor het
voorschrijven van röntgenopnamen (Europese Commissie,
2004). De selectiefactor ‘aanwezigheid van cariës of restauraties in de voortanden’ zou voor kinderen het risico van cariës
dusdanig kunnen verhogen dat de testdrempel van bitewingröntgenopnamen voor screening wordt overschreden. Op
dezelfde manier kan klinisch onderzoek inclusief parodontale
pocketmeting, de kans van gematigd parodontale botafbraak
dusdanig verhogen dat deze boven de test-behandeldrempel komt, zodat additionele röntgenopnamen - ongeacht de
testuitslag - het beleid niet meer zouden beïnvloeden. Het
antwoord op de vraag of een patiënt baat heeft bij bitewingröntgenopnamen hangt dus af van de prevalentie van ziekte,
het gebruik van selectiefactoren, de nauwkeurigheid van de
tandarts bij het beoordelen van röntgenopnamen, het opnamesysteem (digitaal of film), maar ook van hoe de patiënt de
gewenste en ongewenste uitkomsten van therapie waardeert.
Waarderingen van patiënten
Met niet-ideale diagnostiek zullen tandartsen enerzijds laesies over het hoofd zien (fout-negatief) en anderzijds laesies
vinden waar ze niet zijn (fout-positief). De eerdere beschrijving van de test- en behandeldrempel gaf gelijk gewicht aan
beide soorten van fouten. De gezondheidstoestanden die
worden veroorzaakt door deze 2 typen beslissingen kunnen
echter door de patiënten verschillend worden gewaardeerd.
Afbeelding 2 illustreert een methode waarmee numerieke
191
Thema: Evidence-based tandheelkunde
waarderingen (utiliteiten) voor verschillende uitkomsten
kunnen worden verkregen (Mileman en Van den Hout,
2003). Respondenten wordt gevraagd om de mogelijke uitkomst te plaatsen op een visueel analoge schaal (met waarden tussen 0 en 100). De beste uitkomst is uiteraard een
terecht negatieve beslissing. De terecht positieve en de foutpositieve behandelbeslissing zijn na behandeling niet meer
van elkaar te onderscheiden en zouden daarom vanuit het
gezichtspunt van de patiënt als equivalent kunnen worden
beschouwd. Toch blijken vierdejaarsstudenten tandheelkunde de fout-positieve beslissing aanzienlijk lager te waarderen dan de terecht positieve behandelbeslissing (utiliteit
van fout-positief 36 en terecht-positief 78). In de beperkte
tandheelkundige literatuur over het meten van waarderingen voor uitkomsten lijken tandartsen uitkomsten onderling
verschillend te waarderen (Mileman en Van den Hout, 2003),
en bovendien vaak anders te waarderen dan patiënten (Fyffe
en Kay, 1992). Dit is een belangrijke constatering, omdat de
waarde van diagnostiek mede afhangt van de waarde die
wordt gehecht aan de mogelijke uitkomsten.
De verwachte waarde van diagnostische
strategieën
Bij de beslissing over het gebruik van een diagnostische test
dienen 2 soorten informatie te worden gecombineerd: enerzijds de kansen van verschillende mogelijke uitkomsten en
anderzijds de waardering voor die uitkomsten. De behandeling en ook de diagnostiek kunnen bepaalde complicaties
met zich meebrengen. Zo kan bijvoorbeeld een verwijdering van de derde molaar de nervus lingualis beschadigen
(Sedaghatfar et al, 2005). Bovendien kan de behandeling op
langere termijn falen, zodat het bijvoorbeeld van belang is
om te weten hoe lang de levensduur is van een composietrestauratie vergeleken met een amalgaamrestauratie. Dergelijke
gegevens zijn in de wetenschappelijke literatuur vaak maar
beperkt aanwezig, maar zijn wel van belang bij het bepalen
van de waarde van diagnostiek.
Afb. 2. Utiliteitsmeting: voorbeeld van een visueel analoge schaal om
4 verschillende uitkomsten te waarderen. De respondent geeft met
de pijlen een waarde aan voor de uitkomsten, op een schaal van best
denkbaar (100) tot slechtst denkbaar (0).
192
Afbeelding 3 laat zien hoe een typisch diagnostisch probleem
kan worden gemodelleerd met behulp van een beslisboom.
Er worden 3 mogelijke strategieën vergeleken: gebruik van
een bitewing-röntgenopname om dentinecariës van een
approximaal vlak vast te stellen, afwachten zonder te testen
en behandelen. Elk pad in de beslisboom heeft een eigen
kans. Zo is bijvoorbeeld met testen de kans op een terecht
positieve beslissing gelijk aan het product van de prevalentie
en de sensitiviteit. Wanneer zonder testen wordt behandeld
is de kans op een terecht positieve beslissing gelijk aan de
prevalentie van ziekte.
Bij de beslissingsanalyse wordt de optimale beslissing
bepaald als de beslissing met de hoogste verwachte waarde.
Deze verwachte waarde kan voor iedere strategie worden
berekend door per strategie de getalsmatige waarderingen
voor de uitkomsten (de utiliteiten) te vermenigvuldigen
met de kansen van de bijbehorende paden in de boom.
Veronderstel bijvoorbeeld dat, overeenkomstig de eerdergenoemde waarderingen van tandheelkundestudenten, de
waarderingen numeriek worden weergegeven met 100 voor
terecht afzien van behandeling (terecht-negatief), 78 voor
behandelde cariës (terecht-positief), 36 voor onterechte
behandeling (fout-positief) en 0 voor onbehandelde cariës
(fout-negatief). Veronderstel verder dat, overeenkomstig
tabel 1, röntgenologie om dentinecariës vast te stellen een
sensitiviteit heeft van 40% en een specificiteit van 98% en
dat de voorafkans op dentinecariës wordt ingeschat op 10%.
Met deze aannames kan de verwachte waarde van iedere
strategie worden berekend. Gebruikmakend van de test hebben de uitkomsten terecht-negatief, terecht-positief, foutpositief en fout-negatief respectievelijk een kans van 88%,
4%, 2% en 6%. Het totale verwachte nut komt daarmee op
93 (namelijk 88% x 100 + 4% x 78 + 2% x 36 + 6% x 0).
Bij afwachtend beleid is het verwachte nut 40 (10% x 78 +
90% x 36) en bij behandeling is het verwachte nut 90 (10%
x 0 + 90% x 100). Deze berekeningen laten zien dat bij een
voorafkans van 10% testen een beter verwacht nut oplevert
dan niet testen. Deze conclusie hangt echter wel af van de
Afb. 3. Voorbeeld van hoe de opties en uitkomsten van een typisch
diagnostisch probleem kunnen worden gemodelleerd met behulp van
een beslisboom.
Ned Tijdschr Tandheelkd 114 april 2007
Mileman en Van den Hout: Evidence-based diagnostiek en
besluitvorming
voorafkans op dentinecariës. Voor Nederlandse tieners is een
voorafkans van 2% realistischer dan 10%.
Afbeelding 4 laat een zogenaamde sensitiviteitsanalyse
zien, waarbij de utiliteit van de 3 strategieën is berekend voor
een voorafkans variërend van 0 tot 100%. Rekeninghoudend
met de waarderingen voor de uitkomsten is er nu opnieuw
sprake van een testdrempel en een test-behandeldrempel:
met voorafkansen van 0 tot 4% is het optimaal om af te zien
van testen en behandelen, van 4 tot 57% is het optimaal om
alleen te behandelen als de testuitslag van de bitewing-opname positief is, en van 57 tot 100% is het optimaal om zonder
testen over te gaan tot behandeling.
Het voorbeeld laat zien hoe, uitgaande van een bepaalde
accuratesse en bepaalde waarderingen voor uitkomsten,
de test- en behandeldrempel kunnen worden bepaald. Het
voordeel van het gebruik van drempels is dat de precieze
kans niet hoeft te worden bepaald, maar alleen hoe deze
kans zich verhoudt tot beide drempels. Over het algemeen
zal het cariësrisico in de algehele populatie onder de testdrempel liggen, zodat screening naar verwachting door
de fout-positieve diagnosen schadelijk is. Met behulp van
valide selectiecriteria uit gepubliceerde richtlijnen voor
het gebruik van röntgenopnamen kunnen die patiënten
worden geselecteerd die wel baat zouden kunnen hebben bij röntgendiagnostiek. Bovendien bepaalt de snelheid van het ontstaan van dentinecariës hoe lang het
duurt voordat na een eerder röntgenonderzoek de kans
op dentinecariës weer boven de testdrempel uitkomt.
Implicaties voor de praktijk en
tandheelkundig onderwijs
Traditioneel is de kennis van tandheelkundige diagnostiek overgedragen door experts, wat tegenwoordig wordt
gezien als het laagste niveau in de hiërarchie van bewijsAfb. 4. Optimale strategie en verwacht nut, afhankelijk van de prevalentie van dentinecariës (uitgaande van de utiliteiten van studenten en
diagnostische nauwkeurigheid uit tabel 1). Onder de testdrempel van 4%
is het optimaal om zonder te testen af te zien van behandeling. Boven de
test-behandeldrempel van 57% is het optimaal om zonder te testen over
te gaan tot behandelen. In de tussenliggende range van 4 tot 57% is het
optimaal om te behandelen op basis van het testresultaat.
Ned Tijdschr Tandheelkd 114 april 2007
voering (Aartman en Van Loveren, 2007. Deze leermethode is bovendien onverenigbaar met een probabilistische benadering van diagnostiek, waarin het maken van
fouten nadrukkelijk als mogelijkheid wordt geaccepteerd.
De aard van de diagnostische literatuur is daarom aan het
verschuiven, waarbij steeds meer nadruk wordt gelegd op
de relevante validiteitscriteria zoals het gebruik van een
geschikte gouden standaard. Daarmee komen nu gegevens beschikbaar die een evidence-based en besliskundige
benadering van diagnostiek in de tandheelkunde mogelijk
maken.
In de wetenschappelijke literatuur ondervindt diagnostisch onderzoek, vergeleken met therapeutisch onderzoek,
een aantal extra problemen. Zo zijn gerandomiseerde diagnostische vergelijkingen lastiger uitvoerbaar, onder andere
doordat het negeren van een nauwkeurige diagnostische
test - en dus patiënten onbehandeld laten als deel van een
onderzoeksopzet - als onethisch kan worden opgevat. Door
de samenhang tussen sensitiviteit en specificiteit heeft ook
het aggregeren van gegevens van verschillende onderzoeken
tot problemen geleid, die echter oplosbaar zijn met nieuw
ontwikkelde methodologie en met goede richtlijnen voor
de rapportage van onderzoeksresultaten.
Optimale diagnostiek wordt bepaald door zowel foutpositieve als fout-negatieve beslissingen. Een goede balans
tussen beide typen fouten hangt niet alleen af van de nauwkeurigheid van de diagnostiek zelf, maar ook van de beoordeling door de patiënt van de relatieve ernst van verschillende fouten, en van de voorafkans op pathologie. Vooral
als die kans op pathologie onder een bepaalde drempel
blijft, zal het gebruik van diagnostiek kunnen leiden tot
gezondheidsverlies voor de patiënt, door onnodig ingestelde behandelingen. Het opstellen van diagnostische richtlijnen in de radiologie zal daarom moeten bijdragen aan
een goede selectie van die patiënten die daadwerkelijk baat
hebben bij diagnostiek.
Het is belangrijk dat tandartsen een beter zicht krijgen
op de factoren die meespelen bij het stellen van een juiste
diagnose en de daaropvolgende besluitvorming (afb. 1).
Meer dan nu het geval is dienen zij ook inzicht te krijgen
in hun eigen diagnostische nauwkeurigheid om die - waar
nodig - te kunnen verbeteren en om in te kunnen schatten
wat de consequenties zijn van informatie van wetenschappelijke publicaties voor hun eigen praktijk. In het onderwijs
worden al verschillende programma’s gebruikt om de aankomende generatie van tandartsen hierbij te ondersteunen
(Mileman et al, 2004). Met de verdere ontwikkeling van
dergelijke programma’s via internet zullen deze ook mogelijk voor tandartsen gemakkelijker beschikbaar komen. Ten
slotte zal ook verder onderzoek naar de waarderingen van
patiënten en tandartsen voor tandheelkundige uitkomsten
noodzakelijk zijn, om de evidence-based onderbouwing
van de tandheelkundige diagnostiek te verbeteren en zo een
steeds betere bijdrage te kunnen leveren aan de uitkomst
voor de patiënt.
193
Mileman en Van den Hout: Evidence-based diagnostiek en besluitvorming
Literatuur
> Sanden WJM van der, Nienhuijs MEL, Mettes TG. De rol van richtlijnen en
> Aartman IHA, Loveren C van. Onderzoeksontwerpen en de ladder van evi-
systematische literatuuroverzichten in de tandheelkundige zorgverlening.
Ned Tijdschr Tandheelkd 2007; 114: 179-186.
dence. Ned Tijdschr Tandheelkd 2007; 114: 166-171.
> Bhandari M, Montori VM, Swiontkowski MF, Guyatt H. User’s guide to the
> Sedaghatfar M, August MA, Dodson TB. Panoramic radiographic findings as
surgical literature: how to use an article about a diagnostic test. J Bone Joint
predictors of inferior alveolar nerve exposure following third molar extraction. J Oral Maxillofac Surg 2005; 63: 3-7.
Surg Am 2003; 85a: 1133-1140.
> Bossuyt PM, Reitsema JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM et al.
> Stheeman SE, Mileman PA, Hof MA van ’t, Stelt PF van der. An approach to
The STARD statement for reporting studies of diagnostic accuracy: expla-
the development of decision support for diagnosing pathology from radiographs. Dentomaxillofac Radiol 1995; 24: 238-242.
nation and elaboration. Clin Chem 2003; 49: 7-18.
> Bader J, Ismail A. Survey of systematic reviews in dentistry. J Am Dent Assoc
> SUMSEARCH. University of Texas Health Sciences Center, Department of
medicine-medical informatics. http://sumsearch.uthscsa.edu/ (gezien op
2004; 135: 464-473.
> Devillé WL. Evidence in diagnostic research. Reviewing diagnostic accuracy:
from search to guidelines. Amsterdam/Wageningen: Vrije Universiteit/Pon-
19-07-2006).
> Taylor-Weetman K, Wake B, Hyde C. Comparison of panoramic and bitewing radiography for the detection of dental caries: a systematic review of
sen & Looijen, 2001. Academisch proefschrift.
> Erkel AR van, Pattynama PMT. Receiver operating characteristic (ROC) analysis: basic principles and applications in radiology. Eur J Radiol 1998; 27:
88-94.
diagnostic tests. Birmingham: University of Birmingham, 2002.
http://www.pcpoh.bham.ac.uk/publichealth/wmhtac/pdf/dental_caries.pdf.
> Wenzel A, Hintze H. The choice of gold standard for evaluating tests for caries
> Europese Commissie. Radiation protection. European Guidelines on radiation
protection in dental radiology. The safe use of radiographs in dental practice.
Luxembourg: Office for official publications of the European Communities, 2004. http://ec.europa.eu/energy/nuclear/radioprotection/publication/
doc/136_en.pdf (gezien op 19-07-2006).
diagnosis. Dentomaxillofac Radiol 1999; 28: 132-136.
> White SC. Computer-aided differential diagnosis of oral radiographic lesions. Dentomaxillofacial Radiol 1989; 18: 53-59.
> White SC, ORAD II Oral Radiographic Differential Diagnosis. ORAD for the
Web - ORAD Version 2.0.
> Fyffe HE, Kay EJ. Assessment of dental health state utilities. Community
Dent Oral Epidemiol 1992; 20: 269-273.
http://www.orad.org/ (gezien op 19-07-2006).
> Wulff HR. Rational diagnosis and treatment. An introduction to clinical
> Glas AS. Beyond diagnostic accuracy: applying and extending methods for
decision making. Oxford: Blackwell Scientific Publications, 1981.
diagnostic test research. Amsterdam: Universiteit van Amsterdam, 2003. Academisch proefschrift.
> Hunink M, Glasziou P, Siegel J et al. Decision making in health and medicine.
Summary
Integrating evidence and values. Cambridge: Cambridge University Press,
2001.
> Jaeschke R, Guyatt G, Sackett DL. Users’ guides to the medical literature. III.
How to use an article about a diagnostic test. B. What are the results and
will they help me in caring for my patients? The Evidence-Based Medicine
Working Group. JAMA 1994; 271: 703-707.
> Mileman PA, Hout WB van den. Comparing the accuracy of Dutch dentists
and dental students in radiographic diagnosis of dentinal caries. Dentomaxillofac Radiol 2002; 31: 7-14.
> Mileman PA, Hout WB van den. Preferences for oral health states: effect
on prescribing periapical radiographs. Dentomaxillofac Radiol 2003; 32:
401-407.
> Mileman PA, Hout WB van den, Sanderink GC. Looking for caries…? Teachers evaluate a program to improve caries diagnosis from radiographs. Eur
J Dent Educ 2004; 8: 35-42.
> Mileman PA, Kievit J. Efficiëntie van diagnostiek en kwaliteit van besluitvor-
Evidence-based diagnosis and clinical decision making
The application of evidence-based dentistry to diagnosis should result in a
reduction in errors in decision making. The frequency of errors is
dependent not only on the accuracy of a diagnostic test for pathology but
also on the prior chance of disease being present. If this chance is low and
below a certain threshold then, for example, applying a diagnostic test can
result in more decision errors and therefore inappropriate treatment than
omitting to use the test. In deciding on the usefulness of a diagnostic test
an additional factor to take into account is the relative value of the
possible health states resulting from diagnosis and subsequent therapy.
These can be determined by eliciting from the patient the numerical
values of the appropriate dental health conditions using a visual analogue
scale technique. Although clinical decision analysis is starting to influence
the development of guidelines for the diagnostic use of radiographs, its
application in dentistry needs further refinement and development.
ming: klinische besliskunde. In: Stelt PF van der, Arnold LV, Duinkerke ASH,
Sandrink GCH (red.). Tandheelkundige radiologie. Houten: Bohn Stafleu
Bron
van Loghum: 1995.
> Offringa M, Assendelft WJ, Scholten RJ. Inleiding in evidence-based medicine.
Klinische handelen gebaseerd op bewijsmateriaal. Houten/Diegem; Bohn
Stafleu van Loghum, 2000.
> Pretty IA, Maupomé G. A closer look at diagnosis in clinical dental practice:
part 3. Effectiveness of radiographic diagnostic procedures. J Can Dent Assoc
2004; 70: 388-394.
> Rohlin M, Mileman PA. Decision analysis in dentistry - the last 30 years.
P.A. Mileman1, W.B. van den Hout2
Uit 1de afdeling Tandheelkundige Radiologie van het Academische Centrum
voor Tandheelkunde Amsterdam (ACTA) en 2de Medische Besliskunde van
het Leids Universitair Medisch Centrum (LUMC).
Datum van acceptatie: 29 januari 2007
Adres: dr. P.A. Mileman, ACTA, Louwesweg 1, 1066 EA Amsterdam
[email protected]
J Dent 2000; 28; 453-468.
194
Ned Tijdschr Tandheelkd 114 april 2007
Download