Statistische significantie of klinische relevantie?

advertisement
Ter discussie
O PI NI E
Statistische significantie of klinische relevantie?
Els K.Vanhoutte, Catharina G. Faber en Ingemar S.J. Merkies
Afgelopen jaar werd een onderzoek naar het effect van
rasagiline bij patiënten met de ziekte van Parkinson
gepubliceerd in de New England Journal of Medicine.1 In
deze gerandomiseerde studie, de ‘Attenuation of disease
progression with azilect given once-daily’(ADAGIO)trial, werd een ‘statistisch significant’ verschil gevonden
ten gunste van de patiëntengroep behandeld met rasagiline, in vergelijking met placebo. Het gevolg van de publicatie was dat de Nederlandse media ruimschoots aandacht schonken aan de ADAGIO-trial en dat vele
neurologen door patiënten met de ziekte van Parkinson
benaderd werden over de vermeende neuroprotectieve
werking van rasagiline.1
Een statistisch significant verschil tussen een behandeling en placebo geeft geen informatie over de klinische
relevantie van het gevonden effect. Daarnaast beïnvloeden zowel de grootte van de studie als de gebruikte uitkomstmaat de kans op een statistisch significant verschil.2
Ofschoon er nadelen kleven aan het gebruik van het
begrip ‘statistisch significant verschil’, passen klinische
onderzoekers het veelvuldig toe. Dit heeft onder andere
te maken met de voorkeur van zowel onderzoekers als
tijdschriftredacties voor positieve resultaten en het
gebrek aan kennis over de correcte toepassingen.2
De laatste jaren worden de nadelen van het gebruik van
alleen statistisch significante verschillen onderkend; verschillende tijdschriften verlangen rapportage van zowel
de effectgrootte als het 95%-betrouwbaarheidsinterval.2,3
De auteurs van het genoemde artikel over rasagiline bij
de ziekte van Parkinson hebben bij de rapportage van de
resultaten geen rekening gehouden met de vraag of het
gevonden effect inderdaad klinisch relevant was.4,5 Met
het begrip ‘minimal clinically important difference’
(MCID) kan men wél de klinische relevantie van een
effect aangeven. In dit artikel zullen wij de waarde van dit
begrip nader uiteenzetten. Aan de hand van 2 trials
(tabel) illustreren wij op welke manieren klinische relevantie kan worden gedefinieerd en welke consequenties
dat heeft voor de conclusies van studies.4-6
MCID: maat voor klinische relevantie
MCID, de minimale vereiste klinisch relevante verandering, wordt gezien als een concept dat de interpretatie
van resultaten van klinische studies kan verbeteren en
tekortkomingen van ‘statistische significantie’ kan overbruggen.4,5 De MCID is de grenswaarde van een gebruikte
uitkomstmaat; elke verandering groter dan zo’n grenswaarde wordt beschouwd als klinisch waardevol.4,5
Toepassing van MCID
Er zijn verschillende methoden om MCID-grenswaarden
te bepalen. Tot dusver is er geen consensus over welke
techniek de beste is.4 De methoden kunnen worden ingedeeld in ‘anker-gebaseerde’ en ‘distributie-gebaseerde’
technieken.4,5 Anker-gebaseerde technieken zijn gebaseerd op additionele data, waarbij de patiënten zelf aangeven of ze wel of geen verbetering hebben opgemerkt.
Een voorbeeld hiervan is vraag 2 van de ‘short form 36’
(SF-36), een vragenlijst over de kwaliteit van leven, waarbij de patiënt aangeeft hoe zijn klinische conditie is veranderd (veel beter, iets beter, min of meer onveranderd,
iets slechter of veel slechter) (figuur 1a).5
Distributie-gebaseerde technieken hebben een meer statistische achtergrond om de MCID te bepalen. Een voorbeeld hiervan is de ‘universele theorie’, waarbij de MCID
wordt gedefinieerd als 0,5 maal de standaarddeviatie van
de theoretische totale spreiding van een gebruikte uitkomstmaat.4,5,7 In formulevorm: MCIDut = 0,5 × SD.
Interpretatie ADAGIO-studie
Maastricht Universitair Medisch Centrum,
afd. Neurologie, Maastricht.
Drs. E.K. Vanhoutte, arts-onderzoeker;
dr. C.G. Faber, neuroloog; dr. I.S.J. Merkies,
neuroloog (tevens: Spaarne Ziekenhuis,
afd. Neurologie, Hoofddorp).
Contactpersoon: drs. E.K. Vanhoutte
([email protected]).
In de ADAGIO-studie werd de score op de ‘unified parkinson disability rating scale’ (UPDRS) als primaire uitkomstmaat gebruikt (zie de tabel). De UPDRS is een samengestelde vragenlijst met subschalen op het gebied van mentaal
functioneren, dagelijkse activiteiten en motorische functionaliteit.8 Deze ordinale schaal loopt van 0-176 punten;
hoe hoger de score, des te ernstiger de ziekte. Volgens de
‘power’-berekening in de publicatie over de ADAGIO-studie waren 1100 deelnemers nodig om met een power van
NED TIJDSCHR GENEESKD. 2010;154:A2516
1
O PI NI E
▼ Uitleg ▼
Ordinale schaal Vragenlijst of meetschaal waarbij de antwoorden of
uitkomsten zijn verdeeld in klassen, bijvoorbeeld de ernst van een
bijwerking (0 = geen bijwerking; 1 = geringe bijwerking 2 = matig
ernstige bijwerking; 3 = zeer ernstige bijwerking). De stappen in een
ordinale schaal kunnen verschillende grootte hebben, in tegenstelling tot de stappen in een intervalschaal (bijvoorbeeld een
thermometer).
87% een verschil in UPDRS van 1,8 punten aan te tonen.
Volgens de eerder genoemde universele theorie van
MCID is de MCIDut-grenswaarde circa 15 punten verschil in de UPDRS (aangenomen dat de UPDRS-scores
normaal verdeeld zijn). Deze waarde strookt niet met de
powerberekening. Bovendien is een powerberekening
gericht op een vergelijking van groepen, terwijl het
MCID-concept meer op individueel niveau kijkt naar de
hoeveelheid patiënten per groep die boven een vooraf
vastgestelde grenswaarde uitkomen.4
Statistisch verschil en MCID Er werd een toename in
de UPDRS-score gezien van gemiddeld 0,09 punten/week
(SD: 0,02) bij patiënten die met rasagiline 1 mg/dag
behandeld werden (gemiddelde verandering tussen de
weken 12-36 na randomisatie: 2,16 punten; SD: 0,48); het
verschil met de placebogroep was -0,05 punten/week
(omgerekend: 1,2 punten) ten gunste van de behandelde
groep (SD: 0,02; p = 0,01). Echter, deze veranderingen zijn
circa 5-7 maal kleiner dan de berekende UPDRS-MCIDutwaarde van 15 punten.1 Bovendien brengt het gebruik
van een samengestelde vragenlijst zoals de UPDRS
diverse bezwaren met zich mee.
Om te beginnen bevinden de vragen zich op verschillende meetniveaus, van beperkingen aan het lichaam of
geest (‘impairment’) tot het niveau van dagelijks functioneren. Beperkingen aan het lichaam kunnen leiden tot
problemen in het dagelijks functioneren en kunnen dus
een onderlinge correlatie laten zien. Wanneer correlerende scores van de verschillende vragen worden opgeteld, kan dat leiden tot een vertekening van de resultaten,
met een sterker effect in één bepaalde richting.9
Daarnaast is de UPDRS een schaal die ordinale items
bevat (zie uitlegkader). Zo kan het antwoord op een vraag
bijvoorbeeld variëren van 0 (geen effect), 1 (gering effect),
2 (matig effect), en 3 (sterk effect) tot 4 (zeer sterk effect).
Het is zeer onwaarschijnlijk dat een verandering van
‘geen effect’ tot ‘gering effect’ (dus een verschil van 1
punt) even groot is als een verandering van ‘sterk effect’
tot ‘zeer sterk effect’ (eveneens een verschil van 1 punt).10,11
Als men de resultaten per vraag optelt tot een totaalscore
wordt tevens verondersteld dat elke vraag dezelfde
waarde (‘weging’ of ‘zwaarte’) heeft. Ook dat is onwaarschijnlijk.11 Rekenen met een gemiddelde en een standaarddeviatie is alleen zinvol bij continue schalen met
een normale verdeling, niet bij ordinale schalen.
ICE-trial nader bekeken
De ‘immune globulin intravenous (IGIV) for chronic
inflammatory demyelinating polyneuropathy’-trial (ICEtrial; zie de tabel) is de grootste internationale gerandomiseerde studie naar het effect van intraveneus immunoglobuline versus placebo bij patiënten met chronische
inflammatoire
demyeliniserende
polyneuropathie
(CIDP). De resultaten werden in 2008 gepubliceerd.6 Er
werden statistisch significante verschillen gevonden in
TABEL Doel, patiëntenpopulatie en primaire uitkomstmaat van 2 dubbelblinde, gerandomiseerde trials1,6
kenmerk
trial
ADAGIO
doel
patiënten
primaire uitkomstmaat
ICE
het mogelijke ziekte modulerend effect van rasagiline bij de ziekte het korte- en langetermijneffect van intraveneus immunoglobuline
van Parkinson onderzoeken
bij CIDP vaststellen
1176 onbehandelde patiënten met de ziekte van Parkinson
117 patiënten met CIDP
score op de aangepaste INCAT-‘disability’-schaal, een 9-puntsschaal
score op de UPDRS, een 176-puntsschaal waarbij een hogere
waarbij een hogere score meer functionele beperkingen
uitkomst ernstigere ziekte weergeeft; dit is een samengestelde
weergeeft; in deze aangepaste schaal worden veranderingen
vragenlijst met subschalen op het gebied van mentaal
in de functie van de bovenste ledenmaten van 0 (normaal)
functioneren, dagelijkse activiteiten en motorische functie
naar 1 (minimale symptomen) of omgekeerd op de INCATdisabilityschaal niet meegerekend
ADAGIO = ‘attenuation of disease progression with azilect given once-daily; ICE = ‘immune globulin intravenous (IGIV) for chronic inflammatory demyelinating
polyneuropathy’; CIDP = chronische inflammatoire demyeliniserende polyneuropathie; UPDRS = ‘unified Parkinson disability rating scale’; INCAT = ‘inflammatory
neuropathy cause and treatment’.
2
NED TIJDSCHR GENEESKD. 2010;154:A2516
-2
-4
0,754
O PI NI E
0,8
0
effectgrootte
verandering in ‘disablilty’-score
2
0,5
-6
0,226
-8
0
IGIV
a
placebo
SF-36 vraag 2
grenswaarde: 0,60
IGIV
placebo
IGIV
placebo
1 × SEM
0,5 × SD
grenswaarde: 0,64
grenswaarde: 0,72
berekening minimale klinisch relevante verandering
b
grenswaarde: 0,5
FIGUUR 1 Weergave van de klinische relevantie van het effect van intraveneus
toegediend immunoglobuline (IGIV) en placebo bij een immuungemedieerde
polyneuropathie. Het effect van de behandeling is weergegeven als (a)
verandering in de ‘inflammatory neuropathy cause and treatment (INCAT)
disability’-score (0 = geen dagelijkse beperkingen; 10 = maximale dagelijkse
beperkingen) en (b) effectgrootte in de IGIV-groep ( ) en de placebogroep ( ).
De effectgrootte is de gemiddelde verandering in score gedeeld door de
standaarddeviatie van de uitgangswaarde (tijdstip 0). Een afname van de
disabilityscore of een toename van de effectgrootte betekent een klinische
verbetering. Voor de berekening van het minimale klinisch relevante effect
(‘grenswaarde’) werden 4 methoden gebruikt, gebaseerd op (a) gegevens uit de
SF-36-vragenlijst, de standaarddeviatie (SD) of de ‘standard error of
measurement’ (SEM) van de scores op de disabilityschaal en (b) de gemiddelde
effectgrootte. De grenswaarden zijn per methode aangegeven door een
). Uit de aantallen bolletjes onder de
horizontale zwarte lijn (
grenswaarden in figuur a blijkt dat bij méér patiënten een verbetering was
opgetreden na behandeling met IGIV ( ) dan na toediening van placebo ( ).
De verschillen tussen de behandelde groep en de placebogroep waren
significant voor alle 4 methoden (exacte toets van Fisher).
de score voor de ‘inflammatory neuropathy cause and
treatment’(INCAT)-criteria en in de knijpkracht ten
gunste van de behandelde patiëntengroep in vergelijking
met de placebogroep.6
Bepaling MCID De resultaten werden verder geanalyseerd uitgaand van het MCID-concept.12 De belangrijkste
vraag was of de MCID-grenswaarden significant onderscheid zouden kunnen maken tussen de 2 groepen (IGIV
versus placebo). Aangezien er geen consensus bestaat
over welke techniek gebruikt dient te worden, werd de
MCID volgens 4 verschillende technieken berekend: 1
anker-gebaseerde techniek (SF-36 vraag 2) en 3 distributie-gebaseerde technieken (0,5 × SD, 1 × ‘standard error
of measurement’ (SEM) en effectgrootte met grenswaarde
0,5; zie figuur 1).
In de studie werden uitkomstmaten van verschillende
niveaus gebruikt, namelijk op het ‘impairment’-niveau
(neurofysiologische parameters, somscore voor motoriek
volgens de schaal van de Medical Research Council
(MRC), knijpkracht, INCAT-gevoelsschaal), op het
niveau van dagelijks functioneren (INCAT-‘disability’schaal, Rotterdam-handicapschaal) en op het niveau van
kwaliteit van leven (fysieke en mentale component van
de SF-36-scores). Patiënten werden als respondenten
gezien als de MCID-grenswaarde voor een schaal gehaald
werd aan het einde van de eerste periode (24 weken) na
randomisatie. De percentages respondenten in de IGIVgroep en de placebogroep werden vervolgens met elkaar
vergeleken.12
Met alle 4 MCID-technieken werden voor de primaire
uitkomstmaat van de ICE-studie, de INCAT-disabilityscore, meer respondenten gevonden in de behandelde
groep dan in de placebogroep (zie figuur 1). Voor de
diverse MCID-methoden werden verder klinisch significante verschillen gezien in het voordeel van de IGIVgroep bij sommige neurofysiologische parameters, de
MRC-somscore, knijpkracht, de Rotterdam-handicapschaal en de score voor de fysieke component van de
SF-36.
Figuur 2 geeft een overzicht van de bevindingen van de
MCID-techniek volgens de ‘universele theorie’ voor de
verschillende uitkomstmaten. Het percentage patiënten
dat de MCID-grenswaarde haalde werd voor beide groepen (IGIV- en placebogroep) afgezet tegen de verschil-
NED TIJDSCHR GENEESKD. 2010;154:A2516
3
Klinische relevantie effecten in ADAGIO- en ICE-trial
Klinische relevantie, afgelezen aan de MCID, blijkt
diverse ‘gezichten’ te hebben.13 Er is, zoals gezegd, geen
algemene consensus over welke techniek voor de berekening van de MCID de voorkeur heeft. Daarom werden in
de ICE-trial diverse MCID-technieken toegepast.12 De
resultaten blijken robuust te zijn: alle gebruikte technieken leidden tot dezelfde conclusie over het effect van de
behandeling. In hun publicatie stellen de onderzoekers
voor een combinatie te gebruiken van één anker-gebaseerde en één distributie-gebaseerde MCID-techniek, de
zogenaamde ‘combined MCID robustness approach’, om
aan te geven wat als ‘klinische verbetering’ beschouwd
mag worden.12
Als de MCID, berekend volgens de ‘universele theorie’,
wordt gehanteerd bij de ADAGIO-studie, dan heeft het
kleine verschil tussen de groep behandeld met rasagiline
en de placebogroep waarschijnlijk weinig klinische relevantie, ook al was dit verschil statistisch significant.1
Voorzichtigheid is dus geboden bij het hanteren van de
resultaten van de ADAGIO-studie als basis voor het
voorschrijven van rasagiline.
Zoals gezegd hebben ordinale uitkomstmaten bepaalde
tekortkomingen.11 In de ICE-studie waren de verschillen
tussen de 2 groepen echter zo duidelijk dat de klinische
relevantie daarvan aantoonbaar was, ondanks het gebruik
van ordinale lijsten (zie figuren 1 en 2).12 Toch dienen
continue schalen opgesteld te worden voor toekomstige
studies. Voor het opstellen van continue schalen zijn
moderne klinimetrische technieken beschikbaar, zoals
de Rasch-methode.9
De Rasch-methode is gebaseerd op een logische aanname: patiënten met een grotere vaardigheid (minder
ziek) hebben een grotere kans op het correct uitvoeren
van een moeilijkere vraag of opdracht dan patiënten met
een minder grote vaardigheid. Met deze statistische
54
patiënten met klinisch relevante verandering (%)
O PI NI E
lende uitkomstmaten; vervolgens werd de behandelde
groep vergeleken met de placebogroep. Hierbij vond men
een significant verschil ten gunste van de behandelde
patiëntengroep. In aanvulling op de statistische significantie toont deze studie ook de klinische relevantie van
de behandeling aan met behulp van diverse definities van
de MCID.12
†
*
48
†
42
*
36
30
*
*
*
24
18
12
6
0
gemiddelde
CMAP
geleidingssnelheid
motorneuronen
conductieblokkade
(%)
MRCscore
knijpkracht
dominante
hand
INCAT
gevoelsscore
INCAT
‘disability’score
Rotterdam
handicapschaal
SF-36
mentale
component
SF-36
fysieke
component
uitkomstmaat
FIGUUR 2 Vergelijking van een behandelde groep ( ) met een placebogroep
( ) op grond van klinisch relevante effecten, in een onderzoek naar het effect
van intraveneus toegediend immunoglobuline op een immuungemedieerde
polyneuropathie. De minimaal vereiste klinisch relevante verandering
(‘minimally clinically important difference’, MCID) werd gedefinieerd als
0,5 × SD, waarbij de SD staat voor de standaarddeviatie van de theoretische
totale spreiding van de gebruikte uitkomstmaat. Op bijna alle uitkomstmaten
4
was er een statistisch significant verschil in het percentage patiënten bij wie
een MCID was opgetreden tussen de behandelde groep en de placebogroep, met
uitzondering van de INCAT-gevoelsschaal en de SF-36-componentscores
(* p < 0,01; † p < 0,001).
CMAP = ‘compound muscle action potential’; MRC = schaal voor motoriek
volgens de Medical Research Council; SF-36 = ‘short form-36’-vragenlijst.
NED TIJDSCHR GENEESKD. 2010;154:A2516
eerde uitkomstmaten, gebaseerd op moderne klinimetrische technieken, een centralere rol krijgen bij de interpretatie van onderzoeksresultaten. Het varen op
statistische significantie kan de dokter verblinden en de
patiënt valse hoop geven.
Belangenconflict: geen gemeld. Financiële ondersteuning: De stichting ter
bevordering van neuromusculair onderzoek (Maastricht Universitair Medisch
Centrum) ontving een financiële vergoeding van CSL Behring en Octapharma
Conclusie
voor activiteiten van dr. I. Merkies. Ook ontving I. Merkies financiële onder-
Het meten van de functionele toestand van chronisch
zieken dient te geschieden met schalen die zijn gebaseerd
op moderne klinimetrische methodes, zoals het Raschmodel. De basisprincipes hiervan zouden bij alle medici
bekend moeten zijn, om de interpretatie van gepubliceerde resultaten en de opzet van toekomstige studies te
bevorderen.9
In de neurologie en waarschijnlijk ook andere vakgebieden dient een ‘paradigmaverschuiving’ plaats te vinden
bij medici en wetenschappers, waarbij goed geconstru-
steuning van de GBS/CIDP Foundation International en van het Talecris
Talents Program voor zijn onderzoek (PeriNomS-studie). E. Vanhoutte ontving een PNS Baxter Fellowship grant voor haar onderzoeks activiteiten
(PeriNomS-studie)
Aanvaard op 22 september 2010
Citeer als: Ned Tijdschr Geneeskd. 2010;154:A2516
>Meer op www.ntvg.nl/opinie
●
Literatuur
1
Olanow CW, Rascol O, Hauser R, et al. A double-blind, delayed-start trial
8
2
3
4
in Parkinson’s disease. Florom Park: Macmillan; 1987, :153-63.
Sterne JA, Davey Smith G. Sifting the evidence-what’s wrong with
9
significance tests? BMJ. 2001;322:226-31.
rheumatology: what is it and why use it? When should it be applied, and
testing in biomedical research. Eur J Epidemiol. 2010;25:225-30.
what should one look for in a Rasch paper? Arthritis Rheum.
2007;57:1358-62.
Sloan J, Symonds T, Vargas-Chanes D, Fridley B. Practical guidelines for
10 Stucki G, Daltroy L, Katz JN, Johannesson M, Liang MH. Interpretation
of change scores in ordinal clinical scales and health status measures: the
within clinical trials. Drug Inf J. 2003;37:23-31.
6
7
Tennant A, Conaghan PG. The Rasch measurement model in
Stang A, Poole C, Kuss O. The ongoing tyranny of statistical significance
assessing the clinical significance of health-related quality of life changes
5
Fahn S, Elton R. Committee motUD. Unified Parkinson’s disease rating
scale. In: Fahn S, Marsden CD, Calne D, et al. (eds). Recent developments
of rasagiline in Parkinson’s disease. N Engl J Med. 2009;361:1268-78.
whole may not equal the sum of the parts. J Clin Epidemiol. 1996;49:711-7.
Copay AG, Subach BR, Glassman SD, Polly DW Jr, Schuler TC.
Understanding the minimum clinically important difference: a review of
11
concepts and methods. Spine J. 2007;7:541-6.
12 Merkies IS, Van Nes SI, Hanna K, Hughes RA, Deng C. Confirming the
DeVellis RF. Classical test theory. Med Care. 2006;44(Suppl 3):S50-9.
Hughes RA, Donofrio P, Bril V, et al. Intravenous immune globulin (10%
efficacy of intravenous immunoglobulin in CIDP through minimum
caprylate-chromatography purified) for the treatment of chronic
clinically important differences: shifting from statistical significance to
inflammatory demyelinating polyradiculoneuropathy (ICE study): a
clinical relevance. J Neurol Neurosurg Psychiatry. 2010;81:1194-9.
randomised placebo-controlled trial. Lancet Neurol. 2008;7:136-44.
13 Beaton DE, Boers M, Wells GA. Many faces of the minimal clinically
Norman GR, Sloan JA, Wyrwich KW. Interpretation of changes in health-
important difference (MCID): a literature review and directions for future
related quality of life: the remarkable universality of half a standard
research. Curr Opin Rheumatol. 2002;14:109-14.
deviation. Med Care. 2003;41:582-92.
NED TIJDSCHR GENEESKD. 2010;154:A2516
5
O PI NI E
techniek kunnen data van een ordinale schaal worden
omgezet in een continue uitkomstmaat en kunnen
diverse klinimetrische aspecten ook getoetst worden. Zo
kunnen mogelijke vertekenende factoren (‘confounders’)
onderzocht worden, bijvoorbeeld het effect van geslacht
op antwoorden. Ook voorkomt men dat resultaten vertekend raken door een correlatie tussen de diverse items
van een schaal.
Download