Ter discussie O PI NI E Statistische significantie of klinische relevantie? Els K.Vanhoutte, Catharina G. Faber en Ingemar S.J. Merkies Afgelopen jaar werd een onderzoek naar het effect van rasagiline bij patiënten met de ziekte van Parkinson gepubliceerd in de New England Journal of Medicine.1 In deze gerandomiseerde studie, de ‘Attenuation of disease progression with azilect given once-daily’(ADAGIO)trial, werd een ‘statistisch significant’ verschil gevonden ten gunste van de patiëntengroep behandeld met rasagiline, in vergelijking met placebo. Het gevolg van de publicatie was dat de Nederlandse media ruimschoots aandacht schonken aan de ADAGIO-trial en dat vele neurologen door patiënten met de ziekte van Parkinson benaderd werden over de vermeende neuroprotectieve werking van rasagiline.1 Een statistisch significant verschil tussen een behandeling en placebo geeft geen informatie over de klinische relevantie van het gevonden effect. Daarnaast beïnvloeden zowel de grootte van de studie als de gebruikte uitkomstmaat de kans op een statistisch significant verschil.2 Ofschoon er nadelen kleven aan het gebruik van het begrip ‘statistisch significant verschil’, passen klinische onderzoekers het veelvuldig toe. Dit heeft onder andere te maken met de voorkeur van zowel onderzoekers als tijdschriftredacties voor positieve resultaten en het gebrek aan kennis over de correcte toepassingen.2 De laatste jaren worden de nadelen van het gebruik van alleen statistisch significante verschillen onderkend; verschillende tijdschriften verlangen rapportage van zowel de effectgrootte als het 95%-betrouwbaarheidsinterval.2,3 De auteurs van het genoemde artikel over rasagiline bij de ziekte van Parkinson hebben bij de rapportage van de resultaten geen rekening gehouden met de vraag of het gevonden effect inderdaad klinisch relevant was.4,5 Met het begrip ‘minimal clinically important difference’ (MCID) kan men wél de klinische relevantie van een effect aangeven. In dit artikel zullen wij de waarde van dit begrip nader uiteenzetten. Aan de hand van 2 trials (tabel) illustreren wij op welke manieren klinische relevantie kan worden gedefinieerd en welke consequenties dat heeft voor de conclusies van studies.4-6 MCID: maat voor klinische relevantie MCID, de minimale vereiste klinisch relevante verandering, wordt gezien als een concept dat de interpretatie van resultaten van klinische studies kan verbeteren en tekortkomingen van ‘statistische significantie’ kan overbruggen.4,5 De MCID is de grenswaarde van een gebruikte uitkomstmaat; elke verandering groter dan zo’n grenswaarde wordt beschouwd als klinisch waardevol.4,5 Toepassing van MCID Er zijn verschillende methoden om MCID-grenswaarden te bepalen. Tot dusver is er geen consensus over welke techniek de beste is.4 De methoden kunnen worden ingedeeld in ‘anker-gebaseerde’ en ‘distributie-gebaseerde’ technieken.4,5 Anker-gebaseerde technieken zijn gebaseerd op additionele data, waarbij de patiënten zelf aangeven of ze wel of geen verbetering hebben opgemerkt. Een voorbeeld hiervan is vraag 2 van de ‘short form 36’ (SF-36), een vragenlijst over de kwaliteit van leven, waarbij de patiënt aangeeft hoe zijn klinische conditie is veranderd (veel beter, iets beter, min of meer onveranderd, iets slechter of veel slechter) (figuur 1a).5 Distributie-gebaseerde technieken hebben een meer statistische achtergrond om de MCID te bepalen. Een voorbeeld hiervan is de ‘universele theorie’, waarbij de MCID wordt gedefinieerd als 0,5 maal de standaarddeviatie van de theoretische totale spreiding van een gebruikte uitkomstmaat.4,5,7 In formulevorm: MCIDut = 0,5 × SD. Interpretatie ADAGIO-studie Maastricht Universitair Medisch Centrum, afd. Neurologie, Maastricht. Drs. E.K. Vanhoutte, arts-onderzoeker; dr. C.G. Faber, neuroloog; dr. I.S.J. Merkies, neuroloog (tevens: Spaarne Ziekenhuis, afd. Neurologie, Hoofddorp). Contactpersoon: drs. E.K. Vanhoutte ([email protected]). In de ADAGIO-studie werd de score op de ‘unified parkinson disability rating scale’ (UPDRS) als primaire uitkomstmaat gebruikt (zie de tabel). De UPDRS is een samengestelde vragenlijst met subschalen op het gebied van mentaal functioneren, dagelijkse activiteiten en motorische functionaliteit.8 Deze ordinale schaal loopt van 0-176 punten; hoe hoger de score, des te ernstiger de ziekte. Volgens de ‘power’-berekening in de publicatie over de ADAGIO-studie waren 1100 deelnemers nodig om met een power van NED TIJDSCHR GENEESKD. 2010;154:A2516 1 O PI NI E ▼ Uitleg ▼ Ordinale schaal Vragenlijst of meetschaal waarbij de antwoorden of uitkomsten zijn verdeeld in klassen, bijvoorbeeld de ernst van een bijwerking (0 = geen bijwerking; 1 = geringe bijwerking 2 = matig ernstige bijwerking; 3 = zeer ernstige bijwerking). De stappen in een ordinale schaal kunnen verschillende grootte hebben, in tegenstelling tot de stappen in een intervalschaal (bijvoorbeeld een thermometer). 87% een verschil in UPDRS van 1,8 punten aan te tonen. Volgens de eerder genoemde universele theorie van MCID is de MCIDut-grenswaarde circa 15 punten verschil in de UPDRS (aangenomen dat de UPDRS-scores normaal verdeeld zijn). Deze waarde strookt niet met de powerberekening. Bovendien is een powerberekening gericht op een vergelijking van groepen, terwijl het MCID-concept meer op individueel niveau kijkt naar de hoeveelheid patiënten per groep die boven een vooraf vastgestelde grenswaarde uitkomen.4 Statistisch verschil en MCID Er werd een toename in de UPDRS-score gezien van gemiddeld 0,09 punten/week (SD: 0,02) bij patiënten die met rasagiline 1 mg/dag behandeld werden (gemiddelde verandering tussen de weken 12-36 na randomisatie: 2,16 punten; SD: 0,48); het verschil met de placebogroep was -0,05 punten/week (omgerekend: 1,2 punten) ten gunste van de behandelde groep (SD: 0,02; p = 0,01). Echter, deze veranderingen zijn circa 5-7 maal kleiner dan de berekende UPDRS-MCIDutwaarde van 15 punten.1 Bovendien brengt het gebruik van een samengestelde vragenlijst zoals de UPDRS diverse bezwaren met zich mee. Om te beginnen bevinden de vragen zich op verschillende meetniveaus, van beperkingen aan het lichaam of geest (‘impairment’) tot het niveau van dagelijks functioneren. Beperkingen aan het lichaam kunnen leiden tot problemen in het dagelijks functioneren en kunnen dus een onderlinge correlatie laten zien. Wanneer correlerende scores van de verschillende vragen worden opgeteld, kan dat leiden tot een vertekening van de resultaten, met een sterker effect in één bepaalde richting.9 Daarnaast is de UPDRS een schaal die ordinale items bevat (zie uitlegkader). Zo kan het antwoord op een vraag bijvoorbeeld variëren van 0 (geen effect), 1 (gering effect), 2 (matig effect), en 3 (sterk effect) tot 4 (zeer sterk effect). Het is zeer onwaarschijnlijk dat een verandering van ‘geen effect’ tot ‘gering effect’ (dus een verschil van 1 punt) even groot is als een verandering van ‘sterk effect’ tot ‘zeer sterk effect’ (eveneens een verschil van 1 punt).10,11 Als men de resultaten per vraag optelt tot een totaalscore wordt tevens verondersteld dat elke vraag dezelfde waarde (‘weging’ of ‘zwaarte’) heeft. Ook dat is onwaarschijnlijk.11 Rekenen met een gemiddelde en een standaarddeviatie is alleen zinvol bij continue schalen met een normale verdeling, niet bij ordinale schalen. ICE-trial nader bekeken De ‘immune globulin intravenous (IGIV) for chronic inflammatory demyelinating polyneuropathy’-trial (ICEtrial; zie de tabel) is de grootste internationale gerandomiseerde studie naar het effect van intraveneus immunoglobuline versus placebo bij patiënten met chronische inflammatoire demyeliniserende polyneuropathie (CIDP). De resultaten werden in 2008 gepubliceerd.6 Er werden statistisch significante verschillen gevonden in TABEL Doel, patiëntenpopulatie en primaire uitkomstmaat van 2 dubbelblinde, gerandomiseerde trials1,6 kenmerk trial ADAGIO doel patiënten primaire uitkomstmaat ICE het mogelijke ziekte modulerend effect van rasagiline bij de ziekte het korte- en langetermijneffect van intraveneus immunoglobuline van Parkinson onderzoeken bij CIDP vaststellen 1176 onbehandelde patiënten met de ziekte van Parkinson 117 patiënten met CIDP score op de aangepaste INCAT-‘disability’-schaal, een 9-puntsschaal score op de UPDRS, een 176-puntsschaal waarbij een hogere waarbij een hogere score meer functionele beperkingen uitkomst ernstigere ziekte weergeeft; dit is een samengestelde weergeeft; in deze aangepaste schaal worden veranderingen vragenlijst met subschalen op het gebied van mentaal in de functie van de bovenste ledenmaten van 0 (normaal) functioneren, dagelijkse activiteiten en motorische functie naar 1 (minimale symptomen) of omgekeerd op de INCATdisabilityschaal niet meegerekend ADAGIO = ‘attenuation of disease progression with azilect given once-daily; ICE = ‘immune globulin intravenous (IGIV) for chronic inflammatory demyelinating polyneuropathy’; CIDP = chronische inflammatoire demyeliniserende polyneuropathie; UPDRS = ‘unified Parkinson disability rating scale’; INCAT = ‘inflammatory neuropathy cause and treatment’. 2 NED TIJDSCHR GENEESKD. 2010;154:A2516 -2 -4 0,754 O PI NI E 0,8 0 effectgrootte verandering in ‘disablilty’-score 2 0,5 -6 0,226 -8 0 IGIV a placebo SF-36 vraag 2 grenswaarde: 0,60 IGIV placebo IGIV placebo 1 × SEM 0,5 × SD grenswaarde: 0,64 grenswaarde: 0,72 berekening minimale klinisch relevante verandering b grenswaarde: 0,5 FIGUUR 1 Weergave van de klinische relevantie van het effect van intraveneus toegediend immunoglobuline (IGIV) en placebo bij een immuungemedieerde polyneuropathie. Het effect van de behandeling is weergegeven als (a) verandering in de ‘inflammatory neuropathy cause and treatment (INCAT) disability’-score (0 = geen dagelijkse beperkingen; 10 = maximale dagelijkse beperkingen) en (b) effectgrootte in de IGIV-groep ( ) en de placebogroep ( ). De effectgrootte is de gemiddelde verandering in score gedeeld door de standaarddeviatie van de uitgangswaarde (tijdstip 0). Een afname van de disabilityscore of een toename van de effectgrootte betekent een klinische verbetering. Voor de berekening van het minimale klinisch relevante effect (‘grenswaarde’) werden 4 methoden gebruikt, gebaseerd op (a) gegevens uit de SF-36-vragenlijst, de standaarddeviatie (SD) of de ‘standard error of measurement’ (SEM) van de scores op de disabilityschaal en (b) de gemiddelde effectgrootte. De grenswaarden zijn per methode aangegeven door een ). Uit de aantallen bolletjes onder de horizontale zwarte lijn ( grenswaarden in figuur a blijkt dat bij méér patiënten een verbetering was opgetreden na behandeling met IGIV ( ) dan na toediening van placebo ( ). De verschillen tussen de behandelde groep en de placebogroep waren significant voor alle 4 methoden (exacte toets van Fisher). de score voor de ‘inflammatory neuropathy cause and treatment’(INCAT)-criteria en in de knijpkracht ten gunste van de behandelde patiëntengroep in vergelijking met de placebogroep.6 Bepaling MCID De resultaten werden verder geanalyseerd uitgaand van het MCID-concept.12 De belangrijkste vraag was of de MCID-grenswaarden significant onderscheid zouden kunnen maken tussen de 2 groepen (IGIV versus placebo). Aangezien er geen consensus bestaat over welke techniek gebruikt dient te worden, werd de MCID volgens 4 verschillende technieken berekend: 1 anker-gebaseerde techniek (SF-36 vraag 2) en 3 distributie-gebaseerde technieken (0,5 × SD, 1 × ‘standard error of measurement’ (SEM) en effectgrootte met grenswaarde 0,5; zie figuur 1). In de studie werden uitkomstmaten van verschillende niveaus gebruikt, namelijk op het ‘impairment’-niveau (neurofysiologische parameters, somscore voor motoriek volgens de schaal van de Medical Research Council (MRC), knijpkracht, INCAT-gevoelsschaal), op het niveau van dagelijks functioneren (INCAT-‘disability’schaal, Rotterdam-handicapschaal) en op het niveau van kwaliteit van leven (fysieke en mentale component van de SF-36-scores). Patiënten werden als respondenten gezien als de MCID-grenswaarde voor een schaal gehaald werd aan het einde van de eerste periode (24 weken) na randomisatie. De percentages respondenten in de IGIVgroep en de placebogroep werden vervolgens met elkaar vergeleken.12 Met alle 4 MCID-technieken werden voor de primaire uitkomstmaat van de ICE-studie, de INCAT-disabilityscore, meer respondenten gevonden in de behandelde groep dan in de placebogroep (zie figuur 1). Voor de diverse MCID-methoden werden verder klinisch significante verschillen gezien in het voordeel van de IGIVgroep bij sommige neurofysiologische parameters, de MRC-somscore, knijpkracht, de Rotterdam-handicapschaal en de score voor de fysieke component van de SF-36. Figuur 2 geeft een overzicht van de bevindingen van de MCID-techniek volgens de ‘universele theorie’ voor de verschillende uitkomstmaten. Het percentage patiënten dat de MCID-grenswaarde haalde werd voor beide groepen (IGIV- en placebogroep) afgezet tegen de verschil- NED TIJDSCHR GENEESKD. 2010;154:A2516 3 Klinische relevantie effecten in ADAGIO- en ICE-trial Klinische relevantie, afgelezen aan de MCID, blijkt diverse ‘gezichten’ te hebben.13 Er is, zoals gezegd, geen algemene consensus over welke techniek voor de berekening van de MCID de voorkeur heeft. Daarom werden in de ICE-trial diverse MCID-technieken toegepast.12 De resultaten blijken robuust te zijn: alle gebruikte technieken leidden tot dezelfde conclusie over het effect van de behandeling. In hun publicatie stellen de onderzoekers voor een combinatie te gebruiken van één anker-gebaseerde en één distributie-gebaseerde MCID-techniek, de zogenaamde ‘combined MCID robustness approach’, om aan te geven wat als ‘klinische verbetering’ beschouwd mag worden.12 Als de MCID, berekend volgens de ‘universele theorie’, wordt gehanteerd bij de ADAGIO-studie, dan heeft het kleine verschil tussen de groep behandeld met rasagiline en de placebogroep waarschijnlijk weinig klinische relevantie, ook al was dit verschil statistisch significant.1 Voorzichtigheid is dus geboden bij het hanteren van de resultaten van de ADAGIO-studie als basis voor het voorschrijven van rasagiline. Zoals gezegd hebben ordinale uitkomstmaten bepaalde tekortkomingen.11 In de ICE-studie waren de verschillen tussen de 2 groepen echter zo duidelijk dat de klinische relevantie daarvan aantoonbaar was, ondanks het gebruik van ordinale lijsten (zie figuren 1 en 2).12 Toch dienen continue schalen opgesteld te worden voor toekomstige studies. Voor het opstellen van continue schalen zijn moderne klinimetrische technieken beschikbaar, zoals de Rasch-methode.9 De Rasch-methode is gebaseerd op een logische aanname: patiënten met een grotere vaardigheid (minder ziek) hebben een grotere kans op het correct uitvoeren van een moeilijkere vraag of opdracht dan patiënten met een minder grote vaardigheid. Met deze statistische 54 patiënten met klinisch relevante verandering (%) O PI NI E lende uitkomstmaten; vervolgens werd de behandelde groep vergeleken met de placebogroep. Hierbij vond men een significant verschil ten gunste van de behandelde patiëntengroep. In aanvulling op de statistische significantie toont deze studie ook de klinische relevantie van de behandeling aan met behulp van diverse definities van de MCID.12 † * 48 † 42 * 36 30 * * * 24 18 12 6 0 gemiddelde CMAP geleidingssnelheid motorneuronen conductieblokkade (%) MRCscore knijpkracht dominante hand INCAT gevoelsscore INCAT ‘disability’score Rotterdam handicapschaal SF-36 mentale component SF-36 fysieke component uitkomstmaat FIGUUR 2 Vergelijking van een behandelde groep ( ) met een placebogroep ( ) op grond van klinisch relevante effecten, in een onderzoek naar het effect van intraveneus toegediend immunoglobuline op een immuungemedieerde polyneuropathie. De minimaal vereiste klinisch relevante verandering (‘minimally clinically important difference’, MCID) werd gedefinieerd als 0,5 × SD, waarbij de SD staat voor de standaarddeviatie van de theoretische totale spreiding van de gebruikte uitkomstmaat. Op bijna alle uitkomstmaten 4 was er een statistisch significant verschil in het percentage patiënten bij wie een MCID was opgetreden tussen de behandelde groep en de placebogroep, met uitzondering van de INCAT-gevoelsschaal en de SF-36-componentscores (* p < 0,01; † p < 0,001). CMAP = ‘compound muscle action potential’; MRC = schaal voor motoriek volgens de Medical Research Council; SF-36 = ‘short form-36’-vragenlijst. NED TIJDSCHR GENEESKD. 2010;154:A2516 eerde uitkomstmaten, gebaseerd op moderne klinimetrische technieken, een centralere rol krijgen bij de interpretatie van onderzoeksresultaten. Het varen op statistische significantie kan de dokter verblinden en de patiënt valse hoop geven. Belangenconflict: geen gemeld. Financiële ondersteuning: De stichting ter bevordering van neuromusculair onderzoek (Maastricht Universitair Medisch Centrum) ontving een financiële vergoeding van CSL Behring en Octapharma Conclusie voor activiteiten van dr. I. Merkies. Ook ontving I. Merkies financiële onder- Het meten van de functionele toestand van chronisch zieken dient te geschieden met schalen die zijn gebaseerd op moderne klinimetrische methodes, zoals het Raschmodel. De basisprincipes hiervan zouden bij alle medici bekend moeten zijn, om de interpretatie van gepubliceerde resultaten en de opzet van toekomstige studies te bevorderen.9 In de neurologie en waarschijnlijk ook andere vakgebieden dient een ‘paradigmaverschuiving’ plaats te vinden bij medici en wetenschappers, waarbij goed geconstru- steuning van de GBS/CIDP Foundation International en van het Talecris Talents Program voor zijn onderzoek (PeriNomS-studie). E. Vanhoutte ontving een PNS Baxter Fellowship grant voor haar onderzoeks activiteiten (PeriNomS-studie) Aanvaard op 22 september 2010 Citeer als: Ned Tijdschr Geneeskd. 2010;154:A2516 >Meer op www.ntvg.nl/opinie ● Literatuur 1 Olanow CW, Rascol O, Hauser R, et al. A double-blind, delayed-start trial 8 2 3 4 in Parkinson’s disease. Florom Park: Macmillan; 1987, :153-63. Sterne JA, Davey Smith G. Sifting the evidence-what’s wrong with 9 significance tests? BMJ. 2001;322:226-31. rheumatology: what is it and why use it? When should it be applied, and testing in biomedical research. Eur J Epidemiol. 2010;25:225-30. what should one look for in a Rasch paper? Arthritis Rheum. 2007;57:1358-62. Sloan J, Symonds T, Vargas-Chanes D, Fridley B. Practical guidelines for 10 Stucki G, Daltroy L, Katz JN, Johannesson M, Liang MH. Interpretation of change scores in ordinal clinical scales and health status measures: the within clinical trials. Drug Inf J. 2003;37:23-31. 6 7 Tennant A, Conaghan PG. The Rasch measurement model in Stang A, Poole C, Kuss O. The ongoing tyranny of statistical significance assessing the clinical significance of health-related quality of life changes 5 Fahn S, Elton R. Committee motUD. Unified Parkinson’s disease rating scale. In: Fahn S, Marsden CD, Calne D, et al. (eds). Recent developments of rasagiline in Parkinson’s disease. N Engl J Med. 2009;361:1268-78. whole may not equal the sum of the parts. J Clin Epidemiol. 1996;49:711-7. Copay AG, Subach BR, Glassman SD, Polly DW Jr, Schuler TC. Understanding the minimum clinically important difference: a review of 11 concepts and methods. Spine J. 2007;7:541-6. 12 Merkies IS, Van Nes SI, Hanna K, Hughes RA, Deng C. Confirming the DeVellis RF. Classical test theory. Med Care. 2006;44(Suppl 3):S50-9. Hughes RA, Donofrio P, Bril V, et al. Intravenous immune globulin (10% efficacy of intravenous immunoglobulin in CIDP through minimum caprylate-chromatography purified) for the treatment of chronic clinically important differences: shifting from statistical significance to inflammatory demyelinating polyradiculoneuropathy (ICE study): a clinical relevance. J Neurol Neurosurg Psychiatry. 2010;81:1194-9. randomised placebo-controlled trial. Lancet Neurol. 2008;7:136-44. 13 Beaton DE, Boers M, Wells GA. Many faces of the minimal clinically Norman GR, Sloan JA, Wyrwich KW. Interpretation of changes in health- important difference (MCID): a literature review and directions for future related quality of life: the remarkable universality of half a standard research. Curr Opin Rheumatol. 2002;14:109-14. deviation. Med Care. 2003;41:582-92. NED TIJDSCHR GENEESKD. 2010;154:A2516 5 O PI NI E techniek kunnen data van een ordinale schaal worden omgezet in een continue uitkomstmaat en kunnen diverse klinimetrische aspecten ook getoetst worden. Zo kunnen mogelijke vertekenende factoren (‘confounders’) onderzocht worden, bijvoorbeeld het effect van geslacht op antwoorden. Ook voorkomt men dat resultaten vertekend raken door een correlatie tussen de diverse items van een schaal.