Evaluatie-onderzoek: van gerandomiseerd experiment naar natuurlijke experiment Lex Burdorf Afdeling Maatschappelijke Gezondheidszorg Erasmus MC Rotterdam Evaluatie-onderzoek Waarom is het gerandomiseerd experiment de gouden standaard: - randomisatie zorgt er voor dat alle mogelijke oorzaken van de uitkomstmaat gelijkelijk verdeeld zijn over interventie en controlegroep - geen allocatie bias (balans van alle (onbekende) prognostische factoren - conclusie over causaliteit …maar wat dan voor de volgende interventies in de publieke gezondheidszorg: - introductie van veiligheidsgordel in auto - verwijdering van lood uit benzine - renovatie van woningen in achterstandswijk - aanleg van fietspaden in de stad - media campagne “ik ben de bob” Evaluatie-onderzoek Het gerandomiseerd experiment (RCT) Alternatieven voor niet-gerandomiseerde evaluatie van interventies: 1. Pre-post design 2. Analyse van observationele studies als niet-gerandomiseerde trials 3. Propensity score methode 4. Instrumentele variabele methode 5. ‘Interrupted time series’ analyse 6. Community intervention trials RCT Fit for Work Doelgroep: Uitkeringsgerechtigden met grote afstand tot arbeidsmarkt en psychische problemen en andere belemmeringen Populatie: Uitkeringsgerechtigden in de 4 grote steden (+ Capelle a/d IJssel) Subsidie: ZonMW voor Wetenschappelijk onderzoek (€550k) Min SZW, UWV, gemeentelijke SD voor interventiekosten Effectevaluatie Fit4Work Onderzoeksvragen Welke factoren bepalen het bereik, deelname en minimale drop-out? Wat zijn de effecten van F4W op ervaren psychische gezondheid, werkhervatting en sociale participatie? Wat zijn de kosten en baten tov de effecten van F4W? Primaire uitkomstmaten Ervaren psychische gezondheid (MHI-5) Werkhervatting (zelf geformuleerde vragen, data records) Gedeeltelijke werkhervatting (zelf geformuleerde vragen, data records) Sociale participatie (zelf geformuleerde vragen) Secundaire uitkomstmaten Zelfwaardering (Rosenberg Self-Esteem Scale) Veerkracht (Brief Resilient Coping Scale) Sociale problemen (zelf geformuleerde vragen) Ervaren fysieke gezondheid (SF-12) Medische consumptie (TiC-protocol) Aanmelding Design Fit4Work studie Screening Geschikt voor F4W Niet geschikt voor F4W Randomisatie 1e Vragenlijst (baseline) F4W groep (425) Controle groep (425) Verdiepte diagnose Multidisciplinaire casuistiek bespreking Opstellen integraal werkplan Standaard re-integratie traject Uitvoeren integraal werkplan Plaatsing op een werkplek Begeleiding op de werkplek F4W interventie Nazorg 2e vragenlijst (12 mnd) & 3e vragenlijst (24 mnd) Aanmelding Randomisatie + 1e vragenlijst Screening Geschikt voor F4W Niet geschikt voor F4W Randomisatie 1e Vragenlijst (baseline) F4W groep Randomisatie Controle groep Vragenlijst Per gemeente Primaire uitkomstmaten Vastgesteld randomisatie protocol Secundaire uitkomstmaten Door niet direct betrokkene Opleiding en werkervaring Sociaal-demografische kenmerken Motivatie en attitude tov werk Algemene gezondheid Procesevaluatie Fit4Work Formatieve evaluatie Is F4W aangeboden en worden de beoogde werkzame elementen ook toegepast? Hoe groot is het bereik in de doelgroep? Hoeveel personen starten met de interventie? Hoeveel personen die zijn gestart met F4W blijven deelnemen aan het programma (minimale dropout)? Summatieve evaluatie Welke onderdelen van F4W hangen het sterkst samen met de primaire en secundaire uitkomstmaten? Welke subgroepen reageren het beste op de F4W interventie? Invloed van gezondheidsbevordering op gezondheid en werk Waarom is interventie niet succesvol ? De interventie is niet succesvol: - - psycho-educatie (o.a. zelf-redzaamheid) sluit niet aan bij de specifieke doelgroep fysieke activiteiten onvoldoende gericht op verankering van meer bewegen in eigen leven overdracht van interventie naar reïntegratiebedrijven slecht (23% in interventiegroep) interventie staat volledig los van andere reïntegratie-activiteiten - duur van programma te kort tov noodzakelijke gezondheidsverbetering - Alternatieven voor randomisatie in evaluatie van interventies in de publieke gezondheidszorg Kern probleem = bias door imbalans in bekende en onbekende prognostische factoren (allocatie bias, confouding by indication) Potentiele oplossingen: * Pre-interventie matching van controle en interventiegroep op de belangrijkste prognostische factoren * Statistische post-hoc correctie voor potentieel verstorende factoren Cousens et al. Alternatives to randomisation in the evaluation of public-health interventions: statistical analysis and causal inference. J Epid Com Health 2011 Bonell et al. Alternatives to randomisation in the evaluation of public-health interventions: design challenges and solutions. J Epid Com Health 2011 Evaluatie-onderzoek Het gerandomiseerd experiment (RCT) Alternatieven voor niet-gerandomiseerde evaluatie van interventies: 1. Pre-post design 2. Analyse van observationele studies als niet-gerandomiseerde trials 3. Propensity score methode 4. Instrumentele variabele methode 5. ‘Interrupted time series’ analyse 6. Community intervention trials Evaluatie-onderzoek – het probleem van ecologische analyse Messerli. NEJM 2012;367:1562-4 1. Pre-post design Peeters TSG 2009;87:166-73 Gezondheid en werk bij uitkeringsgerechtigden Studie-opzet (Rotterdam) Meting 1 (maand 1) N = 1829 RIB werk Meting 2 (maand 7) N = 965 Doelgroep: Uitkeringsgerechtigden direct verwezen naar reïntegratiebedrijf Uitkeringsgerechtigden eerst gezondheidsinterventie, daarna naar reïntegratiebedrijf Analyse: Mixed model for repeated measurements Gezondheid en werk bij uitkeringsgerechtigden Deelname Start (n=1829, 66%): 70% schriftelijke vragenlijst en 30% interviews Follow-up (n=965, 53%): 79% schriftelijke vragenlijst en 21% interviews Kenmerken Leeftijd 39 jaar (sd 9.6) Man 49% Lage opleiding 57% Niet-Nederlandse afkomst 75% > 5 jaar bijstandsuitkering 43% Gestart met reïntegratie activiteit 30% Gestart in betaalde baan 5% Gezondheid betaalde baan Relatieve risico Algemene gezondheid 1.57 (1.2-2.1)* Fysiek functioneren 2.76 (1.8-4.2)* Ervaren pijn 1.92 (1.4-2.6)* Geestelijke gezondheid 1.19 (0.9-1.6) Sociaal functioneren 1.54 (1.1-2.1)* Vitaliteit 1.48 (1.1-2.0)* Emotionele situatie - functioneren 1.44 (1.1-2.0)* Fysieke situatie - functioneren 1.72 (1.3-2.4)* * p<0.05 Betere gezondheid heeft een positieve invloed op het starten met betaalde arbeid Starten met betaalde arbeid gezondheid Effect van werk op score (sd) Algemene gezondheid + 7.0 (2.7)* Fysiek functioneren + 9.2 (3.4)* Ervaren pijn + 11.3 (3.6)* Geestelijke gezondheid + 11.0 (2.7)* Sociaal functioneren + 14.2 (3.8)* Vitaliteit + 7.8 (2.5)* Emotionele situatie- functioneren + 22.7 (6.8)* Fysieke situatie - functioneren + 20.0 (6.0)* Het starten met betaalde arbeid verbetert alle dimensies van ervaren gezondheid 1. Pre-post design Blozik et al. Inappropriate medication. Drugs Aging 2010;27:1009-27 2. Analyse van observationele studies als nietgerandomiseerde trials Hernan et al. Epidemiology 2008;19:766-79. Observational study: Reduced risk of CHD among postmenopausal hormone users, HR = 0.68 current users vs never users (Nurses’ Health Study in USA) RCT: Intervention treatment (Estrogen plus progestin) resulted in 24% greater incidence of coronary heart disease (Womens’ Health Initiative - 5.6 years follow-up) 2. Analyse van observationele studies als nietgerandomiseerde trials Study population: no use of any hormone therapy during prior 2 years (1982) * Follow-up 2 years: Two non-randomized groups: (1982-1984, ) - (re-) use of oral estrogen plus progestin (1984-1986, etc) - no use of any hormone therapy Restrictions in study population (among others): - no past diagnosis of cancer, myocardial infarction, stroke - plausible energy intake, sufficient information on food Q (mimic the eligibility criteria, followup, treatment arm in RCT) 2. Analyse van observationele studies als nietgerandomiseerde trials * Follow-up until 2000 8 ‘observational trials’ of 2-yr inclusion periods * Statistical analysis: adjustment for a large array of confounders, measured in 1980 and 1982, including: - education, ethnicity, time since menopause - smoking, alcohol, diet, physical activity - parental history of myocardial infarction - own medical history (blood pressure, diabetes) - aspirin use Intention-to-treat analysis 2. Analyse van observationele studies als nietgerandomiseerde trials * 101,819 NHS participants, selected for this analysis 34,575 women NHS re-analysis * HR Hormone Use (CHD event) WHI RCT 1.83 first year follow-up 1.42 first 2 years follow-up 1.68 1.11 first 5 years follow-up 1.00 first 8 years follow-up 0.96 for entire follow-up NHS total cohort analysis current users vs never users: HR = 0.68 (95% CI 0.55-0.83) 1.24 2. Analyse van observationele studies als nietgerandomiseerde trials Explanations for the difference * Start of follow-up (estimated time of therapy initiation between Q2 and Q1 rather than date of Q2) * Definition of users and non-users (exclusion of women who stopped - in an RCT this is intention-to-treat analysis - will bias towards positive finding of hormone use) * Covariates for adjustment (at baseline or at entry in ‘trial’), crucial was distribution of time since menopause (im-balance !) * Eligibility criteria (confounding by indication) 3. Propensity score Analyseplan: 1. Regressie analyse om factoren te bepalen die blootstelling aan interventie voorspellen (= kans dat de interventie wordt aangeboden) (bereken voor elk individu de kans op het krijgen van de interventie) 2. Deel individuen in op basis van de propensity score. Binnen elke categorie van de propensity score hebben sommige individuen daadwerkelijk de interventie gedaan, anderen niet 3. Gestratificeerde analyse op uitkomst tussen personen met de interventie en personen zonder de interventie OF match individuen op de propensity score 3. Propensity score Boer et al. Am J Prev Med 2007;32:298-304 Will neighbourhood design influence walking in metropolitan areas ? 3. Propensity score Toepassing in Rotterdam Evaluatie van de re-integratie aanpak EXiT voor langdurig werklozen met (psychische) gezondheidsproblemen Onderzoek onder werklozen in diverse re-integratietrajecten 4. Instrumentele variabele Een instrument (variabele) dat voldoet aan de volgende criteria: 1. De variabele is een proxy voor de blootstelling aan de interventie 2. De variabele is niet direct geassocieerd met de uitkomstmaat 3. De variabele is niet geassocieerd met (niet gemeten) verstorende variabelen 4. Instrumentele variabele A BTW op sigaretten B C roken Gezondheid 1. Instrumentele variabele: belasting 2. Als belasting alleen gezondheid kan beïnvloeden (A) door de associatie met roken (B) dan… ….kan alleen roken de verklaring zijn voor de gezondheidsverschillen 4. Instrumentele variabele IV – institutioneel aanbod van vervroegd pensioen door bedrijven Gezondheid beinvloedt aanbod niet, additionele regressie analyse liet zien dat cognitieve functie voor aanbod niet van invloed was op het aanbod US HRS 1992-2008, elke 2 jaar follow-up meting 5. Interrupted time series analyse Wetten die motor-rijders verplicht een helm te dragen in relatie tot fatale ongevallen van motor-rijders (staten in de VS) 5. Interrupted time series analysis 5. Interrupted time series analysis 6. Community intervention trials Conclusies Gerandomiseerde studies zijn niet altijd mogelijk en dus niet per definitie de gouden standaard ! In toenemende mate nieuwere technieken om ‘natuurlijke experimenten’ te analyseren met correctie voor allocatie bias Observationele studies kunnen meer worden uitgebaat ! Het is nodig kennis van verschillende vakgebieden integreren [email protected]