PAOG - SPSS cursus 25 augustus & 1 september 2014 HC2 – Statistiek in vogelvlucht PAOG SPSS cursus – afdeling epidemiologie, biostatistiek en HTA Menubalk <Analyze> (Analyseren) • • • • • • • <Descriptive statistics>: beschrijvende statistiek Kruistabellen <Compare means>: Gemiddelden vergelijken T-testen Enkelvoudige variantieanalyse <General Linear Models> Algemene Lineaire Modellen (Meervoudige) variantieanalyse (Meervoudige) regressieanalyse Covariantie analyse <Correlate>: correlatiecoefficienten <Regression > (Multiple) lineaire regressie Logistische regressie <Non parametric tests> <Survival> PAOG-SPSS HC2 t-test t-test voor twee onafhankelijke groepen • Vergelijkt gemiddelde in twee groepen met elkaar • Aanname: afhankelijke variabele normaal verdeeld in beide groepen Gepaarde t-test • Bekijkt of verschil tussen twee gepaarde waarnemingen afwijkt van 0 • Aanname: verschil is normaal verdeeld. PAOG-SPSS HC2 T-test (output t-test twee onafh. steekproeven) Group Statistics Initiele bloeddruk Ges lacht man vrouw N 212 184 Mean 102.3491 102.3424 Std. Deviation 4.48281 4.37793 Std. Error Mean .30788 .32275 Independent Samples Test Levene's Test for Equality of Variances F Initiele bloeddruk Equal variances assumed Equal variances not assumed .637 Sig. .425 t-test for Equality of Means t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper .015 394 .988 .00667 .44679 -.87173 .88506 .015 388.546 .988 .00667 .44604 -.87030 .88363 PAOG-SPSS HC2 T-test (output gepaarde t-test) Paired Samples Statistics Mean Pair 1 Gemiddelde bloeddruk op t1 Gemiddelde bloeddruk op t0 N Std. Deviation Std. Error Mean 92.1086 396 7.47288 .37553 88.4848 396 4.73792 .23809 Paired Samples Test Paired Differences Mean Pair 1 Gemiddelde bloeddruk op t1 - Gemiddelde bloeddruk op t0 3.62374 Std. Deviation Std. Error Mean 7.46688 .37522 95% Confidence Interval of the Difference Lower Upper t 2.88605 9.658 PAOG-SPSS HC2 4.36142 df 395 Sig. (2-tailed) .000 Kruistabellen PAOG-SPSS HC2 Kruistabellen (vervolg 1) PAOG-SPSS HC2 Kruistabellen (vervolg 2: samenvatting) Relatie tussen twee nominale variabelen Toets: Chi-kwadraat Indien 2x2 tabel: Odds ratio of relatief risico Case-control design – OR (benadering RR) Cohort design - RR • • PAOG-SPSS HC2 Enkelvoudige variantieanalyse (Een verklarende variabele) Rookgedrag Gemiddelde Bloeddruk (mm Hg) Roker 76.23 Ex Roker 78.16 Nooit roker 77.85 PAOG-SPSS HC2 Enkelvoudige variantieanalyse (vervolg 1) Afhankelijke variabele: continu; normaal verdeeld Onafhankelijke variabele: nominaal Eenvoudigste geval: t-test (twee groepen) Begrippen: • Percentage verklaarde variantie (R2) <analyze><compare means><one-way anova> of <analyze><general linear models><univariate> PAOG-SPSS HC2 Meervoudige Variantieanalyse (Meerdere verklarende variabelen) Gemiddelde Bloeddruk (mm Hg) Rookgedrag Roker Ex roker Nooit roker Man 77.85 79.59 79.29 Vrouw 74.98 76.73 76.43 Geslacht PAOG-SPSS HC2 Meervoudige variantieanalyse (vervolg 1) Afhankelijke variabele (continu) wordt verklaard uit meerdere onafhankelijke (nominale) variabele. Onafhankelijke variabele: nominaal Effect onafhankelijke variabelen voor elkaar gecorrigeerd <analyze><general linear models><univariate> PAOG-SPSS HC2 Meervoudige variantieanalyse (vervolg 2) Tests of Between-Subjects Effects Dependent Variable: Dias tolis che bloeddruk (mm Hg) Type III Sum Source of Squares Corrected Model 1204.837a Intercept 2885480.799 v2 1002.834 v11 308.765 Error 58137.821 Total 3055236.000 Corrected Total 59342.659 df 3 1 1 2 497 501 500 Mean Square F 401.612 3.433 2885480.799 24666.971 1002.834 8.573 154.383 1.320 116.978 a. R Squared = .020 (Adjusted R Squared = .014) V2 = geslacht; v11 = rookgedrag PAOG-SPSS HC2 Sig. .017 .000 .004 .268 Meervoudige variantieanalyse (vervolg 3) Between-Subjects Factors Ges lacht Rookgedrag 0 1 1 2 3 Value Label Vrouw Man Roker Ex roker Nooit roker N 249 252 215 132 154 Parameter Estimates Dependent Variable: Di as tolis che bloeddruk (m m Hg) Param eter Intercept [v2=0] [v2=1] [v11=1] [v11=2] [v11=3] B 79.296 -2.868 0a -1.444 .298 0a Std. Error 1.057 .979 . 1.157 1.288 . t 75.028 -2.928 . -1.248 .231 . Sig. .000 .004 . .213 .817 . a. This param eter is s et to zero becaus e i t is redundant. V2 = geslacht; V11 = rookgedrag PAOG-SPSS HC2 95% Confi dence Interval Lower Bound Upper Bound 77.219 81.372 -4.792 -.943 . . -3.718 .829 -2.233 2.829 . . Enkelvoudige Regressieanalyse <analyze><regression><linear> Vergelijking (model): Y = aX + b Y: Afhankelijke variabele: wordt voorspeld (continue variabele: normaal verdeeld) X: Onafhankelijke (continue) variabele: voorspelt Y a: richtingscoëfficiënt; b: constante Belangrijke begrippen: • • Residuele spreiding (fout in voorspelling) Percentage verklaarde variantie (R2) PAOG-SPSS HC2 Enkelvoudige regressieanalyse (vervolg 1) (Regressielijn + predictie-interval) PAOG-SPSS HC2 Enkelvoudige regressieanalyse (vervolg 2) Model Summary Model 1 R R Square a .198 .039 Adjus ted R Square .037 Std. Error of the Es timate 10.690 a. Predictors : (Constant), Leeftijd in jaren ANOVAb Model 1 Sum of Squares Regress ion 2318.121 Res idual 57024.538 Total 59342.659 df Mean Square 2318.121 114.278 1 499 500 F 20.285 Sig. .000 a a. Predictors : (Constant), Leeftijd in jaren b. Dependent Variable: Dias tolis che bloeddruk (mm Hg) Coefficientsa Model 1 (Cons tant) Leefti jd in jaren Uns tandardi zed Coeffi cients B Std. Error 66.232 2.510 .318 .071 Standardized Coeffi cients Beta a. Dependent Variabl e: Di as tolis che bl oeddruk (m m Hg) PAOG-SPSS HC2 .198 t 26.390 4.504 Sig. .000 .000 Meervoudige (multiple) regressieanalyse Model: Y = a x + a x + … + a x + b Afhankelijke variabele (continu) wordt verklaard uit meerdere onafhankelijke continue variabelen Effect onafhankelijke variabelen voor elkaar 1 1 2 2 n n gecorrigeerd Meerdere voorwaarden, waaronder: •Residuen normaal verdeeld PAOG-SPSS HC2 Multiple regressieanalyse (vervolg 1) Model Summary Model 1 R R Square a .349 .122 Adjusted R Square .119 Std. Error of the Estimate 10.228 a. Predictors: (Constant), Quetelet index (Kg/m*m), Leeftijd in jaren ANOVAb Model 1 Regress ion Res idual Total Sum of Squares 7243.906 52098.753 59342.659 df 2 498 500 Mean Square 3621.953 104.616 F 34.621 Sig. .000 a a. Predictors : (Constant), Quetel et index (Kg/m *m ), Leeftijd in jaren b. Dependent Variabl e: Di as tolis che bl oeddruk (m m Hg) Coefficientsa Model 1 (Cons tant) Leefti jd in jaren Quetelet index (Kg/m *m ) Uns tandardi zed Coeffi cients B Std. Error 50.019 3.369 .228 .069 .810 .118 Standardized Coeffi cients Beta a. Dependent Variabl e: Di as tolis che bl oeddruk (m m Hg) PAOG-SPSS HC2 .142 .294 t 14.848 3.310 6.862 Sig. .000 .001 .000 Algemene lineaire modellen (General Linear Models) Afhankelijke variabele: Continu. Omvatten: • (Meervoudige) regressie-analyse • (Meervoudige) variantie-analyse • Covariantie-analyse •Onafhankelijke variabelen nominaal én/of continu Welke procedures in SPSS • -General Linear Models, -univariate voor: •Regressie- variantie- en covariantie-analyse • -Regression, -linear voor: •Regressie analyse •(Ook andere: oa logistische regressie via -binary logistic) PAOG-SPSS HC2 Logistische regressieanalyse Vraag: wordt kans op uitval in vierdaagse bepaald door: • Gelopen aantal km (30, 40 of 50) (cat) • Geslacht (cat) • Aanwezigheid metabool syndroom (cat) • Leeftijd (continu) PAOG-SPSS HC2 Logistische regressieanalyse (vervolg 1) Afhankelijke variabele: binair of dichotoom (2 uitkomstmogelijkheden) Onafhankelijke variabele(n): kan van alles zijn • • indien discrete onafhankelijke variabele(n) = analyse kruistabel (OR) Veel (verschillende type) variabelen in model mogelijk (vb confounder correctie) Voordelen • • Geen voorwaarde t.a.v. de onafhankelijke variabelen Regressiecoëfficiënten kunnen geïnterpreteerd worden als OR PAOG-SPSS HC2 Logistische regressieanalyse (Vervolg 2) Dependent variable: Completed Four Days Marsches Dependent Variable Encoding Original Value Internal Value Yes 0 No 1 Categorical Variables Codings Parameter coding Distance walked (30, 40 or 50 kilometers) Gender Metabolic syndrome present Frequency (1) (2) 30 369 .000 .000 40 1622 1.000 .000 50 662 .000 1.000 Male 1441 1.000 Female 1212 .000 No 2570 .000 Yes 83 1.000 PAOG-SPSS HC2 Logistische regressieanalyse (Vervolg 3) Block 1: Method = Enter Omnibus Tests of Model Coefficients Step 1 Chi-square df Sig. Step 11.604 5 .041 Block 11.604 5 .041 Model 11.604 5 .041 Variables in the Equation B Step 1a metabolic(1) .425 S.E. Wald df Sig. Exp(B) .409 1.076 1 .300 1.529 5.119 2 .077 Distance Distance(1) .473 .281 2.836 1 .092 1.605 Distance(2) .672 .298 5.104 1 .024 1.959 Gender(1) .333 .180 3.419 1 .064 1.395 age .000 .001 .040 1 .842 1.000 Constant -3.373 .293 132.616 1 .000 .034 a. Variable(s) entered on step 1: metabolic, Distance, Gender, age. PAOG-SPSS HC2 Kaplan-Meier overlevingsanalyse (Survival curve = overlevingscurve) In SPSS: <analyze><survival><kaplan-meier> PAOG-SPSS HC2 Belangrijke termen / karakteristieken “Overleving” kan van alles zijn • • Sterfte (mortaliteit) Optreden ziekte (morbiditeit) o Afstoting donororgaan o Optreden allergische reactie tegen medicijn Overleving wordt berekend tot optreden “event” of “censurering” Censurering: incomplete follow-up ten gevolge van: • • • • • bereiken afsluitdatum onderzoek sterfte tgv andere oorzaak verhuizing verwijdering uit oz op verzoek patiënt … wat dan ook… dan wordt de tijd “at-risk” meegenomen PAOG-SPSS HC2 Kaplan-Meier analyse Benodigd voor berekeningen: • • • Variabele die tijdstip (dag, week) van “failure ( = event)” of censurering voor elke patiënt aangeeft. Variabele die aangeeft of de gebeurtenis is opgetreden, of lost to follow-up. Eventueel: Variabele die verschillende strata definieert (indien groepen vergeleken moeten worden) Berekeningen: • • • Kans op “dood” (aantal events/aantal patiënten) 1- (kans op “dood”) Cumulatieve kans op ”niet-dood” (overleving) PAOG-SPSS HC2