INDUCTIEVE STATISTIEK Toegepaste hypothesetoetsing met SPSS Tim Vanhoomissen 1 Workshop Inductieve Statistiek INHOUD • Hypothesetoetsing − − − − − Principe van hypothesetoetsing Steekproevenverdeling Centrale limiet theorema Mogelijke fouten Effectgrootte • SPSS: data invoeren en bewerken • Toetsen − T-toetsen − Variantieanalyse, repeated measures − Regressieanalyse 2 Workshop Inductieve Statistiek HYPOTHESETOETSING Empirische cyclus Theorie Statistiek Hypothese Dataverzameling 3 Workshop Inductieve Statistiek HYPOTHESETOETSING Theorie •Drummers zijn dommer dan gemiddelde personen 4 Toetsing Hypothese H1 •Hypothese verwerpen •Hypothese niet verwerpen •Drummers scoren lager op IQ test dan gemiddelde personen Dataverzameling Nulhypothese H0 •IQ test •Gemiddelden •Drummers scoren even hoog op IQ-test als anderen Workshop Inductieve Statistiek HYPOTHESETOETSING • Dus: nulhypothese (onschuld) wordt verworpen als de kans klein is dat het bewijsmateriaal aanwezig is terwijl de nulhypothese klopt. In statistiek: • Nulhypothese wordt verworpen als de kans klein is om een bepaald steekproefgemiddelde te observeren terwijl de nulhypothese klopt. • Nulhypothese wordt behouden als de kans groot is om een bepaald steekproefgemiddelde te observeren terwijl de nulhypothese klopt. 5 Workshop Inductieve Statistiek Theorie HYPOTHESETOETSING Hypothes e Toetsing Dataverza meling Nulhypot hese Kansen zijn dus noodzakelijk om inductieve beslissingen te kunnen nemen => kansverdeling van steekproefgemiddelden => om te beslissen of onze steekproef uitzonderlijk is of niet We trokken een steekproef van drummers en vonden een gemiddeld IQ van 96. We weten dat het gemiddelde IQ 100 is. Hoe groot is nu de kans om een gemiddelde van ,25 96 te vinden terwijl de populatie drummers toch niet afwijkt van ,20 de algemene populatie? Kunnen we afleiden uit de verdeling van de steekproefgemiddelden: kans ,15 ,10 ,05 ,00 90 92 94 96 98 100 102 punten statistiek 6 Workshop Inductieve Statistiek 104 106 108 110 populatie steekproef steekproevenverdeling 7 Workshop Inductieve Statistiek DE STEEKPROEVENVERDELING Hoe groter de steekproef, hoe meer de normale verdeling benaderd wordt: (vb: gooien van 1 dobbelsteen) Abraham De Moivre, 17E 8 Workshop Inductieve Statistiek DE STEEKPROEVENVERDELING Vorm van de steekproevenverdeling? populatie normaal verdeeld? ja nee nee steekproefgrootte? / > 30 < 30 steekproevenverdeling 9 normaal verdeeld met verw. waarde μ en / N Hoofdstuk 2: Kansverdelingen en kansberekening onzeker DE STEEKPROEVENVERDELING Wat is er nu zo cool aan de steekproevenverdeling van het gemiddelde? Aangezien − we kennen: µ en N of s N − we weten dat ze normaal verdeeld is (als populatie normaal verdeeld is of als N > 30) kunnen we z-scores berekenen en kansen uit de standaardnormaalverdeling halen! 10 Hoofdstuk 2: Kansverdelingen en kansberekening z x X X HYPOTHESETOETSING Terug naar de drummers: Theorie Toetsing Dataverza meling Hypothes e Nulhypot hese steekproef: N = 36 ; X = 96 ; SX = 13 populatie: µ = 100 en = 15 >> kans berekenen op een gemiddelde van 96 of hoger bij een µ = 100 en = 15 Stap1: z (96) 96 100 1.6 15 36 Stap 2: P(z < -1.6) = 0.0548 ? 11 Workshop Inductieve Statistiek HYPOTHESETOETSING Kleine kans / grote kans? 5% = α ,03 ,03 kans ,02 Sir Ronald Fisher, ernstig nadenkend over hoe groot een kleine kans is. ,02 ,01 ,01 ,00 20 40 60 80 100 IQ 12 Workshop Inductieve Statistiek 120 140 160 180 HYPOTHESETOETSING Betekenis 5% 13 EÉN- OF TWEEZIJDIG? 14 EÉN- OF TWEEZIJDIG? De keuze kan bepalend zijn voor significantie! Populariteit van docenten statistiek is in populatie normaal verdeeld met µ = 100 en σ = 15. Onderzoekshypothese: 1. door doorgedreven training en complete restyling kan de populariteitsscore stijgen (= eenzijdig). of: 2. door doorgedreven training en complete restyling kan de populariteitsscore veranderen (= tweezijdig). 25 docenten worden getraind. Populariteitsscore na training in deze steekproef = 105. 15 EÉN- OF TWEEZIJDIG? 1. Rechtseenzijdig toetsen: H0: µ ≤ 100 H1: µ > 100 105 100 105 100 zx 25 1.67 15 15 25 Pr (1.67) = 0.0475 = 0.048 Is 0.048 ≤ 0.05? -> ja, dus verwerp H0 µ ≤ 100 16 EÉN- OF TWEEZIJDIG? 2. Tweezijdig toetsen: H0: µ = 100 H1: µ ≠ 100 105 100 105 100 zx 25 1.67 15 15 25 Pd (1.67)= 2 * Pr (1.67) = 2 * 0.0475 = 0.095 Is 0.095 ≤ 0.05? -> neen, dus verwerp H0 µ = 100 niet 17 EÉN- OF TWEEZIJDIG? In SPSS meestal tweezijdige overschrijdingskans! Independent Samples Test Lev ene's Test f or Equality of Varianc es F inf o Equal v ariances ass umed Equal v ariances not as sumed ,109 Sig. ,741 t-test f or Equality of Means t df Sig. (2-t ailed) Mean Dif f erence Std. Error Dif f erence 95% Conf idenc e Interv al of the Dif f erence Lower Upper -2,342 697 ,019 -, 0929 ,03968 -, 17082 -, 01502 -2,350 687,853 ,019 -, 0929 ,03954 -, 17056 -, 01528 éénzijdige overschrijdingskans nodig? => sig (2-tailed) / 2 en vgl met α tweezijdige overschrijdingskans nodig? => sig (2-tailed) direct vgl met α 18 ONZEKERHEDEN Zijn we daar nu helemaal zeker van? Beslissing Realiteit H0 verwerpen H0 niet verwerpen H0 is waar Type I-fout =α Correct aanvaarden =1-α H0 is niet waar Correcte verwerping =1-β Type II-fout =β = sensitivity / power 19 ONZEKERHEDEN = .05 .025 .025 H0 waar “verwerp H0” “aanvaard H0” H0 niet waar “verwerp H0” 20 ONZEKERHEDEN = .016 .008 .008 H0 waar “verwerp H0” “aanvaard H0” H0 niet waar “verwerp H0” 21 EFFECTGROOTTE • Effectgrootte = indicatie van de mate waarin de onafhankelijke variabele de variatie in de afhankelijke variabele kan verklaren. • Kan uitgedrukt worden in uiteenlopende grootheden (r, d, …) maar vaak wordt r gebruikt. • Interpretatie: − .10 < r < .30 : klein effect − .30 < r < .50 : matig effect − r > .50 : sterk effect • Dus: 22 − Significantie: “Is er een effect van seksuele deprivatie op alcoholgebruik?” − Effectgrootte: “Hoe sterk bepaalt seksuele deprivatie het alcoholgebruik?” DATA ORGANISEREN De meest gebruikte commando’s om data te ordenen in SPSS. •23 Workshop Inductieve Statistiek SPSS • • • • 24 Interface Importeren (*.xls , *.csv , …) Recode Compute Workshop Inductieve Statistiek TOETSEN De meest gebruikte parametrische en nonparametrische toetsen 25 Workshop Inductieve Statistiek PARAMETRISCH VS. NONPARAMETRISCH Parametrische toetsen • variabelen normaal verdeeld in populatie • (afhankelijke) variabelen gemeten op intervalniveau • steekproeven hebben gelijke varianties * *als er meerdere steekproeven zijn 26 Non-parametrische toetsen • geen normale verdeling vereist • voordeel: breder inzetbaar wegens minder voorwaarden, ook bij nominale- en ordinale variabelen • nadeel: minder snel significante resultaten type AV? aantal OV? type OV? niet in dit boek hoeveel populaties? categorieën afhankelijk? parametrisch non-parametrisch one sample t-test / z-test chi-square goodness of fit onafh. independent t-test / z-test Rank-sum afh. dependent t-test Signed-ranks onafh. one way ANOVA Kruskal-Wallis afh. repeated measures ANOVA Friedman’s ANOVA Pearson correlation Spearman correlation 1 nominaal 2 1 >2 interval/ ordinaal interval/ ordinaal nominaal >1 nominaal 1 ≥2 onafh. n-way ANOVA afh. repeated measures ANOVA gemengd mixed design ANOVA interval multiple regression gemengd multiple regression 1 onafh. chi-square goodness of fit ≥2 onafh. Pearson chi-square nominaal/ ordinaal gemengd logistic regression STRAMIEN TOETSEN 1. Toetsingssituatie Bij welk soort onderzoeksvragen gebruik je deze toets? 2. Voorwaarden Wanneer mag je deze toets wel/niet gebruiken? 3. Hypothesen Hoe zien H0 en H1 eruit wanneer je deze toets gebruikt? 4. Toetsingsgrootheid Welke grootheid bereken je en wat is de kansverdeling van die grootheid? 5. Beslissingsregels Wanneer verwerp je H0: via overschrijdingskansen of kritieke waarden? 6. Effectgrootte Hoe belangrijk is het gevonden effect? 7. Rapporteren Hoe vermeld je op een juiste manier de resultaten? 28 Workshop Inductieve Statistiek T-TOETS VOOR HET GEMIDDELDE 1. Toetsingssituatie Heeft het gemiddelde van de populatie waaruit de steekproef afkomstig is een bepaalde waarde of niet? 2. Voorwaarden • σ is niet bekend en populatie is normaal verdeeld en N < 100 • N > 30 en populatie is niet normaal verdeeld σ bekend? p n o p u l a t i e N v e r d e e l d ? 1 2 3 4 J a J a J N J a J a N ≥ 1 Z ( 0 σ 0 ) < 1 Z ( 0 σ 0 ) a e e ≥ 1 Z ( j 0 σ 0 ) 5 e e a ≥ 1 Z ( 0 s 0 ) 6 7 N N e e J N e e N ≥ 1 Z ( 0 s 0 ) a e < 1 - G - W 3 29 Hoofdstuk 4: Toetsen voor één populatie e G a l 0 e 0 e e 0 - J < e n Z l t n e s e < n a l 1 s 0 0 t < e a < n 8 1 - G - W 0 e 0 e e e e N e e < n l N Z t G - W 3 - 3 0 1 - n 0 e 0 e e 0 < G e < n Z l t n e 3 < n a 1 t 0 l 0 a s 0 l s T-TOETS VOOR HET GEMIDDELDE • Opmerking: SPSS gaat ervan uit dat σ niet gekend is en voert steeds een t-toets uit (dus ook in situaties waar een Z-toets toegelaten is) • Maar: de overschrijdingskansen bij een t-toets zijn groter dan bij een z-toets (zie ook dikkere staarten in t-verdeling in vergelijking met z-verdeling) • Gevolg: H0 zal minder snel verworpen worden bij een t-toets in vergelijking met een z-toets: 1-β (P om H0 terecht te verwerpen - onderscheidingsvermogen) neemt af • We krijgen dus minder snel een significant resultaat bij een t- toets in vergelijking met een z-toets. Daarom eventueel manuele Z-toets gebruiken als aan de voorwaarden is voldaan. 30 Hoofdstuk 4: Toetsen voor één populatie T-TOETS VOOR HET GEMIDDELDE 3. Hypothesen Linkseenzijdig H0: µ ≥ µ0 H1: µ < µ0 Rechtseenzijdig H0: µ ≤ µ0 H1: µ > µ0 Tweezijdig H0: µ = µ0 H1: µ ≠ µ0 µ0 = veronderstelde waarde voor populatiegemiddelde µ 31 Hoofdstuk 4: Toetsen voor één populatie T-TOETS VOOR HET GEMIDDELDE 4. Toetsingsgrootheid tx X 0 X 0 s s N N cfr. Z-toets maar s ipv σ Kansverdeling: Student t-verdeling Vrijheidsgraden: df = N-1 32 Hoofdstuk 4: Toetsen voor één populatie T-TOETS VOOR HET GEMIDDELDE Student t-verdeling Lijkt sterk op de normale verdeling - Symmetrisch - Gemiddelde = 0 - Bij oneindig grote steekproef identiek Verschillen: - Iets platter, dikkere staarten - Bepaald door grootte steekproef -> Meerdere t-verdelingen: parameter df 33 Hoofdstuk 4: Toetsen voor één populatie William Gosset, zichtbaar tevreden met het ontdekken van de t-verdeling T-TOETS VOOR HET GEMIDDELDE 5. Beslissingsregels a. overschrijdingskansen - H0 verwerpen indien: Pl (t x) ≤ α? >> linkseenzijdig Pr (t x) ≤ α? >> rechtseenzijdig Pd (t x) = 2*Pl (t x) ≤ α? (als X < μ) >> tweezijdig 2*Pr (t x) ≤ α? (als X > μ) 34 Hoofdstuk 4: Toetsen voor één populatie T-TOETS VOOR HET GEMIDDELDE • Demo SPSS: metalfans en haarlengte • Hebben metalfans langere haren dan de gemiddelde volwassene? • (boek p76) • Tests voor normaliteit: boek p.237 35 Hoofdstuk 4: Toetsen voor één populatie T-TOETS VOOR HET GEMIDDELDE 6. Effectgrootte 7. Rapporteren Om na te gaan of metalfans langere haren hebben dan de algemene bevolking werd een one sample t-test uitgevoerd. Gemiddeld hadden de metalfans uit de steekproef langere haren (M = 9.83, SD = 2.62) dan de referentiewaarde 8.9 uit de populatie, t(59) = 2.739, p = .008, r = .34. 36 Hoofdstuk 4: Toetsen voor één populatie Χ²-TOETS VOOR FREQUENTIES Wat als niet voldaan is aan voorwaarden voor parametrisch toetsen bij bestuderen van 1 populatie? • variabele niet normaal verdeeld in populatie? • steekproef < 30 ? • geen intervalvariabele? χ²-toets voor frequenties 37 Hoofdstuk 4: Toetsen voor één populatie Χ²-TOETS VOOR FREQUENTIES 1. Toetsingssituatie Stemmen de geobserveerde frequenties in de steekproef overeen met de verwachte frequenties op basis van normen of eerder onderzoek? Vb. Stemmen de frequenties leerlingen die lezen op niveau AVI-2, AVI-3, AVI-4 en AVI-5 in het tweede leerjaar van een bepaalde school overeen met de frequenties van deze leesniveaus in de algemene bevolking? 2. Voorwaarden • de categorieën waarvan de frequenties bestudeerd worden moeten elkaar uitsluiten. • 20% of minder van de categorieën heeft een verwachte frequentie kleiner dan 5; • geen enkele categorie heeft een verwachte frequentie van minder dan 1; • ordinale variabelen worden beschouwd als nominale variabelen. 38 Hoofdstuk 4: Toetsen voor één populatie Χ²-TOETS VOOR FREQUENTIES 3. Hypothesen Enkel tweezijdig! H0: π1 = π2 = … = πk H1: niet H0 Of H0: π1 = πA ; π2 = πB ; … ; πk = πK H1: niet H0 39 Hoofdstuk 4: Toetsen voor één populatie Χ²-TOETS VOOR FREQUENTIES 4. Toetsingsgrootheid met df = k – 1 fo = geobserveerde frequenties fe = verwachte frequenties k = aantal categorieën 40 Hoofdstuk 4: Toetsen voor één populatie Χ²-TOETS VOOR FREQUENTIES 5. Beslissingsregels a. overschrijdingskansen maar χ²-verdeling afhankelijk van df, dus teveel mogelijkheden om te tabelleren, daarom: b. 41 kritieke waarden Hoofdstuk 4: Toetsen voor één populatie Χ²-TOETS VOOR FREQUENTIES 6. Effectgrootte (phi) (interpreteerbaar zoals r) 7. Rapporteren Verwachte en geobserveerde proportie, X², df, p-waarde. 42 Hoofdstuk 4: Toetsen voor één populatie Χ²-TOETS VOOR FREQUENTIES • Demo SPSS: voorkeur vrijetijdsactiviteit bij senioren. • Een gemoedelijke Duitse gemeente wil in het kader van de budgettering voor recreatie weten of de senioren in de gemeente een uitgesproken voorkeur hebben voor een bepaalde vrijetijdsactiviteit. Een steekproef van senioren wordt gevraagd een keuze te maken tussen wandelen, fietsen of rotsklimmen. 43 Hoofdstuk 4: Toetsen voor één populatie type AV? aantal OV? type OV? niet in dit boek hoeveel populaties? categorieën afhankelijk? parametrisch non-parametrisch one sample t-test / z-test chi-square goodness of fit onafh. independent t-test / z-test Rank-sum afh. dependent t-test Signed-ranks onafh. one way ANOVA Kruskal-Wallis afh. repeated measures ANOVA Friedman’s ANOVA Pearson correlation Spearman correlation 1 nominaal 2 1 >2 interval/ ordinaal interval/ ordinaal nominaal >1 nominaal 1 onafh. n-way ANOVA afh. repeated measures ANOVA gemengd mixed design ANOVA interval multiple regression gemengd multiple regression 1 onafh. chi-square goodness of fit ≥2 onafh. Pearson chi-square nominaal/ ordinaal •Workshop Inductieve Statistiek •44 T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN 1. Toetsingssituatie Verschilt het gemiddelde in populatie 1 van het gemiddelde in populatie 2 waaruit de steekproeven afkomstig zijn? Vb. Besteden jongens evenveel tijd aan hun huiswerk dan meisjes in de lagere school? Belangrijk: onafhankelijke steekproeven 2. Voorwaarden • σ1 en σ2 zijn niet bekend en populaties zijn normaal verdeeld en n1 < 100 en n2 < 100 • populaties zijn niet normaal verdeeld, 30 < n1 < 100 en 30 < n2 < 100 45 Hoofdstuk 5: Twee gemiddelden T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN σ 1 p o n 1 e p u e σ n l n a 2 t n i b e s e N k e n v d e ? r d e e l d ? 2 1 2 3 4 J a J a J N J a J a ≥ 1 Z ( 0 σ 0 ) N < 1 Z ( 0 σ 0 ) a e e ≥ 1 Z ( J 0 σ 0 ) 5 e e a ≥ 1 Z ( 0 s 0 ) N e e N e e ≥ 1 Z ( 7 J N a N 0 s 6 0 ) e < - - G 0 3 0 - 3. Hypothesen Linkseenzijdig H0: H1: Rechtseenzijdig H0: H1: Tweezijdig H0: H1: 46 µ1 ≥ µ1 < µ1 ≤ µ1 > µ1 = µ1 ≠ µ2 µ2 µ2 µ2 µ2 µ2 Hoofdstuk 5: Twee gemiddelden of H0: H1: H0: H1: H0: H0: 0 e e n l t < e n µ1 µ1 µ1 µ1 µ1 µ1 Z 1 2 e l s < < n 2 t < - - 1 0 0 1 0 0 a 3 l s e n n 1 1 G W 0 0 N e e N e e < e e n e l t Z 1 - - G 3 0 3 0 o 0 0 0 0 0 0 0 W - 0 µ2 ≥ µ2 < µ2 ≤ µ2 > µ2 = µ2 ≠ e a - a n n e < e < G f J 0 W 3 o e 1 8 e e n e l t < < G f 0 n n e n Z a 1 2 e 2 l s < < n t < 1 0 0 1 0 0 a 3 l 0 s e n 1 n T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN 2 varianten om de toetsingsgrootheid te berekenen: • Variant 1: varianties in twee populaties zijn gelijk • Variant 2: varianties in twee populaties zijn niet gelijk >> F-toets voor gelijke varianties wordt in SPSS vaak mee gerapporteerd bij andere toetsen (Levene’s test bij ttest, ANOVA) 47 Hoofdstuk 5: Twee gemiddelden F-TOETS VOOR 2 VARIANTIES 1. Toetsingssituatie Verschillen twee populatievarianties of niet? (als ‘hulptoets’ bij t-toets, of op zichzelf) 2. Voorwaarden Populaties waaruit steekproeven komen zijn normaal verdeeld Indien n > 100 is het minder erg als populaties niet normaal verdeeld zijn In SPSS: Levene’s test for equality of variances (ook F-toets) 3. Hypothesen Linkseenzijdig Rechtseenzijdig Tweezijdig 48 H0: σ²1 ≥ σ²2 of H0: σ²1 - σ²2 ≥ 0 H1: σ²1 < σ²2 H1: σ²1 - σ²2 < 0 H0: σ²1 ≤ σ²2 H0: σ²1 – σ²2 ≤ 0 H1: σ²1 > σ²2 H1: σ²1 - σ²2 > 0 H0: σ²1 = σ²2 H0: σ²1 – σ²2 = 0 H1: σ²1 ≠ σ²2 H0: σ²1 – σ²2 ≠ 0 Hoofdstuk 5: Twee gemiddelden F-TOETS VOOR 2 VARIANTIES 4. Toetsingsgrootheid s ²1 F s² 2 met df1 = n1-1 en df2 = n2-1 opgelet: in teller altijd de grootste s² en in noemer altijd de kleinste s² F-toets: hoeveel maal is de grootste variantie groter dan de kleinste variantie? Indien H0 waar is zal F in de buurt van 1 liggen. Hoe groter F wordt, hoe aannemelijker dat de populatievarianties van elkaar verschillen. Kansverdeling: F-verdeling die bepaald wordt door df1 en df2 49 Hoofdstuk 5: Twee gemiddelden F-TOETS VOOR 2 VARIANTIES F-verdeling die bepaald wordt door df1 en df2 vb: F = 10/9 = 1.11 met df1 = 6 en df2 = 12 P r (F = 1.11) = 0.41 F=1.11 Opgelet: niet symmetrisch! -> daarom altijd grootste S² in teller! 50 Hoofdstuk 5: Twee gemiddelden F-TOETS VOOR 2 VARIANTIES 5. Beslissingsregels a. overschrijdingskansen - H0 verwerpen indien: Pr (F) ≤ α? Pd (F) = 2*Pr (F) ≤ α? >> rechts/links eenzijdig >> tweezijdig b. kritieke waarden : H0 verwerpen indien: vb. voor α = .05 en df1 = 6 en df2 = 12. (Andere α of df -> andere kritieke waarden!!) F≥3 F ≥ 3.7 51 >> rechts/links eenzijdig >> tweezijdig Hoofdstuk 5: Twee gemiddelden T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN Variant 1: varianties in twee populaties zijn gelijk σ²1 = σ²2 Populatievarianties zijn onbekend en worden geschat op basis van de twee steekproefvarianties s²1 en s²2; namelijk een schatting op basis van een gewogen gemiddelde van s²1 en s²2 -> ‘gepoolde’ variantie s²p (n1 1) s ²1 (n2 1) s ² 2 s² p (n1 1) (n2 1) 52 Hoofdstuk 5: Twee gemiddelden T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN De standaardafwijking van de steekproevenverdeling van het verschil tussen twee gemiddelden is gebaseerd op de gepoolde variantie s²p s X 1 X 2 s² p n1 s² p n2 -> t-score voor het verschil in gemiddelden van twee steekproeven uit populaties met gelijke varianties t x1 x 2 ( X 1 X 2 ) ( 1 2 ) ( X 1 X 2 ) ( 1 µ 2 ) s x1 x 2 s² p s² p n1 n2 -> Kansverdeling: Student t-verdeling met df = n1+n2-2 53 Hoofdstuk 5: Twee gemiddelden meestal 0 T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN Variant 2: varianties in twee populaties zijn niet gelijk We gebruiken geen gepoolde variantie (sp) maar de standaardafwijkingen in elke steekproef (s1 en s2) t x1 x 2 ( X 1 X 2 ) ( 1 2 ) ( X 1 X 2 ) ( 1 µ 2 ) s x1 x 2 s ²1 s ² 2 n1 n2 Kansverdeling: Student t-verdeling met vrijheidsgraden (schatting): 2 s ²1 s ² 2 n n 2 df 1 2 2 s ²1 s ² 2 n1 n2 n1 1 n2 1 54 Hoofdstuk 5: Twee gemiddelden T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN 5. Beslissingsregels a. overschrijdingskansen - H0 verwerpen indien: Pl (tx1-x2) ≤ α? Pr (tx1-x2) ≤ α? Pd (tx1-x2) ≤ α? >> linkseenzijdig >> rechtseenzijdig >> tweezijdig b. kritieke waarden : H0 verwerpen indien: vb. voor α = .05 en df = 17. (Andere α of df -> andere kritieke waarden!!) tx1-x2 ≤ -1.74 tx1-x2 ≥ 1.74 tx1-x2 ≤ -2.11 of 55 ≥ 2.11 Hoofdstuk 5: Twee gemiddelden >> linkseenzijdig >> rechtseenzijdig >> tweezijdig T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN 4. Significantie? kritieke t-waarde opzoeken in tabel -> df = 11+12-2 = 21 en alpha = 0.05 en 2-zijdig -> 2.08 5. t-score vergelijken met kritieke t-score -0.698 > -2.08 dus H0 niet verwerpen Besluit? 56 Hoofdstuk 5: Twee gemiddelden T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN IN SPSS • Demo SPSS – independent samples t-test • Muziekvoorkeuren Waarom luisteren we liever naar onze favoriete muziek dan naar andere muziek? Dopamineproductie vergelijken bij luisteren naar favoriete vs niet-favoriete muziek. 57 Hoofdstuk 5: Twee gemiddelden T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN 6. Effectgrootte 7. Rapporteren Om na te gaan of er bij het luisteren naar favoriete muziek meer dopamine aanwezig is in de hersenen dan bij het luisteren naar nietfavoriete muziek, werd een independent samples t-test uitgevoerd. Gemiddeld werd er meer dopamine gemeten in de conditie met favoriete muziek (M = 16.03, SD = 2.66) dan in de conditie met nietfavoriete muziek (M = 13.96, SD = 2.94). Dit effect was significant op niveau α = .05, t(58) = 2.86, p = .006, r = .12. 58 Hoofdstuk 5: Twee gemiddelden WILCOXON RANK-SUM / MANNWHITNEY TOETS Verschil tussen 2 medianen ipv tussen 2 gemiddelden omdat variabele ook op ordinaal niveau kan gemeten worden 1. Toetsingssituatie Verschillen de scores in populatie 1 over het algemeen van de scores in populatie 2 waaruit de steekproeven afkomstig zijn? Vb. Verschillen mannen en vrouwen in opleidingsniveau ( = ordinale variabele)? = nonparametrische variant van onafhankelijke t-toets 2. Voorwaarden onafhankelijke steekproeven minstens ordinaal meetniveau scores hoeven niet normaal verdeeld te zijn 59 Hoofdstuk 5: Twee gemiddelden WILCOXON RANK-SUM / MANNWHITNEY TOETS 3. Hypotheses 60 tweezijdig H0: θ1 = θ2 H1: θ1 ≠ θ2 rechtseenzijdig H0: θ1 ≤ θ2 H1: θ1 > θ2 linkseenzijdig H0: θ1 ≥ θ2 H1: θ1 < θ2 Hoofdstuk 5: Twee gemiddelden WILCOXON RANK-SUM / MANNWHITNEY TOETS 4. Toetsingsgrootheid U bij Mann-Whitney W bij Wilcoxon SPSS: Analyze > nonparametric > 2 independent samples 5. Beslissingsregel Is de gevonden P (Asymp. Sig. 2-tailed) kleiner dan α ? ja: verwerp H0 nee: verwerp H0 niet Ter herinnering: SPSS geeft 2-zijdige overschrijdingskans -> als je éénzijdige overschrijdingskans nodig hebt (omdat je links- of rechtszijdig wil toetsen): overschrijdingskans uit SPSS delen door 2 en kijken of dat getal ≤ α (bv. 0.05) 61 Hoofdstuk 5: Twee gemiddelden WILCOXON RANK-SUM / MANNWHITNEY TOETS 2 groepen vergelijken op basis van ordinale schaal Score Groep 3 5 6 6 8 10 14 15 15 15 18 21 1 2 1 2 2 2 1 1 2 1 2 1 Berekening van W: a. Scores ordenen en rangen toekennen: b. Rangensom per groep berekenen: groep 1: 1 + 3.5 + 7 + 9 + 9 + 12 = 41.5 groep 2: 2 + 3.5 + 5 + 6 + 9 + 11 = 36.5 c. Toetsingsgrootheid = kleinste rangensom: Ws = 36.5 62 Hoofdstuk 5: Twee gemiddelden Initiële rang 1 2 3 4 5 6 7 8 9 10 11 12 Defintieve rang 1 2 3.5 3.5 5 6 7 9 9 9 11 12 WILCOXON RANK-SUM / MANNWHITNEY TOETS d. Ws omzetten naar z-score: wiskundige verwachting: standaarddeviatie: z-formule: overschrijdingskans: 63 Hoofdstuk 5: Twee gemiddelden WILCOXON RANK-SUM / MANNWHITNEY TOETS • Demo SPSS – Mann-Whitney / Wilcoxon Rank-Sum • Voorkeur voor muziek meten aan de hand van ordinale schaal: Ik studeer nog liever drie dagen onophoudelijk inductieve statistiek dan hieraan deel te nemen 64 Een documentaire over het paargedrag van de bidsprinkhaan lijkt me opwindender dan dit experiment Hoofdstuk 5: Twee gemiddelden Deelname aan dit Het evenaart experiment maakt geen me eigenlijk verjaardagsfeest, warm noch koud maar komt toch al in de buurt Ik heb me sinds mijn kindertijd niet meer zo gelukkig gevoeld WILCOXON RANK-SUM / MANNWHITNEY TOETS 6. Effectgrootte 7. Rapportering Om na te gaan of het subjectief welbevinden van mensen groter is bij het luisteren naar favoriete muziek in tegenstelling tot niet-favoriete muziek werd een Mann-Whitney toets uitgevoerd. De score voor subjectief welbevinden was hoger in de conditie met favoriete muziek (Mdn = 4) dan in de conditie met niet-favoriete muziek (Mdn = 3). Dit verschil was significant op α = .05-niveau, Ws = 167.5, z = -2.767, p = .006, r = .51. 65 Hoofdstuk 5: Twee gemiddelden type AV? aantal OV? type OV? niet in dit boek hoeveel populaties? categorieën afhankelijk? parametrisch non-parametrisch one sample t-test / z-test chi-square goodness of fit onafh. independent t-test / z-test Rank-sum afh. dependent t-test Signed-ranks onafh. one way ANOVA Kruskal-Wallis afh. repeated measures ANOVA Friedman’s ANOVA Pearson correlation Spearman correlation 1 nominaal 2 1 >2 interval/ ordinaal interval/ ordinaal nominaal >1 nominaal 1 onafh. n-way ANOVA afh. repeated measures ANOVA gemengd mixed design ANOVA interval multiple regression gemengd multiple regression 1 onafh. chi-square goodness of fit ≥2 onafh. Pearson chi-square nominaal/ ordinaal •Workshop Inductieve Statistiek •66 T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN, AFH. STEEKPROEVEN 1. Toetsingssituatie Verschilt het gemiddelde in populatie 1 van het gemiddelde in populatie 2 waaruit de steekproeven afkomstig zijn? Belangrijk: afhankelijke steekproeven zoals bij herhaalde metingen, gematchte steekproeven 2. Voorwaarden steekproeven zijn afhankelijk populaties zijn normaal verdeeld Indien populaties niet normaal zijn verdeeld moet n1 > 30 en n2 > 30 (dus het aantal paren moet > 30) 67 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN, AFH. STEEKPROEVEN σ p o n 1 1 p e e n u l n σ a t n 2 i 2 e b s N e k e v n e d r d ? e e l d ? 1 2 3 J a J a J J a J a N ≥ t 1 0 0 < t 1 0 0 ≥ t 4 a N e 1 e J 0 0 ≥ t 5 e e a 1 0 0 6 N e e J N e e N ≥ t 1 0 0 a < 68 e J 1 - - Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven N e 0 w e 3. Hypothesen V = verschil per paar (steekproef1 – steekproef2) Linkseenzijdig H0: µv ≥ 0 H1: µv < 0 Rechtseenzijdig H0: µv ≤ 0 H1: µv > 0 Tweezijdig H0: µv = 0 H1: µv ≠ 0 7 e n g n e n 1 3 0 0 l < t a 2 > e n t e n n l s n 3 a 2 l 0 1 t 8 e e a 1 0 0 N e e N e e < 1 - e 0 w 0 e n l n s - g < n 1 3 0 e e e t a 2 n n l > t n s n 3 a 2 0 l < s 1 T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN, AFH. STEEKPROEVEN 4. Toetsingsgrootheid t-score van het gemiddelde verschil v V v tv sv aantal paren n standaarddeviatie van de verschilscores gemiddelde verschil steekproeven veronderstelde gemiddelde verschil tussen 2 populaties Kansverdeling? Student t-verdeling met df = n-1 69 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN, AFH. STEEKPROEVEN 4. t score berekenen P 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Score op test voor na Verschil(voor-na) 4.52 4.12 .40 3.60 3.44 .16 3.88 1.92 1.96 4.36 4.08 .28 4.52 3.52 1.00 3.60 2.44 1.16 3.92 3.72 .20 3.72 3.33 .39 3.52 3.52 .00 3.68 3.08 .60 3.88 3.88 .00 4.52 4.00 .52 3.04 2.72 .32 3.96 3.28 .68 4.32 2.52 1.80 4.44 4.44 .00 3.96 3.96 .00 V = .5569 70 sv = .6023 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven t .5569 0 17 3.8123 .60230 T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN, AFH. STEEKPROEVEN Voorbeeld: ratten en tinnitus in SPSS Onderzoeksvraag: kunnen ratten door “herprogrammeren” van neuronen in de auditieve cortex van hun tinnitus verlost worden? 17 ratten worden voor en na het toepassen van de techniek getest. De afhankelijke variabele wordt bepaald door het aantal fouten dat de ratten maken in het onderscheiden van tonen, en wordt gemeten op intervalniveau. Navzer D. Engineer, Jonathan R. Riley, Jonathan D. Seale, Will A. Vrana, Jai A. Shetake, Sindhu P. Sudanagunta, Michael S. Borland, Michael P. Kilgard. Reversing pathological neural activity using targeted plasticity.Nature, 2011; DOI: 10.1038/nature09656 71 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven T-TOETS VOOR VERSCHIL TUSSEN 2 GEMIDDELDEN, AFH. STEEKPROEVEN 6. Effectgrootte 7. Rapporteren Om na te gaan of de ratten beter presteerden op de frequentie-test na de behandeling werd een t-test voor afhankelijke steekproeven uitgevoerd. De ratten maakten significant minder fouten na (M = 3.41, SD = .69) dan voor de behandeling (M = 3.97, SD = .43), t(16) = 3.814, p = .002, r = .69 . 72 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven WILCOXON RANGTEKENTOETS 1. Toetsingssituatie Verschilt het gemiddelde in populatie 1 van het gemiddelde in populatie 2 waaruit de steekproeven afkomstig zijn? Belangrijk: afhankelijke steekproeven (zie les over steekproeven) zoals bij herhaalde metingen, gematchte steekproeven = nonparametrische variant van afhankelijke t-toets 2. Voorwaarden afhankelijke steekproeven minstens ordinaal meetniveau (achterliggende variabele is continu) scores hoeven niet normaal verdeeld te zijn 73 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven WILCOXON RANGTEKENTOETS 3. Hypotheses V = verschil binnen elk paar scores Linkseenzijdig H0: θv ≥ 0 H1: θv < 0 Rechtseenzijdig H0: θv ≤ 0 H1: θv > 0 Tweezijdig H0: θv = 0 H1: θv ≠ 0 concentratiescores hoger op woensdag dan op vrijdag? 74 H1: woensdag - vrijdag > 0 of θv > 0 H0: woensdag – vrijdag ≤ 0 of θv ≤ 0 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven WILCOXON RANGTEKENTOETS 4. Toetsingsgrootheid vrijdag 15 35 16 26 19 17 27 16 13 20 woensdag 28 35 35 22 39 32 27 29 36 35 verschil 13 0 19 -4 20 15 0 13 23 15 |verschil| 13 tie 19 4 20 15 tie 13 23 15 rang 2.5 Rang + 2.5 6 1 7 4.5 6 2.5 8 4.5 2.5 8 4.5 35 Toetsingsgrootheid = kleinste rangensom, hier: T- = 1 75 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven Rang - 1 7 4.5 1 WILCOXON RANGTEKENTOETS 5. Beslissingsregel overschrijdingskansen met z-toets 𝑧𝑇 = 𝑇−𝑇 𝑆𝐸 = 𝑛(𝑛+1) 4 𝑇− 𝑛 𝑛+1 (2𝑛+1) 24 = met: T = kleinste van rangensommen n = aantal paren – aantal ties 76 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven 8(8+1) 4 1− 8 8+1 (16+1) 24 = 1−18 7.14 =-2.38 WILCOXON RANGTEKENTOETS Demo SPSS: concentratiescores woensdag versus vrijdag Berekenen van de medianen via Analyze > Descriptive statistics > Frequencies > Statistics 77 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven WILCOXON RANGTEKENTOETS 6. Effectgrootte Opgelet: N = totaal aantal observaties, niet aantal paren! 7. Rapporteren Om na te gaan of de concentratiescores variëren in functie van het moment in de week werd een Wilcoxon signed rank toets uitgevoerd. De scores waren significant hoger op vrijdag (Mdn = 33.5) dan op woensdag (Mdn = 18), z = -2.39, p = .017, r = -.53 . 78 Hoofdstuk 6: Twee gemiddelden uit afhankelijke steekproeven OEFENINGEN Handboek H4: 3 & 4 H5: 2 & 3 H6: 3 Variantieanalyse: one- en two-way ANOVA & Kruskal-Wallis type AV? aantal OV? type OV? niet in dit boek hoeveel populaties? categorieën afhankelijk? parametrisch non-parametrisch one sample t-test / z-test chi-square goodness of fit onafh. independent t-test / z-test Rank-sum afh. dependent t-test Signed-ranks onafh. one way ANOVA Kruskal-Wallis afh. repeated measures ANOVA Friedman’s ANOVA Pearson correlation Spearman correlation 1 nominaal 2 1 >2 interval/ ordinaal interval/ ordinaal nominaal >1 nominaal 1 onafh. n-way ANOVA afh. repeated measures ANOVA gemengd mixed design ANOVA interval multiple regression gemengd multiple regression 1 onafh. chi-square goodness of fit ≥2 onafh. Pearson chi-square nominaal/ ordinaal •Hoofdstuk 7: Variantieanalyse •81 VARIANTIEANALYSE Toetsen voor verschillen tussen meer dan 2 gemiddelden - is er een verschil in het welbevinden van kinderen met ouders die autoritair, autoritatief of permissief opvoeden? -> telkens 1 OV (vb. opvoedingsstijl) met telkens meer dan 2 waarden (vb. 3) -> telkens 1 AV (vb. welbevinden) eenwegs (‘one way’) variantie-analyse (‘ANOVA’) Bij twee OV: tweewegs (‘two way’) variantie analyse (zie volgende les) Bij meer dan één AV: MANOVA (niet in Statistiek II) 82 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE 1. Toetsingssituatie Is er een verschil in gemiddelde tussen groep a, b, c, … op variabele Y? of Is er een effect van variabele X (met niveau’s a, b, c,..) op variabele Y? en: Indien er een effect is, tussen welke groepen is er een verschil? (= post hoc toetsing) 83 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE 2. Voorwaarden • AV is gemeten op intervalniveau • OV wordt als nominaal beschouwd (ook al is OV soms ordinaal) • scores van AV zijn in elke populatie normaal verdeeld of aantal deelnemers is in elke populatie groter dan 30 • varianties in populaties zijn gelijk (homogeniteit) • onafhankelijke steekproeven Assumptie van normaliteit en homogeniteit minder strikt bij gelijke steekproeven 84 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE 3. Hypothesen H0: alle populatiegemiddelden zijn aan elkaar gelijk: µa = µb = µc = … = µj als er J populaties zijn H1: minstens twee populatiegemiddelden zijn niet gelijk aan elkaar µj ≠ µj’ voor minstens één paar van j en j’ Dus H1 is NIET µa ≠ µb ≠ µc ≠… ≠ µj H0 wordt getoetst door gebruik te maken van varianties: De tussen-groeps-variantie of between-groups variance mean square between (MSb) De binnen-groeps-variantie of within-groups variance mean square within (MSw) 85 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE Within groups 86 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE Between groups Within groups 87 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE Between groups Within groups Wanneer de verschillen tussen groepsgemiddelden groter worden en de verschillen binnen elke groep ongeveer hetzelfde blijven wordt de betweengroups variantie groter ten opzichte van de within-groups varianties. Dus: de verhouding between-groups variantie/within-groups variantie zegt iets over het verschil tussen groepsgemiddelden. 88 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE Between groups Within groups 89 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE MSw = verschillen te wijten aan verschillen tussen personen binnen dezelfde groep = inter-individuele verschillen die niet te wijten zijn aan het effect van de OV = foutenvariantie (varfout) MSb = variantie van groepsgemiddelden + variantie van scores rondom groepsgemiddelden = variantie van de effecten van OV (vareffect) + foutenvariantie (varfout) MSw = varfout MSb = vareffect + varfout 90 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE MSb = vareffect + varfout MSw = varfout -> ALS H0 waar is, dwz. vareffect zeer klein is of gelijk is aan 0 DAN: MSb = MSw of MSb / MSw = 1 -> ALS H0 niet waar is, dwz. vareffect verschilt van 0 DAN: MSb > MSw of MSb / MSw > 1 91 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE 4. Toetsingsgrootheid F MSb SSb / df b MS w SS w / df w Df b = J – 1 (J =aantal groepen) Df w = N – J (N = totaal aantal waarnemingen; J = aantal groepen) Kansverdeling: F-verdeling (zie bijlage) Vb. F 39.35 / 2 19.68 7.13 66.27 / 24 Met df b = 3 – 1 = 2 92 2.76 en df w = 27 – 3 = 24 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE 5. Beslissingsregels a. Overschrijdingskansen (niet in tabel) Is P r (F) ≤ α ? ja, verwerp H0 neen, verwerp H0 niet Vb. P r (F = 7.13) = 0.0037 voor df b = 2 , df w= 24 P r (= 0.0037) < 0.05 dus H0 verwerpen 93 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE b. kritieke waarden Is F ≥ kritieke F waarde bij df teller = df b = J – 1 df noemer = df w = N - J ja, verwerp H0 neen, verwerp H0 niet kritieke F waarde df b = 2 , df w= 24 bij alpha = 0.05 = 3.4 (zie tabel) F (7.13) > Fkritiek (3.4) dus H0 verwerpen 94 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE ANOVA TOETSGEG Between Groups Within Groups Tot al 95 Sum of Squares 39, 355 66, 275 105,630 Hoofdstuk 7: Variantieanalyse df 2 24 26 Mean Square 19, 677 2, 761 F 7, 126 Sig. ,004 VARIANTIEANALYSE Wanneer H0 verworpen is weten we dat minstens 2 groepen verschillen mbt. hun gemiddelde -> welke groepen? = post-hoc toetsing We zouden via t-toetsen elk paar van groepen met elkaar kunnen vergelijken (vb. groep 1-2, 2-3, 1-3). Bij elke t-toets gebruiken we een α = 0.05. Probleem: door herhaaldelijk t-toetsen uit te voeren neemt de fout van de 1e soort toe. Oplossing: bij posthoc toetsing corrigeren voor deze hogere kans op fouten van de 1e soort. >> Bonferroni correctie: wanneer we drie groepen vergelijken, alleen besluiten dat er een significant verschil is als P ≤ 0.05/3 (ipv. 0.05) (andere mogelijke correcties: Tukey, Scheffé,...) 96 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE Post-hoc toetsing in SPSS: Multiple Comparisons Dependent Variable: TOETSGEG Bonferroni (I) GROEP 1,00 2,00 3,00 (J) GROEP 2,00 3,00 1,00 3,00 1,00 2,00 Mean Difference (I-J) Std. Error -1,2667 ,76353 -3,0417* ,80747 1,2667 ,76353 -1,7750 ,78824 3,0417* ,80747 1,7750 ,78824 Sig. ,330 ,003 ,330 ,101 ,003 ,101 95% Confidence Interval Lower Bound Upper Bound -3,2317 ,6984 -5,1198 -,9635 -,6984 3,2317 -3,8037 ,2537 ,9635 5,1198 -,2537 3,8037 *. The mean difference is significant at the .05 level. SPSS output houdt al rekening met deze correctie; dus de P waarden zijn al gecorrigeerd. Als P ≤ 0.05 dan is er een significant verschil tussen beide groepen vb. enkel significant verschil ts. Groep 1-3 97 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE Voorbeeld ANOVA in SPSS: stressreductie door chocolade bij dansers 98 Hoofdstuk 7: Variantieanalyse VARIANTIEANALYSE 6. Effectgrootte ANOVA stress Sum of 𝑟= 𝑟= 𝑆𝑆𝑏𝑒𝑡𝑤𝑒𝑒𝑛 𝑆𝑆𝑡𝑜𝑡𝑎𝑙 df Mean Square F Sig. Squares Between Groups 714,490 2 357,245 Within Groups 11277,471 99 113,914 Total 11991,961 101 3,136 714.49 = 0.060 = 0.24 11991,961 7. Rapportering Er was een significant effect van chocolade op het stressniveau van de dansers, F(2, 99) = 3.14, p = .048, r = .24 . De dansers die geen chocolade aten rapporteerden een hoger stressniveau (M = 65.5, SD = 10.54) dan dansers die twee repen chocolade aten (M = 59.12, SD = 12.27). Het stressniveau van de dansers die één reep chocolade aten (M = 61.32, SD = 8.95) verschilde niet significant van de andere condities. 99 Hoofdstuk 7: Variantieanalyse ,048 Variantieanalyse: two way ANOVA type AV? aantal OV? type OV? niet in dit boek hoeveel populaties? categorieën afhankelijk? parametrisch non-parametrisch one sample t-test / z-test chi-square goodness of fit onafh. independent t-test / z-test Rank-sum afh. dependent t-test Signed-ranks onafh. one way ANOVA Kruskal-Wallis afh. repeated measures ANOVA Friedman’s ANOVA Pearson correlation Spearman correlation 1 nominaal 2 1 >2 interval/ ordinaal interval/ ordinaal nominaal >1 nominaal 1 onafh. n-way ANOVA afh. repeated measures ANOVA gemengd mixed design ANOVA interval multiple regression gemengd multiple regression 1 onafh. chi-square goodness of fit ≥2 onafh. Pearson chi-square nominaal/ ordinaal TWEEWEGS-VARIANTIEANALYSE Twee vragen: 1. vraag over hoofdeffect van elke OV op AV 2. vraag over interactie-effect tussen OV1 en OV2 op AV hoe hebben de twee OV’s samen in combinatie een effect op AV? is het effect van de ene OV op AV anders naargelang het niveau van de andere OV? - is het effect van ses op toekomstbeeld anders voor jongens dan voor meisjes? - is het effect van chocolade op stressreductie anders voor beginners dan voor gevorderden? 102 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE 1. Toetsingssituatie a. Is er een effect van variabele A (met niveaus a1, a2, …) op variabele Y? b. Is er een effect van variabele B (met niveaus b1, b2, …) op variabele Y? = 2 hoofdeffecten c. Is het effect van variabele A anders naargelang het niveau van variabele B (of omgekeerd)? Wat is het effect van de combinatie van A en B op Y? = interactie-effect tussen A en B d. Indien er een hoofdeffect is van A, tussen welke groepen van A is er een verschil? e. Indien er een hoofdeffect is van B, tussen welke groepen van B is er een verschil? = post hoc toetsing 103 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE 2. Voorwaarden • AV is gemeten op intervalniveau • OV’s worden als nominaal beschouwd (ook al is OV soms ordinaal) • scores van AV zijn in alle populaties normaal verdeeld • varianties in populaties zijn gelijk (F-toets of Levene’s toets) • onafhankelijke steekproeven 104 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE 3. Hypothesen Wat is het effect van ses en geslacht op de toekomstverwachting van jongeren? OV1 (A) = ses (laag, midden, hoog) OV2 (B) = geslacht (jongens, meisje) AV = toekomstbeeld score ts. -10 en +10 -> 3 x 2 design (dus 6 populaties - zie les 2: waarden van OV bepalen aantal populaties) a. Is er een hoofdeffect van variabele A (met i niveaus)? Of in termen van varianties 105 H0: σ²A = σ²W of H1: σ²A > σ²W of Hoofdstuk 7: Variantieanalyse σ²A / σ²W = 1 σ²A / σ²W > 1 7 Toekomstbeeld H0: alle populatiegemiddelden van A zijn aan elkaar gelijk µ1 = µ2 = µ3 = … = µi als er I groepen zijn van A H1: minstens twee populatiegemiddelden zijn niet gelijk aan elkaar µi ≠ µi’ voor minstens één paar van i en i’ 6 5 4 3 2 1 0 laag midden SES hoog TWEEWEGS-VARIANTIEANALYSE b. Is er een hoofdeffect van variabele B (met j niveaus)? H0: alle populatiegemiddelden van B zijn aan elkaar gelijk µ1 = µ2 = µ3 = … = µj als er J groepen zijn van B H1: minstens twee populatiegemiddelden zijn niet gelijk aan elkaar µj ≠ µj’ voor minstens één paar van j en j’ Of in termen van varianties H0: σ²B = σ²W of σ²B / σ²W = 1 H1: σ²B > σ²W of σ²B / σ²W > 1 Toekomstbeeld 6 5 4 3 2 1 0 jongens meisjes geslacht 106 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE c. Is er een interactie-effect van variabele AxB ? H0: alle populatiegemiddelden van combinatie AxB zijn aan elkaar gelijk: µ11 = µ12 = … = µij als er I x J groepen zijn H1: minstens twee populatiegemiddelden zijn niet gelijk aan elkaar µij ≠ µi’j’ voor minstens één paar van ij en i’j’ Of in termen van varianties H0: σ²AxB = σ²W of H1: σ²AXB > σ²W of 9 Toekomstbeeld 8 7 6 5 4 jongens 3 meisjes 2 1 0 laag midden hoog SES 107 Hoofdstuk 7: Variantieanalyse σ²AXB / σ²W = 1 σ²AXB / σ²W > 1 TWEEWEGS-VARIANTIEANALYSE 4. Toetsingsgrootheid 4.1 F toets voor hoofdeffect van A FA MS A SS A / df A MSW SSW / df W met dfA = I – 1 (I = aantal niveaus van A) met dfW = N – (I x J) (N = totaal aantal ) vb. FA = 10/2.02 = 4.95 met dfA = 2 dfW = 24 4.2 F toets voor hoofdeffect van B MS B SS B / df B FB MSW SSW / df W met dfB = J – 1 (J = aantal niveaus van B) met dfW = N – (I x J) (N = totaal aantal ) vb. FB = 0.53/2.02 = 0.26 met dfB = 1 dfW = 24 4.3 F toets voor interactie-effect van AxB FAxB 108 MS AxB SS AxB / df AxB MSW SSW / df W met dfAxB = (I - 1). (J – 1) met dfW = N – (I x J) (N = totaal aantal) vb. FAxB = 30.54/2.02 = 15.12 met dfAxB = 2 dfW = 24 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE 5. Beslissingsregels a. Overschrijdingskansen Is P r (F) ≤ α? ja, verwerp H0 neen, verwerp H0 niet >> overschrijdingskans per mogelijk effect (hoofd / interactie) in ANOVA-tabel SPSS b. Kritieke waarden Ook mogelijk via tabel met F-waarden. 109 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE significant hoofdeffect ses: jongens en meisjes samengenomen is er een effect van ses geen significant hoofdeffect geslacht: 3 ses niveaus samengenomen is er geen significant verschil tussen j en m een interactie-effect: het verschil ts. j en m is niet hetzelfde voor alle niveaus van ses >> post-hoc toetsing nodig om te weten tussen welke groepen er een verschil is. (SPSS) 110 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE interactie effect 8 6 4 2 0 laag midden ses hoog SES laag midden hoog jongens 5,6 5,6 4,2 5,13 meisjes 2,4 4,4 7,8 4,87 4 5 6 geen hoofdeffect geslacht Toekomstbeeld Toekomstbeeld Toekomstbeeld hoofdeffect SES 6 4 2 0 jongens meisjes geslacht 111 Hoofdstuk 7: Variantieanalyse 9 8 7 6 5 4 3 2 1 0 jongens meisjes laag midden hoog SES interactie-effect: het verschil ts. jongens en meisjes is niet hetzelfde voor alle niveaus van ses (lijnen lopen niet parallel) TWEEWEGS-VARIANTIEANALYSE Post hoc analyse bij two-way ANOVA: Zie post-hoc bij one-way ANOVA: niveaus binnen 1 OV vergelijken. ses laag midden hoog jongens 5,6 5,6 4,2 5,13 meisjes 2,4 4,4 7,8 4,87 4 5 6 (overbodig als er maar 2 niveaus zijn – bv. geslacht. Kijk dan naar gemiddeldentabel) Om alle cellen paarsgewijs te vergelijken: simple effects – enkel met SPSS syntax (zie boek p. 163) ses laag midden hoog jongens 5,6 5,6 4,2 5,13 meisjes 2,4 4,4 7,8 4,87 4 5 6 112 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE 6. Effectgrootte Partial Eta squared: interpreteerbaar zoals r te berekenen met SPSS Via ANOVA-dialoogbox > options > estimates of effect size aanvinken 113 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE Demo two-way ANOVA: effect van chocolade én dansniveau op stress? 114 Hoofdstuk 7: Variantieanalyse TWEEWEGS-VARIANTIEANALYSE 7. Rapportering Eerst de potentiële hoofdeffecten bespreken (zie one-way ANOVA, inclusief eventuele post-hoc) gegevens: gemiddelden, SD, F-waarde, p-waarde, r Daarna potentieel interactie-effect, zelfde gegevens. Hoofdeffecten zijn niet meer relevant als er een interactie-effect is, maar moeten wel gerapporteerd worden. Interpretatie van de resultaten gaat enkel over interactie-effect. 115 Hoofdstuk 7: Variantieanalyse type AV? aantal OV? type OV? niet in dit boek hoeveel populaties? categorieën afhankelijk? parametrisch non-parametrisch one sample t-test / z-test chi-square goodness of fit onafh. independent t-test / z-test Rank-sum afh. dependent t-test Signed-ranks onafh. one way ANOVA Kruskal-Wallis afh. repeated measures ANOVA Friedman’s ANOVA Pearson correlation Spearman correlation 1 nominaal 2 1 >2 interval/ ordinaal interval/ ordinaal nominaal >1 nominaal 1 onafh. n-way ANOVA afh. repeated measures ANOVA gemengd mixed design ANOVA interval multiple regression gemengd multiple regression 1 onafh. chi-square goodness of fit ≥2 onafh. Pearson chi-square nominaal/ ordinaal •Hoofdstuk 7: Variantieanalyse •116 KRUSKAL-WALLIS TOETS VOOR VERSCHIL TUSSEN K POPULATIES 1. Toetsingssituatie Is er een verschil in gemiddelde tussen groep a, b, c, … op variabele Y? >> zelfde situatie als eenwegs-variantieanalyse. 2. Voorwaarden AV is niet normaal verdeeld en/of AV is van ordinaal meetniveau Chocolade als afrodisiacum? Gemeten met: Seks is absoluut het allerlaatste waar ik nu aan kan denken. 117 Hoofdstuk 7: Variantieanalyse Ik ervaar niet meer of minder zin in seks dan op een doordeweekse dag. Ik voel een onwaarschijnlijke lust tot paren – annuleer de voorstelling! KRUSKAL-WALLIS TOETS VOOR VERSCHIL TUSSEN K POPULATIES 3. Hypothesen H0: θ1 = θ2 = … = θk H1= “niet H0” bij k niveaus van de OV 4. Toetsingsgrootheid Gebaseerd op rangordening zoals bij Mann-Whitney, grootheid = H >> analyze > non-parametric > legacy dialogs > k independent samples (zie boek 7.3.4) 118 Hoofdstuk 7: Variantieanalyse KRUSKAL-WALLIS TOETS VOOR VERSCHIL TUSSEN K POPULATIES 5. Beslissingsregel Is de gerapporteerde overschrijdingskans in SPSS kleiner dan α ? ja > verwerp H0 nee > verwerp H0 niet Is er een effect? post-hoc toetsen met meerdere Mann-Whitney/Wilcoxon Rank-Sum. Gebruik zo weinig mogelijk tests en hanteer Bonferroni-correctie: α / aantal tests. 119 Hoofdstuk 7: Variantieanalyse KRUSKAL-WALLIS TOETS VOOR VERSCHIL TUSSEN K POPULATIES Demo Kruskal-Wallis: chocolade als afrodisiacum? OV : 3 niveaus chocolade – geen, één reep, twee repen AV: ordinale schaal met 3 niveaus 120 Hoofdstuk 7: Variantieanalyse KRUSKAL-WALLIS TOETS VOOR VERSCHIL TUSSEN K POPULATIES 6. Effectgrootte • Geen effectgrootte voor K-W test algemeen • Wel effectgrootte van bijhorende Mann-Whitney tests – zie H5 Test Statisticsa lust Mann-Whitney U 359,500 Wilcoxon W 954,500 Z Asymp. Sig. (2-tailed) -2,976 ,003 a. Grouping Variable: chocolade 121 Hoofdstuk 7: Variantieanalyse KRUSKAL-WALLIS TOETS VOOR VERSCHIL TUSSEN K POPULATIES 7. Rapportering Een Kruskal-Wallis toets werd uitgevoerd om het effect van het eten van chocolade op de lustgevoelens van dansers na te gaan. Dit effect bleek inderdaad significant, H = 8.71, p = .013. Bijkomend werden de condities zonder chocolade (mean rank = 41), met één reep chocolade (mean rank = 59.91) en twee repen chocolade (mean rank = 53.59) onderling vergeleken door middel van een Wilcoxon rank-sum toets, waarbij een gecorrigeerd significantieniveau van α = .017 werd gehanteerd. Hieruit bleek dat er enkel een significant verschil was tussen de conditie zonder chocolade en de conditie met één reep chocolade (Ws = 954.5, z = -2.976, p = .003, r = -.36). Het verschil tussen de conditie zonder chocolade en de conditie met twee repen chocolade (Ws = 1034.5, z = -1.861, p = .06, r = -.23) noch het verschil tussen de conditie met één reep chocolade en de conditie met twee repen chocolade (Ws = 1105.5, z = -.917, p = .36, r = -.11) waren significant. 122 Hoofdstuk 7: Variantieanalyse Variantieanalyse bij herhaalde metingen HERHAALDE METINGEN ANOVA De motivatie van 17 voetbalspeelsters wordt gemeten op drie momenten in het voetbalseizoen. We willen nagaan of de motivatie eerder stijgt dan wel daalt door de strenge behandeling door de coach. Jarmila Kratochvilova, in haar eigen glorietijd bij de Tsjechische nationale atletiekploeg. 124 Hoofdstuk 8: Variantieanalyse herhaalde metingen type AV? aantal OV? type OV? niet in dit boek hoeveel populaties? categorieën afhankelijk? parametrisch non-parametrisch one sample t-test / z-test chi-square goodness of fit onafh. independent t-test / z-test Rank-sum afh. dependent t-test Signed-ranks onafh. one way ANOVA Kruskal-Wallis afh. repeated measures ANOVA Friedman’s ANOVA Pearson correlation Spearman correlation 1 nominaal 2 1 >2 interval/ ordinaal interval/ ordinaal nominaal >1 nominaal 1 onafh. n-way ANOVA afh. repeated measures ANOVA gemengd mixed design ANOVA interval multiple regression gemengd multiple regression 1 onafh. chi-square goodness of fit ≥2 onafh. Pearson chi-square nominaal/ ordinaal •Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 1. Toetsingssituatie Is er een verschil in gemiddelde tussen metingen 1, 2, 3, … van variabele Y? of Is er een effect van variabele X (metingen 1, 2, 3,..) op variabele Y? en: Indien er een effect is, tussen welke metingen is er een verschil? (= post hoc toetsing) 126 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 2. Voorwaarden • AV is gemeten op intervalniveau • scores van AV zijn in elke populatie normaal verdeeld of aantal deelnemers is in elke steekproef groter dan 30 • OV wordt als nominaal beschouwd (ook al is OV soms ordinaal) • afhankelijke steekproeven • voldaan aan sfericiteits-eis 127 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA Sfericiteit? Varianties van verschilscores moeten ongeveer gelijk zijn aan elkaar: Meting 1 Meting 2 Meting 3 Verschil Verschil Verschil 1-3 2-3 1 8 12 14 -4 -6 -2 2 12 16 22 -4 -10 -6 3 46 32 38 14 8 -6 4 41 35 45 6 -4 -10 5 12 29 20 -17 -8 9 6 16 24 30 -8 -14 -6 7 53 35 52 18 1 -17 8 45 42 49 3 -4 -7 9 21 28 35 -7 -14 -7 10 26 31 39 -5 -13 -8 Variantie 113.6 49.82 42.67 Mauchly’s test + eventuele correctie 128 1-2 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 3. Hypothesen H0: alle populatiegemiddelden zijn aan elkaar gelijk: H1: minstens twee populatiegemiddelden zijn niet gelijk aan elkaar tweezijdig H0 : μ 1 = μ2 = … = μ j H1: μi ≠ μj voor minstens 1 paar van i en j Dus H1 is NIET µa ≠ µb ≠ µc ≠… ≠ µj 129 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 4. Prinicipe Opnieuw vergelijken van effectvariantie met foutenvariantie, maar nu zit de effectvariantie in de within groups variantie! 130 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 131 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 132 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 5. Beslissingsregels a. Overschrijdingskansen (niet in tabel) Is P (F) ≤ α ? ja, verwerp H0 neen, verwerp H0 niet Vb. P (F = 7.13) = 0.0037 voor dfm = 2 , dferror= 24 P (= 0.0037) < 0.05 dus H0 verwerpen 133 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 5. Beslissingsregels b. kritieke waarden Is F ≥ kritieke F waarde bij dfteller = dfm = k – 1 dfnoemer = dferror = dfw - dfm ja, verwerp H0 neen, verwerp H0 niet kritieke F waarde df b = 2 , df w= 24 bij alpha = 0.05 = 3.4 (zie tabel) F (7.13) > Fkritiek (3.4) dus H0 verwerpen 134 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA Tests of Within-Subjects Effects Measure: motivatie Source moment Type III Sum of Squares Mean Square F Sig. Partial Eta Squared Sphericity Assumed 426,303 2 213,152 5,271 ,009 ,201 Greenhouse-Geisser 426,303 1,692 251,939 5,271 ,013 ,201 Huynh-Feldt 426,303 1,824 233,663 5,271 ,011 ,201 Lower-bound 426,303 1,000 426,303 5,271 ,032 ,201 1698,364 42 40,437 Greenhouse-Geisser 1698,364 35,534 47,796 Huynh-Feldt 1698,364 38,313 44,329 Lower-bound 1698,364 21,000 80,874 Error(moment) Sphericity Assumed 135 df Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA Wanneer H0 verworpen is weten we dat minstens 2 metingen verschillen mbt. hun gemiddelde -> welke metingen? = post-hoc toetsing Zelfde probleem als bij one-way ANOVA voor herhaalde toetsen, dus opnieuw corrigeren voor verhoogde kans op Type 1-fout. >> Bonferroni correctie (wanneer we drie groepen vergelijken, alleen besluiten dat er een significant verschil is als P ≤ 0.05/3) 136 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA Pairwise Comparisons Measure: motivatie (I) moment (J) moment Mean Difference (I-J) Std. Error Sig.b 95% Confidence Interval for Differenceb Lower Bound 1 2 3 Upper Bound 2 2,455 2,175 ,815 -3,203 8,112 3 6,182* 2,038 ,019 ,880 11,484 1 -2,455 2,175 ,815 -8,112 3,203 3 3,727 1,464 ,056 -,081 7,536 1 -6,182* 2,038 ,019 -11,484 -,880 2 -3,727 1,464 ,056 -7,536 ,081 Based on estimated marginal means *. The mean difference is significant at the ,05 level. b. Adjustment for multiple comparisons: Bonferroni. • • • 137 SPSS output houdt al rekening met deze correctie; dus de P waarden zijn al gecorrigeerd. Als P ≤ 0.05 dan is er een significant verschil tussen beide groepen vb. enkel significant verschil ts. Groep 1-3 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA Voorbeeld ANOVA in SPSS: motivatie van voetbalspeelsters op drie meetmomenten Aandacht voor correcte invoer van data! 138 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 6. Effectgrootte Partial Eta squared: η² • interpreteerbaar zoals r • te berekenen met SPSS Via ANOVA-dialoogbox > options > estimates of effect size aanvinken 139 Hoofdstuk 8: Variantieanalyse herhaalde metingen HERHAALDE METINGEN ANOVA 7. Rapportering Om na te gaan of de coachingmethode een effect heeft op de motivatie van de speelsters werd een repeated measures ANOVA uitgevoerd. Hieruit bleek dat er een significant effect van meetmoment op de motivatie was, F(2, 42) = 5.27, p = .009, η² = .201 . In het begin van het voetbalseizoen was de motivatie van de speelsters hoger (M = 47.64, SD = 6.81) dan op het einde van het seizoen (M = 41.45, SD = 5.40, p = .019). Ook vlak na de winterstop was de motivatie van de speelsters hoger (M = 45.18, SD = 5.15) dan op het einde van het seizoen, maar dit verschil benaderde slechts significantie, p = .056. 140 Hoofdstuk 8: Variantieanalyse herhaalde metingen FRIEDMAN’S ANOVA 1. Toetsingssituatie Is er een verschil in gemiddelde tussen metingen 1, 2, 3, … van variabele Y? >> zelfde situatie als herhaalde metingen-variantieanalyse. 2. Voorwaarden AV is niet normaal verdeeld en/of AV is van ordinaal meetniveau Evaluatie van de coach in onderzoek van Evelien: “Op een schaal van 1 tot 10, hoe sterk wens je de coach op dit moment enkele bijzonder pijnlijke eksterogen toe?” 141 Hoofdstuk 8: Variantieanalyse herhaalde metingen type AV? aantal OV? type OV? niet in dit boek hoeveel populaties? categorieën afhankelijk? parametrisch non-parametrisch one sample t-test / z-test chi-square goodness of fit onafh. independent t-test / z-test Rank-sum afh. dependent t-test Signed-ranks onafh. one way ANOVA Kruskal-Wallis afh. repeated measures ANOVA Friedman’s ANOVA Pearson correlation Spearman correlation 1 nominaal 2 1 >2 interval/ ordinaal interval/ ordinaal nominaal >1 nominaal 1 onafh. n-way ANOVA afh. repeated measures ANOVA gemengd mixed design ANOVA interval multiple regression gemengd multiple regression 1 onafh. chi-square goodness of fit ≥2 onafh. Pearson chi-square nominaal/ ordinaal •Hoofdstuk 8: Variantieanalyse herhaalde metingen FRIEDMAN’S ANOVA 3. Hypothesen H0: θ1 = θ2 = … = θk H1: θi ≠ θj voor minstens 1 paar van i en j bij k niveaus van de OV 4. Toetsingsgrootheid Gebaseerd op rangordening zoals bij Mann-Whitney, grootheid = H >> analyze > non-parametric > legacy dialogs > k independent samples (zie boek 7.3.4) 143 Hoofdstuk 8: Variantieanalyse herhaalde metingen FRIEDMAN’S ANOVA 4. Toetsingsgrootheid Rangordening zoals bij Kruskal-Wallis, maar ordenen per deelnemer ipv groep speelster 1 2 3 4 5 moment 1 moment 2 moment 3 moment 1 moment 2 moment 3 4 5 2 3 5 5 6 4 7 5 4 6 6 7 5 1.5 1 1 1 2 6.5 3 2.5 2 2.5 2 12 1.5 2.5 3 2.5 2 11.5 Ri R = de rangensom voor moment/conditie i N = totale steekproefgrootte k = aantal meetmomenten/condities 144 Hoofdstuk 8: Variantieanalyse herhaalde metingen FRIEDMAN’S ANOVA 5. Beslissingsregel a. Is de gerapporteerde overschrijdingskans in SPSS kleiner dan α ? ja > verwerp H0 nee > verwerp H0 niet b. Is Fr groter dan de kritieke X²-waarde? (df = k – 1) ja > verwerp H0 nee > verwerp H0 niet Is er een effect? post-hoc toetsen met meerdere Wilcoxon Signed-Rank toetsen. Gebruik zo weinig mogelijk toetsen en hanteer Bonferronicorrectie: α / aantal tests. 145 Hoofdstuk 8: Variantieanalyse herhaalde metingen FRIEDMAN’S ANOVA Demo Friedman’s ANOVA: evaluatie van de coach OV : meetmoment in het seizoen AV: haatgevoelens t.o.v. de coach 146 Hoofdstuk 8: Variantieanalyse herhaalde metingen FRIEDMAN’S ANOVA 6. Effectgrootte Geen effectgrootte voor Friedman’s toets Wel effectgrootte voor eventuele Wilcoxon Signed-rank toetsen (zie H6) 147 Hoofdstuk 8: Variantieanalyse herhaalde metingen FRIEDMAN’S ANOVA 7. Rapportering Friedman’s ANOVA werd uitgevoerd om het effect van de coachingmethode op de haatgevoelens tegenover de coach na te gaan. Dit effect bleek inderdaad significant, F = 18.87, p < .001. Bijkomend werden paarsgewijze Wilcoxon signed-rank toetsen uitgevoerd om de metingen bij de start van het seizoen (mean rank = 1.34), vlak na de winterstop (mean rank = 2.23) en op het einde van het seizoen (mean rank = 2.43) onderling te vergelijken. Hierbij werd een gecorrigeerd significantieniveau van α = .017 gehanteerd. Uit deze post hoc toetsen bleken significante verschillen tussen de haatgevoelens bij de start van het seizoen en vlak na de winterstop (z = 3.47, p < .001, r = -.52) alsook tussen de haatgevoelens bij de start van het seizoen en op het einde van het seizoen (z = -3.42, p < .001, r = -.51). Er was geen significant verschil tussen de haatgevoelens vlak na de winterstop en op het einde van het seizoen (z = 1.58, p = .11, r = -.24). 148 Hoofdstuk 8: Variantieanalyse herhaalde metingen STATISTIEK II toetsen voor het verband tussen variabelen met gelijk meetniveau hoofdstuk 9 PEARSON CORRELATIE Wat is een correlatie? (zie Statistiek I) De samenhang tussen twee variabelen (sterkte + richting van het verband) -1 als minimumwaarde en +1 als maximumwaarde 140,00 80,00 120,00 70,00 120,00 100,00 r = +0.87 r = +0.99 60,00 r = -0.01 100,00 Y Y Y 80,00 50,00 80,00 60,00 40,00 60,00 30,00 40,00 40,00 20,00 20,00 20,00 30,00 40,00 50,00 60,00 70,00 20,00 X 150 Hoofdstuk 9: Variabelen met gelijk meetniveau 30,00 40,00 50,00 X 60,00 70,00 20,00 30,00 40,00 50,00 X 60,00 70,00 PEARSON CORRELATIE Formule r= 𝑛 𝑖=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦) (𝑁 − 1)𝑠𝑥 𝑠𝑦 met N = aantal paren 151 Hoofdstuk 9: Variabelen met gelijk meetniveau PEARSON CORRELATIE 1. Toetsingssituatie Is er een lineair (rechtlijnig) verband tussen twee variabelen? Vb. is er een positief verband tussen intelligentie en schoolresultaten? 2. Voorwaarden X en Y zijn gemeten op intervalniveau X en Y zijn normaal verdeeld in de populatie of N ≥ 30 X en Y zijn bivariaat normaal verdeeld (voor elke X waarde zijn de Y waarden normaal verdeeld) Homoscedasticiteit (populatievarianties van Y voor elke waarde van X zijn aan elkaar gelijk) 152 Hoofdstuk 9: Variabelen met gelijk meetniveau PEARSON CORRELATIE 3. Hypothesen Linkseenzijdig H0: ρ ≥ 0 H1: ρ < 0 Rechtseenzijdig H0: ρ ≤ 0 H1: ρ > 0 Tweezijdig H0: ρ = 0 H1: ρ ≠ 0 4. Toetsingsgrootheid r. N 2 tr 1 r² met df = N – 2 (N = aantal paren) Kansverdeling: Student t-verdeling 153 Hoofdstuk 9: Variabelen met gelijk meetniveau PEARSON CORRELATIE 5. Beslissingsregels Studenten die meer vooraan in de aula zitten halen ook hogere cijfers op het examen. Tweezijdig H0: ρ = 0 H1: ρ 0 Steekproef: 32 studenten, r(rij, examen) = -.38 tr r. N 2 0.39. 32 2 2.14 2.32 0.93 1 r² 1 (0.39²) Voor df = 30 en alpha = 0.05 is kritieke waarde (tweezijdig) gelijk aan 2.042 (tabel p. 323 ev.) Is t l (-2.32) < t kritiek (-2.042)? Ja, dus H0 verwerpen >> studenten die meer vooraan zitten halen inderdaad hogere cijfers! 154 Hoofdstuk 9: Variabelen met gelijk meetniveau PEARSON CORRELATIE Determinatiecoëficiënt R² • R² = r² • wat is het aandeel van variabele X in de variantie van variabele Y? Wat is hun gedeelde variantie? • ≠ in welke mate is variabele X oorzaak van variabele Y? 155 − causaliteit kan in twee richtingen lopen − derde variabele kan verband verklaren partiële correlatie Hoofdstuk 9: Variabelen met gelijk meetniveau PEARSON CORRELATIE Partiële correlatie Wat is de gedeeltelijke gezamenlijke variantie tussen twee variabelen als je controleert voor de invloed van een derde variabele? rij punten 156 Hoofdstuk 9: Variabelen met gelijk meetniveau motivatie? PEARSON CORRELATIE Demo SPSS: Studenten die meer vooraan in de aula zitten halen ook hogere cijfers op het examen. 157 Hoofdstuk 9: Variabelen met gelijk meetniveau PEARSON CORRELATIE 6. Effectgrootte Effectgrootte = r 7. Rapportering Om na te gaan of er een verband is tussen de plaats in de aula waar studenten zitten en hun cijfers op het examen, werd een correlatie berekend. Dit verband bleek significant, r = -.39 , p = .027, N = 32 . Hoe verder de studenten van de docent zaten, hoe lager de punten op het examen. Nadat gecorrigeerd werd voor de motivatie van de studenten daalde deze correlatie tot r = .005, p = .98, N = 32. 158 Hoofdstuk 9: Variabelen met gelijk meetniveau RANGCORRELATIE VAN SPEARMAN 1. Toetsingssituatie Berekenen van een correlatie tussen twee ordinale variabelen. (Pearson correlatie = correlatie tussen twee intervalvariabelen) 2. Voorwaarden Twee variabelen gemeten op ordinaal niveau of Twee variabelen duidelijk niet normaal verdeeld 3. Hypothesen Linkseenzijdig H0: ρs ≥ 0 H1: ρs < 0 Rechtseenzijdig H0: ρs ≤ 0 H1: ρs > 0 Tweezijdig H0: ρs = 0 H1: ρs ≠ 0 159 Hoofdstuk 9: Variabelen met gelijk meetniveau RANGCORRELATIE VAN SPEARMAN 4. Toetsingsgrootheid De waarden van X en Y afzonderlijk ordenen en correlatie berekenen tussen beide rangordeningen rs 1 6 D ² N³ N N = aantal paren D = verschil in rangordenr per paar -1 als minimumwaarde en +1 als maximumwaarde 160 Hoofdstuk 9: Variabelen met gelijk meetniveau RANGCORRELATIE VAN SPEARMAN Toetsingsgrootheid zoals bij Pearson’s correlatie m.b.v. t-verdeling: 5. Beslissingsregels Is de gevonden P (Asymp. Sig. 2-tailed) kleiner dan α ? ja: verwerp H0 nee: verwerp H0 niet 161 Hoofdstuk 9: Variabelen met gelijk meetniveau RANGCORRELATIE VAN SPEARMAN 6. Effectgrootte Effectgrootte = rs = ρs 7. Rapportering (zie Pearson correlatie, maar dan met rs ) 162 Hoofdstuk 9: Variabelen met gelijk meetniveau Χ²-TOETS VOOR VERBAND TUSSEN 2 NOMINALE VARIABELEN 1. Toetsingssituatie Zijn twee nominale variabelen afhankelijk van elkaar? >> Kruistabel met frequenties Is er een verband tussen de wijze waarop vragenlijsten worden afgenomen en het al of niet willen meedoen met de enquête? Niet meedoen Wel meedoen 163 Schriftelijk 90 110 200 Telefonisch 70 130 200 Hoofdstuk 9: Variabelen met gelijk meetniveau Mondeling 25 75 100 185 315 500 Χ²-TOETS VOOR VERBAND TUSSEN 2 NOMINALE VARIABELEN 2. Voorwaarden • Categorieën van elke variabele sluiten elkaar uit • Alle waarden die in het onderzoek bestudeerd worden kunnen in de categorieën ondergebracht worden • X² toets mag je gebruiken wanneer minder dan 20% van de cellen een fe < 5 en geen van de cellen een fe < 1 164 Hoofdstuk 9: Variabelen met gelijk meetniveau Χ²-TOETS VOOR VERBAND TUSSEN 2 NOMINALE VARIABELEN 3. Hypothesen H0: de variabelen zijn onafhankelijk; er is geen verband H1: de variabelen zijn afhankelijk; er is wel een verband Opm. altijd 2-zijdige toetsing 4. Toetsingsgrootheid Pearson Chi Square: 165 Hoofdstuk 9: Variabelen met gelijk meetniveau Χ²-TOETS VOOR VERBAND TUSSEN 2 NOMINALE VARIABELEN 5. Beslissingsregels Overschrijdingskansen Is de gevonden P (Asymp. Sig. 2-tailed) kleiner dan α ? ja: verwerp H0 nee: verwerp H0 niet 166 Hoofdstuk 9: Variabelen met gelijk meetniveau Χ²-TOETS VOOR VERBAND TUSSEN 2 NOMINALE VARIABELEN fo Chi-Square Tests Pearson Chi-Square Likelihood Ratio N of Valid Cases Value 12, 012 a 12, 254 500 df 2 2 Asy mp. Sig. (2-sided) ,002 ,002 a. 0 cells (,0%) hav e expec ted count less t han 5. The minimum expec ted count is 37, 00. fe aan de voorwaarden is voldaan want 0% van de cellen heeft fe < 5 en minimum fe > 1 167 Hoofdstuk 9: Variabelen met gelijk meetniveau Χ²-TOETS VOOR VERBAND TUSSEN 2 NOMINALE VARIABELEN 6. Effectgrootte Verschillende mogelijkheden, Cramer’s V meest universeel geschikt: 7. Rapportering Om na te gaan of er een verband bestaat tussen de wijze waarop vragenlijsten worden afgenomen en het al of niet willen meedoen met de enquête werd een X²-toets uitgevoerd, die uitwees dat er inderdaad een eerder zwak verband is tussen beide variabelen, X² = 12.01, p = .002, V = .16) 168 Hoofdstuk 9: Variabelen met gelijk meetniveau OEFENINGEN Handboek H7: 1 & 3 H8: 1 & 3 H9: 1 & 2 STATISTIEK II Regressieanalyse hoofdstuk 10 REGRESSIEANALYSE • Voorspelling maken op basis van correlatie • Invloed van verschillende OV vergelijken 171 Workshop Inductieve Statistiek REGRESSIEANALYSE Voorwaarden • De criteriumvariabele (= afhankelijke variabele) is gemeten op intervalniveau. • De observaties van de criteriumvariabele zijn onafhankelijk van elkaar. • De predictor (= onafhankelijke variabele) is gemeten op intervalniveau of het is een dichotome variabele. • De fouten (of residuen) van de voorspelling die we maken zijn normaal verdeeld met een gemiddelde van 0. • De fouten (of residuen) van de voorspelling die we maken zijn ongecorreleerd met elkaar. 172 Workshop Inductieve Statistiek ENKELVOUDIGE REGRESSIE y = 2 + 3x 173 Workshop Inductieve Statistiek ENKELVOUDIGE REGRESSIE 20 d = 1.8 18 fuifsatisfactie 16 d = 2.1 14 d = 1.2 12 10 8 6 { 4 2 0 70 80 90 100 110 120 alcohol 𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝜀𝑖 174 Workshop Inductieve Statistiek 130 140 150 20 20 18 18 16 16 14 14 fuifsatisfactie fuifsatisfactie ENKELVOUDIGE REGRESSIE 12 10 8 6 10 8 6 4 4 2 2 0 0 70 80 90 100 110 120 130 alcohol 175 12 Workshop Inductieve Statistiek 140 150 70 80 90 100 110 alcohol 120 130 140 150 ENKELVOUDIGE REGRESSIE Wanneer is het model “nuttig”? 𝑅² = 𝑆𝑆𝑀 𝑆𝑆𝑇 𝑀𝑆𝑀 𝐹= 𝑀𝑆𝑅 176 SSM Verschil regressiepredictie vs gemiddelde van Y Variantie model Variantie fouten (residuen) Workshop Inductieve Statistiek SST Verschil geobserveerde scores vs gemiddelde van Y ENKELVOUDIGE REGRESSIE Wanneer is de predictor “nuttig”? 𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖 + 𝜀𝑖 als 𝑏1 > 0 𝑏𝑜𝑏𝑠 − 𝑏𝑒𝑥𝑝 𝑡= 𝑆𝐸𝑏 177 Workshop Inductieve Statistiek ENKELVOUDIGE REGRESSIE Normaliteit van residuen? 178 Workshop Inductieve Statistiek ENKELVOUDIGE REGRESSIE Autocorrelatie van residuen? Durbin-Watson toets: 0 179 1 Workshop Inductieve Statistiek 2 3 4 ENKELVOUDIGE REGRESSIE Outliers? 180 Workshop Inductieve Statistiek ENKELVOUDIGE REGRESSIE Outliers? 2 technieken: 1. Cook’s Distance: case > 1 outlier 2. Gestandaardiseerde residuen: |z| > 3 outlier 181 Workshop Inductieve Statistiek MEERVOUDIGE REGRESSIE Voorwaarden • De criteriumvariabele (= afhankelijke variabele) is gemeten op intervalniveau. • De observaties van de criteriumvariabele zijn onafhankelijk van elkaar. • De predictor (= onafhankelijke variabele) is gemeten op intervalniveau of het is een dichotome variabele. • De fouten (of residuen) van de voorspelling die we maken zijn normaal verdeeld met een gemiddelde van 0. • De fouten (of residuen) van de voorspelling die we maken zijn ongecorreleerd met elkaar. • De predictoren zijn lineair onafhankelijk van elkaar: er is geen multicollineariteit. 182 Workshop Inductieve Statistiek MEERVOUDIGE REGRESSIE Uitbreiding van enkelvoudige regressie: 𝑌𝑖 = 𝑏0 + 𝑏1 𝑋𝑖1 + 𝑏2 𝑋𝑖2 + ⋯ + 𝑏𝑛 𝑋𝑛 + 𝜀𝑖 Of 𝑓𝑢𝑖𝑓𝑠𝑎𝑡𝑖𝑠𝑓𝑎𝑐𝑡𝑖𝑒𝑖 = 𝑏0 + 𝑏1𝑖 ∗ 𝑎𝑙𝑐 𝑐𝑜𝑛𝑠𝑢𝑚𝑝𝑡𝑖𝑒𝑠𝑖 +𝑏2𝑖 ∗ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑎𝑎𝑛𝑤𝑒𝑧𝑖𝑔𝑒𝑛𝑖 + 𝜀𝑖 183 Workshop Inductieve Statistiek MEERVOUDIGE REGRESSIE 184 Workshop Inductieve Statistiek MEERVOUDIGE REGRESSIE Hiërarchisch (enter) Stapsgewijs 185 • Onderzoeker kiest • Bekende predictoren eerst • Computer kiest • Stepwise, forward: stapsgewijs toevoegen; grootste correlatie eerst • Backward: stapsgewijs verwijderen Workshop Inductieve Statistiek MEERVOUDIGE REGRESSIE Multicollineariteit Lineaire relatie tussen 2 of meer predictoren 2 problemen: − Onnodige uitbreiding model − Onbetrouwbare schatting b’s minder snel sign. 186 Workshop Inductieve Statistiek MEERVOUDIGE REGRESSIE Detectie multicollineariteit: Tolerance: 0 .20 .40 .60 .80 1 VIF (Variance Inflation factor) = 1 / Tolerance 0 187 Workshop Inductieve Statistiek … 4 5 … MEERVOUDIGE REGRESSIE Een meervoudige regressieanalyse werd uitgevoerd met de fuifsatisfactie als criterium en het aantal alcoholische consumpties, het aantal aanwezigen en het aantal vrienden als predictoren (model 1). Dit model bleek significant, met R² = .46, F = 16.11, p < .001. Zoals aangegeven in Tabel 1 was het aantal aanwezigen geen significante predictor. Deze predictor werd daarom niet opgenomen in model 2, dat ook significant bleek met R² = .44, F = 22.09, p < .001. Van de resterende predictoren blijkt het aantal aanwezige vrienden het meeste invloed uit te oefenen op de fuifsatisfactie. Tabel 1: Resultaten enkelvoudige regressie met fuifsatisfactie als criterium en aantal alcoholische consumpties als predictor. B SE B 11.08 .66 aantal consumpties -.15 aantal aanwezigen aantal vrienden model 1 constante β t .05 -.30 16.69** * -3.04** .01 .00 .17 1.66 .24 .05 .50 4.93*** 11.63 .59 -.15 .05 -.30 19.89** * -3.03** .26 .05 .55 5.43*** model 2 constante aantal consumpties aantal vrienden **p < .01, ***p < .001 188 Workshop Inductieve Statistiek STRATEGIE 1. Analyseer de opgave − − − − − − − onderzoekseenheden? AV? OV? meetniveaus? populaties? afhankelijke steekproeven? (non)parametrisch? één/tweezijdig? 2. Verken de data 3. Kies de juiste toets 4. Rapporteer (relevante getallen, conclusie in termen van onderzoeksvraag) Hoofdstuk 9: Variabelen met gelijk meetniveau OEFENINGEN Handboek H10: 2 & 3 H11: 8 & 9