H1. Variabele Variabele is kenmerk die per persoon kan verschillen. Data is meting van kenmerk. Een schaal is de meeteenheid om een variabele te meten Een nominale (=naam geven) variabele heeft wel of niet een kenmerk, bijv: Belg/Ned, Man/Vrouw. Een ordinale variabele ordent de kenmerken van laag naar hoog zonder vaste onderliggende schaal: Afstand van 1 tot 2 ≠ afstand van 2 tot 3. Bijv: laag-, midden-, hoogopgeleid. Nominaal en ordinaal zijn categorisch= wel/niet in klasse. Een kwantitatieve variabele is numeriek,continu en krijgt een getalswaarde: Een interval schaal gaat van laag naar hoog met vaste onderliggende schaal. Afstand van 1 tot 2 = afstand van 2 tot 3. Bijv: hoogte van temperatuur. Een ratioschaal gaat van laag naar hoog met vaste schaal en nulpunt. Afstand van 1 tot 2 = afstand van 2 tot 3. Bijv: lengte in centimeters. Reductie zoekt 1 score die data samenvat. Het rekenkundig gemiddelde som van de waarnemingen Σxi x= = aantal waarnemingen n Als 50% kleiner en 50% groter= mediaan. De mediaan is de middelste waarneming als van laag naar hoog gerangschikt. Bij losse waarnemingen is de modus de waarneming die het meest voorkomt. Variantie s2 Σ(losse scores x - gemiddelde)2 (=SS) 2 s= n= aantal losse scores standaarddeviatie s= √variantie s2 NB: vanaf H3 delen door n-1 correlatie r. cov(X,Y) r= sx*sy cov(X,Y)= ∑(X-X)(Y-Y)/n Kruisprodukt= ∑(X-X)(Y-Y) Covariantie= gemiddeld kruisprodukt Correlatie= gestandaardiseerde covariantie y (x,y)= ++ (X,Y) x (x,y)= -- Als zowel x en y hoger of lager dan gemiddelde draagt punt bij aan een positieve correlatie. Extra H1. Rekenen met vectoren. rijvector b: (a, b, c) kolomvector x: x y z xT= (x, y, z) bx= ax + by + cz gemiddelde in vectornotatie Σxi x= 1Tx = n n Voorbeeld: Bereken gemiddelde van 5, 10, 15 normaal: 5 + 10 + 15 3 vector: 5 10 15 (1, 1, 1) 3 variantie in vectornotatie ∑(xi – x)2 (x-x1)T (x-x1) = n n Voorbeeld: Bereken variantie van 5, 10, 15 normaal: -52 + 02 + 52 3 vector: (-5, 0, 5) 3 -5 0 5 H2. Theorie Kansen. De toevalsvariabele Een toevalsvariabele is een variabele waarvan de uitkomst toeval is. Een gebeurtenis is een groepje mogelijke uitkomsten van de variabele. Een zekere gebeurtenis zijn alle mogelijke uitkomsten. De som van de kansen op alle uitkomsten is 1. voorbeeld: dobbelsteen is toevalsvariabele uitkomst 1,2= gebeurtenis uitkomst 1,2,3,4,5,6= zekere gebeurtenis De uitkomsten van de variabele zijn discreet of continu: discreet= eindig aantal uitkomsten. continu= oneindig aantal waarnemingen in interval. voorbeeld: dobbelsteen is discreet, lengte is continu De kans de kans op een uitkomst is hoe vaak iets gebeurt als je eindeloos probeert: aantal uitkomsten met A P(A)= De kans op uitkomst A= totaal aantal uitkomsten complement van kans A: De kans dat iets niet gebeurt= 1 - de kans dat het wel gebeurt. p(A)*= 1 - p(A) p(A)*= het complement van p(A) voorbeeld zuivere dobbelsteen: kans op gooien van 6= 1/6 complement van gooien van 6: 1 – 1/6= 5/6 Unie= kansen optellen. aantal uitkomsten met tenminste 1 kenmerk A of B P(A U B)= totaal aantal uitkomsten als A en B elkaar uitsluiten: P(A U B)= P(A) + P(B) als A en B elkaar niet uitsluiten: P(A U B)= P(A) + P(B) - P(A ∩ B) voorbeeld zuivere dobbelsteen als uitsluiten: uitkomst A= 1,2,3 uitkomst B= 4,5 P(A U B)= 3/6 + 2/6= 5/6 voorbeeld zuivere dobbelsteen als niet uitsluiten: uitkomst A= 1,2,3 uitkomst B= 1,3,5 P(A U B)= 3/6 + 3/6 – 2/6= 4/6 1 2 3 4 5 6 4 6 2 1 3 5 Onafhankelijke en afhankelijke kansen. onafhankelijk= uitkomst A geen invloed op uitkomst B: P(B)= P(B│A) afhankelijk= uitkomst A invloed op uitkomst B: P(B)≠ P(B│A) voorbeeld zuivere dobbelsteen onafhankelijk A= 1,2 B= even= 2,4,6 P(B)= 3/6= 1/2 1 3 5 2 4 6 P(B│A)= 1/2 P(B)=3/6 voorbeeld zuivere dobbelsteen afhankelijk A= 1,2,3 B= even= 2,4,6 P(B)= 3/6= 1/2 1 3 5 2 4 6 P(B│A)= 1/3 P(B)=3/6 1 2 P(B│A)= 1/2 1 2 3 P(B│A)= 1/3 Doorsnede= overlap tussen de uitkomsten. aantal uitkomsten met beide kenmerken A en B P(A ∩ B)= totaal aantal uitkomsten Als kansen onafhankelijk: p(A ∩ B)= p(A) * p(B) P(A)=P(A│B) P(B)=P(B│A) Als kansen afhankelijk: p(A ∩ B)= p(A) * p(B│A) voorbeeld zuivere dobbelsteen onafhankelijk A= 1,2 B= even= 2,4,6 P(A ∩ B)= 1/6 1 2 4 6 P(A ∩ B)= p(A) * p(B)= 2/6 * 1/2= 1/6 3 5 P(A ∩ B)= 1/6 voorbeeld zuivere dobbelsteen afhankelijk A= 1,2,3 B= even= 2,4,6 P(A ∩ B)= 1/6 1 3 2 4 6 P(A ∩ B)= P(A) * p(B│A)= 1/2 * 1/3= 1/6 5 P(A ∩ B)= 1/6 De voorwaardelijke kans P(A│B): het aantal waarnemingen A in B P(A ∩ B) P(A│B)= = het aantal waarnemingen B P(B) voorbeeld zuivere dobbelsteen: A=1,2,3 B=1,3,5 C=2,4,6 P(B)= 3/6 P(B│A)= 2/3 P(C)= 3/6 P(C│A)= 1/3 of met formule: P(A ∩ B) / P(B)= 2/6 / 3/6= 2/3 of met formule: P(A ∩ C) / P(C)= 1/6 / 3/6= 1/3 Een discrete kansverdeling. Een discrete kansverdeling f(x) geeft de uitkomsten met de kans. De cumulatieve kansverdeling F(x) geeft de kans kleiner of gelijk aan. F(x)= een niet dalende stapsgewijze functie. voorbeeld X 1 fx: 1/6 Fx: 1/6 dobbelsteen 2 3 4 1/6 1/6 1/6 2/6 3/6 4/6 5 1/6 5/6 6 1/6 1 Het gemiddelde van de discrete kansverdeling. E(X)= Σ(de uitkomsten * de kansen) De variantie van de discrete kansverdeling. Var(X)= Σ(de uitkomsten - gemiddelde)2 * de kansen voorbeeld X: 4 fx: 1/4 8 3/4 E(X)= 4 * 1/4 + 8 * 3/4= 7 Var(X)= (4-7)2 * 1/4 + (8-7)2 * 3/4= 3 Een continue kansverdeling. De kansdichtheidsfunctie f(x) geeft de kans op een uitkomst in een interval. De kans op een uitkomst in een interval is gelijk aan het oppervlakte dat hoort bij het interval. In een continue kansverdeling heeft een punt geen oppervlakte -> p(X=getal)=0 (Logica: Niemand weegt precies 80kg, maar bijv. 80,0001kg) Totale oppervlakte onder de functie is 1. De verdelingsfunctie F(x) geeft de kans kleiner of gelijk aan. F(x)= is een continue niet-dalende functie. Binomiale kansverdeling met parameters n en π. n! kans op k goede uitkomsten= * π k * (1- π)n-k k!*(n-k)! n= de steekproefgrootte E(X)= n*π π= kans op succes bij elke poging Var(X)= n*π*(1- π) k= aantal successen in de steekproef Aanname: De kans op succes is constant. voorbeeld dobbelsteen: je gooit 4x met een dobbelsteen, kans op uitkomst 1x 6: 4! * 1/61 * 5/64-1 = 4 * 1/6 * 0.5787= 0.386 1!*(4-1)! Poisson kansverdeling. x ~ Poisson(μ) e-λ * λx p(X=x)= x! λ= gemiddeld aantal gebeurtenissen in de periode x= het aantal goeden E(X)=λ Var(X)=λ De normale verdeling. N(μ,σ) is een normale verdeling met E(X)=μ en Var(X)σ2 De normale verdeling is symmetrisch rond μ. De z-verdeling. De standaard normale verdeling Z is symmetrisch rond 0 met σ=1: N(0, 1) Elke score van normale verdeling kan worden omgeschreven naar z: ruwe score X - μ z= σ voorbeeld: μ=100 en σ=10 kans op score kleiner dan 90 -> Z = (90 – 100)/10= -1 -> p(Z < -1)= 0,1587 t-verdeling. z t-verdeling (in vergelijking met z-verdeling). t= meer uitgewaaierd dan z Bij n>30 -> t ~ z t en z beide symmetrisch rond 0. E(X)= 0 Var(X)=df/(df-2) t 0 Χ2-verdeling. E(Χ2)= df en Var(Χ2)= 2df F-verdeling: - F altijd positief - Rechtsscheef - Piek bij ongeveer 1 (iets groter) 0 ∞ 1 Bivariate (=gezamenlijke) kansverdeling. Een gezamenlijke kansverdeling geeft de kans op tegelijk X en Y. - kansen (x,y) ≥ 0 - som gezamenlijke kansen ∑(x,y) = 1 cov(X,Y) = E(XY) - E(X) * E(Y) E(XY)= Σ(uitkomst X * uitkomst Y * kans op tegelijk X en Y) cov(X,Y) ρ(X,Y)= σX * σY voorbeeld Y=0 Y=1 X=0 0.4 0.3 X=1 0.1 0.2 P(X=0)= 0.7 E(X)= 0 * 0.7 + 1 * 0.3= 0.3 V(X)= (0 – 0.3)2 * 0.7 + (1 – 0.3)2 * 0.3= 0.063 + 0.147= 0.21 E(Y)= 0 * 0.5 + 1 * 0.5= 0.5 V(X)= (0 – 0.5)2 * 0.5 + (1 – 0.5)2 * 0.5= 0.125 + 0.125= 0.25 E(XY)= 0*0*0.4 + 0*1*0.3 + 1*0*0.1 + 1*1*0.2= 0.2 COV(XY)= 0.2 – 0.3*0.5= 0.05 COR(XY)= 0.05/ (√0.21*√0.25)= 0.218 P(X=0│Y=0)= 0.4/0.5= 0.8 P(X=0│Y=1)= 0.3/0.5= 0.6 H3. Steekproevenverdeling van X. Je doet een steekproef uit populatie waarvan gemiddelde bekend is. Het gemiddelde van steekproef is niet bekend (kan door toeval afwijken van gemiddelde populatie) en de steekproevenverdeling X geeft kansverdeling van de mogelijke uitkomsten van het gemiddelde van de steekproef. De standaardfout is de betrouwbaarheid van de schatter. Rekenen met X. Voorbeeld μ=10, σ=5, n=25 kans op uitkomst gemiddelde >12 Z=(12-10)/(5/√25)= 2 -> P(Z > 2)= 0.022 X - μ z = σ/√n Centrale limietstelling: Als populatie normaal is kansverdeling X altijd normaal verdeeld. Als n > 30 kan je het gemiddelde normaal benaderen, ook als populatie niet normaal verdeeld is. Steekproevenverdeling X heeft gemiddelde µ en Var(X)= Var(X)/n Als n groter, wordt verdeling steeds normaler en Var(X) steeds kleiner. Steekproevenverdeling van S2. Je doet een steekproef uit populatie waarvan variantie σ2 bekend is. De variantie in de steekproef is niet bekend (kan door toeval afwijken van de populatie) en de steekproevenverdeling S2 geeft kansverdeling van de mogelijke uitkomsten van de variantie in steekproef. n-1 E(S2)= * σ2 n NB: E(S2)≠ σ2 Stappen over op: Σ(losse scores x - gemiddelde)2 (=SS) S2= n - 1 Parameter= kengetal van de populatie θ = een parameter die je wil schatten μ en σ in de normale verdeling en π in binomiale verdeling Statistiek= kengetal van de steekproef S= schatter voor parameter θ -> Schatter is zuiver als: E(S)= θ Efficiënt als var(S) zo klein mogelijk Zuivere schatters voor μ en π X voor μ en π=X/n voor π Grootste aannemelijkheid (=Maximum likelihood) De statistiek S in de steekproef heeft een uitkomst. Je kiest voor de parameter die de grootste kans geeft op deze uitkomst. Voorbeeld. Gemiddelde lengte studenten X= 1.75m μ=1.75m is lengte populatie met grootse kans op dit resultaat H4. Toetsen Voor 1 gemiddelde µ: 1. Toetsen met μ en σ gekend H0: μ = μ0 (=gegeven constante) Ha: μ <, ≠, > μ0 _ X – μ0 z= σ/√n kritieke waarden in tabel B.2 bij inf en overschrijdingskans in tabel B.1 2. Toetsen met μ en σ geschat H0: μ = μ0 (=gegeven constante) Ha: μ <, ≠, > μ0 _ X – μ0 t = S/√n kritieke waarden in tabel B.2 met df=n-1 Voorwaarden t-verdeling: - aselecte trekking, als niet: groot probleem. - Normaal verdeelde populaties (checken met boxplot, histogram), geen probleem als n>30. Voor 1 variantie σ2 : Testen van ² H0: ² = ²0 (=gegeven constante) Ha: ² <, ≠, > ²0 (n-1) * S² χ2= ²0 kritieke waarden in tabel B.3 met df=n-1 3 manieren om te toetsen: A. Toetsen met Toetsstatistiek G en kritieke waarde g G ligt niet in acceptatiegebied: H0 verwerpen. B. Toetsen met Overschrijdingskans en Statistische Significantie α. De overschrijdingskans is de waarschijnlijkheid van een uitkomst die zo extreem is, of nog extremer, als de H0 waar is (=de staart) Als de overschrijdingskans < significance -> H0 verwerpen. Als de overschrijdingskans > significance -> H0 niet verwerpen. Het Als Als Als berekenen van Ha < -> Ha > -> Ha ≠ -> de overschrijdingskans: p (linkerstaart). p (rechterstaart). 2 * p(de kleinste staart). C. Toetsen met betrouwbaarheidinterval. Voor 2 gemiddelden: Onafhankelijke steekproeven 1. Het verschil tussen 2 gemiddelden μ1 – μ2 met σ1 en σ2 gekend Voorwaarden: normaal verdeelde populaties of n>30, aselekte steekproeven. H0: μ1 = μ2 Ha: μ1 <, ≠, > μ2 _ _ X1 - X2 z = σ21 σ22 √( + ) n1 n2 kritieke waarden en overschrijdingskans in tabel B.1 2. Het verschil tussen 2 gemiddelden μ1 – μ2 met σ21=σ22 en niet gekend Voorwaarden: normaal verdeelde populaties, gelijke varianties, aselekte steekproeven. H0: μ1 = Ha: μ1 <, ≠, _ X1 t = 1 √S2P*( n1 μ2 > μ2 _ X2 1 + ) n2 (n1 - 1) * S21 + (n2 - 1) * S22 met S2POOLED= n1 + n2 - 2 S2POOLED=een gewogen gemiddelde van beide varianties kritieke waarden in tabel B.2 met df= n1 + n2 - 2 3. Afhankelijke steekproeven (=gepaarde waarnemingen) Voorwaarden: n>30, aselekte steekproeven. H0: δ = 0 Ha: δ <, ≠, > 0 _ D – δ=0 t= SD/√nP kritieke waarden in tabel B.2 met df= n-1, n=aantal paren Voor 2 varianties : Testen van 1 =2 Voorwaarden: normaal verdeelde populaties of n>30, aselekte steekproeven. H0: 1 = 2 Ha: 1 <, , > 2 F= S21/S22 kritieke waarden in tabel B.4 met df= n-1 Veel gemaakte fouten: - Nooit conclusie dat H0 waar is (H0 wel/niet verwerpen). - p-waarde is niet de kans dat H0 waar is (=kans als H0 waar is). - Significant resultaat is waar (=kan ook toeval zijn). - Statistisch significant is praktisch betekenisvol (kan heel klein zijn). NB: Tussen haakjes staat wat goed is H4. Intervallen. Interval voor gemiddelde μ met σ gekend _ _ [X = z * (σ/√n), X + z * (σ/√n)] z kan je opzoeken in tabel B.2 bij inf σ is gegeven, n= het aantal waarnemingen in de steekproef Interval voor gemiddelde μ met σ wordt niet gekend _ X ± t * (s/√n) t kan je opzoeken in tabel B.2 met df=n-1 Interval voor σ2: (n-1) * S² k Het verschil tussen 2 gemiddelden μ1 – μ2 met σ21 en σ22 gekend _ _ σ21 σ22 (X1-X2)± z * √( + ) n1 n2 z in tabel B.2 met df=inf Interval voor het verschil tussen 2 gemiddelden μx1 en μx2 Voorwaarden: gelijke varianties (σ1=σ2) en onafhankelijke steekproeven. _ _ 1 1 (X1-X2) ± t * S2P( + ) n1 n2 t in tabel B.2 met df= n1+n2-2 Als n groter wordt. Als n groter wordt -> wordt het interval kleiner. Logica: Met grote n kan je het gemiddelde steeds beter schatten en wordt de onzekerheidsmarge steeds kleiner. 0.99 interval > 0.95 interval Logica: Als je meer zekerheid wil dat μ in het interval ligt, moet je het interval groter maken. Toetsen met betrouwbaarheidinterval. Een btbhi is alles wat de H0 mag zijn: H0 ligt in het btbhi en wordt niet verworpen. Voorbeeld: μ=10 en btbhi (9, 13) en de H0 wordt aanvaard. H0 ligt niet in het btbhi en wordt verworpen. Voorbeeld: μ=10 en btbhi (6, 9) en de H0 wordt verworpen. Als Ha > Als Ha < -> bereken ondergrens met – in formule -> bereken bovengrens met + in formule H5. Onderscheidingsvermogen Betrouwbaarheid α. Uitgangspunt: H0 is waar. α is de kans dat een ware H0 wordt verworpen. Ware H0 verwerpen= Type-I fout. α het liefst 0, maar in de praktijk meestal 0.05. α=0.05 betekent maximaal 5% kans dat ware H0 wordt verworpen. Onderscheidingsvermogen. Uitgangspunt: Ha is waar. Onderscheidingsvermogen is de kans dat een ware Ha wel wordt aangetoond. Type-II fout β is de kans dat een ware Ha niet wordt aangetoond. β= 1 - onderscheidingsvermogen. Onderscheidingsvermogen het liefst 100%. β=0.20 betekent 20% kans dat een ware Ha niet wordt aangetoond en 80% onderscheidingsvermogen dat de ware Ha wel wordt aangetoond. One-tailed meer onderscheidingsvermogen dan two-tailed. Logica: Bij one-tailed weet je al in welke richting je moet zoeken en dat verhoogt de kans dat je wat vindt. α groter -> onderscheidingsvermogen groter. Logica: Als H0 makkelijk te verwerpen, Ha makkelijker aan te tonen. Steekproef groter -> onderscheidingsvermogen groter. Als steekproef groter wordt, beter beeld en worden foutkansen kleiner. Als σ kleiner -> onderscheidingsvermogen groter. Logica: met kleine σ wordt de spreiding kleiner en de schatting preciezer en kan je verschil makkelijker vinden. Effect size Cohen’s d= │μa – μ0│/σ Effect size groter -> onderscheidingsvermogen groter. Logica: een groot verschil tussen Ha en H0 is makkelijker aan te tonen. d=0.2:small, d=0.5:medium, d=0.8:large. Berekenen onderscheidingsvermogen 1. Kies een alternatief voor µ0 -> µa= . . 2. Berekenen van Kritieke Waarde voor X: Gegeven 0 + g * standaardfout Gegeven 0 - g * standaardfout g in tabel B.2 bij inf standaardfout=σ/√n 3. Bereken de z-waarde voor de Ha z=(kritieke Waarde – μa)/standaardfout 4. Bereken onderscheidingsvermogen en β H5. Bepalen van Steekproefgrootte. Toets met 1 steekproef: zα + zβ 2 n= δ zα: opzoeken in tabel B.2 bij inf, als tweezijdig α/2 zβ bij β=0.20 gelijk aan 0.842 δ= (µa - µ0)/σ Toets met 2 steekproeven: zα + zβ 2 n= 2 * δ zα: opzoeken in tabel B.2 bij inf, als tweezijdig α/2 zβ bij β=0.20 gelijk aan 0.842 δ= (µ1 - µ2)/σ α kleiner -> n groter β kleiner -> n groter Logica: Als je geen fouten wil, heb je grote steekproef nodig zodat je precies weet wat er aan de hand is. effectgrootte groter -> n kleiner (Logica: groot verschil is makkelijk aan te tonen). σ kleiner -> n kleiner Logica: nauwkeurige schatter geeft goed beeld en dus heb je weinig n nodig. H7. Enkelvoudige lineaire regressie. Een spreidingsdiagram (scatterplot) is een puntenwolk. Elk punt geeft de scores van 1 individu op x en y Je kan in een scatterplot zien hoe x en y samenhangen: - 1. de richting (stijgend=positief of dalend=negatief) - 2. de sterkte (tussen -1 en 1) - 3. de vorm (lineair of kwadratisch) Het lineaire model. y= b0 + b1 * x Doel is voorspellen van y. Residu ε= meting y – schatting (=b0 + b1 * x) (residu: hoe ver ligt een los punt van de rechte lijn) De lijn wordt zo geschat dat ∑residuen2 wordt geminimaliseerd =kleinste kwadratenmethode Het model bestaat uit een rechte lijn die ergens begint (=b0) en die een constante richting heeft (helling= b1). b0 is de waarde van y, bij x=0 b1 laat het effect van x op y zien als x met 1 punt stijgt (=helling). Schatten van Regressielijn. y= b0 + b1 * x Σ(losse scores x – x)*(losse scores y - y) B1= Σ(losse scores x - x)2 B0= y – b1 * x SSE =∑(meting y-schatting y)2 S2ε= n-2 Testen van β H0: β1 = 0 Ha: β1 <, ≠, > 0 S2ε B1 - 0 SB1= √ t= Σ(losse scores x - x)2 SB1 ->=n*s2x kritieke waarde in tabel B.2 met df=n-2 Coefficients Intercept Predictor Estimate B0 B1 Std Error sB0 sB1 value t=B0/sB0 t=B1/sB1 pr(>│value│) overschrijdingskans overschrijdingskans Interval voor predictor β1 [B1 – t*SB1, B1 + t*SB1] Als Ha: β1 < 0 -> [-∞, B1 + t*SB1] Als Ha: β1 > 0 -> [B1 - t*SB1, +∞] Interval voor voorspelling y [y* - t*sE(y*), y* + t*sE(y*)] 1 sE(y*)= √ (x* - x)2 + n Σ(losse scores x - x)2 Berekenen determinatiecoefficient r2 SST – SSE NB: SST=E0 en SSE=Ep r2= SST SST= SSR + SSE SSR= ∑(schatting - gemiddelde)2= ∑(y - y)2 SSE= ∑(meting - schatting )2= ∑(y - y)2 SST= ∑(meting - gemiddelde)2= ∑(y - y)2 Toetsen van r2 H0: r2 = 0 Ha: r2 ≠ 0 (SST – SSE)/1 F= SSE/(n-2) Kritieke waarde in tabel B.4 met df1=1 en df2=n-2 NB: F= t2 NB: Als H0 wordt verworpen levert predictor een betere schatting op dan het nulmodel (=elk persoon wordt voorspeld met het groepsgemiddelde) Onafhankelijke en afhankelijke variabele Variabele is kenmerk die per persoon kan verschillen. Onafhankelijke variabele x wordt door de onderzoeker ingesteld om het effect te meten op de afhankelijke variabele. Afhankelijke variabele y reageert op onafhankelijke variabele. Lineaire Modellen Model is vereenvoudigde weergave van de werkelijkheid. Een wiskundig model is model in wiskundige taal. Een statistisch model is wiskundig model dat rekening houdt met toevallige afwijkingen in de relatie y en x (=stochastisch element in model) Residu ε is het stochastische deel in het model Assumpties over ε in het model ε ~ N(0, σε2) 1. E(εi)= 0 (positieve en negatieve uitschieters vallen tegen elkaar weg en schatting is niet systematisch te hoog of te laag) 2. var(εi)=σε2 (residu is constant en er is homoscedasticiteit, dwz. geen toenemend residu bij hoge x-waarde) 3. cov(εi,εj)=0 (ene residu voorspelt niet andere residu=onafhankelijk) Uitschieters in de data Mahalanobis afstand om uitschieters in x op te sporen Gestandaardiseerd residu om uitschieters in y op te sporen DFFITS voor de impact van 1 waarneming in dataset op schatting y DFBETTS voor de impact van 1 waarneming in dataset op schatting b1 Cook’s Distance voor de impact van 1 waarneming op schattingen b0 en b1 Als groter dan 1= grote impact H8. Enkelvoudig Anova. Enkelvoudig Anova voor het vergelijken van de groepsgemiddelden. De standaardvorm van de data: Groep 1: y y y y Groep= nominaal+onafhankelijk=factor Groep 2: y y y y y afhankelijk=responsvariabele Groep 3: y y y y De data in Groep 1: μ Groep 2: μ Groep 3: μ een effectmodel + α1 + e + α2 + e + α3 + e μ= gemiddelde steekproef α= celgemiddelde – totaalgemiddelde e= losse scores - celgemiddelde Anova-model. Bron SS df MS F Model SSM I-1 MSM=SSM/I-1 MSM/MSE Error SSE N-I MSE=SSE/N-I Totaal SST N= aantal waarnemingen in de steekproef I= aantal groepen in de steekproef n= aantal waarnemingen per Groep SSM= SSE= SST= SST= overschrijdingskans Σ (n * α2) Σ (losse scores – groepsgemiddelde)2 Σ (losse scores - steekproefgemiddelde)2 SSM + SSE F-Test H0: Geen verschil Groepsgemiddelden: μ1= μ2= μ3 of Ha: Er is tenminste 1 verschil F= MSM/MSE Kritieke waarde F-tabel B.4 met df1=I-1 en df2=N-I overschrijdingskans < α en de H0 wordt verworpen H0: R2=0 Schattingen σε2=variantie en R2=verklaarde variantie Sε2= MSE R2= SSM/SST Het effectenmodel. yik= µ + αi + εik met i=niveau A en k=aantal personen per groep ε ~ N(0, σε2) yik= responsvariabele µ= gemeenschappelijke constante αi= effect van de factor (=structureel) εik=de foutterm (=stochastisch) Assumpties over ε in het model ε ~ N(0, σε2) 1. E(εi)= 0 (positieve en negatieve uitschieters vallen tegen elkaar weg en schatting is niet systematisch te hoog of te laag) 2. var(εi)=σε2 (residu is constant en er is homoscedasticiteit, dwz. hetzelfde verwachte residu bij alle personen en er is homogeniteit van de varianties dwz. dezelfde variantie in alle groepen: homogeniteit testen met Bartlett of Levene) 3. cov(εi,εj)=0 (ene residu voorspelt niet andere residu=onafhankelijk) Overparametrisering vrije parameters= µ, αi en σε2 (=I+2) datapunten= gemiddelde van de factoren (=groepen) en Sε2 (I+1) overgeparametriseerd want vrije parameters > datapunten Gevolg= oneindig aantal oplossingen Oplossing= Sigmarestictie of GLM-restrictie Sigmarestrictie (∑αi=0) -> Groep 1: β0 + β1 Groep 2: β0 + β2 Controlegroep: β0 - β1 – β2 GLM-restrictie (αi=0) -> Groep 1: β0 + β1 Groep 2: β0 + β2 Controlegroep: β0 Effectcodering. X1 X2 1 0 β0= totaalgemiddelde 0 1 β1= MEAN Groep 1 – totaalgemiddelde -1 -1 β2= MEAN Groep 2 – totaalgemiddelde Dummycodering. X1 X2 1 0 β0= gemiddelde Controlegroep 0 1 β1= MEAN Groep 1 – controlegroep 0 0 β2= MEAN Groep 2 – controlegroep Contrast ψ Contrasten zijn om groepsgemiddelden te vergelijken. c1 * 1 + c2 * 2 -> is contrast als c1 + c2= 0 schatting van contrast met groepsgemiddelden. standaardfout contrast= √MSE*∑(c2/n) c zijn de getalletjes in het contrast n is het aantal waarnemingen per groep t-toets voor contrast. H0: Contrast ψ = 0 Ha: Contrast ψ ≠ 0 F-toets voor contrast. H0: Contrast ψ = 0 Ha: Contrast ψ ≠ 0 schatting contrast t= SSψ =schatting contrast2/∑(c2/n) F= standaardfout contrast kritieke waarde in B.2 met df=N-I MSE kritieke waarde in B.4 met df1=1 en df2=N-I Orthogonale contrasten= contrast 1 geeft geen info over contrast 2 Als I groepen, I-1 orthogonale contrasten. ψ1= c1 * Y1 + c2 * Y2 ψ2= c3 * Y3 + c4 * Y4 Orthogonaal als c1 * c3 + c2 * c4= 0 (bij gelijke n) Type-I fout bij meerdere contrasten Nadeel toets contrast: met 1 toets is foutkans α=0.05 opgebruikt. Met elke volgende toets neemt de totale foutkans verder toe: Totale foutkans= 1 - (1-α)k met k=aantal toetsen Controleren van Type-I fout bij meerdere a priori contrasten A priori als vooraf gepland contrast. 1. I-1 of minder orthogonale contrasten Procedure: je werkt gewoon met α 2. k niet-orthogonale contrasten Procedure: Bonferroni-> t-tabel met α/k met k=aantal toetsen. H9. χ2-toets. χ2 test voor gegeven kansverdelingen (=Goodness-of-fit). Als 1 categorische variabele met meerdere klassen Test of de uitkomsten overeenkomen met een gegeven kansverdeling. H0: Gegeven kansverdeling klopt -> nj= n*πj Ha: Gegeven kansverdeling klopt niet -> nj≠ n*πj (nj - n*πj)2 χ2= ∑ nj = aantal getelde waarnemingen n*πj= aantal verwachte waarnemingen n*πj kritieke waarde in tabel B.3 met df=J-1 met J= het aantal klassen χ2 voor onafhankelijkheid 2 variabelen in een kruistabel. Variabele Y Y1 Y2 Y3 X1 Variabele X: X2 X3 H0: πij= πi+*πj+ (variabelen zijn onafhankelijk) Ha: πij≠ πi+*πj+ (variabelen zijn afhankelijk) (nij - µij)2 χ2= ∑ µij nij = getelde aantal waarnemingen in een cel µij = verwachte aantal waarnemingen (als variabelen onafhankelijk) rijsom * kolomsom µij= totaalsom kritieke waarde in tabel B.3: df=(I-1)(J-1) met I=aantal rijen en J=het aantal kolommen Associatiematen in eenkruistabel: Φ= √(χ2/n) Φ alleen in 2*2-kruistabel want alleen dan: bovengrens=1 χ2 Pearson C= √(χ2/(χ2+n) Cramer’s V= √( ) n*(q-1) q=minimum aantal rijen/kolommen n=aantal personen Testen van π met Binomiale kansverdeling B. n! kans op x goede uitkomsten= * πx * (1- π)n-x x!*(n-x)! n= de steekproefgrootte π= kans op succes bij elke poging x= aantal successen in de steekproef Aanname: De kans op succes is constant. Testen van π H0: π π0 (=gegeven constante) Ha: π <, > π0 (=gegeven constante) Testen met overschrijdingskans