MS2 en MS3 starten vanaf dinsdag 16 Januari 2007

advertisement
H1.
Variabele
Variabele is kenmerk die per persoon kan verschillen.
Data is meting van kenmerk.
Een schaal is de meeteenheid om een variabele te meten
Een nominale (=naam geven) variabele heeft wel of niet een kenmerk,
bijv: Belg/Ned, Man/Vrouw.
Een ordinale variabele ordent de kenmerken van laag naar hoog zonder vaste
onderliggende schaal: Afstand van 1 tot 2 ≠ afstand van 2 tot 3.
Bijv: laag-, midden-, hoogopgeleid.
Nominaal en ordinaal zijn categorisch= wel/niet in klasse.
Een kwantitatieve variabele is numeriek,continu en krijgt een getalswaarde:
Een interval schaal gaat van laag naar hoog met vaste onderliggende schaal.
Afstand van 1 tot 2 = afstand van 2 tot 3.
Bijv: hoogte van temperatuur.
Een ratioschaal gaat van laag naar hoog met vaste schaal en nulpunt.
Afstand van 1 tot 2 = afstand van 2 tot 3.
Bijv: lengte in centimeters.
Reductie zoekt 1 score die data samenvat.
Het rekenkundig gemiddelde
som van de waarnemingen
Σxi
x=
=
aantal waarnemingen
n
Als 50% kleiner en 50% groter= mediaan.
De mediaan is de middelste waarneming als van laag naar hoog gerangschikt.
Bij losse waarnemingen is de modus de waarneming die het meest voorkomt.
Variantie s2
Σ(losse scores x - gemiddelde)2 (=SS)
2
s=
n= aantal losse scores
standaarddeviatie s= √variantie s2
NB: vanaf H3 delen door n-1
correlatie r.
cov(X,Y)
r=
sx*sy
cov(X,Y)= ∑(X-X)(Y-Y)/n
Kruisprodukt= ∑(X-X)(Y-Y)
Covariantie= gemiddeld kruisprodukt
Correlatie= gestandaardiseerde covariantie
y
(x,y)= ++
(X,Y)
x
(x,y)= --
Als zowel x en y hoger of lager dan gemiddelde
draagt punt bij aan een positieve correlatie.
Extra H1. Rekenen met vectoren.
rijvector b:
(a, b, c)
kolomvector x:
x
y
z
xT= (x, y, z)
bx= ax + by + cz
gemiddelde in vectornotatie
Σxi
x=
1Tx
=
n
n
Voorbeeld:
Bereken gemiddelde van 5, 10, 15
normaal:
5 + 10 + 15
3
vector:
5
10
15
(1, 1, 1)
3
variantie in vectornotatie
∑(xi – x)2
(x-x1)T (x-x1)
=
n
n
Voorbeeld:
Bereken variantie van 5, 10, 15
normaal:
-52 + 02 + 52
3
vector:
(-5, 0, 5)
3
-5
0
5
H2. Theorie Kansen.
De toevalsvariabele
Een toevalsvariabele is een variabele waarvan de uitkomst toeval is.
Een gebeurtenis is een groepje mogelijke uitkomsten van de variabele.
Een zekere gebeurtenis zijn alle mogelijke uitkomsten.
De som van de kansen op alle uitkomsten is 1.
voorbeeld:
dobbelsteen is toevalsvariabele
uitkomst 1,2= gebeurtenis
uitkomst 1,2,3,4,5,6= zekere gebeurtenis
De uitkomsten van de variabele zijn discreet of continu:
discreet= eindig aantal uitkomsten.
continu= oneindig aantal waarnemingen in interval.
voorbeeld:
dobbelsteen is discreet, lengte is continu
De kans
de kans op een uitkomst is hoe vaak iets gebeurt als je eindeloos probeert:
aantal uitkomsten met A
P(A)= De kans op uitkomst A=
totaal aantal uitkomsten
complement van kans A:
De kans dat iets niet gebeurt= 1 - de kans dat het wel gebeurt.
p(A)*= 1 - p(A)
p(A)*= het complement van p(A)
voorbeeld zuivere dobbelsteen:
kans op gooien van 6= 1/6
complement van gooien van 6: 1 – 1/6= 5/6
Unie= kansen optellen.
aantal uitkomsten met tenminste 1 kenmerk A of B
P(A U B)=
totaal aantal uitkomsten
als A en B elkaar uitsluiten:
P(A U B)= P(A) + P(B)
als A en B elkaar niet uitsluiten:
P(A U B)= P(A) + P(B) - P(A ∩ B)
voorbeeld zuivere dobbelsteen als uitsluiten:
uitkomst A= 1,2,3
uitkomst B= 4,5
P(A U B)= 3/6 + 2/6= 5/6
voorbeeld zuivere dobbelsteen als niet uitsluiten:
uitkomst A= 1,2,3
uitkomst B= 1,3,5
P(A U B)= 3/6 + 3/6 – 2/6= 4/6
1 2 3
4 5
6
4 6
2
1 3
5
Onafhankelijke en afhankelijke kansen.
onafhankelijk= uitkomst A geen invloed op uitkomst B: P(B)= P(B│A)
afhankelijk=
uitkomst A
invloed op uitkomst B: P(B)≠ P(B│A)
voorbeeld zuivere dobbelsteen onafhankelijk
A= 1,2
B= even= 2,4,6
P(B)= 3/6= 1/2
1 3 5
2 4 6
P(B│A)= 1/2
P(B)=3/6
voorbeeld zuivere dobbelsteen afhankelijk
A= 1,2,3
B= even= 2,4,6
P(B)= 3/6= 1/2
1 3 5
2 4 6
P(B│A)= 1/3
P(B)=3/6
1
2
P(B│A)= 1/2
1
2
3
P(B│A)= 1/3
Doorsnede= overlap tussen de uitkomsten.
aantal uitkomsten met beide kenmerken A en B
P(A ∩ B)=
totaal aantal uitkomsten
Als kansen onafhankelijk:
p(A ∩ B)= p(A) * p(B)
P(A)=P(A│B)
P(B)=P(B│A)
Als kansen afhankelijk:
p(A ∩ B)= p(A) * p(B│A)
voorbeeld zuivere dobbelsteen onafhankelijk
A= 1,2
B= even= 2,4,6
P(A ∩ B)= 1/6
1
2
4 6
P(A ∩ B)=
p(A) * p(B)=
2/6 * 1/2= 1/6
3
5
P(A ∩ B)= 1/6
voorbeeld zuivere dobbelsteen afhankelijk
A= 1,2,3
B= even= 2,4,6
P(A ∩ B)= 1/6
1 3 2 4 6
P(A ∩ B)=
P(A) * p(B│A)=
1/2 * 1/3= 1/6
5
P(A ∩ B)= 1/6
De voorwaardelijke kans P(A│B):
het aantal waarnemingen A in B
P(A ∩ B)
P(A│B)=
=
het aantal waarnemingen B
P(B)
voorbeeld zuivere dobbelsteen:
A=1,2,3
B=1,3,5
C=2,4,6
P(B)= 3/6
P(B│A)= 2/3
P(C)= 3/6
P(C│A)= 1/3
of met formule: P(A ∩ B) / P(B)= 2/6 / 3/6= 2/3
of met formule: P(A ∩ C) / P(C)= 1/6 / 3/6= 1/3
Een discrete kansverdeling.
Een discrete kansverdeling f(x) geeft de uitkomsten met de kans.
De cumulatieve kansverdeling F(x) geeft de kans kleiner of gelijk aan.
F(x)= een niet dalende stapsgewijze functie.
voorbeeld
X
1
fx: 1/6
Fx: 1/6
dobbelsteen
2
3
4
1/6 1/6 1/6
2/6 3/6 4/6
5
1/6
5/6
6
1/6
1
Het gemiddelde van de discrete kansverdeling.
E(X)= Σ(de uitkomsten * de kansen)
De variantie van de discrete kansverdeling.
Var(X)= Σ(de uitkomsten - gemiddelde)2 * de kansen
voorbeeld
X:
4
fx: 1/4
8
3/4
E(X)= 4 * 1/4 + 8 * 3/4= 7
Var(X)= (4-7)2 * 1/4 + (8-7)2 * 3/4= 3
Een continue kansverdeling.
De kansdichtheidsfunctie f(x) geeft de kans op een uitkomst in een
interval. De kans op een uitkomst in een interval is gelijk aan het
oppervlakte dat hoort bij het interval.
In een continue kansverdeling heeft een punt geen oppervlakte ->
p(X=getal)=0 (Logica: Niemand weegt precies 80kg, maar bijv. 80,0001kg)
Totale oppervlakte onder de functie is 1.
De verdelingsfunctie F(x) geeft de kans kleiner of gelijk aan.
F(x)= is een continue niet-dalende functie.
Binomiale kansverdeling met parameters n en π.
n!
kans op k goede uitkomsten=
* π k * (1- π)n-k
k!*(n-k)!
n= de steekproefgrootte
E(X)= n*π
π= kans op succes bij elke poging
Var(X)= n*π*(1- π)
k= aantal successen in de steekproef
Aanname: De kans op succes is constant.
voorbeeld dobbelsteen:
je gooit 4x met een dobbelsteen,
kans op uitkomst 1x 6:
4!
* 1/61 * 5/64-1 = 4 * 1/6 * 0.5787= 0.386
1!*(4-1)!
Poisson kansverdeling.
x ~ Poisson(μ)
e-λ * λx
p(X=x)=
x!
λ= gemiddeld aantal gebeurtenissen in de periode
x= het aantal goeden
E(X)=λ
Var(X)=λ
De normale verdeling.
N(μ,σ) is een normale verdeling met E(X)=μ en Var(X)σ2
De normale verdeling is symmetrisch rond μ.
De z-verdeling.
De standaard normale verdeling Z is symmetrisch rond 0 met σ=1: N(0, 1)
Elke score van normale verdeling kan worden omgeschreven naar z:
ruwe score X - μ
z=
σ
voorbeeld:
μ=100 en σ=10
kans op score kleiner dan 90 ->
Z = (90 – 100)/10= -1 ->
p(Z < -1)= 0,1587
t-verdeling.
z
t-verdeling (in vergelijking met z-verdeling).
t= meer uitgewaaierd dan z
Bij n>30 -> t ~ z
t en z beide symmetrisch rond 0.
E(X)= 0
Var(X)=df/(df-2)
t
0
Χ2-verdeling.
E(Χ2)= df en
Var(Χ2)= 2df
F-verdeling:
- F altijd positief
- Rechtsscheef
- Piek bij ongeveer 1 (iets groter)
0
∞
1
Bivariate (=gezamenlijke) kansverdeling.
Een gezamenlijke kansverdeling geeft de kans op tegelijk X en Y.
- kansen (x,y) ≥ 0
- som gezamenlijke kansen ∑(x,y) = 1
cov(X,Y) = E(XY) - E(X) * E(Y)
E(XY)= Σ(uitkomst X * uitkomst Y * kans op tegelijk X en Y)
cov(X,Y)
ρ(X,Y)=
σX * σY
voorbeeld
Y=0 Y=1
X=0 0.4 0.3
X=1 0.1 0.2
P(X=0)= 0.7
E(X)= 0 * 0.7 + 1 * 0.3= 0.3
V(X)= (0 – 0.3)2 * 0.7 + (1 – 0.3)2 * 0.3= 0.063 + 0.147= 0.21
E(Y)= 0 * 0.5 + 1 * 0.5= 0.5
V(X)= (0 – 0.5)2 * 0.5 + (1 – 0.5)2 * 0.5= 0.125 + 0.125= 0.25
E(XY)= 0*0*0.4 + 0*1*0.3 + 1*0*0.1 + 1*1*0.2= 0.2
COV(XY)= 0.2 – 0.3*0.5= 0.05
COR(XY)= 0.05/ (√0.21*√0.25)= 0.218
P(X=0│Y=0)= 0.4/0.5= 0.8
P(X=0│Y=1)= 0.3/0.5= 0.6
H3.
Steekproevenverdeling van X.
Je doet een steekproef uit populatie waarvan gemiddelde  bekend is.
Het gemiddelde van steekproef is niet bekend (kan door toeval afwijken van
gemiddelde populatie) en de steekproevenverdeling X geeft kansverdeling
van de mogelijke uitkomsten van het gemiddelde van de steekproef.
De standaardfout is de betrouwbaarheid van de schatter.
Rekenen met X.
Voorbeeld
μ=10, σ=5, n=25
kans op uitkomst gemiddelde >12
Z=(12-10)/(5/√25)= 2 ->
P(Z > 2)= 0.022
X - μ
z =
σ/√n
Centrale limietstelling:
Als populatie normaal is kansverdeling X altijd normaal verdeeld.
Als n > 30 kan je het gemiddelde normaal benaderen,
ook als populatie niet normaal verdeeld is.
Steekproevenverdeling X heeft gemiddelde µ en Var(X)= Var(X)/n
Als n groter, wordt verdeling steeds normaler en Var(X) steeds kleiner.
Steekproevenverdeling van S2.
Je doet een steekproef uit populatie waarvan variantie σ2 bekend is.
De variantie in de steekproef is niet bekend (kan door toeval afwijken
van de populatie) en de steekproevenverdeling S2 geeft kansverdeling
van de mogelijke uitkomsten van de variantie in steekproef.
n-1
E(S2)=
* σ2
n
NB: E(S2)≠ σ2
Stappen over op:
Σ(losse scores x - gemiddelde)2 (=SS)
S2=
n - 1
Parameter= kengetal van de populatie
θ = een parameter die je wil schatten
μ en σ in de normale verdeling en π in binomiale verdeling
Statistiek= kengetal van de steekproef
S= schatter voor parameter θ ->
Schatter is zuiver als: E(S)= θ
Efficiënt als var(S) zo klein mogelijk
Zuivere schatters voor μ en π
X voor μ en π=X/n voor π
Grootste aannemelijkheid (=Maximum likelihood)
De statistiek S in de steekproef heeft een uitkomst.
Je kiest voor de parameter die de grootste kans geeft op deze uitkomst.
Voorbeeld.
Gemiddelde lengte studenten X= 1.75m
μ=1.75m is lengte populatie met grootse kans op dit resultaat
H4. Toetsen
Voor 1 gemiddelde µ:
1. Toetsen met μ en σ gekend
H0: μ
=
μ0 (=gegeven constante)
Ha: μ <, ≠, > μ0
_
X – μ0
z=
σ/√n
kritieke waarden in tabel B.2 bij inf en overschrijdingskans in tabel B.1
2. Toetsen met μ en σ geschat
H0: μ
=
μ0 (=gegeven constante)
Ha: μ <, ≠, > μ0
_
X – μ0
t =
S/√n
kritieke waarden in tabel B.2 met df=n-1
Voorwaarden t-verdeling:
- aselecte trekking, als niet: groot probleem.
- Normaal verdeelde populaties (checken met boxplot, histogram), geen probleem als n>30.
Voor 1 variantie σ2 :
Testen van ²
H0: ²
=
²0 (=gegeven constante)
Ha: ² <, ≠, > ²0
(n-1) * S²
χ2=
²0
kritieke waarden in tabel B.3 met df=n-1
3 manieren om te toetsen:
A. Toetsen met Toetsstatistiek G en kritieke waarde g
G ligt niet in acceptatiegebied: H0 verwerpen.
B. Toetsen met Overschrijdingskans en Statistische Significantie α.
De overschrijdingskans is de waarschijnlijkheid van een uitkomst die zo
extreem is, of nog extremer, als de H0 waar is (=de staart)
Als de overschrijdingskans < significance -> H0 verwerpen.
Als de overschrijdingskans > significance -> H0 niet verwerpen.
Het
Als
Als
Als
berekenen van
Ha <
->
Ha >
->
Ha ≠
->
de overschrijdingskans:
p (linkerstaart).
p (rechterstaart).
2 * p(de kleinste staart).
C. Toetsen met betrouwbaarheidinterval.
Voor 2 gemiddelden:
Onafhankelijke steekproeven
1. Het verschil tussen 2 gemiddelden μ1 – μ2 met σ1 en σ2 gekend
Voorwaarden: normaal verdeelde populaties of n>30, aselekte steekproeven.
H0: μ1
=
μ2
Ha: μ1 <, ≠, > μ2
_
_
X1 - X2
z =
σ21
σ22
√(
+
)
n1
n2
kritieke waarden en overschrijdingskans in tabel B.1
2. Het verschil tussen 2 gemiddelden μ1 – μ2 met σ21=σ22 en niet gekend
Voorwaarden: normaal verdeelde populaties, gelijke varianties, aselekte steekproeven.
H0: μ1
=
Ha: μ1 <, ≠,
_
X1 t =
1
√S2P*(
n1
μ2
> μ2
_
X2
1
+
)
n2
(n1 - 1) * S21 + (n2 - 1) * S22
met
S2POOLED=
n1 + n2 - 2
S2POOLED=een gewogen gemiddelde van beide varianties
kritieke waarden in tabel B.2 met df= n1 + n2 - 2
3. Afhankelijke steekproeven (=gepaarde waarnemingen)
Voorwaarden: n>30, aselekte steekproeven.
H0: δ
=
0
Ha: δ <, ≠, > 0
_
D – δ=0
t=
SD/√nP
kritieke waarden in tabel B.2 met df= n-1, n=aantal paren
Voor 2 varianties :
Testen van 1 =2
Voorwaarden: normaal verdeelde populaties of n>30, aselekte steekproeven.
H0: 1
=
2
Ha: 1 <, , > 2
F= S21/S22
kritieke waarden in tabel B.4 met df= n-1
Veel gemaakte fouten:
- Nooit conclusie dat H0 waar is (H0 wel/niet verwerpen).
- p-waarde is niet de kans dat H0 waar is (=kans als H0 waar is).
- Significant resultaat is waar (=kan ook toeval zijn).
- Statistisch significant is praktisch betekenisvol (kan heel klein zijn).
NB: Tussen haakjes staat wat goed is
H4. Intervallen.
Interval voor gemiddelde μ met σ gekend
_
_
[X = z * (σ/√n), X + z * (σ/√n)]
z kan je opzoeken in tabel B.2 bij inf
σ is gegeven, n= het aantal waarnemingen in de steekproef
Interval voor gemiddelde μ met σ wordt niet gekend
_
X ± t * (s/√n)
t kan je opzoeken in tabel B.2 met df=n-1
Interval voor σ2:
(n-1) * S²
k
Het verschil tussen 2 gemiddelden μ1 – μ2 met σ21 en σ22 gekend
_ _
σ21 σ22
(X1-X2)± z * √(
+
)
n1
n2
z in tabel B.2 met df=inf
Interval voor het verschil tussen 2 gemiddelden μx1 en μx2
Voorwaarden: gelijke varianties (σ1=σ2) en onafhankelijke steekproeven.
_ _
1
1
(X1-X2) ± t * S2P(
+
)
n1
n2
t in tabel B.2 met df= n1+n2-2
Als n groter wordt.
Als n groter wordt -> wordt het interval kleiner.
Logica: Met grote n kan je het gemiddelde steeds beter schatten
en wordt de onzekerheidsmarge steeds kleiner.
0.99 interval > 0.95 interval
Logica: Als je meer zekerheid wil dat μ in het interval ligt,
moet je het interval groter maken.
Toetsen met betrouwbaarheidinterval.
Een btbhi is alles wat de H0 mag zijn:
H0 ligt in het btbhi en wordt niet verworpen.
Voorbeeld: μ=10 en btbhi (9, 13) en de H0 wordt aanvaard.
H0 ligt niet in het btbhi en wordt verworpen.
Voorbeeld: μ=10 en btbhi (6, 9) en de H0 wordt verworpen.
Als Ha >
Als Ha <
-> bereken ondergrens met – in formule
-> bereken bovengrens met + in formule
H5. Onderscheidingsvermogen
Betrouwbaarheid α.
Uitgangspunt: H0 is waar.
α is de kans dat een ware H0 wordt verworpen.
Ware H0 verwerpen= Type-I fout.
α het liefst 0, maar in de praktijk meestal 0.05.
α=0.05 betekent maximaal 5% kans dat ware H0 wordt verworpen.
Onderscheidingsvermogen.
Uitgangspunt: Ha is waar.
Onderscheidingsvermogen is de kans dat een ware Ha wel wordt aangetoond.
Type-II fout β is de kans dat een ware Ha niet wordt aangetoond.
β= 1 - onderscheidingsvermogen.
Onderscheidingsvermogen het liefst 100%.
β=0.20 betekent 20% kans dat een ware Ha niet wordt aangetoond
en 80% onderscheidingsvermogen dat de ware Ha wel wordt aangetoond.
One-tailed meer onderscheidingsvermogen dan two-tailed.
Logica: Bij one-tailed weet je al in welke richting je moet zoeken
en dat verhoogt de kans dat je wat vindt.
α groter -> onderscheidingsvermogen groter.
Logica: Als H0 makkelijk te verwerpen, Ha makkelijker aan te tonen.
Steekproef groter -> onderscheidingsvermogen groter.
Als steekproef groter wordt, beter beeld en worden foutkansen kleiner.
Als σ kleiner -> onderscheidingsvermogen groter.
Logica: met kleine σ wordt de spreiding kleiner en de schatting preciezer
en kan je verschil makkelijker vinden.
Effect size Cohen’s d= │μa – μ0│/σ
Effect size groter -> onderscheidingsvermogen groter.
Logica: een groot verschil tussen Ha en H0 is makkelijker aan te tonen.
d=0.2:small, d=0.5:medium, d=0.8:large.
Berekenen onderscheidingsvermogen
1. Kies een alternatief voor µ0 ->
µa= . .
2. Berekenen van Kritieke Waarde voor X:
Gegeven 0 + g * standaardfout
Gegeven 0 - g * standaardfout
g in tabel B.2 bij inf
standaardfout=σ/√n
3. Bereken de z-waarde voor de Ha
z=(kritieke Waarde – μa)/standaardfout
4. Bereken onderscheidingsvermogen en β
H5. Bepalen van Steekproefgrootte.
Toets met 1 steekproef:
zα + zβ
2
n=
δ
zα: opzoeken in tabel B.2 bij inf, als tweezijdig α/2
zβ bij β=0.20 gelijk aan 0.842
δ= (µa - µ0)/σ
Toets met 2 steekproeven:
zα + zβ
2
n= 2 *
δ
zα: opzoeken in tabel B.2 bij inf, als tweezijdig α/2
zβ bij β=0.20 gelijk aan 0.842
δ= (µ1 - µ2)/σ
α kleiner -> n groter
β kleiner -> n groter
Logica: Als je geen fouten wil, heb je grote steekproef nodig zodat je
precies weet wat er aan de hand is.
effectgrootte groter -> n kleiner
(Logica: groot verschil is makkelijk aan te tonen).
σ kleiner -> n kleiner
Logica: nauwkeurige schatter geeft goed beeld en dus heb je weinig n nodig.
H7. Enkelvoudige lineaire regressie.
Een spreidingsdiagram (scatterplot) is een puntenwolk.
Elk punt geeft de scores van 1 individu op x en y
Je kan in een scatterplot zien hoe x en y samenhangen:
- 1. de richting (stijgend=positief of dalend=negatief)
- 2. de sterkte (tussen -1 en 1)
- 3. de vorm (lineair of kwadratisch)
Het lineaire model.
y= b0 + b1 * x
Doel is voorspellen van y.
Residu ε= meting y – schatting (=b0 + b1 * x)
(residu: hoe ver ligt een los punt van de rechte lijn)
De lijn wordt zo geschat dat ∑residuen2 wordt geminimaliseerd
=kleinste kwadratenmethode
Het model bestaat uit een rechte lijn die ergens begint (=b0)
en die een constante richting heeft (helling= b1).
b0 is de waarde van y, bij x=0
b1 laat het effect van x op y zien als x met 1 punt stijgt (=helling).
Schatten van Regressielijn.
y= b0 + b1 * x
Σ(losse scores x – x)*(losse scores y - y)
B1=
Σ(losse scores x - x)2
B0= y – b1 * x
SSE
=∑(meting y-schatting y)2
S2ε=
n-2
Testen van β
H0: β1
=
0
Ha: β1 <, ≠, > 0
S2ε
B1 - 0
SB1= √
t=
Σ(losse scores x - x)2
SB1
->=n*s2x
kritieke waarde in tabel B.2 met df=n-2
Coefficients
Intercept
Predictor
Estimate
B0
B1
Std Error
sB0
sB1
value
t=B0/sB0
t=B1/sB1
pr(>│value│)
overschrijdingskans
overschrijdingskans
Interval voor predictor β1
[B1 – t*SB1, B1 + t*SB1]
Als Ha: β1 < 0 -> [-∞, B1 + t*SB1]
Als Ha: β1 > 0 -> [B1 - t*SB1, +∞]
Interval voor voorspelling y
[y* - t*sE(y*),
y* + t*sE(y*)]
1
sE(y*)= √
(x* - x)2
+
n
Σ(losse scores x - x)2
Berekenen determinatiecoefficient r2
SST – SSE
NB: SST=E0
en
SSE=Ep
r2=
SST
SST= SSR + SSE
SSR= ∑(schatting - gemiddelde)2= ∑(y - y)2
SSE= ∑(meting
- schatting )2= ∑(y - y)2
SST= ∑(meting
- gemiddelde)2= ∑(y - y)2
Toetsen van r2
H0: r2 = 0
Ha: r2 ≠ 0
(SST – SSE)/1
F=
SSE/(n-2)
Kritieke waarde in tabel B.4 met df1=1 en df2=n-2
NB: F= t2
NB: Als H0 wordt verworpen levert predictor een betere schatting op dan het
nulmodel (=elk persoon wordt voorspeld met het groepsgemiddelde)
Onafhankelijke en afhankelijke variabele
Variabele is kenmerk die per persoon kan verschillen.
Onafhankelijke variabele x wordt door de onderzoeker ingesteld om het
effect te meten op de afhankelijke variabele.
Afhankelijke variabele y reageert op onafhankelijke variabele.
Lineaire Modellen
Model is vereenvoudigde weergave van de werkelijkheid.
Een wiskundig model is model in wiskundige taal.
Een statistisch model is wiskundig model dat rekening houdt met toevallige
afwijkingen in de relatie y en x (=stochastisch element in model)
Residu ε is het stochastische deel in het model
Assumpties over ε in het model
ε ~ N(0, σε2)
1. E(εi)= 0
(positieve en negatieve uitschieters vallen tegen elkaar weg
en schatting is niet systematisch te hoog of te laag)
2. var(εi)=σε2 (residu is constant en er is homoscedasticiteit, dwz. geen
toenemend residu bij hoge x-waarde)
3. cov(εi,εj)=0 (ene residu voorspelt niet andere residu=onafhankelijk)
Uitschieters in de data
Mahalanobis afstand om uitschieters in x op te sporen
Gestandaardiseerd residu om uitschieters in y op te sporen
DFFITS voor de impact van 1 waarneming in dataset op schatting y
DFBETTS voor de impact van 1 waarneming in dataset op schatting b1
Cook’s Distance voor de impact van 1 waarneming op schattingen b0 en b1
Als groter dan 1= grote impact
H8. Enkelvoudig Anova.
Enkelvoudig Anova voor het vergelijken van de groepsgemiddelden.
De standaardvorm van de data:
Groep 1: y y y y
Groep= nominaal+onafhankelijk=factor
Groep 2: y y y y
y afhankelijk=responsvariabele
Groep 3: y y y y
De data in
Groep 1: μ
Groep 2: μ
Groep 3: μ
een effectmodel
+ α1 + e
+ α2 + e
+ α3 + e
μ= gemiddelde steekproef
α= celgemiddelde – totaalgemiddelde
e= losse scores - celgemiddelde
Anova-model.
Bron
SS
df
MS
F
Model
SSM
I-1
MSM=SSM/I-1
MSM/MSE
Error
SSE
N-I
MSE=SSE/N-I
Totaal
SST
N= aantal waarnemingen in de steekproef
I= aantal groepen in de steekproef
n= aantal waarnemingen per Groep
SSM=
SSE=
SST=
SST=
overschrijdingskans
Σ (n * α2)
Σ (losse scores – groepsgemiddelde)2
Σ (losse scores - steekproefgemiddelde)2
SSM + SSE
F-Test
H0: Geen verschil Groepsgemiddelden: μ1= μ2= μ3 of
Ha: Er is tenminste 1 verschil
F= MSM/MSE
Kritieke waarde F-tabel B.4 met df1=I-1 en df2=N-I
overschrijdingskans < α en de H0 wordt verworpen
H0: R2=0
Schattingen σε2=variantie en R2=verklaarde variantie
Sε2= MSE
R2= SSM/SST
Het effectenmodel.
yik= µ + αi + εik
met i=niveau A en k=aantal personen per groep
ε ~ N(0, σε2)
yik= responsvariabele
µ= gemeenschappelijke constante
αi= effect van de factor (=structureel)
εik=de foutterm (=stochastisch)
Assumpties over ε in het model
ε ~ N(0, σε2)
1. E(εi)= 0
(positieve en negatieve uitschieters vallen tegen elkaar weg
en schatting is niet systematisch te hoog of te laag)
2. var(εi)=σε2 (residu is constant en er is homoscedasticiteit, dwz.
hetzelfde verwachte residu bij alle personen
en er is homogeniteit van de varianties
dwz. dezelfde variantie in alle groepen:
homogeniteit testen met Bartlett of Levene)
3. cov(εi,εj)=0 (ene residu voorspelt niet andere residu=onafhankelijk)
Overparametrisering
vrije parameters= µ, αi en σε2 (=I+2)
datapunten= gemiddelde van de factoren (=groepen) en Sε2 (I+1)
overgeparametriseerd want vrije parameters > datapunten
Gevolg= oneindig aantal oplossingen
Oplossing= Sigmarestictie of GLM-restrictie
Sigmarestrictie (∑αi=0) ->
Groep 1:
β0 + β1
Groep 2:
β0 + β2
Controlegroep: β0 - β1 – β2
GLM-restrictie (αi=0)
->
Groep 1:
β0 + β1
Groep 2:
β0 + β2
Controlegroep: β0
Effectcodering.
X1 X2
1
0
β0= totaalgemiddelde
0
1
β1= MEAN Groep 1 – totaalgemiddelde
-1 -1
β2= MEAN Groep 2 – totaalgemiddelde
Dummycodering.
X1 X2
1 0
β0= gemiddelde Controlegroep
0 1
β1= MEAN Groep 1 – controlegroep
0 0
β2= MEAN Groep 2 – controlegroep
Contrast ψ
Contrasten zijn om groepsgemiddelden te vergelijken.
c1 * 1 + c2 * 2 -> is contrast als c1 + c2= 0
schatting van contrast met groepsgemiddelden.
standaardfout contrast= √MSE*∑(c2/n)
c zijn de getalletjes in het contrast
n is het aantal waarnemingen per groep
t-toets voor contrast.
H0: Contrast ψ = 0
Ha: Contrast ψ ≠ 0
F-toets voor contrast.
H0: Contrast ψ = 0
Ha: Contrast ψ ≠ 0
schatting contrast
t=
SSψ =schatting contrast2/∑(c2/n)
F=
standaardfout contrast
kritieke waarde in B.2
met df=N-I
MSE
kritieke waarde in B.4
met df1=1 en df2=N-I
Orthogonale contrasten= contrast 1 geeft geen info over contrast 2
Als I groepen, I-1 orthogonale contrasten.
ψ1= c1 * Y1 + c2 * Y2
ψ2= c3 * Y3 + c4 * Y4
Orthogonaal als c1 * c3 + c2 * c4= 0 (bij gelijke n)
Type-I fout bij meerdere contrasten
Nadeel toets contrast: met 1 toets is foutkans α=0.05 opgebruikt.
Met elke volgende toets neemt de totale foutkans verder toe:
Totale foutkans= 1 - (1-α)k met k=aantal toetsen
Controleren van Type-I fout bij meerdere a priori contrasten
A priori als vooraf gepland contrast.
1. I-1 of minder orthogonale contrasten
Procedure: je werkt gewoon met α
2. k niet-orthogonale contrasten
Procedure: Bonferroni-> t-tabel met α/k met k=aantal toetsen.
H9. χ2-toets.
χ2 test voor gegeven kansverdelingen (=Goodness-of-fit).
Als 1 categorische variabele met meerdere klassen
Test of de uitkomsten overeenkomen met een gegeven kansverdeling.
H0: Gegeven kansverdeling klopt
-> nj= n*πj
Ha: Gegeven kansverdeling klopt niet -> nj≠ n*πj
(nj - n*πj)2
χ2= ∑
nj = aantal getelde waarnemingen
n*πj= aantal verwachte waarnemingen
n*πj
kritieke waarde in tabel B.3 met df=J-1 met J= het aantal klassen
χ2 voor onafhankelijkheid 2 variabelen in een kruistabel.
Variabele Y
Y1
Y2
Y3
X1
Variabele X: X2
X3
H0: πij= πi+*πj+ (variabelen zijn onafhankelijk)
Ha: πij≠ πi+*πj+ (variabelen zijn afhankelijk)
(nij - µij)2
χ2= ∑
µij
nij = getelde aantal waarnemingen in een cel
µij = verwachte aantal waarnemingen (als variabelen onafhankelijk)
rijsom * kolomsom
µij=
totaalsom
kritieke waarde in tabel B.3: df=(I-1)(J-1)
met I=aantal rijen en J=het aantal kolommen
Associatiematen in eenkruistabel:
Φ= √(χ2/n)
Φ alleen in 2*2-kruistabel want alleen dan: bovengrens=1
χ2
Pearson C= √(χ2/(χ2+n)
Cramer’s V= √(
)
n*(q-1)
q=minimum aantal
rijen/kolommen
n=aantal personen
Testen van π met Binomiale kansverdeling B.
n!
kans op x goede uitkomsten=
* πx * (1- π)n-x
x!*(n-x)!
n= de steekproefgrootte
π= kans op succes bij elke poging
x= aantal successen in de steekproef
Aanname: De kans op succes is constant.
Testen van π
H0: π
π0 (=gegeven constante)
Ha: π <, > π0 (=gegeven constante)
Testen met overschrijdingskans
Download