Lineaire regressie, kleinste kwadratenmethode:

advertisement
Sheets Statistiek HC 9: H2 en 10.1
Correlatie en enkelvoudige regressie:
onderzoek naar samenhang tussen 2
kwantitatieve variabelen.
Spreidingsdiagram:
Grafiek van de gemeten waarden (xi, yi)
x = de verklarende variabele of
onafhankelijke (“in te stellen”).
y = te verklaren variabele, afhankelijke.
(Indien de waarde van y verklaard wordt
met 2 of meer variabelen spreken we van
meervoudige lineaire regressie)
1
Interpretatie:
 Er is een lineaire samenhang (relatie)
als de puntenwolk rondom een rechte lijn
ligt.
 De samenhang kan positief (“grote
waarden van x en y gaan samen”) of
negatief zijn.
 Clusters: afzonderlijke puntenwolken?
De correlatiecoëfficiënt r: een maat voor
de (lineaire) samenhang van de variabelen
x en y
Definitie:
 xi  x  yi  y 
1
r


n  1  s x  s y 
( x y )  nxy
Rekenformule: r   i i
(n  1) s x s y
Hierin zijn:
 n = het aantal waarnemingen (xi , yi)
 x en y en sx en sy zijn de steekproefgemiddelden en –standaardafwijkingen
van de xi’s en de yi’s.
 Σ xiyi: som van de producten xi×yi
2
Eigenschappen r:
1. -1 ≤ r ≤ +1
2. geen resistente maat
3. onafhankelijk van de gekozen eenheid
Interpretatie waarde r: we spreken van
 geen lineair verband als r = 0
 zwak lineair verband als r dicht bij 0
 positieve lineaire samenhang als r = +1
 negatieve lineaire samenhang als r = -1
 sterk positief (negatief) lineair verband
als r dicht bij +1 (resp. bij -1)
Indien sprake is van een lineair verband
wordt met de kleinste-kwadratenmethode een rechte lijn y = a + bx
“aangepast”:
a en b worden zo gekozen dat de som van
de gekwadrateerde afwijkingen t.o.v. de
lijn zo klein mogelijk is.
Resultaat zijn de kleinste kwadraten
sy
a  y  bx
schattingen: b  r
en
sx
3
^
Regressielijn: y  a  bx
In hoofdstuk 10 worden a en b met b0 en
b1 aangeduid. Notatie en terminologie:
notatie
ŷ  a  bx
of
ŷ  b 0  b1 x
a
of b0
b of
b1
terminologie
(kleinste kwadraten)
regressielijn,
aangepaste rechte
regressieconstante,
intercept, afgesneden stuk
van de Y-as
regressiecoëfficiënt,
helling, richtingcoëfficiënt
4
Voorspelling ŷ van de y-waarde bij
ŷ  b 0  b1 x *
gegeven x*:
 Interpolatie: als x* binnen het bereik
van de x-waarden in de steekproef ligt en
 extrapolatie: als x* er buiten ligt.
Residuen: de afwijkingen ei van de yi
t.o.v. de regressielijn
ei = yi - ŷ = yi – ( b0 + b1 xi )
 Som en gemiddelden van de residuen ei
zijn 0.
 s 2  n 1 2  ei 2 schat de variantie,
spreiding t.o.v de regressielijn.
Residuendiagram: grafiek van de
residuen ei , uitgezet tegen de x-waarden.
 Indien de residuen een bepaald patroon
vertonen is dit een aanwijzing dat het
verband niet-lineair is.
 Uitschieter waarneming met ongewoon
groot residu (1.5×IKA-regel toepassen)
5
Invloedrijke waarneming: beïnvloedt
regressielijn sterk, bijvoorbeeld door
afwijkende x-waarde.
r2 geeft bij de regressie de fractie van de
variantie in de y-waarden die door het
lineaire verband verklaard wordt, ofwel:
het percentage door het lineaire model
verklaarde variantie. De niet door het
lineaire model verklaarde variantie wordt
veroorzaakt door de residuen (s2).
Correlatie versus oorzaak en gevolg
Sterke samenhang hoeft geen causaal
verband in te houden: zo kan er sprake zijn
van een indirect verband via een derde
(verborgen) variabele waarmee beide
gecorreleerd zijn.
Via gerichte experimenten moet dit
onderzocht worden.
6
Betrouwbaarheidsintervallen en toetsen
voor enkelvoudige lineaire regressie
Het statistische model voor de
waarnemingen (x1,y1),….., (xn,yn) :
yi = β0 + β1xi + єi ,
met єi is N(0,σ)
Hierin is:
 β0 + β1xi = μy : de (onbekende)
verwachte waarde van y bij gegeven xi.
 єi : de toevallige afwijking van de
waarneming y t.o.v. μy .
 є1,…., єn zijn onafhankelijk, en dus
y1,…., yn ook.
 є1,…., єn zijn normaal verdeeld met
vaste σ, en dus y1,…., yn ook.
De onbekende waarden van β0, β1 en μy
(=β0 + β1x) worden geschat met de kleinste
kwadraten-schattingen b0 en b1.
M.b.v. software kan van elk van deze
schattingen de standaardfout (SE)
berekend worden.
7
Modelparameter schatting Standaardfout
SE schatting
β0
b0
SE b 0
β1
b1
SE b1
μy =β0 + β1x*
b0 + b1x* SE (b0  b1 x*)
Kansverdeling voor elk van deze
schattingen:
schatting  parameter
is t(n-2)- verdeeld
SE schatting
Betrouwbaarheidsintervallen:
parameter
betrouwbaarheidsinterval
β0
b0 ± t*×SE b 0
β1
b1 ± t*×SE b1
μy =β0 + β1x* (b0 + b1x*) ± t*×SE (b0  b1 x*)
Toets voor de regressiecoëfficiënt β1:
b
Gegeven H0: β1 = 0, is t  1
t(n-2)
SE b1
Voorspellingsinterval voor een nog te
meten waarde y bij gegeven x* en gegeven
SE ŷ :
ŷ ± t* SE ŷ
8
Download