Sheets Statistiek HC 9: H2 en 10.1 Correlatie en enkelvoudige regressie: onderzoek naar samenhang tussen 2 kwantitatieve variabelen. Spreidingsdiagram: Grafiek van de gemeten waarden (xi, yi) x = de verklarende variabele of onafhankelijke (“in te stellen”). y = te verklaren variabele, afhankelijke. (Indien de waarde van y verklaard wordt met 2 of meer variabelen spreken we van meervoudige lineaire regressie) 1 Interpretatie: Er is een lineaire samenhang (relatie) als de puntenwolk rondom een rechte lijn ligt. De samenhang kan positief (“grote waarden van x en y gaan samen”) of negatief zijn. Clusters: afzonderlijke puntenwolken? De correlatiecoëfficiënt r: een maat voor de (lineaire) samenhang van de variabelen x en y Definitie: xi x yi y 1 r n 1 s x s y ( x y ) nxy Rekenformule: r i i (n 1) s x s y Hierin zijn: n = het aantal waarnemingen (xi , yi) x en y en sx en sy zijn de steekproefgemiddelden en –standaardafwijkingen van de xi’s en de yi’s. Σ xiyi: som van de producten xi×yi 2 Eigenschappen r: 1. -1 ≤ r ≤ +1 2. geen resistente maat 3. onafhankelijk van de gekozen eenheid Interpretatie waarde r: we spreken van geen lineair verband als r = 0 zwak lineair verband als r dicht bij 0 positieve lineaire samenhang als r = +1 negatieve lineaire samenhang als r = -1 sterk positief (negatief) lineair verband als r dicht bij +1 (resp. bij -1) Indien sprake is van een lineair verband wordt met de kleinste-kwadratenmethode een rechte lijn y = a + bx “aangepast”: a en b worden zo gekozen dat de som van de gekwadrateerde afwijkingen t.o.v. de lijn zo klein mogelijk is. Resultaat zijn de kleinste kwadraten sy a y bx schattingen: b r en sx 3 ^ Regressielijn: y a bx In hoofdstuk 10 worden a en b met b0 en b1 aangeduid. Notatie en terminologie: notatie ŷ a bx of ŷ b 0 b1 x a of b0 b of b1 terminologie (kleinste kwadraten) regressielijn, aangepaste rechte regressieconstante, intercept, afgesneden stuk van de Y-as regressiecoëfficiënt, helling, richtingcoëfficiënt 4 Voorspelling ŷ van de y-waarde bij ŷ b 0 b1 x * gegeven x*: Interpolatie: als x* binnen het bereik van de x-waarden in de steekproef ligt en extrapolatie: als x* er buiten ligt. Residuen: de afwijkingen ei van de yi t.o.v. de regressielijn ei = yi - ŷ = yi – ( b0 + b1 xi ) Som en gemiddelden van de residuen ei zijn 0. s 2 n 1 2 ei 2 schat de variantie, spreiding t.o.v de regressielijn. Residuendiagram: grafiek van de residuen ei , uitgezet tegen de x-waarden. Indien de residuen een bepaald patroon vertonen is dit een aanwijzing dat het verband niet-lineair is. Uitschieter waarneming met ongewoon groot residu (1.5×IKA-regel toepassen) 5 Invloedrijke waarneming: beïnvloedt regressielijn sterk, bijvoorbeeld door afwijkende x-waarde. r2 geeft bij de regressie de fractie van de variantie in de y-waarden die door het lineaire verband verklaard wordt, ofwel: het percentage door het lineaire model verklaarde variantie. De niet door het lineaire model verklaarde variantie wordt veroorzaakt door de residuen (s2). Correlatie versus oorzaak en gevolg Sterke samenhang hoeft geen causaal verband in te houden: zo kan er sprake zijn van een indirect verband via een derde (verborgen) variabele waarmee beide gecorreleerd zijn. Via gerichte experimenten moet dit onderzocht worden. 6 Betrouwbaarheidsintervallen en toetsen voor enkelvoudige lineaire regressie Het statistische model voor de waarnemingen (x1,y1),….., (xn,yn) : yi = β0 + β1xi + єi , met єi is N(0,σ) Hierin is: β0 + β1xi = μy : de (onbekende) verwachte waarde van y bij gegeven xi. єi : de toevallige afwijking van de waarneming y t.o.v. μy . є1,…., єn zijn onafhankelijk, en dus y1,…., yn ook. є1,…., єn zijn normaal verdeeld met vaste σ, en dus y1,…., yn ook. De onbekende waarden van β0, β1 en μy (=β0 + β1x) worden geschat met de kleinste kwadraten-schattingen b0 en b1. M.b.v. software kan van elk van deze schattingen de standaardfout (SE) berekend worden. 7 Modelparameter schatting Standaardfout SE schatting β0 b0 SE b 0 β1 b1 SE b1 μy =β0 + β1x* b0 + b1x* SE (b0 b1 x*) Kansverdeling voor elk van deze schattingen: schatting parameter is t(n-2)- verdeeld SE schatting Betrouwbaarheidsintervallen: parameter betrouwbaarheidsinterval β0 b0 ± t*×SE b 0 β1 b1 ± t*×SE b1 μy =β0 + β1x* (b0 + b1x*) ± t*×SE (b0 b1 x*) Toets voor de regressiecoëfficiënt β1: b Gegeven H0: β1 = 0, is t 1 t(n-2) SE b1 Voorspellingsinterval voor een nog te meten waarde y bij gegeven x* en gegeven SE ŷ : ŷ ± t* SE ŷ 8