Hoofdstuk 2 Kijken naar gegevens : relaties • Hoofdstuk 1 : 1 variabele • Hoofdstuk 2 : relaties tussen verschillende variabelen • In gegevensverzameling : meerdere variabelen per geval • Geval : individuele persoon individueel dier individueel ding waarvoor variabelen Num Leeftijd Sexe Score 1 25 1 63 2 28 1 54 3 26 2 70 • Kwantitatieve of kwalitatieve variabelen – kwantitatief : numeriek (gemid. en stand.afw.) – kwalitatief : klasse, categorie • Bij meerdere variabelen vaak kwantitatief en kwalitatief samen aanwezig • Relatie tussen twee variabelen – gewoon relatie – ene heeft invloed op de andere • Invloed van ene variabele = de verklarende variabele OF de onafhankelijke variabele op de andere variabele = de te verklaren variabele OF de afhankelijke variabele 2.1. Spreidingsdiagrammen • Doel : relatie tussen 2 kwantitatieve variabelen bij zelfde individu grafisch weergeven • Voorbeeld : punten van Tom taal rekenen WO LO Tekenen Muziek 2de jaar 7 9 8 8.5 6.5 7.5 3de jaar 7.5 8.5 8 8 6 7 9,0 8,5 8,0 7,5 7,0 DERDE 6,5 6,0 5,5 6,0 6,5 TWEEDE 7,0 7,5 8,0 8,5 9,0 9,5 A. Spreidingsdiagrammen interpreteren • Zoeken naar een globaal patroon • Meest voorkomende : LINEAIRE relatie : = de vorm van een rechte lijn • RICHTING : Positieve samenhang : – boven gemidd voor A, ook boven gemidd voor B – onder gemidd voor A, ook onder gemidd voor B – OF : HOE MEER HOE MEER • RICHTING : Negatieve samenhang : – boven gemidd voor A, onder gemidd voor B en omgekeerd – OF : HOE MEER HOE MINDER • VORM : Lineair of niet lineair – Relatie niet altijd lineair • STERKTE van verband : hoe meer op een rechte lijn hoe sterker B. Kwalitatieve verklarende variabelen • Kwalitatieve variabelen kunnen – ook grafisch in spreidingsdiagrammen • > de kwalitatieve variabele op de x-as – of met zij-aan-zij doosdiagramman • Voorbeeld : geslacht en score op een test 17 16 15 14 SCORE1 13 12 11 ,8 1,0 GESLACHT 1,2 1,4 1,6 1,8 2,0 2,2 17 16 10 15 14 SCORE1 13 12 11 N= GESLACHT 5 5 1,00 2,00 • Soms wel een ordening : opleiding & inkomen 1600 1400 1200 INKOMEN 1000 800 600 N= OPL EID 4 4 4 1,00 2,00 3,00 2.2. Correlatie • Sterke lineaire relatie als de punten dicht bij een rechte lijn liggen • Zwakke relatie als de punten verspreidt liggen • Maar dit niet enkel op het zicht interpreteren : een numerieke maat nodig die de sterkte aanduidt A. De correlatie r • Correlatiecoëfficiënt : meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve variabelen • Correlatie : enkel betrekking op LINEAIRE relatie tussen KWANTITATIEVE variabelen • Correlatiecoëfficiënt r r = 1/ (n-1) x – x y – y sx sy • Samenhang tussen x en y : als zowel x als y onder gemiddelde of beide boven gemiddelde zal r hierboven groter worden •Als x en y tegengestelde tekens hebben, zal de correlatie negatief zijn •In de formule wordt gebruik gemaakt van gestandaardiseerde afwijkingen (x - gem x)/sx . DUS wijziging in meeteenheid heeft geen invloed op r. •Formule van r niet kennen wel computeroutput B. Eigenschappen van correlatie • • • • • Geen x en y bij correlatie, geen afhankelijke en onafhankelijke variabele Moeten twee kwantitatieve variabelen zijn r verandert niet als de meeteenheid van x, y of beide verandert Een positieve r wijst op een positieve samenhang, een negatieve r op een negatieve samenhang r ligt tussen -1 en +1, positieve en negatieve samenhang • Naarmate r dichter naar -1 of +1 gaat liggen de punten dichter bij de rechte lijn, en is het verband sterker • Waarden van r die dichtbij 0 liggen geven een heel zwak lineair verband • r=1 of r=-1 betekenen dat de punten precies op de rechte lijn liggen, dan is er een perfect verband • Correlatie meet slechts de sterkte van een lineaire relatie, sterke kromlijnige relaties worden niet in correlatie weerspiegeld • R is niet resistent, wordt sterk beïnvloed door uitschieters 2.3. Kleinste-kwadratenregressie • Hoe kunnen we spreidingsdiagram op een korte manier weergeven • Meest eenvoudige relatie : afhankelijke variabele y hangt lineair (rechtlijnig) af van een onafhankelijke variabele x • REGRESSIELIJN = rechte lijn die afhankelijkheid van een variabele van een andere beschrijft • Bij correlatie : 2 kwantitatieve variabelen zonder x en y • Bij regressie : duidelijke x = onafhankelijke variabele y = afhankelijke variabele • Regressielijn : voorspellen van y op basis van x A. Aanpassen van een lijn aan de data • Bij een lineair patroon in het spreidingsdiagram gaat een rechte lijn niet PRECIES door alle punten • DUS : aanpassen van een lijn = lijn tekenen die zo dicht mogelijk bij de punten komt • De VERGELIJKING van zo een lijn geeft een beknopte beschrijving van de afhankelijkheid van y van variabele x • Voorbeeld : gemiddelde lengte naar leeftijd leeftijd in maanden 18 19 20 21 22 23 24 25 26 27 28 29 lengte in cm 76.1 77.0 78.1 78.2 78.8 79.7 79.9 81.1 81.2 81.8 82.8 83.5 84 82 80 LENGTE 78 76 16 18 LEEFTIJD 20 22 24 26 28 30 • Beschrijving van een rechte lijn y=a+bx y = te verklaren variabele of afhankelijke op verticale as x = de verklarende of onafhankelijke op horizontale as b = de helling, hoeveelheid waarmee y toeneemt als x één eenheid toeneemt a = constante (waarde van y bij x=0) • Terug naar het voorbeeld : lengte = 64.93 + (0.635 . leeftijd) – helling b = 0.635 dus elke maand ongeveer 0.6 cm lengte toenemen – dus b = mate van verandering in y als x verandert – constante a = 64.93 zou lengte zijn bij leeftijd 0 (geboorte) indien ze zouden groeien met vaste verhouding, wat niet zo is, dus niet belangrijk B. Voorspelling • Op basis van regressielijn kan de afhankelijke variabele y VOORSPELD worden op basis van x bv. wat zou de lengte zijn bij leeftijd 32 ? Lengte = 64.93 + (0.635 X 32) = 85.25 cm of grafisch op basis van figuur (extrapolatie) • Als de gegevens zeer dicht bij de lijn liggen is de voorspelling betrouwbaar, bij grote spreiding rondom de lijn minder C. Kleinste-kwadratenregressie • Hoe vinden we nu deze lijn door de data ? – methode van de kleinste kwadraten • HOE ? – Eerst y voorspellen uit x – y op y-as – verticale afstanden van punten tot de lijn zijn fouten in de voorspelling van y – doel is zo weinig mogelijk fouten dus afwijkingen zo klein mogelijk maken – Sommige punten boven (positief) en andere onder (negatief) dus kwadrateren zodat allen positief zijn – som van de kwadraten is de omvang van alle afwijkingen – DUS die lijn zoeken waarvoor de som van de kwadraten het kleinst is = de kleinste kwadraten regressielijn Normal P-P Plot of LENGTE 1,00 ,75 Expected Cum Prob ,50 ,25 0,00 0,00 ,25 ,50 Observed Cum Prob ,75 1,00 • Afwijking = waargenomen y - voorspelde y = yi - yi = yi - a - bxi (afwijkingen)2 = (yi - a - bxi )2 = som van kwadraten van de afwijking zo klein mogelijk = hiervoor moeten a en b gevonden worden • (afwijkingen)2 = (yi - a - bxi )2 in voorbeeld : (76.1 - a - 18b)2 + (77.0 - a - 19b) 2 + … • formule niet kennen • wel op basis van computeroutput D. Interpreteren van de regressielijn • Regression : Coefficients t Model 1 (Constant) LEEFTIJD a B 64,928 ,635 Std. Error ,508 ,021 Dependent Variable: LENGTE Sig. Beta ,994 127,709 ,000 29,665 ,000 E. Correlatie en regressie • Bij regressielijn afhankelijke variabele voorspellen uit onafhankelijke – y op x • Maar kan ook omgekeerd regressie van – x op y Beide regressielijnen zijn sterk verschillend – verticale minimaliseren – horizontale minimaliseren 1e verband tussen correlatie en regressie • Het kwadraat van de correlatiecoëfficiënt, r2 is de variatie in y waarden die verklaard worden door de kleinste-kwadratenregressie van y op x – bv. r = -0.64 dus r2 = 0.41 of 41% van de variatie van een van de variabelen wordt verklaard door de lineaire regressie op de andere variabele • r2 wordt veel gebruikt omdat het een directe maat is voor het succes van een regressie 2e verband tussen correlatie en regressie • Helling van de regressielijn sy b=r sx of een verandering van 1 st.afw. in x komt overeen met een verandering van r st.afw. in y • Als we weten dat de kleinste kwadraten regressielijn loopt door het punt ( x, y) van de grafiek en de helling is r sy / sx DAN kan de regressie volledig beschreven worden uit gem x, gem y, sx, sy, en r 2.4. Waarschuwingen over regressie en correlatie • Regressie en correlatie worden heel veel gebruikt • Ook zonder nadenken • Steeds zicht blijven houden op mogelijkheden en beperkingen A. Residuen • Residu = het verschil tussen een waargenomen waarde en de door het model voorspelde waarde = AFWIJKING residu = waargenomen y - voorspelde y =y-y • Bij kijken naar gegevens eerst globaal patroon en dan de afwijking WAARNEMING = AANPASSING + RESIDU • Voorbeeld : - bij 24 maand was de lengte 79.9 cm - regressielijn : y = 64.93 + (0.635 X 24) = 80.17 - het residu bedraagt 79.9 - 80.17 = -0.27 • residuen zijn de verticale afstanden tot de regressielijn • het zijn de afwijkingen die overblijven nadat de lijn is getrokken waarvan de som van de kwadraten van afwijkingen zo klein mogelijk is • Door residuen te bekijken zien we hoe goed de lijn de gegevens beschrijft • Het gemiddelde van de residuen is steeds gelijk aan 0 indien de kleinste-kwadratenlijn werd berekend • Bekijken op basis van een residuendiagram Scatterplot Dependent Variable: LENGTE ,6 ,4 ,2 0,0 -,2 -,4 76 LENGTE 78 80 82 84 • Het residuendiagram moet een ongestructureerde band zijn om 0 • Indien er een patroon zit in de residuen – bv. curvilinear – bv. systematish groter wordende residuen => dan moet er verder gekeken worden of er niets over het hoofd is gezien • Op basis van residuen zou een verborgen variabele kunnen worden ontdekt B. Verborgen variabelen • Een verborgen variabele heeft een belangrijke invloed op de relaties maar is niet opgenomen bij de bestudeerde variabelen • Door een specifiek patroon in residuen diagram kan bv. opgespoord worden C. Uitschieters en invloedrijke waarnemingen • Naast globaal patroon zijn afzonderlijke punten die buiten dat patroon vallen soms nog belangrijker • Voorbeeld : leeftijd waarop een kind begint te spreken en latere score op test regressielijn : later spreken, lagere score • Uitschieters in regressie : in verticale richting ver van de regressielijn dus groot residu – kunnen we ontdekken op basis van residuendiagram • Invloedrijke waarnemingen in regressie : als verwijdering ervan een opvallende wijziging in de regressielijn teweegbrengt, vaak extreme x-waarden – kan niet op basis van residuen gevonden worden, wel spreidingsdiagram • Bij invloedrijke waarnemen : – nagaan of ze correct zijn – behoort ze wel tot de populatie DOEN : eens regressielijn met en zonder invloedrijke waarnemingen bekijken D. Wees alert • Alleen maar voor lineaire samenhang • noch r, noch kleinste-kwadratenregressie is resistent : dus : - kijken naar invloedrijke waarneming - opletten voor intikfouten • Steeds opletten voor verborgen variabelen bv. positieve correlatie tussen lerarensalarissen en verkoop van sterke drank • = nonsens correlaties = een sterke correlatie impliceert geen oorzaak-gevolg relatie • soms lage correlatie maar toch verband bv. twee clusters DUS : niet alleen naar correlatie kijken ook steeds naar de figuur • Pas y voorspellen uit x bij voldoende sterke r2 , dus eerst correlatie kwadrateren en pas dan regressie • Ook opletten met extrapolatie : dikwijls geldt de regressielijn enkel voor een beperkt gebied van x • Opletten met correlaties tussen gemiddelden -> door gemiddelden wordt reeds heel wat variatie gladgestreken -> deze correlaties zijn gewoonlijk overschattingen • Bij beschrijving van 2 variabelen – niet alleen op correlatie en regressie baseren – ook telkens gemiddelde en standaardafwijking in rekening brengen – figuur maken is altijd zinvol 2.6. Relatie tussen kwalitatieve variabelen • Tot nu toe enkel kwantitatieve • Kwalitatieve zijn ook belangrijk – geslacht, ras, beroep = in se kwalitatief – kwantitatief in klassen • Analyses gebaseerd op aantallen of percentages gevallen in elke klasse • Twee kwalitatieve variabelen : voorgesteld in een kruistabel GESLACHT * KLEUR Crosstabulation Count GESLACHT 1,00 2,00 Total KLEUR 1,00 2,00 3,00 Total 3 3 2 2 2 7 5 6 4 2 12 A. Marginale verdelingen • Marginale verdelingen = totalen van beide variabelen uit onderrand en rechterkolom • Relaties tussen kwalitatieve variabelen door uit de aantallen de percentages te berekenen • Grafisch voorstellen in staafdiagram : hoogte van de staaf is percentage • Gesegmenteerd staafdiagram : 100% in 1 staaf voorgesteld : vergelijking U E , , o , 0 0 0 t G 1 C 3 2 2 7 % % % % % G 2 C 3 2 5 % % % % G T C 6 4 2 2 % % % % % G 70 60 50 40 30 20 10 0 blond bruin zwart jongen meisje 100% 80% zwart 60% bruin 40% blond 20% 0% jongen meisje B. Beschrijven van relaties • Bij kruistabellen altijd percentages in twee richtingen mogelijk rij-percentages en kolompercentages GESLACHT * KLEUR Crosstabulation KLEUR 1,00 2,00 GESLACHT 1,00 Count 3 2 % within KLEUR 50,0% 50,0% 2,00 Count 3 2 % within KLEUR 50,0% 50,0% Total Count % within KLEUR Total 3,00 2 7 100,0% 58,3% 5 41,7% 6 4 2 12 100,0% 100,0% 100,0% 100,0% 100 80 60 jongen 40 meisje 20 0 blond bruin zwart C. De paradox van Simpson • Voorbeeld : ziekenhuizen overleden overleefd A 3% (63) 97% (2037) goede conditie A B overleden 1% (6) 1.3% (8) overleefd 99% (594) 98.7% (592) B 2% (16) 98% (784) slechte conditie A B 3.8% (57) 4% (8) 96.2% (1433) 96% (192) • Paradox van Simpson = de omkering van de richting van een relatie wanneer de data uit verscheidene groepen gecombineerd worden tot een enkele groep • Oorzaak : een verborgen derde variabele – beter om een driedimensionale tabel te maken zodat elke variabele zichtbaar wordt – nooit uitspraken op grond van eerste indruk, steeds grondig onderzoeken en nadenken – Samenvoegen van drie variabelen naar twee variabelen is altijd gevaarlijk: info verlies 2.7. Oorzaak en gevolg • Dikwijls : onafhankelijke variabelen veroorzaken afhankelijke variabelen • MAAR dit is vaak niet terecht – snelheidslimiet - minder verkeersdoden – wet op wapenbezit - minder moorden Kunnen we hier echt spreken van een OORZAAK ? => dikwijls naast deze ene onafhankelijke variabele nog veel andere die een rol spelen • Echte oorzaak-gevolg relatie uit toekomstgericht onderzoek, longitudinaal waarbij personen jaren gevolgd worden • Steeds zoeken naar verborgen variabelen ! Voorbeeld : roken - longkanker - genetische hypothese - “slonzige levensstijl” • Samenhang tussen x en y kan : 1. Oorzaak en gevolg : veranderingen in x veroorzaken veranderingen in y 2. Gemeenschappelijke afhankelijkheid : zowel x als y reageren op veranderingen in verborgen variabelen 3. Verstrengeling : naast x zijn er nog zoveel andere factoren die een effect hebben op y (bv. SES) • Figuur : 1 x y 2 x y z 3 x y z • Hoe een oorzaak-gevolg relatie vastleggen ? EXPERIMENT = enige bevredigende methode : bij wijziging van x ook veranderingen in y waarbij verborgen variabelen beheerst worden • Als experimenten niet mogelijk zijn : – – – – verschillende onderzoeken, verschillende groepen effect blijft na opnemen van derde variabelen plausibele verklaring is noodzakelijk samenhang is sterk