INLEIDING IN DE STATISTIEKEN VOOR DE GEDRAGSWETENSCHAPPEN, ondersteuning SPSS HOOFDSTUK 1: DE STATISTIEK IN ONDERZOEK 1.1 TWEE TYPEN VAN STATISTIEKEN 1.2 (PAG 11-32) (pag 12) Beschrijvende statistieken: betrekking op de kengetallen van de steekproef Inductieve statistieken: betrekking op de parameters van de populatie Beiden bieden methodologische ondersteuning van wetenschappelijk onderzoek DIT IS ONDERZOEK (pag 13-15) Gaat over onderzoek dat op basis van waarnemingen probeert ware en algemene uitspraken te doen over de werkelijkheid. (Brinkman, 2006) Een uitspraak is een bewering waarin een of meerdere objecten een eigenschap wordt toegeschreven VB van uitspraken: - Jan is ziek - Assepoester is lang ongelukkig geweest - Kabouters zijn kleiner dan mensen - Bomen hebben een stam - Mannen zijn gemiddeld intelligenter dan vrouwen Wetenschappelijk verantwoord onderzoek indien voldaan aan volgende 4 voorwaarden: - objectiviteit - controleerbaarheid - herhaalbaarheid - systematiek Deterministische uitspraken: de wet van de zwaartekracht is een wetmatigheid die ervoor zorgt dat als ik een voorwerp loslaat, dit naar beneden valt Probabilistische uitspraken: vaststelling dat frustratie agressie bevordert TWEE TYPEN VARIABELEN (pag 14) Variabel is een eigenschap/kenmerk van de onderzoekseenheden Kan diverse waarden (uitkomsten) aannemen. Mensen verschillen op het vlak van deze eigenschappen bv. man/vrouw Tegengestelde van een constante Onafhankelijke variabele: verschillen in deze variabelen worden gezien als oorzaak (?) van verschillen in de afhankelijke variabele. Dus deze variabelen kunnen een verklaring bieden. Afhankelijke variabele = variabele ter studie: verschillen in deze variabelen worden gezien als gevolg (?) van verschillen in de onafhankelijke variabele. De verschillen in deze variabelen dienen we te verklaren. TWEE TYPEN ONDERZOEKEN 1.2.1 HET EXPERIMENTEEL OPZET (pag 15-16) Doelbewust worden één of enkele variabelen gemanipuleerd en de effecten hiervan worden onderzocht op de afhankelijke variabele. VB: welk is de relatie tussen de attitude en het gedrag? Het experiment van de verloren brief (Nuttin en Beckers) Twee typen van experiment: Between subjects design: groepsvergelijkende experimenten Within subjects design (= repeated measures design): experimenten met herhaalde metingen Mogelijkheid tot besluiten van causale relaties. 1.2.2 HET VELDONDERZOEK/ SURVEYONDERZOEK/ ENQUÊTEONDERZOEK (pag 17-18) Hier worden geen variabelen gemanipuleerd. Er wordt aan een steekproef uit de populatie een reeks van vragen/tests voorgelegd; Geen mogelijkheid om te besluiten tot causale relaties. VB: hebben babyboomers en busters een andere levensstijl en koopgedrag? WANNEER KUNNEN WE CAUSALE RELATIES VASTSTELLEN? tijdruimtelijke structuur van oorzaak en gevolg; oorzaak dient vooraf te gaan aan het gevolg; het gevolg zal nooit optreden zonder het voorkomen van de oorzaak; en alle andere mogelijke verklaringen zijn uitgesloten (cf derde factor). 1.3. FASEN IN HET ONDERZOEK (pag 19) 1.3.1. De vraagstelling De operationalisering Steekproefopzet Verzamelen van de gegevens Beschrijven en analyse van de resultaten Rapportage DE VRAAGSTELLING (pag 19-20) de vraagstelling is de vraag waarop het onderzoek een antwoord moet geven de vraagstelling kan gaan: over het voorkomen van iets over het verschil tussen groepen over de samenhang tussen variabelen Vraag naar secundaire gegevens: wat hebben andere onderzoekers reeds vastgesteld? Vraag naar primaire gegevens via experiment of survey-onderzoek Vanwaar komt deze vraagstelling? Fundamenteel onderzoek: uit de resultaten van eerdere onderzoeken kunnen vragen geformuleerd worden Vraagstelling groeit uit spontane observaties Vragen vormen de cont(r)acten met het bedrijfsleven en overheden 1.3.2. DE OPERATIONALISERING 1.3.3 (pag 21-23) de onderzoeker dient aan te geven op welke wijze hij de begrippen meetbaar kan maken toegepast onderzoek verloopt via een survey hier kan je gebruik maken van een kwalitatief onderzoek (eerste kennismaking en voorbereiding van het feitelijke onderzoek) en kwantitatief onderzoek voorkeur om een likertschaal te gebruiken contrabalanceren: de volgorde van de condities afwisselen DE STEEKPROEFOPZET (pag 23-27) steekproefkader: selectie van individuen uit de populatie populatie: het geheel van individuen waar de onderzoeker iets over wil vaststellen en die bijgevolg in aanmerking komen voor het onderzoek census: alle individuen in de populatie worden uitgenodigd om aan het onderzoek deel te nemen 2 types van steekproeven: een aselecte steekproeftrekking (at random): een steekproef waarbij elk individu van de populatie evenveel kans heeft om getrokken te worden waarbij deze kans groter is dan nul. Nodig om een uitspraak te doen over de populatie niet-aselecte steekproeftrekking: elk individu heeft niet evenveel kans om getrokken te worden. ASELECTE STEEKPROEFTREKKING Voordelen generalisering naar de populatie is mogelijk veel statistische technieken zijn mogelijk hoeveel proefpersonen? Nadelen levert geografisch verspreide individuen op met bijkomende kosten en tijdsinvestering Kan wel of niet leiden tot representatieve steekproef. Zeker bij kleine steekproeven kan representativiteit een probleem geven 5 normen van aselecte steekproeftrekkingen: een volledig aselecte steekproeftrekking: we maken een lijst van de individuen in de populatie en geven elk individu een nummer. Nadien laten we de computer getallen genereren. De namen die met deze nummers overeenkomen worden gekozen een systematische steekproef: de onderzoeker kiest willekeurig een eerste persoon uit het steekproefkader en de volgende persoon heeft telkens een nummer dat x aantal hoger ligt een gestratificeerde steekproef: de populatie eerst in subgroepen verdelen en nadien uit elke groep aselect een steekproef trekken een clustersteekproef: de populatie ingedeeld in subgroepen die heterogeen mogelijk zijn. Vervolgens wordt een aantal subgroepen geselecteerd en elk individu van deze subgroep zal bevraagd worden een getrapte steekproef: de combinatie van de voorgaande regels toegepast wordt bij de trekking van de steekproef NIET-ASELECTE STEEKPROEF geschikt voor verkennend onderzoek geschikt om meetinstrumenten te testen goedkoop en snel veel gebruikt in de psychologie Maar: resultaten kunnen niet veralgemeend worden naar de populatie 5 typen van niet-aselecte steekproeftrekkingen: Convenience sampling: kies de individuen die ‘voor het grijpen liggen’ Judgement sampling: kies deze individuen die als bevoorrechte getuigen kunnen fungeren, bv. groep van zware gebruikers Snowball sampling: de eerste respondent levert volgende proefpersoon op, enz… Te gebruiken bij ‘moeilijk vindbare’ doelgroepen Quota sampling: verdeel de populatie in een aantal subgroepen (= strata) en kies uit elke subgroep willekeurig een aantal proefpersonen. M.a.w. uit elke subgroep trekken we een convenience sampling. Belangrijk voor representativiteit Random Walk: de onderzoeker selecteert proefpersonen volgens een vooraf vastgesteld wandeltraject. Toeval bij de keuze van proefpersonen speelt een rol. Deze procedure benadert het beste de aselecte opzet en wordt gebruikt wanneer een steekproefkader niet voor handen is. 1.3.4. VERZAMELEN VAN GEGEVENS (pag 28) diverse methoden voor verrichtingen van metingen: o afname psychologische tests o vragenlijsten o interview o observaties, … deze gegevens worden systematisch weergegeven in datamatrix SPSS 1.3.5 ANALYSE VAN DE RESULTATEN (pag 29-30) deductief redenering: uitgaande van bestaande waarden (zonder contact met de werkelijkheid) nieuwe kennis opbouwen inductief redenering: 2 tegengestelde beweringen tegenover elkaar stellen. We spreken dan over een nul- en een alternatieve hypothese. o Alternatieve hypothese: de stelling die de onderzoeker zal trachten te bewijzen o Nulhypothese: vormt het tegengestelde van deze alternatieve hypothese 1.3.6 DE RAPPORTAGE (pag 30-31) bevat 4 onderdelen: de inleiding: de probleemstelling wordt beschreven en wat er vastgesteld is de methode: beschrijft de proefgroep, het gebruikte materiaal, de gevolgde procedure en de gehanteerde analyse Resultaten: bevat de bevindingen van het onderzoek De discussie: de resultaten worden samengevat en van commentaar voorzien HOOFDSTUK 2: AAN DE SLAG MET SPSS 2.1. HOE KUN JE STARTEN MET (PAG 33-56) SPSS? (pag 34-37) Menu opties: File: bewaren, openen … van bestanden Edit: kopiëren,plakken View: beeld – werkbalken aanpassen Data: cases selecteren, wegen, sorteren, bestanden samenvoegen, splitsen Transform: werken met variabelen, zoals optellen van items, hercoderen van variabelen, tellen van bepaalde waarden per persoon Analyze: uitvoeren van statistische analyses Direct marketing: belang voor markeeters Graphs: opvragen grafieken 2.2. HOE VUL JE EEN VARIABLE VIEW IN? (pag 37-45) Name: 64 karakters zonder enige andere tekens Type: altijd numerieke variabelen gebruiken, string is alfanumeriek Width: Decimals: op nul zetten Label: Values: in te vullen bij kwalitatieve variabelen vb geslacht 1:man 2: vrouw Missing: geen waarde voor deze cel Columns/align: Measure: nominaal, ordinaal of scale Role: standaard input Nominaal Te gebruiken bij kwalitatieve variabelen Geen meeteenheid en er bestaat geen volgorde Enkel categorieën met diverse waarden VB geslacht: man en vrouw Ordinaal Te gebruiken bij kwalitatieve variabelen De waarden kunnen we ordenen maar er bestaat geen meeteenheid Een categorie met een volgorde VB ontwikkelingsniveau: baby, peuter, kleuter, 2.3. HOE VUL JE DATAVIEW IN? (pag 45-49) 1 respondent invoeren in 1 rij 1 cel bevat slecht 1 waarde 2.4. HOE KUN JE DATA OPSLAAN? (pag 48-49) Databestand: extensie .sav Analyse v/d resultaten: extensie .spv 2.5. HOE KUN JE EEN BESTAND OPENEN? (pag 49-51) File – open – data 2.6. MAAK KENNIS MET DE VIEWER (pag 51-54) Scale Te gebruiken bij kwantitatieve variabelen Er is een meeteenheid Ratio en interval HOOFDSTUK 3: OPERATIONALISERING EN METEN VAN VARIABELEN (pag57-82) 3.1. WAT IS OPERATIONALISERING? (pag 58) Aangeven hoe gemeten zal worden waarden van variabelen kunnen kwalitatief of kwantitatief zijn kwalitatieve variabele bestaat enkel uit een indeling in categorieën 3.2. WELKE ZIJN DE MEETNIVEAUS? kwantitatieve variabele de waarden bestaan uit getallen/scores Discreet: het aantal waarden voor de variabel beperkt is. Het resultaat van een telling Continu: het aantal tussenliggende waarden is onbegrensd. Het verschil tussen 2 opeenvolgende waarden willekeurig klein kan worden. Afgerond getal. (pag 59) nominaal ordinaal scale 3.2.1. NOMINAAL MEETNIVEAU (pag 59-60) 3.2.2. ORDINAAL MEETNIVEAU (pag 60) 3.2.3. INTERVALMEETNIVEAU (pag 60-61) 3.2.4. RATIOMEETNIVEAU (pag 61) Nominaal meetniveau Geen rangordening Geen meeteenheid Geen nulpunt Kwalitatief Ordinaal meetniveau Rangordening Geen meeteenheid Nulpunt Kwalitatief De afstand tussen 2 opeenvolgende categorieën is niet gelijk Intervalmeetniveau Rangordening Meeteenheid Geen nulpunt Ratiomeetniveau Rangordening Meeteenheid Nulpunt de onderlinge afstanden tussen de opeenvolgende waarden zijn beschikbaar de onderlinge afstanden tussen de opeenvolgende waarden zijn gelijk Koppeling getal mogelijk maar hebben geen getalswaarde Dichotome variabele: 2 waarden aannemen Categorische variabelen: in 2 subgroepen verdelen De waarden kunnen exhaustief en mutueel exclusief zijn: elke deelnemer moet kunnen geplaatst worden en elke deelnemer kan slechts in 1 categorie geplaatst worden 3.3. WAT IS DE BETEKENIS VAN DEZE MEETNIVEAUS? (pag 61-64) vooral gebruik maken van nominale, ordinale en intervalvariabelen Naarmate het meetniveau hoger is kunnen we meer bewerkingen uitvoeren Zorg voor variabelen – indien mogelijk - met een zo hoog mogelijk meetniveau, bv. leeftijd. Diverse variabelen met intervalniveau kunnen opgeteld worden… Zorg ervoor dat de afhankelijke variabele zo veel mogelijk op interval niveau gemeten wordt. Dit heeft eveneens consequenties voor de analyse van de gegevens 3.4. BETROUWBAARHEID EN VALIDITEIT (pag 64-65) Betrouwbaarheid Heeft te maken met stabiliteit van de meting Betrouwbaarheid bestuderen door hertesting, halvering, parallelvorm en interne homogeniteit Interne homogeniteit: onderzoek door na te gaan of de items van eenzelfde test door de respondenten op eenzelfde manier beantwoordt worden. Dus de samenhang bestuderen tussen de wijze waarop elke item beantwoord werd en de totaaluitslag voor deze schaal= CRONBACH’S ALPHA 3.5. VOORBEREIDENDE BEWERKINGEN IN SPSS (pag 66) SPSS: transform – compute: de mogelijkheid om nieuwe variabelen aan te maken met bestaande variabelen SPSS: transform – recode into different variables: hercoderen van bestaande variabelen in nieuw variabelen SPSS: transform – count: per waarnemingsobject bepaalde scores te tellen 3.5.1. TRANSFORM – RECODE Validiteit De test meet wat hij wil meten Betrouwbaarheid is een voorwaarde voor validiteit (pag 66-70) New value is altijd numeriek 3.5.2. TRANSFORM – COMPUTE VARIABLE (pag 70-73) Hoe maken we een schaaluitslag via de som? o Voor het samenstellen van items tot een schaal Hoe maken we een schaaluitslag via de functie MEAN? (pag 72-73) 3.5.3. TRANSFORM – COUNT (pag 73-75) Per persoon nagaan hoe vaak een bepaalde score behaald werd Op deze wijze ontstaat een nieuwe variabele waarin het aantal missing values per persoon samengeteld wordt. U kunt hierbij ook gebruik maken van de optie Count IF. 3.5.4. CRONBACH’S ALPHA (pag 75-80) Analyze scale reliability analysis HOOFDSTUK 4: DE FREQUENTIEVERDELING 4.1. HOE MAAK JE EEN FREQUENTIETABEL? (PAG 83-108) (pag 84-89) Datamatrix: bevat de resultaten van een onderzoek en dit is onoverzichtelijk Een frequentieverdeling geeft een beter overzicht Frequentie is het aantal keren dat een bepaalde waarde voorkomt: o Een absolute frequentie: het aantal keren dat een waarde voorkomt o Een relatieve frequentie: de absolute frequentie te delen door het totale aantal respondenten o Een cumulatieve frequentie: geeft aan hoeveel observaties lager of gelijk zijn aan een bepaalde waarde o Een cumulatieve proportie: duidt aan hoeveel procent van de respondenten eenzelfde of een lagere score behaalden 2 soorten tabel: ééndimensionale of meerdimensionaal Ééndimensionale Heeft slechts 1 ingang, dus 1 variabele Univariate tabel of tabel met 1 ingang meerdimensionaal Om de relatie tussen 2 nominale variabelen aan te geven Kruistabel of contingentietabel Geslacht * nieuwleeftijd Crosstabulation Count Ges lacht man vrouw Total nieuwleeftijd bus ter boomer 38 99 79 177 117 276 Total 137 256 393 HOE MAKEN WE EEN FREQUENTIETABEL MET SPSS? Univariate tabel: analyze descriptive statistics frequencies Kruistabel: analyze descriptive statistics crosstabs Opmerking: het aanmaken van een kruistabel is enkel interessant als we te maken hebben met een kwalitatieve variabelen en zover het aantal waarden beperkt is. 4.2. HOE MAAK JE EEN GRAFISCHE VOORSTELLING? (pag 89-100) Het niveau van meting heeft een impact op de wijze van grafische voorstelling van de gegevens 4.2.1. EEN TAARTDIAGRAM (pag 89-91) 4.2.2. EEN STAAFDIAGRAM (pag 91-92) 4.2.3. EEN HISTOGRAM (pag 92-93) 4.2.4. EEN STAMDIAGRAM (pag 94-96) 4.2.5. EEN BOXPLOT (pag 96-98) 4.2.6. EEN GECLUSTERD STAAFDIAGRAM (pag 98-100) 4.2.7. EEN GESTAPELD STAAFDIAGRAM (pag 100) Taartdiagram nominaal Analyze descriptive statistics frequencies charts pie charts Taartpuntendiagram of cirkeldiagram Presenteert op een grafische wijze de proportie van elke waarde Staafdiagram ordinaal Analyze descriptive statistics frequencies charts bar charts balkendiagram Histogram interval Analyze descriptive statistics frequencies charts histograms Presenteert een grafische voorstelling van de frequentie van elke waarde Horizontale as: de geobserveerde waarden van de variabele Verticale as: de absolute frequentie Het gemiddelde, de standaarddeviatie en het aantal observaties worden ook aangegeven Boxplot Samenhang van 2 nominalen Geclusterd staafdiagram Samenhang van 2 nominalen grafisch weergegeven Graphs legacy dialogs bar clustered Graphs legacy dialogs boxplot simple Presenteert op een grafische wijze de verdeling van uitslagen van een intervalgeschaalde variabele Stamdiagram scale Analyze descriptive statistics explore plots Stem-and-leafplot of stam-met-loofdiagram De eerste kolom duidt de frequentie aan De 2de kolom bevat de gemeenschappelijke stam, vermenigvuldigen met 100 De 3de kolom komt overeen met één observatie Presentatie van de individuele observaties Gestapeld staafdiagram Samenhang van 2 nominalen grafisch weergegeven Graphs legacy dialogs bar diplome 400 lager onderwijs lager middelbaar hoger middelbaar hoger niet-universitair onderwijs universitair onderwijs 300 lager onderw ijs lager middelbaar hoger middelbaar hoger niet-universitair onderw ijs universitair onderw ijs Count 75 Count Diploma 200 Bars show counts 50 100 25 0 man v rouw Geslacht 0 man vrouw geslacht 4.3. HOE KUN JE DATA SELECTEREN? (pag 101-102) 4.4. PERCENTIELEN (pag 103-105) Een percentiel geeft aan hoeveel procent van de deelnemers eenzelfde of een zwakkere score behaalde. Het percentiel komt overeen met de cumulatieve proportie van een bepaald resultaat SPSS: Analyze descriptive statistics frequencies statistics percentiles Taa lvaa rdighe id Vali d Mis sin g Tota l 62 66 68 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 91 Tota l Sys te m Fre qu en cy 1 1 1 4 5 1 7 8 13 10 9 16 19 15 16 7 10 9 12 10 6 4 2 1 86 2 1 88 Perce nt ,5 ,5 ,5 2 ,1 2 ,7 ,5 3 ,7 4 ,3 6 ,9 5 ,3 4 ,8 8 ,5 1 0,1 8 ,0 8 ,5 3 ,7 5 ,3 4 ,8 6 ,4 5 ,3 3 ,2 2 ,1 1 ,1 9 8,9 1 ,1 1 00 ,0 Vali d Pe rcen t ,5 ,5 ,5 2 ,2 2 ,7 ,5 3 ,8 4 ,3 7 ,0 5 ,4 4 ,8 8 ,6 1 0,2 8 ,1 8 ,6 3 ,8 5 ,4 4 ,8 6 ,5 5 ,4 3 ,2 2 ,2 1 ,1 1 00 ,0 Cum u la tive Perce nt ,5 1 ,1 1 ,6 3 ,8 6 ,5 7 ,0 1 0,8 1 5,1 2 2,0 2 7,4 3 2,3 4 0,9 5 1,1 5 9,1 6 7,7 7 1,5 7 6,9 8 1,7 8 8,2 9 3,5 9 6,8 9 8,9 1 00 ,0 VARIANTEN VAN HET PERCENTIEL Het kwartiel: alle scores verdelen in 4 groepen. Dus P25 = Q1 / P50 = Q2 / P75 = Q3 Het deciel: het geheel van de observaties verdelen in 10 evenwaardige delen waarin telkens 10% van de observaties zich bevindt. VB 1 percentiel 10% dus D1 = P10 HOOFDSTUK 5: CENTRUMMATEN 5.1. DE MODUS (PAG 109-122) (pag 110) De modus is de waarde met de hoogste frequentie Gebruikt bij metingen van nominaal, ordinaal, interval en ratio niveau Bimodaal: indien 2 modi voorkomen in een verdeling Multimodaal: een frequentieverdeling met meerdere modi 5.2. DE MEDIAAN (pag 111) De mediaan is de middelste waarde wanneer de observaties in volgorde van laag naar hoog gerangschikt zijn. Rangordening van de waarden kunnen maken Geen mediaan op nominaal niveau Alleen op ordinaal, interval en ratio niveau Bij oneven aantal observaties de middelste waarde nemen VB 2,4,6,8,10 mediaan 6 Bij even aantal observaties het midden tussen de 2 middelste VB 2,4,6,7,8,10 mediaan 6.5 Mediaan X n 1 (n oneven) 2 Xn + Xn 1 2 2 Mediaan (n even) 2 5.3. Grafische voorstelling: BOXPLOT HET REKENKUNDIG GEMIDDELDE (pag 111-115) Het gemiddelde is de som van alle scores gedeeld door het aantal scores/observaties Is enkel mogelijk voor interval en ratio meetniveaus, bv. IQ, schooluitslagen, testuitslagen, leeftijd,… X1 X 2 ... X n 1 n X i 1 X i n n Populatie: µ _ Steekproef: X VB: Score Frequentie 4 9 6 15 8 21 gemiddelde: (9*4 + 15*6 + 21*8)/45 = 6,53 5.3.1. HET GEWOGEN GEMIDDELDE (pag 112) Het gemiddelde van de samengestelde proefgroep waarin beide groepen zijn opgenomen X n1 X1 n 2 X 2 n1 n 2 Een analoge eigenschap voor de mediaan bestaat niet. Om de mediaan van de samengestelde steekproef te kennen, moet je al de metingen kennen VB: Tien jongens kijken gemiddeld 3 uur per dag tv en vijf meisjes kijken gemiddeld 2 uur per dag tv. Wat is dan het gemiddelde van de gezamenlijke proefgroep? Oplossing de jongens kijken 30 uur tv de meisjes kijken 10 uur tv totaal: 40 uur; dit is gemiddeld 40/15 = 2,67 (=gewogen gemiddelde) X n1 X1 n 2 X2 10 3 5 2 40 2,67 n1 n 2 10 5 15 5.3.2. HET GETRIMDE GEMIDDELDE (pag 113) Het rekenkundig gemiddelde van het deel van de waarnemingsgetallen dat overblijft na weglating van de P% kleinste en P% grootste X 18, 2 Xgetrimd 17,94 WELKE ZIJN DE EIGENSCHAPPEN VAN HET REKENKUNDIG GEMIDDELDE? Som van de afwijkingen van de waarnemingsgetallen tot het rekenkundig gemiddelde gelijk is aan 0. X N i 1 (pag 113-115) i X 0 Lineaire transformatie: bij een lineaire transformatie van de scores wordt het rekenkundig gemiddelde getransformeerd. Alle waarnemingsgetallen met b vermenigvuldigt en daar een constant a bij optelt, wordt het rekenkundig gemiddelde van de nieuwe verdeling op dezelfde manier getransformeerd. Yi a b Xi i 1, 2,..., n Y a bX De centrale limietstelling: Het rekenkundig gemiddelde van een aselecte steekproef is een zuivere schatter van het populatiegemiddelde (µ). D.w.z. dat wanneer we van een oneindig aantal steekproeven (met hetzelfde aantal n) steeds het steekproefgemiddelde berekenen, het rekenkundig gemiddelde van alle steekproefgemiddelden gelijk is aan het populatiegemiddelde. snel te berekenen en eenvoudig te begrijpen in dezelfde meeteenheid als de waarden Alle waarden worden bij de berekening betrokken Gevoelig voor extreme waarden Steeds berekenen bij interval en ratio waarden Eventueel vergelijken met mediaan: Een rechtsscheve verdeling: indien het gemiddelde groter is dan de mediaan en de mediaan op zijn beurt groter is dan de modus Een linksscheve verdeling: indien het gemiddelde kleiner is dan de mediaan en de mediaan op zijn beurt kleiner is dan de modus GEBRUIK VAN DE CENTRUMMATEN Modus vooral bij nominale waarden Gemiddelde versus mediaan? - Gemiddelde gebruikt meer informatie dan de mediaan; de mediaan gebruikt enkel de rangorde van de getallen, dus bij interval waarden…. - Invloed van ‘uitbijters’/’’outliers’? Uitbijters hebben geen invloed op de mediaan, wel op het gemiddelde. Bij de mogelijkheid van extreme waarden kan getrimde gemiddelde een oplossing bieden. Getrimde gemiddelden worden berekend zonder rekening te houden met bv. de 5% hoogste en 5% laagste waarden Gemiddelde versus mediaan: Het gemiddelde varieert minder van steekproef tot steekproef t.o.v. de mediaan. Dus het gemiddelde wordt meer gebruikt in de toetsende statistiek om het centrum van de populatie te schatten. Gemiddelde is algebraïsch aardiger. We kunnen gegevens van subgroepen samenvoegen om gewogen gemiddelde te berekenen, … dit kan niet bij een mediaan. Het gemiddelde verdient de voorkeur bij interval/ratio schalen. Onderlinge positie van gemiddelde en mediaan zegt iets over de mate van scheefheid van de verdeling. Besluit: 1. De vorm van de verdeling heeft invloed op de onderlinge positie van de centrummaten. 2. Indien mogelijk maak gebruik van het rekenkundig gemiddelde als maat van centrale tendens. 5.4. DE CENTRALE TENDENS VIA SPSS (pag 115-120) SPSS: analyze descriptive Statistics frequencies statistics median/mode/mean HOE KUNNEN WE SUBGROEPEN VERGELIJKEN? Om subgroepen te vergelijken maken we vaak gebruik van het rekenkundig gemiddelde. SPSS: analyze compare means means HOOFDSTUK 6: VARIABILITEITSMATEN 6.1. DE RANGE OF HET BEREIK (PAG 123-138) (pag 124-125) Om de range te berekenen dienen de uitslagen gerangschikt te worden van groot naar klein of omgekeerd. Dit betekent dat de scores minimaal van ordinaal niveau moet zijn (nominaal geen rangorde). Indien de uitslagen geordend zijn van klein naar groot, is het verschil tussen de grootste en de kleinste waarde de range of het bereik. Nadeel: slechts 2 observaties hebben invloed op de range, nl. de hoogste en de laagste score. De tussenliggende observaties leveren geen bijdrage geen goed zicht op de diversiteit van uitslagen 6.2. DE INTERKWARTIELAFSTAND / INTERKWARTIELBEREIK (pag 125-126) Het gebied op de X-as waartussen de middelste helft (50%) van alle waarnemingen valt, is de interkwartielafstand (Q). Q P75 P25 Q3 Q1 Biedt een goed inzicht in de variabiliteit van de uitslagen alle uitslagen gelijk zijn aan elkaar Q-waarde is gelijk aan nul naarmate de uitslagen onderling meer verschillen vertonen interkwartielafstand neemt toe grafische voorstelling: BOXPLOT 6.3. DE GEMIDDELDE AFWIJKINGSSCORE /DEVIATIESCORE (pag 126) De som van de afwijkingscores bedraagt 0; gemiddelde afwijkingscore dus ook Dus deze maat kunnen we niet gebruiken als maat van variabiliteit k X i 1 i X 0 6.4. DE GEMIDDELDE ABSOLUTE AFWIJKINGSSCORE (PAG 126-127) De gemiddelde absolute afwijking komt overeen met het rekenkundig gemiddelde van de absolute (geen rekening houden met het teken) waarde van de afwijking van elke score t.o.v. het gemiddelde Geeft een goed idee van de variabiliteit van de scores maar wordt niet gebruikt 6.5. DE VARIANTIE (PAG 127-130) De afwijking van elke uitslag ten opzichte van het rekenkundig gemiddelde berekenen en deze afwijking kwadrateren. Vervolgens het gemiddelde nemen van deze gekwadrateerde afwijkingsscore. Dus in eerste instantie de som van deze gekwadrateerde afwijkingsscores bepalen en deze som te delen door het aantal observaties altijd positief getal SPSS: analyze descriptive Statistics frequencies statistics variance 6.6. DE STANDAARDDEVIATIE (PAG 130-131) Standaardafwijking of standaarddeviatie is gelijk aan de wortel uit de variantie Altijd een positief getal!! De kleinste SD is gelijk aan nul wanneer alle waarden gelijk zijn aan elkaar In alle andere situaties is de SD een getal groter dan nul. Altijd uitgedrukt in dezelfde eenheid als de scores SPSS: analyze descriptive Statistics frequencies statistics std deviation 6.7. DE VARIATIECOËFFICIËNT (PAG 131-132) Is gelijk aan de SD gedeeld door het gemiddelde V sX X 6.8. LINEAIRE TRANSFORMATIES (PAG 132-136) Indien we enkel rekenkundige bewerkingen als delen, vermenigvuldigen, optellen en aftrekken Als je alle waarden (X) met eender welke constante vergroot of verkleint, dan wordt het gemiddelde eveneens met die waarde vergroot of verkleind, maar dit heeft geen effect op de standaardafwijking, noch op de variantie. Als je alle waarden (X) met 3 vermenigvuldigt, dan wordt het gemiddelde 3 keer groter en de standaardafwijking ook 3 keer groter. De variantie wordt 9 keer groter. Als je alle waarden (X) met -3 vermenigvuldigt, dan wordt het gemiddelde met -3 keer vermenigvuldigd, maar de standaardafwijking wordt met 3 vermenigvuldigd. De variantie wordt 9 keer groter. DE STANDAARDSCORE Van elke ruwe score het gemiddelde aftrekken en vervolgens dit verschil delen door de SD zi Xi X sX SPSS: analyze descriptive Statistics descriptives save standardized values as variables Standaardisering: Wat wordt het rekenkundig gemiddelde en variantie van deze Z-waarden? - het gemiddelde zal altijd nul zijn - de variantie en standaarddeviatie zullen altijd 1 zijn. Z-waarden zijn een dimensieloos getal, en kunnen zowel positief als negatief zijn. Een negatieve Z-waarde betekent dat deze uitslag zich links van het gemiddelde bevindt. Een positieve Z-waarde betekent dat deze uitslag zich rechts van het gemiddelde bevindt. De uitslagen kunnen omgezet worden in Z-waarden, maar ook omgekeerd, indien we het rekenkundig gemiddelde hebben en de standaarddeviatie van de oorspronkelijke gegevens kunnen we elke Zwaarde terug plaatsen in de oorspronkelijke verdeling Xi X zi s X Let wel: het standaardiseren heeft geen effect op de vorm van de verdeling, m.a.w. scheef blijft scheef, symmetrisch blijft symmetrisch. Enkel het gemiddelde wordt nul en de standaarddeviatie wordt één Samenvatting Meetniveau Nominaal Ordinaal Interval Ratio Centrummaat Modus Modus Mediaan Mediaan Gemiddelde Mediaan Gemiddelde Spreidingsmaat Range Interkwartielafstand Range Interkwartielafstand Standaard afwijking Range Interkwartielafstand Standaard afwijking Andere Gemiddelde absolute afwijking Gemiddelde absolute afwijking HOOFDSTUK 7: DE NORMALE VERDELING (PAG 139-152) 7.1. DE NORMALE VERDELING (pag 140-142) Een intervalwaarde die afhankelijke is van een oneindig aantal factoren, die los van elkaar inwerken, zal in de populatie een normale verdeling vertonen (Gausscurve); bv. Intelligentie. o o o o Gemiddelde in steekproef: X Gemiddelde in de populatie: µ Standaarddeviatie in de steekproef: s Standaarddeviatie in de populatie: σ WAT ZIJN DE EIGENSCHAPPEN VAN EEN NORMALE VERDELING? Er is maar 1 gemiddelde 2 buigpunten: altijd op gelijke afstand van het rekenkundig gemiddelde, nl 1 SD links en rechts verwijderd De normale verdeling heeft 1 maximum, dwz dat het gemiddelde gelijk is aan modus en aan de mediaan De grafische weergave van de normale verdeling is klokvormig; De uitslagen liggen vooral geconcentreerd rond het gemiddelde, naarmate scores afwijken t.o.v. het gemiddelde wordt de frequentie kleiner. 3 7.2. DE STANDAARDNORMALE VERDELING 1 1 2 3 4 (pag 143-148) Ontstaat wanneer alle uitslagen van een normale verdeling zullen verminderen met het gemiddelde en deze uitkomst delen door de standaarddeviatie: o Normale verdeling met gemiddelde nul o 2 Standaarddeviatie van 1 Er bestaan vaste relaties tussen de proportie van uitslagen en Z-waarden o Linkeroverschrijdingskans: een uitslag die kleiner is of gelijk aan o Rechteroverschrijdingskans: een uitslag die groter of gelijk aan HOOFDSTUK 8: DE VORM VAN DE VERDELING 8.1. DE KURTOSIS (PAG 153-168) (PAG 154-156) Is een maat die aangeeft in hoeverre de verdeling van uitslagen een afwijkende welving vertoont Indien de kurtosis nul is, zal de verdeling perfect overeenkomen met een normale verdeling Positieve uitslag: verdeling piekt hoog Negatieve uitslag: verdeling is platter of ingedeukt VAR00003 VAR00005 25 20 Frequency Frequency 30 20 15 10 10 5 Mean = 50,4933 Std. Dev. = 6,83629 N = 150 0 30,00 40,00 50,00 60,00 70,00 Mean = 51,0933 Std. Dev. = 14,34819 N = 150 0 30,00 40,00 50,00 60,00 70,00 VAR00003 VAR00005 8.2. DE SKEWNESS / SCHEEFHEID (PAG 156-158) Geeft aan in hoeverre een verdeling van uitslagen afwijkt ten opzichte van de symmetrie van een normale verdeling Afwijkende skewness: de waarde van de skewness is groter dan 2x de overeenkomstige standaardfout Een symmetrische verdeling: de waarde van de skewness is nul Absolute Frequenties Histogram 40 35 30 25 20 15 10 5 0 0 20 40 Metingen X 60 80 Een linksscheve verdeling: de skewness is negatief: o De staart verwijst naar de verdeling links, top verschuift naar rechts o Modus is groter dan de mediaan o Mediaan is groter dan het gemiddelde Een plafondeffect: een concentratie van uitslagen aan de rechterkant van de X-as vaststellen Absolute Frequenties Histogram 45 40 35 30 25 20 15 10 5 0 0 20 40 60 80 Metingen X Een rechtsscheve verdeling: de skewness is positief: o De staart verwijst naar de verdeling rechts o Modus is kleiner dan de mediaan o Mediaan is kleiner dan het gemiddelde Vloereffect: er ontstaat een concentratie van lage uitslagen, terwijl de hoge uitslagen meer verspreid liggen op de X-as Histogram Absolute Frequenties 45 40 35 30 25 20 15 10 5 0 0 20 40 Metingen X 8.3. BEREKENING VIA SPSS (PAG 158-160) SPSS: analyze descriptive Statistics explore both 60 80 8.4. HET EFFECT VAN EEN LINEAIRE TRANSFORMATIVE (PAG 160-163) Het gemiddelde wordt op dezelfde wijze getransformeerd. De standaarddeviatie wordt met |b| vermenigvuldigd, de variantie met b². De ‘skewness’ blijft onveranderd indien b>0. De kurtosis blijft onveranderd Model: Y = a + bX Deze omzetting heeft GEEN m.a.w. scheef blijft scheef. Deze omzetting heeft wel een invloed op het rekenkundig gemiddelde (altijd nul) en de s (altijd 1). 8.5. DE BOXPLOT invloed op de scheefheid en kurtosis van de verdeling; / BOX-AND-WHISKERPLOT / DOOS MET SNORHAREN-DIAGRAM (PAG 163-164) In de boxplot wordt in een doos de mediaan, het 25ste en het 75ste percentiel geplaatst, waardoor de doos in feite het interkwatielafstand voorstelt. Daarnaast worden de extreme en uiterst extreme waarden Uitbijter ligt op meer dan 1,5 dooslengte van het 25ste of 75ste percentiel Extreme uitbijters liggen op meer dan 3 dooslengtes van het 25 ste of 75ste percentiel. SPSS: analyze descriptive Statistics explore plots (=uitbijter) afgebeeld. HOOFDSTUK 9: ANALYSE VAN DE KRUISTABEL (PAG 169-188) ANALYSE VAN DE SAMENHANG Vereisten: 2 uitslagen per persoon 2 nominale variabelen kruistabel 2 ordinale variabelen de correlatiecoëfficiënt van Spearman 2 interval variabelen de Pearson correlatiecoëfficiënt en de regressietechniek. Analyse met chikwadraattoets voor kruistabellen en de associatiematen. 9.1. DE KRUISTABEL (PAG 170-171) Voorbeeld: Rokers Niet-rokers Totaal Verband tussen roken en hart- en vaatziekten (n=120) Ja Neen 5 15 1 99 6 114 Celfrequenties De kolom- en rijtotalen / de randtotalen/ marginale totalen totaal 20 100 120 Nadien omzetten in percentage: altijd in de horizontale richting Dus 2 niveaus van de onafhankelijke variabelen die telkens 100% moeten vormen Aan de hand van dergelijke percentages de samenhang tussen 2 variabelen nagaan Verband tussen roken en hart- en vaatziekten (n=120) Ja Neen totaal 25% 75% 100 1% 99% 100 Rokers Niet-rokers Samenhang?: o o De nulhypothese stelt dat er geen verband bestaat tussen de 2 variabelen en de alternatieve hypothese stelt dat er wel een samenhang bestaat Indien de gegevens uit de empirie niet stroken met de nulhypothese, kunnen we deze hypothese verwerpen er is een verband Zwakke, matige of sterke samenhang??? nagaan met chikwadraattoets 9.2. DE CHIKWADRAATTOETS / CHI-SQUARE TEST / INDEPENDENCE (PAG 171) De bestaande tabel vergelijken met de theoretische tabel of er samenhang bestaat tussen de 2 variabelen zoekt dus het verschil uit 9.2.1. DE CHIKWADRAATTOETS VOOR KRUISTABELLEN (PAG 172-175) SPSS: analyze descriptive Statistics crosstabs statistics chi-square De verwachte frequenties = fe o Hoort bij de nulhypothese = er is geen samenhang tussen de variabelen o Kolomtotaal cj te vermenigvuldigen met het overeenkomstige rijtotaal ri en dit te delen door het aantal respondenten n f e = r i . cj n Vervolgens de waarde van de chikwadraattoets berekenen: nodig om de mate van verschil tussen de geobserveerde frequenties en de frequenties in de veronderstelling dat er helemaal geen samenhang zou bestaan tussen beide variabelen 2 fo fe 2 fo : geobserveerde celfrequentie fe fe : verwachte celfrequentie Is de waarde groot genoeg om de nulhypothese onderuit te halen?? o de kritische waarden van de chikwadraattoets zijn nodig o o dus vrijheidsgraden (= df) bepalen: het aantal vrij te variëren cellen bepalen door het aantal kolommen minus 1, vermenigvuldigd met het aantal rijen minus 1 BEMERKING: je kunt de waarde van de chikwadraattoets enkel bepalen op grond van frequenties nooit gebruik maken van percentages in kruistabel niet gebruiken indien de verwachte frequenties te klein zijn indien te klein recode toepassen Verwachte frequentie mag in max. 20% van de gevallen kleiner zijn dan 5 geen enkele Fe waarde mag kleiner zijn dan 1 niet gebruiken bij te kleine proefgroepen niet gebruiken bij herhaalde metingen (= voor- en na meting) McNemartest (|A-D|-1)2/(A+D) o Let op welke celfrequenties u gebruikt als A en D versus C en B. A en D hebben betrekking op de proefpersonen die veranderen in functie van de behandeling. NA VOOR Niet geslaagd Geslaagd Geslaagd 5 (A) 35 (B) Niet geslaagd 40 (C) 20 (D) o o o Uitwerking: 14*14/25 = 7,84, hetgeen getest wordt als chikwadraat toets; enkel de groep van proefpersonen die van positie gewisseld gebruiken enkel te gebruiken bij dichotome variabelen. SPSS: analyze descriptive Statistics crosstabs statistics McNemar Chi-Square Tests Value McNem ar Test N of Valid Cases 100 a. Binom ial distribution us ed. Exact Sig. (2-sided) ,004a HOEVEEL WAARDEN KUNNEN ER IN EEN KRUISTABEL VRIJ VARIËREN WANNEER DE RANDTOTALEN INGEVULD WERDEN? Dit is in een viervelden tabel slechts 1. Na het invullen van één van de celfrequenties liggen de overige drie cellenfrequenties ook vast. df: (r-1)*(k-1) WAT IS DE KANS OM DEZE WAARDE VAN DEZE CHIKWADRAAT TE VINDEN INDIEN DE NULHYPOTHESE WAAR ZOU ZIJN? Deze nulhypothese is bij een chikwadraattoets: er is geen verband tussen beide variabelen. De alternatieve hypothese is: er is wel een verband. Deze kans is uiterst klein, vandaar dat we de nulhypothese verwerpen. Deze kans is redelijk aanwezig, vandaar dat we de nulhypothese niet verwerpen. Significantie betekent dat de samenhang in de kruistabel niet toevallig is, maar verwijst naar een samenhang in de populatie 9.2. DE CHIKWADRAATTOETS VOOR FREQUENTIES / GOODNESS-OF-FIT-TEST (PAG 175-176) toetsen over de verdeling van de uitslagen op één nominale variabele vergelijking van de vastgestelde resultaten met een vooropgestelde variabele Wordt vaak gebruikt om aan te tonen dat de samenstelling van de steekproef een weerspiegeling is van de populatie. gebruik geen percentages, beide verdelingen dienen eenzelfde aantal respondenten te hebben. Eventueel downscalen: vergelijkbaar maken met de aantallen in de steekproef SPSS: analyze non parametric tests legacy dialogs chi-square test Test Statistics politiek 1 2 3 Total 9.3. Obs erved N 60 5 25 90 Expected N 30,0 30,0 30,0 DE ASSOCIATIEMATEN Res idual 30,0 -25,0 -5,0 Chi-Squarea df Asymp. Sig. politiek 51,667 2 ,000 a. 0 cells (,0%) have expected frequencies les s than 5. The minimum expected cell frequency is 30,0. (PAG 177-178) Associatiematen gebaseerd op de chikwadraattoets voor kruistabellen: o De Cramer’s V o De contingentiecoëfficiënt o De phi-coëfficiënt (enkel bij 2X2 tabel) 9.3.1. DE CRAMER’S V Deze index geeft de sterkte van het verband aan en varieert van 0 tot 1. Kan in elk type kruistabel gebruikt worden. 9.3.2. DE CONTINGENTIECOËFFICIËNT in vergelijking met het geen maximum haalbaar is in functie van de grootte van de tabel 9.3.3. DE PHI-COËFFICIËNT Kan beschouwd worden als een standaardisering van de chikwadraattoets. o o o Kan enkel gelijk worden aan 1 indien verhouding tussen rijtotalen en kolomtotalen gelijk is, in het andere geval blijft deze waarde kleiner dan 1. Het teken van deze coëfficiënt speelt geen rol: we kunnen de waarden van plaats wisselen, waardoor het teken verandert. Het is niet zinvol te spreken over een negatief of positief verband bij nominale waarden. enkel bij vierveldentabel o berekening uitgaande van de celfrequenties en de marginale totalen in de kruistabel a,b,c, en d vormen de celfrequenties e,f,g,h vormen de randtotalen 9.4. ANALYSE VIA SPSS (PAG 179-187) 9.4.1. EEN SNELLE INVOER VAN EEN KRUISTABEL eerst in de variable view de variabelen aangeven SPSS: data weight cases weight cases by frequency variable Opvragen van kruistabel SPSS: data descriptive statistics crosstabs 9.4.2. HOE BEREKEN JE DE SAMENHANG IN EEN KRUISTABEL? (PAG 182-185) SPSS: analyze descriptive Statistics crosstabs statistics Output Symmetric Measures Nom inal by Nom inal Phi Cram er's V Contingency Coeffi cient N of Vali d Cases Value ,507 ,358 ,452 85 Approx. Sig. ,000 ,000 ,000 a. Not as s um ing the null hypothesi s. b. Usi ng the as ym ptotic standard error as sum ing the nul l hypothesis . In welke richting bestaat het verschil? Vergelijking van de frequenties SPSS: data descriptive statistics crosstabs cells partij * attitude Crosstabulation voor partij Total 9.4.3. Nieuw Groen Count Expected Count NOTAX Count Expected Count NOVA Count Expected Count Count Expected Count HOE BEREKEN JE DE CHIKWADRAATTOETS VOOR FREQUENTIES? 12 8,5 5 13,6 12 6,8 29 29,0 attitude weet niet 5 7,1 12 11,3 7 5,6 24 24,0 tegen 8 9,4 23 15,1 1 7,5 32 32,0 (PAG 185-187) Zie punt 9.2 SPSS: analyze non parametric tests legacy dialogs chi-square test Total 25 25,0 40 40,0 20 20,0 85 85,0 HOOFDSTUK 10: HET CORRELATIEVRAAGSTUK 10.1. DE SCATTERPLOT (PAG 189-214) / SPREIDINGSDIAGRAM (PAG 190-193) Interval- en ratiovariabelen: dus tussen 2 kwantitatieve variabelen Is de mate waarin elk individu eenzelfde relatieve positie inneemt op de twee variabelen Positief: wanneer de hoge score voor de 1ste variabele samenhangt met een hoge score voor de 2 de variabele Negatief: wanneer de hoge score voor de 1ste variabele samenhangt met een lage score voor de 2de variabele X-as: de onafhankelijke variabele Y-as: de afhankelijke variabele Elk punt is een proefpersoon het geheel vormt een puntenwolk 140,00 120,00 120,00 100,00 100,00 Y Y 80,00 80,00 60,00 60,00 40,00 40,00 20,00 20,00 30,00 40,00 50,00 60,00 70,00 20,00 30,00 X 40,00 50,00 60,00 70,00 X Zeer hoge positieve correlatie Hoge positieve correlatie 80,00 80,00 70,00 70,00 60,00 Y Y 60,00 50,00 40,00 50,00 40,00 30,00 30,00 20,00 20,00 20,00 30,00 40,00 50,00 60,00 X Een geringe positieve correlatie 70,00 20,00 30,00 40,00 50,00 X geen correlatie 60,00 70,00 80,00 70,00 80,00 60,00 70,00 50,00 Y 60,00 Y 40,00 50,00 30,00 40,00 20,00 30,00 10,00 20,00 20,00 30,00 40,00 50,00 60,00 20,00 70,00 30,00 40,00 50,00 X X Negatieve matige correlatie hoge negatieve correlatie 70,00 60,00 Y 50,00 40,00 30,00 20,00 20,00 30,00 40,00 50,00 X 60,00 70,00 zeer hoge negatieve correlatie 60,00 70,00 10.2. HET BEGRIP CORRELATIE (PAG 193-196) De Pearson correlatie: o 2 intervalvariabelen berekenen door het gemiddelde product te nemen van de overeenkomstige Z-waarden en de som van deze producten te delen door het aantal deelnemers o -1 bij perfecte negatieve correlatie o +1 bij perfecte positieve correlatie o 0 geen samenhang tussen de 2 variabelen 𝑹𝒙𝒚 = ∑𝒁𝒙 *𝒁𝒚 /n correlatie is symmetrisch 𝑹𝒚𝒙 = ∑𝒁𝒙 *𝒁𝒚 /n De covariantie: o niet gestandaardiseerde maat van samenhang tussen twee interval variabelen o Gemiddelde product van de afwijking t.o.v. het rekenkundig gemiddelde Indien we de covariantie delen door het product van de standaarddeviaties van beide variabelen, ontstaat de pearson correlatie o een gestandaardiseerde maat van samenhang, varieert van – 1 tot + 1 o Blijft constant als de X en/of de Y waarden vermenigvuldigd, gedeeld worden door een bepaald getal. Let wel op het teken van de correlatie. o Blijft constant als de X en/of de Y waarden opgeteld of verminderd worden met een bepaald getal. o Dus r is invariant onder lineaire transformaties (afgezien van het teken). 10.3. X'i a b Xi (PAG 196-198) INVLOED VAN TRANSFORMATIES OP DE CORRELATIE rX',Y' Yi' c d Yi bd rX,Y bd Één of beide variabelen worden vermeerderd of verminderd met een constante heeft geen effect op de onderlinge samenhang (lineaire transformaties) Is niet invariant voor niet-lineaire transformaties, zoals bv. omzetting in percentielscores, of bv. worteltrekking of kwadratering. Niet lineaire transformaties wijzigen de vorm van de verdeling en tevens de correlatie met andere variabelen 10.4 INTERPRETATIE VAN DE CORRELATIE (PAG 198-203) De variabelen hangen niet met elkaar samen (bv. lichaamslengte en schooluitslag) 80,00 70,00 Y 60,00 50,00 40,00 30,00 20,00 20,00 30,00 40,00 50,00 60,00 70,00 X Het verband tussen de beide variabelen is niet lineair (bv. relatie tussen angst en prestaties) 40,00 35,00 Y 30,00 25,00 20,00 15,00 0,00 2,00 4,00 6,00 8,00 10,00 X Er is sprake van ‘restriction of range’. Eén van de variabelen heeft onvoldoende bereik, waardoor de correlatie gedrukt wordt. 20,00 7,00 6,00 15,00 5,00 10,00 Y Y 4,00 3,00 5,00 2,00 0,00 1,00 0,00 20,00 40,00 60,00 X 80,00 100,00 15,00 20,00 25,00 30,00 X 35,00 40,00 10.4.1. BESTAAT ER EEN OORZAKELIJK VERBAND? 10.5. Het is mogelijk dat er een causale relatie bestaat tussen beide variabelen maar het is ook mogelijk van niet SCATTERPLOT EN CORRELATIE VIA SPSS (PAG 203-208) 10.5.1. HOE TEKEN JE EEN SCATTERPLOT? SPSS: Graphs legacy dialogs scatter/dot simple scatter define o Afhankelijke variabel op de Y-as o Onafhankelijke variabel op de X-as 10.5.2. HOE BEREKEN JE DE CORRELATIE? SPSS: Analyze correlate bivariate pearson aangevinkt Output Correlations Intelligentie quotient schooluitslag Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Intelligentie quotient 1 schooluitslag ,914** ,001 8 8 ,914** 1 ,001 8 8 **. Correlation is significant at the 0.01 level (2-tailed). 10.6. MEER DAN 2 INTERVALGESCHAALDE VARIABELEN (PAG 208-209) Multiple correlatie: de samenhang tussen de afhankelijke variabele en meerdere onafhankelijke variabelen maar ook van de onderlinge samenhang tussen deze variabelen VB: Er is een samenhang tussen het schoolresultaat en de intelligentie, maar ook tussen het schoolresultaat en de studietijd. Partiële correlatie: de zuivere samenhang tussen 1 afhankelijke variabele en 1 onafhankelijke variabele en dit onder constant houding van een 3 de variabele SPSS: Analyze correlate partial partial correlations 10.7. DE RANGCORRELATIE (PAG 209-211) Het betreft het verband tussen twee ordinale variabelen. Correlatiecoëfficiënt van Spearman Deze correlatie varieert van -1 tot + 1 SPSS: Analyze correlate bivariate pearson aanvinken Correlations Spearman's rho Leiders chap Intelligentie Correlation Coefficient Sig. (2-tailed) N Correlation Coefficient Sig. (2-tailed) N Leiders chap 1,000 . 10 ,614 ,059 10 Intelligentie ,614 ,059 10 1,000 . 10 HOOFDSTUK 11: DE REGRESSIETECHNIEK 11.1. DE REGRESSIELIJN (PAG 215-235) (PAG 216-220) De samenhang nagaan tussen 2 intervalgeschaalde variabelen De regressielijn voldoet aan het criterium van het kleinste kwadraat. D.w.z. dat de gekwadrateerde afwijking van de verwachte uitslag t.o.v. de feitelijke uitslag minimaal is. Een lijn trekken door de puntenwolk in de scatterplot SPSS: Graphs interactive scatterplot create scatterplot Criteriumvariabele: de variabele waarvoor een voorspelling maken Predictorvariabele: de variabele op basis waarvan de voorspelling maken 11.1.1. WAT IS DE FORMULE VOOR DEZE REGRESSIELIJN? Algemene werkformule van de regressielijn: Y=Y+r o XY (Xi – X)*SDY/SDX Vergelijking van de best passende lijn, waarbij de Y waarden zo goed mogelijk geschat kunnen worden op grond van de X waarden. De regressielijn is niet symmetrisch. Y = a + bX Waarbij: o o o o X = de onafhankelijke (predictor) variabele (horizontale as) Y = de afhankelijke (criterium) variabele (verticale as) a = de constante, die het snijpunt (intercept) met de Y-as vormt b = de hellingscoëfficiënt (slope, of richtingscoëfficiënt) HOE VINDEN WE DEZE A EN B COËFFICIËNTEN? o a: dit is de uitslag van Y indien X nul bedraagt; a = Y – bX (intercept) o b: dit is de richtingscoëfficiënt; deze is functie van de r en de verhouding tussen de beide SD. b = rYX. SDY/SDX (slope) Deze b geeft aan hoe de Y waarde verandert wanneer de X waarde met één eenheid toeneemt. 11.1.2. WAT IS DE WAARDE VAN DEZE REGRESSIELIJN? (PAG 220) Proportie verklaarde variantie: r2XY Deze determinatiecoëfficiënt geeft de gemeenschappelijk variantie weer. Kan berekend worden via het kwadraat van de r. Voorstelling: r2 Proportie niet-verklaarde variantie: Het verschil tussen de verwachte en de feitelijke score van Y is de schattingsfout. De standaarddeviatie van deze fout is de standaardschattingsfout. Dit komt overeen met de standaarddeviatie van de verschillen tussen de verwachte en feitelijke uitslag. o o o (1- r2XY) In SPSS wordt deze standaardfout aangeduid middels ‘std. error of the estimate’. Deze standaardschattingsfout geeft een indicatie van de (on)nauwkeurigheid van de voorspelling. (omgekeerde) relatie met rXY 11.2. REGRESSIEANALYSE VIA SPSS (PAG 220-223) SPSS: Analyze regression linear linear regression Model Summar y Model 1 R ,914a Adjusted R Square ,808 R Square ,835 Std. Error of the Estimate 4,219 a. Predictors: (Constant), IQ ANOVAb Model 1 Regres sion Residual Total Sum of Squares 541,088 106,787 647,875 df 1 6 7 Mean Square 541,088 17,798 F 30,402 Sig. ,001a a. Predictors: (Constant), IQ b. Dependent Variable: Schooluitsl Coefficientsa Model 1 (Constant) IQ Unstandardized Coefficients B Std. Error 16,457 10,654 ,517 ,094 a. Dependent Vari able: Schooluitsl Standardized Coefficients Beta ,914 t 1,545 5,514 Sig. ,173 ,001 11.3. DE MEERVOUDIGE REGRESSIETECHNIEK (PAG 223-231) In dit geval zijn er meerdere X variabelen, op grond waarvan de Y variabele geschat wordt. Veel gebruikte procedure om aan te geven hoe diverse onafhankelijke variabelen gezamenlijk een invloed uitoefenen op de afhankelijke variabele. Diverse onafhankelijke variabelen worden t.o.v. mekaar uitgespeeld. De afzonderlijke bètacoëfficiënten bieden een inzicht in het impact van elke onafhankelijke variabele, onder constant houding van de overige variabelen.