Thomas Jansen (0878650) Week 1, grondprincipes van de wetenschap Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 1: Research in Behavioral Sciences Voor de meeste mensen is een wetenschapper een man in een witte laboratoriumjas die aan het werk is in een laboratorium dat volledig is gevuld met technische apparaten. De meeste mensen plaatsen een psycholoog of andere gedragswetenschapper niet in hetzelfde rijtje als een bioloog of andere wetenschapper. Als mensen gevraagd wordt welk beeld ze hebben van een psycholoog zullen ze een psycholoog vooral zien als een persoon in de rol van “Mental Health Professional” die psychotherapie of counseling doet. Dit is echter maar een deelgebied van de wetenschap psychologie. Psychologie is een wetenschappelijke discipline die gedrag en mentale processen (emotie, denken) bestudeert met wetenschappelijke methoden; één van de vormen waarin psychologische kennis wordt toegepast en opgedaan is de geestelijke gezondheidszorg. Buddha (563-483 v. Christus) en Aristoteles (384-322 v. Christus) stelden zich al vragen over de oorzaken van gedrag, menselijk denken en emotie. Gedurende ruim 2000 jaar daarna waren de antwoorden speculatief. Mensen verklaarden gedrag, menselijk denken en emotie door alledaagse observatie, creatief inzicht, intuïtie, filosofie en theologie. Mensen baseerden de antwoorden op de vragen die ze hadden over gedrag niet op wetenschappelijk onderzoek. “Wetenschappelijke” Psychologie (ofwel gedragswetenschap) ontstond rond 1875 met Wilhelm Wundt (1832-1920) als grondlegger. In 1874 publiceerde hij de tekst Principles of Physiological Psychology waarin hij al aangaf een nieuw wetenschappelijk domein uit te willen zetten. In 1875 richtte hij een van de twee eerste psychologielaboratoria ter wereld aan de Universiteit van Leipzig in Duitsland. William James richtte een soortgelijk laboratorium op aan de universiteit van Harvard waarmee hij het eerste psychologielaboratorium in Amerika oprichtte. Wundt startte in 1881 een wetenschappelijk tijdschrift op voor de publicatie van onderzoeksresultaten in de experimentele psychologie. Wundt leidde ook mensen op in het nieuwe vakgebied en een van zijn studenten, James McKeen Cattell was de eerste die een cursus experimentele methoden opnam in de opleiding Psychologie. Hij heeft daarmee de allereerste voorloper van dit vak Methoden en Technieken opgezet. Sommige onderzoekers maken onderscheid tussen twee primaire soorten onderzoek. Basic research (standaard onderzoek) wordt uitgevoerd om kennis te vergroten zonder er rekening mee te houden of de gevonden kennis direct toepasbaar is. Applied research (toegepast onderzoek) daarentegen heeft als doel oplossingen te vinden voor bepaalde problemen. Een onderdeel van applied research is evaluation research (evaluatieonderzoek) wat onderzoek doet naar de effecten van sociale of institutionele programma’s op gedrag. Een voorbeeld hiervan is onderzoek naar de effectiviteit van een nieuw onderwijssysteem. Welk type onderzoek gedragsonderzoekers ook toepassen, ze hebben altijd drie doelen voor ogen: Beschrijven van gedrag (enquêtes, polls), voorspellen van gedrag (onderzoek bij sollicitatie om te zien hoe de sollicitant zijn werk zal doen) en verklaren van gedrag (onderzoekers hebben vaak het idee dat ze iets niet begrijpen als ze het niet kunnen verklaren). Bij toegepast onderzoek gaan de onderzoekers vaak nog een stap verder door suggesties en oplossingen te bieden aan de hand van hun onderzoek. De waarde van onderzoek voor de student (waarom dit vak als je geen onderzoeker wordt?) bestaat uit vijf punten: Om onderzoek te begrijpen dat relevant is voor je beroepsuitoefening (bijblijven, ontwikkelingen in het veld volgen); publicatie is namelijk meestal in “Journals”. Om minder afhankelijk te zijn of te worden van “methodologen” Het stimuleert de ontwikkeling van kritisch denken en een analytische benadering Het maakt je tot een betere “onderzoeksconsument” in het alledaagse leven Vanwege de “kruisbestuiving” van onderzoek, toegepast werk en onderwijs Of iets wetenschappelijk is wordt niet bepaald door het onderwerp wat bestudeerd wordt, maar de manier waarop het bestudeerd wordt. Er zijn een drietal criteria waaraan voldaan moet worden om onderzoek wetenschappelijk te kunnen noemen: Systematisch Empirisme: Met Empirisme wordt bedoeld dat een onderzoeker moet vertrouwen op observaties om conclusies te trekken (All those sheep have just been shorn, well on the side facing us anyway). Met systematisch wordt bedoeld dat observaties onder gecontroleerde omstandigheden worden gedaan. Data die verkregen is door middel van systematisch empirisme geeft de wetenschapper de kans om met meer zekerheid conclusies te trekken dan data van losse observaties dat toelaat. Publieke verificatie: Onderzoek moet zo uitgevoerd worden dat anderen het kunnen waarnemen, herhalen en controleren. Dit zorgt ervoor dat onderzoeken altijd op ‘echtheid’ onderzocht kunnen worden. Wetenschappers negeren claims van andere wetenschappers als deze claims niet geverifieerd kunnen worden. Publieke verificatie zorgt er eveneens voor dat wetenschap een zelfcorrigerende werking krijgt; fouten in de methodologie en interpretatie kunnen door anderen ontdekt en gecorrigeerd worden. Oplosbare problemen: Onderzoekers kunnen alleen onderzoek doen naar vragen die beantwoord kunnen worden, gegeven de huidige kennis en onderzoeksmethoden. Pagina 1 Thomas Jansen (0878650) In principe doen alle wetenschappers twee dingen. Allereerst het ontdekken en documenteren van verschijnselen, patronen en relaties. Dit zorgt ervoor dat vage ideeën leiden tot goed doordachte en zorgvuldig geformuleerde onderzoeksvragen. Ten tweede ontwerpen ze verklaringen en evalueren ze. Oftewel, ze formuleren theorieën, toetsen deze en verbeteren ze eventueel. De voortgang van onderzoek is dan ook een cyclisch proces. Omdat Leary het cyclisch proces niet expliciet gestructureerd heeft gebruikt deze cursus daarvoor het model van A.D. de Groot (1961). Meer informatie over dit model is te vinden in de aanvulling in de syllabus (zie samenvatting). Onder een theorie wordt een verzameling uitspraken (proposities) verstaan die de relaties tussen een aantal begrippen (concepten) leggen. De term theorie wordt vaak slordig gebruikt (“het is maar een theorie”, een “wild guess”), maar theorieën zijn juist geen “wild guesses” maar worden (voorlopig) geaccepteerd in zoverre en zolang ze ondersteund worden door empirische resultaten. Theorieconstructie is een creatieve bezigheid, ideeën voor theorieën kunnen overal vandaan komen. Model en theorie worden vaak uitwisselbaar gebruikt, maar volgens Leary is er een verschil. Het verschil tussen model en theorie is volgens Leary dat een model alleen beschrijvend is en niet verklarend. Zodra er verklarend wordt gewerkt, betreft het dus een theorie. Over het algemeen kunnen mensen voor praktisch alles een verklaring vinden nadat iets gebeurd is. Sterker nog, het is vaak zelfs mogelijk om twee tegenstrijdige verklaringen te vinden nadat iets gebeurd is. Alle verklaringen klinken logisch als iets al gebeurd is. Wetenschappers zijn dan ook sceptisch als het gaat om deze post hoc verklaringen en zullen onderzoeken waarin post hoc verklaringen zijn opgenomen zullen dan ook verworpen worden. Om een overtuigende toetsing van een theorie te kunnen doen maken onderzoekers specifieke werkhypotheses (research hypotheses) voordat ze de data verzamelen (a priori). Het toetsen van een theorie is een indirect proces. Een theorie zelf wordt niet direct getoetst omdat deze over het algemeen te breed en complex is om te toetsen. In plaats daarvan toetsen wetenschappers een of meerdere hypotheses die zijn afgeleid van de theorie, zogenaamde werkhypotheses. Een werkhypothese is een specifieke uitspraak die logisch is afgeleid van een theorie via deductie. Het gaat hier dus om een vertaling van het algemene naar het bijzondere. Een werkhypothese komt meestal in van “als…dan…stelling”. Het is niet in alle gevallen zo dat een wetenschapper via deductie een hypothese opstelt. Het is namelijk ook mogelijk via inductie op een hypothese te komen. Onder inductie wordt het opstellen van een hypothese aan de hand van een verzameling feiten verstaan. Hypotheses die enkel gebaseerd zijn op eerdere observaties van een patroon in resultaten wordt ook wel empirische generalisatie genoemd. Verder is het belangrijk dat een werkhypothese falsifieerbaar is, hij moet onwaar kunnen blijken te zijn. Vaak proberen wetenschappers methodologisch pluralisme toe te passen waarbij meerdere methodes en onderzoeksontwerpen worden gebruikt. Hoe meer methodes en onderzoeksontwerpen er worden gebruikt bij het toetsen van een theorie, hoe betrouwbaarder de uitslag van het onderzoek wordt. In sommige gevallen een methode die ook wel “strategy of strong inference” word genoemd. Hierbij worden twee tegenstrijdige theorieën tegenover elkaar gezet in een onderzoek. De onderzoeksgegevens zullen hierbij de ene hypothese bevestigen en de ander niet. Het is bij het formuleren van een hypothese van groot belang dat deze duidelijk geformuleerd en omschreven is. Als de definities van termen in de hypothese niet duidelijk zijn (wat wordt onder ‘honger’ verstaan? Wanneer is een kind een baby?) kan niet onderzocht worden of de hypothese aangenomen kan worden of moet worden verworpen. Wetenschappers gebruiken twee soorten definities tijdens hun werk. Conceptuele definities, welke ook in een woordenboek te vinden zijn, en operationele definities waarbij exact wordt omschreven wat er met de definitie bedoeld wordt. Omdat conceptuele definities vaak niet specifiek genoeg zijn voor onderzoeksdoeleinden vallen wetenschappers vaak terug op operationele definities. Leary omschrijft meerdere manieren waarop een wetenschapper aan ideeën voor onderzoek kan komen: Onderzoeksliteratuur Hypotheses afleiden uit een bestaande theorie Oude theorieën toepassen op een nieuw verschijnsel Intensieve case-study uitvoeren Draai de oorzaak-gevolg richting om voor een gezond-verstand hypothese Opbreken van een proces in componenten Kijk wat mediëert in een bekend oorzaak-gevolg proces Analyseer de functie van een raadselachtig fenomeen Stel je voor wat het effect is van het reduceren van een bepaalde factor tot nul Het ontdekken van regelmaat of patronen in data (Empirische generalisatie) Omdat een theorie alleen indirect onderzocht kan worden is het ook onmogelijk om een theorie te bewijzen aan de hand van onderzoeksdata. Wetenschappers spreken daarom nooit over het bewijzen van een theorie, maar gebruiken ze vaak bevestigen of verwerpen. Het positief bewijzen van een theorie (de theorie is waar) is logisch onmogelijk. Stel er is een moord gepleegd op een feestje. De theorie is dat Jack de moordenaar is. Een mogelijke hypothese kan dat zijn: als Jack de moordenaar is moet hij op het feestje zijn geweest. Een controle leert dat Jack op het feestje was, dus hij is de moordenaar. Een hypothese kan een theorie dus nooit bewijzen, enkel versterken. Het negatief bewijzen (de theorie is niet waar) is logisch wel te bewijzen, maar praktisch niet mogelijk. Jack was niet op het feestje en heeft de moord dus niet gepleegd (logisch). Misschien is Jack wel ongezien naar binnen geslopen (praktisch). Omdat er zoveel manieren zijn waarop een onderzoek verkeerd uitgevoerd kan worden betekend het verwerpen van een specifieke hypothese zelden het verwerpen van de theorie. Het gaat om bevestiging of ondersteuning door onderzoeksresultaten ook wel accumulatie van evidentie genoemd. Pagina 2 Thomas Jansen (0878650) Een andere manier om wetenschap te benaderen is een serie filters die erop gericht zijn om wetenschappelijk valide ideeën van de niet valide ideeën te scheiden. Deze filter ziet er als volgt uit: Alle ideeën Filter 1 Wetenschappelijke training Zorgen om professionele reputatie Beschikbaarheid van fondsen Filtert: Onzin Initiële onderzoeksprojecten Filter 2 Eigen evaluatie over levensvatbaarheid van een idee Tijd Filtert: doodlopende ideeën, geraffelde onderwerpen Onderzoeksprogramma’s Filter 3 Beoordeling door gelijken (peer review) Filtert: Methodologische vooroordelen en fouten, onbelangrijke bijdragen Gepubliceerd onderzoek Filter 4 Gebruik, replicatie en toevoeging door anderen Filtert: Nonreplicatie, oninteressante en niet te gebruiken dingen Secondaire wetenschapsliteratuur – Gevestigde kennis Er zijn grofweg vier categorieën van (gedrags)onderzoek. Descriptief onderzoek beschrijft het gedrag, gedachten of gevoelens van een bepaalde groep individuen. Een opiniepeiling is hier nog wel het meest bekende voorbeeld van. Descriptive research doet geen poging tot het verklaren van gedrag, maar is het begin van alle onderzoek. Correlationeel onderzoek onderzoekt de relaties tussen verscheidene geobserveerde verschijnselen. Er wordt bijvoorbeeld gekeken of geslacht samenhangt met intelligentie. Correlationeel onderzoek kan ons niet vertellen of de ene variabele daadwerkelijk de andere veroorzaakt. Experimenteel onderzoek probeert causale (oorzaak-gevolg) relaties aan te tonen. Een wetenschapper onderzoekt hier of het manipuleren van een (onafhankelijke) variabele een verandering in een andere (afhankelijke) variabele veroorzaakt. Kenmerken van experimenteel onderzoek zijn manipulatie, random toewijzing en experimentele controle. Quasi-experimenteel onderzoek lijkt erg op experimenteel onderzoek maar heeft een minder strenge controle. Met name random toewijzing ontbreekt in quasi-experimenteel onderzoek. Dit type onderzoek wordt gebruikt op het moment dat experimenteel onderzoek om praktische of ethische reden niet mogelijk is. Pagina 3 Thomas Jansen (0878650) Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 2: Behavioral Viariability and Research Het doel van onderzoek is het beschrijven, voorspellen en verklaren van gedrag in termen van variabiliteit. Psychologen gebruiken het woord schema om te verwijzen naar een cognitieve generalisatie die het verwerken van informatie organiseert en begeleid. De essentie van een schema is dat al het onderzoek naar gedrag probeert om vragen over de gedragsvariabiliteit te beantwoorden. Hoe en waarom varieert gedrag in verschillende situaties, verschilt het tussen individuen en verandert het door de tijd heen. Dit wordt in Leary geïllustreerd aan de hand van vijf uitspraken: 1. Psychologie gaat over de studie van gedragsvariabiliteit Psychologie wordt vaak gedefinieerd als de studie van gedrag en mentale processen. Maar wat psychologen en andere gedragswetenschappers daadwerkelijk bestuderen is gedragsvariabiliteit. Ze willen weten hoe en waarom gedrag varieert in verschillende situaties, tussen verschillende mensen en door de tijd heen. Het begrijpen van mentale processen betekend eigenlijk het begrijpen wat er voor zorgt dat gedrag en mentale processen variëren. 2. Onderzoeksvragen zijn vragen over gedragsvariabiliteit Zoals bij uitspraak 1 al is behandeld kunnen alle onderzoeksvragen gezien worden als vragen over de gedragsvariabiliteit. Stel dat een onderzoeker wil weten in hoeverre slaaptekort invloed heeft op functioneren en cognitieve taken. In principe vraagt hij zich dan af op welke manier de hoeveelheid slaap die iemand krijgt veranderingen in zijn functioneren veroorzaakt. 3. Onderzoek moet zo worden opgezet dat vragen over gedragsvariabiliteit zo goed mogelijk kunnen worden beantwoord Bij elke stap in het opzetten en uitvoeren van een onderzoek moet wetenschappers er zeker van zijn dat hun onderzoek hen toestaat hun vragen over gedragsvariabiliteit te beantwoorden. 4. Het meten van gedrag impliceert het vaststellen van gedragsvariabiliteit Ongeacht wat er wordt gemeten willen we dat de variabiliteit van een waarde die we toekennen aan bepaalde deelnemers correspondeert met de daadwerkelijke variabiliteit van de deelnemers hun gedrag, gedachten, emoties of fysiologische reacties. 5. Statistische analyses worden gebruikt voor beschrijving, voorspelling en verklaring van geobserveerde gedragsvariabiliteit. Op een bepaald moment moet de data die verzameld is in een studie worden geanalyseerd. Statistiek wordt gebruikt om vragen over de variabiliteit in de data te beantwoorden. Statistiek heeft twee algemene doelen voor onderzoekers. Beschrijvende statistiek (descriptive statistics) wordt gebruikt om gedrag van deelnemers aan een onderzoek samen te vatten en te beschrijven. Inferentiële statistiek (inferential statistics) daarentegen wordt gebruikt om conclusies te kunnen trekken over hoe betrouwbaar of generaliseerbaar bepaalde resultaten zijn. Hoe representatief zijn de gegevens van mijn sample van de deelnemers voor de grotere populatie? Omdat het belang van variabiliteit voor onderzoekers zo groot is hebben ze ook een manier nodig om aan te geven hoeveel variabiliteit er in een hoeveelheid data is. Er zijn vele maten om variabiliteit van een hoeveelheid data weer te geven. Zo is er bijvoorbeeld de spreidingsbreedte (range): Spreidingsbreedte = maximum – minimum. Het probleem met de range is echter dat het wel vertelt hoe de laagste en de hoogste score variëren, maar niet de andere scores en hun variatie in ogenschouw neemt. Onderzoekers gebruiken daarom de term variantie als maat voor variabiliteit. Bij variantie worden de scores bekeken ten opzichte van een standaard (vaak het gemiddelde). De variantie is dus niet meer dat een indicatie hoe een set gegevens geclusterd ligt rond het gemiddelde van de scores. Variantie wordt duidelijker uitgelegd aan de hand van de volgende vijf stappen: Stap 1: Zoals we eerder hebben gezien vertelt variantie iets over de spreiding van de waarden ten opzichte van het gemiddelde. Om te beginnen moet dus het gemiddelde worden berekend. Het gemiddelde is te berekenen door alle scores bij elkaar op te tellen en te delen door het aantal scores. Het symbool y wordt gebruikt om het gemiddelde van een dataset te vertegenwoordigen. De correcte statistische notatie voor het gemiddelde ziet er als volgt uit: y y i n De statistische notatie voor het somteken ( y i ) ziet er als volgt uit: y1 y2 ... yn Stap 2: Nu moet weergegeven worden hoeveel de scores afwijken van het gemiddelde. Dit wordt gedaan door van elke score het gemiddelde af te trekken. De uitkomst hiervan heet de deviatiescore: Deviatiescore yi y Stap 3: Bij de deviatiescores staat een negatieve waarde voor een score die onder het gemiddelde viel en een positieve deviatiescore staat voor een score die boven het gemiddelde viel. Men zou verwachten dat een optelling van alle deviatiescores een totale variabiliteitsscore voor de sample zou opleveren, maar het optellen van alle deviatiescores levert altijd nul op als resultaat. Daarom moeten de negatieve tekens weggewerkt worden. Dit doen we door alle deviatiescores te kwadrateren. Pagina 4 Thomas Jansen (0878650) ( yi y ) 2 Stap 4: Nu kunnen alle waardes bij elkaar opgeteld worden. De waarde die nu verkregen wordt heet ook wel sum of all squares. Sum of all squares = ( y i y) 2 Stap 5: De waarde van de sum of all squares die bij stap 4 verkregen is afhankelijk van het aantal scores, maar een groter aantal scores betekend niet per definitie dat de variabiliteit van de data groter is. Om de grootte van het sample niet van invloed te laten zijn op de variantie moet de sum of all squares gedeeld worden door het aantal scores min één. Dit levert de variantie op: s 2 (y i y) 2 n 1 In het kort zijn de vijf stappen dus als volgt: 1. Bereken het gemiddelde 2. Trek van elke score het gemiddelde af (deviatiescore) 3. Kwadrateer elke deviatiescore 4. Tel alle gekwadrateerde deviatiescores bij elkaar op (sum of all squares) 5. Deel deze waarde door het aantal scores min één (variantie) Tot nu toe is telkens de totale variantie behandeld. Variantie is echter op te delen in twee delen: Totale variantie = systematische variantie + foutenvariantie (of liever toevalsfluctuatie) Systematische variantie is het deel van de totale variantie in het gedrag van deelnemers aan een onderzoek dat op een ordelijke, voorspelbare wijze gerelateerd is aan de variabelen die een onderzoeker onderzoekt. Als het gedrag van een deelnemer op een systematische manier varieert als andere variabelen veranderen heeft de onderzoeker het bewijs dat die variabelen gerelateerd zijn aan het gedrag. Het deel van de totale variantie in het gedrag van een deelnemer dat systematisch gerelateerd is aan de variabele die onderzocht wordt is systematische variantie. Foutenvariantie (Error variance) is het deel van de totale variantie waar geen verklaring voor wordt gevonden. Foutenvariantie is het deel waarbij geen relatie is tussen de variantie en de variabelen die onderzocht worden. Bij foutenvariantie betreft het niet altijd menselijke fouten zoals opname- of coderingsfouten, maar vaak is het een gevolg van factoren die geen onderdeel uitmaken van het onderzoek en dus niet onderzocht zijn. Omdat ze niet onderzocht zijn kunnen ze ook niet verklaard worden en komt dit stukje variantie automatisch bij de foutenvariantie terecht. Om de sterkte van een relatie weer te geven wordt de effect size of measures of strength of association gebruikt. De effect size is te berekenen als de verklaarde variantie bekend is. De verklaarde variantie is het deel van de variantie waarvoor een verklaring is gevonden. Dit is dus hetzelfde als de systematische variantie. Effect size systematische variantie totale variantie Op het moment dat de effect size 0,00 is, is er geen relatie en is er niets verklaard. De effect size is 1 bij een perfecte relatie waarbij alles verklaard is. Er wordt over een grote effect size gesproken als deze meer dan 0,15 bedraagt, bij 0,06 spreekt men van een medium effect size en bij 0,01 van een kleine effect size. Het is ook mogelijk om de sterkte van een relatie te bereken over meerdere studies. Door een gemiddelde te nemen van de effect size uit meerdere studies wordt er een meer accurate schatting gegeven van de sterkte van de relatie tussen twee variabelen. Een onderzoek als dit wordt een meta-analyse genoemd. Pagina 5 Thomas Jansen (0878650) Aanvulling 1.1 in syllabus; De empirische cyclus volgens A.D. de Groot De voortgang van de wetenschap wordt door veel mensen gezien als een cyclisch proces waarin een aantal fasen in (min of meer) vaste volgorde wordt doorlopen en met aan het eind weer terug is bij het uitgangspunt. Dit is de versie van deze empirische volgens A.D. de Groot. De Groot onderscheidt vijf fasen in de cyclus welke hieronder beschreven worden. Observatiefase: Hier ontstaat het idee voor een theorie of onderzoeksvraag. Het gaat er niet om waar het idee vandaan komt, maar hoe het vervolgens wordt onderzocht en of er bevestiging wordt gevonden. Dit principe heet het principe van de vrijheid van ontwerp. Inductiefase: Hier wordt het idee uitgewerkt tot een algemeen principe of theorie waarin ten minste het verband tussen twee variabelen wordt gelegd. De vertaalslag in de inductiefase is een redenering van het bijzondere naar het algemene (inductie). Het gaat van die ene observatie uit de observatiefase naar een algemeen principe. Het resultaat is een zeer algemene hypothese. Er wordt hier niet gekozen voor de term theorie, omdat deze gewoonlijk gereserveerd wordt voor een wat meer omvattend geheel waarvan verscheidene hypotheses deel uitmaken. Deductiefase: Hier wordt uit de algemene hypothese een onderzoekbare voorspelling, ofwel werkhypothese afgeleid. In deze fase wordt een concreet onderzoek ontworpen, want een volledig uitgewerkte werkhypothese omvat ook precies hoe en wat er geobserveerd zal worden. De vertaalslag in de deductiefase is een redenering van het algemene naar het bijzondere (deductie). De deductiefase heeft in feite twee eindproducten. De werkhypothese en een concrete onderzoeksopzet waarin de omstandigheden, proefpersonen en vooral de observatiemethoden precies zijn vastgelegd. Toetsingsfase: In de toetsingsfase wordt het onderzoek wat in de deductiefase is opgezet ook daadwerkelijk uitgevoerd. Evaluatiefase: Hier wordt bekeken wat het resultaat van de toetsingsfase zegt over de algemene hypothese. In deze fase wordt een hypothese aangenomen of verworpen, al is het bij verwerping van een hypothese aannemelijker dat een onderzoeker uitzoekt of er niet iets mis wat met het onderzoek waardoor het resultaat uitbleef. Via empirische generalisatie kan er eventueel een uitbreiding op de theorie volgen. In alle gevallen komt een onderzoeker na de evaluatiefase weer in de observatiefase terecht. De onderzoeker heeft bij aanname van de werkhypothese aangetoond dat het in bepaalde omstandigheden bij bepaalde personen met bepaalde taken waar is, maar zou het ook in andere omstandigheden met andere personen en taken waar zijn? Pagina 6 Thomas Jansen (0878650) Aanvulling 1.2 in syllabus; Toelichting op het verklaren van variantie Omdat aanvulling 1.2 zeer kernachtig geschreven is wordt aanvulling 1.2, met slechts een kleine aanpassing die verwijst naar de opgaven in de syllabus, in zijn geheel opgenomen in deze samenvatting. Het verklaren van variabiliteit is een centraal idee in de methodologie. Variabiliteit is de algemene aanduiding voor de mate waarin een variabele varieert, schommelt om een bepaalde; dit wordt ook vaak spreiding genoemd. Variantie is een bepaalde maat om die variabiliteit uit te drukken. Er bestaan ook andere spreidingsmaten, maar deze is de meest gebruikte. Meestal is het verklaren van de variabiliteit gebaseerd op de splitsing van de te verklaren variantie in een verklaard en een onverklaard deel; in Leary’s woorden (p. 43): Total variance = systematic variance + error variance. De te verklaren of totale variantie is alle variantie van de afhankelijke of responsevariabele die we willen verklaren. Het deel daarvan dat kan worden toegeschreven aan een of andere onafhankelijk of verklarende variabele is de verklaarde variantie (‘systematic’ bij Leary), en het deel dat dan nog overblijft is de onverklaarde rest, ook wel residu of foutenvariantie genoemd (‘error’ bij Leary). Merk overigens op dat de berekeningen niet via de varianties, maar via de overeenkomstige kwadratensommen (sums of squares) gaan; het zou misschien correcter zijn om te spreken over verklaarde kwadratensom, maar we houden ons aan de gangbare uitdrukking verklaarde variantie. Elke variantie is gebaseerd op een som van gekwadrateerde afwijkingen die we kort aanduiden als kwadratensom (Sum of Squares, SS). De afwijkingen zijn bij de totale kwadratensom de verschillen tussen de observaties en het gemiddelde van alle observaties. In formulevorm: SS(totaal) = (y ij y ) 2 i, j Dus bereken het gemiddelde, trek dat van alle observaties af (d.i.: bereken de afwijkingen), kwadrateer de afwijkingen en tel de gekwadrateerde afwijkingen bij elkaar op. (Als je het resultaat door n-1 deelt krijg je de variantie). Ook de verklaarde variantie is een som van gekwadrateerde afwijkingen. Het gaat nu echter om wat de verklarende variabele zegt over de afhankelijke: welk deel van de afwijkingen kan worden toegeschreven aan de verklarende variabele? Als schatting van de waarde van de afhankelijke variabele voor een bepaalde categorie van de verklarende variabele kunnen we de gemiddelde score in die categorie gebruiken. De informatie die de verklarende variabele ons geeft over de afhankelijke variabele is het verschil tussen dat groepsgemiddelde en het gemiddelde van alle observaties (als we niks zouden weten zou dat een verstandige schatting zijn); dat vertelt hoeveel de betreffende groep gemiddeld hoger of lager scoort. Die verschillen zijn de ‘verklaarde afwijkingen’. De betreffende kwadratensom is dus: SS(tussen) = ( y y) i 2 i, j ‘Tussen’ is een afkorting voor ‘tussengroepen’: deze kwadratensom geeft aan hoe groot de verschillen tussen de groepen zijn; dit is dus de verklaarde of ‘systematic’ kwadratensom. Bereken de groepsgemiddelden, trek daarvan het algemene gemiddelde af, kwadrateer en tel op over alle individuen. Er zijn maar net zoveel verschillende getallen als er groepen (is categorieën van de verklarende variabele) zijn, maar elk van die getallen telt één keer voor elk individu in een groep. Wat weten we nu nog niet? Met de groepgemiddelden zitten we in het algemeen dichter bij de waarden van de individuele personen, maar helemaal raak zal die schatting meestal niet wezen. Het verschil tussen de individuele scores en de groepsgemiddelden is dus wat we nog niet weten, de onverklaarde rest. Je kunt ook zeggen: zoveel zitten we er bij een bepaald individu naast als we zijn score schatten op basis van de verklarende variabele, vandaar de term ‘foutenvariantie’. Op die verschillen is de onverklaarde kwadratensom gebaseerd: SS(binnen) = (y ij yi ) 2 i, j ‘Binnen’ is de afkorting van ‘binnengroepen’; het gaat hier om de verschillen die er binnen de groepen nog zijn. Trek van elke individuele score het bijbehorende groepsgemiddelde af, kwadrateer die afwijking en tel op. Nog een opmerking over de notatie. Leary en ook Moore en McCabe laten indexen bij sommeringen zoveel mogelijk weg; als maar duidelijk is waarover je moet sommeren is dat geen probleem, en dat is altijd over alle observaties. Pagina 7 Thomas Jansen (0878650) Pagina 8 Thomas Jansen (0878650) Pagina 9 Thomas Jansen (0878650) Pagina 10 Thomas Jansen (0878650) Pagina 11 Thomas Jansen (0878650) Pagina 12 Week 2, observeren en meten Thomas Jansen (0878650) Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 3: The Measurement of Behavior In 1905 ontwikkelde Alfred Binet (1857-1911) een voor die tijd nieuwe manier om intelligentie te kunnen meten. Tot die tijd werd vooral ‘Craniometry’ gebruikt voor het meten van intelligentie waarbij de grootte en vorm van het hoofd als maat voor intelligentie werd aangenomen. Binet werd sceptisch ten aanzien van het meten van intelligentie aan de hand van uiterlijke kenmerken en hij ontwikkelde een serie korte taken waarvoor onder andere begrip en redeneren nodig waren. Toen hij drie jaar later zijn tests herzag stelde Binet een nieuwe index voor intelligentie voor die gebaseerd was op een leeftijdsniveau voor elk van de taken. Aan de hand van de taken werd een mentale leeftijd bepaald. Later raadde de Duitse psycholoog William Stern aan om de mentale leeftijd van een kind (zoals Binet die bepaalde) te delen door de lichamelijke leeftijd. Hiermee creëerde hij het intelligentie quotiënt, ofwel IQ. Alle gedragsonderzoek vereist het meten van responsen op het gebied van gedrag, cognitie, emotie of fysiologie. De manieren van meten in gedragsonderzoek zijn grofweg in te delen in drie categorieën: Observationeel: Het direct observeren van gedrag; alles dat je kunt zien of horen, direct of indirect via bijvoorbeeld een videotape. Fysiologisch: Onderzoekers die geïnteresseerd zijn in de relatie tussen lichamelijke processen en gedrag gebruiken fysiologische metingen. Directe observaties als reflexen of blozen horen tot de mogelijkheden, maar ook indirecte observaties via apparatuur zoals het meten van de hartslag, het maken van een EEG of het meten van de hormoonspiegel behoren tot de mogelijkheden. Zelfrapportage: Zelfrapportage gaat uit van de antwoorden die personen geven op vragenlijsten en interviews. Een zelfrapportage kan cognitief zijn als het er om gaat hoe de persoon denkt. Het kan ook affectief zijn als het om het gevoel van de persoon gaat of gedragsmatig als het om het gedrag van de persoon gaat. Omdat metingen zo belangrijk zijn is er een compleet specialisme gewijd aan het bestuderen van psychologisch meten en de ontwikkeling van (meet)instrumenten. Op welke manier er ook gemeten wordt, het doel is altijd het toekennen van getallen aan responsen zodat er mee gerekend kan worden. In meer detail komt het er op neer dat bij het observeren via waarnemingen individuen in klassen of categorieën worden ingedeeld. Om dit te kunnen doen moeten er variabelen zijn. Een variabele is datgene wat varieert. Het is een verzameling waarden of categorieën. Voorwaarde is dat deze variabelen uitputtend en wederzijds uitsluitend (exclusief) zijn. In dat geval ka er worden gemeten. Bij het meten worden aan de variabelen getallen toegekend. De rekenkundige kwaliteit van deze getallen wordt uitgedrukt met het meetniveau. Onderzoekers onderscheiden vier verschillende meetniveaus: Nominaal: De getallen zijn slechts labels waarbij maar weinig bewerkingen mogelijk zijn. Geslacht wordt bijvoorbeeld op een nominale schaal gemeten, waarbij jongens de waarde “1” krijgen en de meisjes waarde “2”. Ordinaal: Bij de ordinale schaal is alleen de volgorde van de getallen van betekenis. Bijvoorbeeld een wedstrijd waarbij het applaus gemeten wordt om de winnaar te bepalen. Hoewel het mogelijk is om op ordinale schaal te bepalen wie de winnaar is, is het onmogelijk om te bepalen hoe de verschillen tussen de deelnemers zijn. Interval: De intervalschaal is ook te vergelijken met een liniaal. Gelijke afstanden tussen de getallen geven gelijke afstanden tussen de eigenschappen weer. Omdat een intervalschaal geen absoluut nulpunt om de afwezigheid van een eigenschap weer te geven kan er niet mee gerekend worden. Het is niet zo dat 100 graden Celsius op een thermometer twee keer zo warm is als 50 graden Celsius. Ratio: Het hoogst mogelijk meetniveau is de ratioschaal. Omdat de ratioschaal een absoluut nulpunt heeft zijn alle mogelijke rekenkundige bewerkingen mogelijk. Eenheden zoals gewicht worden gemeten op de ratioschaal. Onderzoekers prefereren het gebruik van het hoogst mogelijke meetniveau omdat dit de meest exacte informatie geeft over de reactie of eigenschappen van de personen. Bij meetresultaten moet de variabiliteit van hetgeen wat gemeten wordt zo goed mogelijk worden weergegeven. Het meest ideale zou zijn dat de variabiliteit in de getallen overeenkomt met de variabiliteit van hetgeen gemeten wordt (de eigenschappen). Leary noemt dit betrouwbaarheid en omvat bij hem ook validiteit. Betrouwbaarheid heeft betrekking op de betrouwbaarheid van een meetinstrument. In het algemeen zijn er twee aspecten van kwaliteit te onderscheiden: Betrouwbaarheid: Bij betrouwbaarheid draait het erom of de variabiliteit van de getallen overeenkomt met de werkelijke variabiliteit in hetgeen er gemeten wordt. Er wordt hierbij dus gekeken naar de aan- of afwezigheid van toevalsfouten Validiteit: Bij validiteit draait het erom of de variabiliteit van de getallen overeenkomt met de variabiliteit in wat we bedoelen te meten. Er wordt hierbij gekeken naar de aan- of afwezigheid van systematische fouten. Pagina 13 Thomas Jansen (0878650) Wat betreft geobserveerde score kan gezegd worden: Geobserveerde score = systematische (ware) score + toevalsfout (meetfout). De ware score is de score die een respondent had behaald als onze meting perfect was geweest en we in staat waren geweest te meten zonder fouten. Een probleem is echter dat praktisch alle metingen meetfouten (of liever toevalsfouten) bevatten. Toevalsfouten kunnen alle kanten op werken en kunnen zichzelf daardoor opheffen. Een manier om toevalsfouten op te sporen is door veelvuldige herhaling van de meting. Er zijn een vijftal bronnen van toevalsfouten aan te wijzen: Transiënte toestanden van de respondent: stemming, vermoeidheid, etc. Stabiele eigenschappen van de respondent: paranoia, intelligentie, etc. Situationele factoren: gedrag van de onderzoeker, temperatuur, licht, etc. Eigenschappen van het instrument: onduidelijke vragen, lay-out, etc. Fouten gemaakt door de onderzoeker: slordig aflezen, typfouten, etc. Zoals hierboven vermeld staat komt de geobserveerde score overeen met de optelling van de systematische score en de toevalsfout. Dit geldt voor de meting van een enkele respondent. Wanneer de scores van meerdere respondenten wordt genomen en de variantie wordt berekend geldt voor de variantie van deze set scores het volgende: Totale variantie in een set scores = Variantie van de ware scores + variantie van meetfouten. Om de betrouwbaarheid van een meting te bepalen wordt de volgende berekening uitgevoerd: betrouwbaa rheid systematische (ware score) variantie Totale (geobserve erde)variantie Dit betrouwbaarheidscoëfficiënt loopt van 0 tot 1. Een betrouwbaarheidscoëfficiënt van 0 geeft aan dat er geen systematische variantie is en de meting dus enkel uit meetfouten bestaat. Een betrouwbaarheidscoëfficiënt van 1 geeft aan dat er enkel systematische variantie is en geen meetfouten gemaakt zijn. Als vuistregel wordt gebruikt dat een meting betrouwbaar is als het betrouwbaarheidscoëfficiënt een waarde heeft van minimaal 0.7. Dit houdt in dat 70% van de totale variantie systematisch is en 30% van de totale variantie toevalsfouten zijn. Onderzoekers gebruiken drie methodes om de betrouwbaarheid van hun metingen in te schatten: Test-hertest betrouwbaarheid, Paralleltest betrouwbaarheid en Inter-item betrouwbaarheid. Alle drie de methodes zijn gebaseerd op dezelfde logica: Twee metingen van hetzelfde gedrag, object of gebeurtenis moeten gelijke scores opleveren. Als twee metingen een verschillend resultaat opleveren moet er dus sprake zijn van toevalsfouten. Aan de hand van mate waarin metingen dezelfde scores opleveren kunnen we het deel van de totale variantie die berust op systematische variantie bepalen waarmee we het betrouwbaarheidscoëfficiënt kunnen bepalen. De meeste schattingen van betrouwbaarheid worden verkregen door de correlatie tussen de twee metingen te bepalen. Een correlatiecoëfficiënt is een maat om de samenhang weer te geven op een schaal van 0 tot 1 (met betrekking op betrouwbaarheid). Het kwadraat van het correlatiecoëfficiënt levert de proportie verklaarde variantie op. Voor nu moet aangenomen worden dat de correlatie tussen twee metingen (test-hertest) overeenkomt met het kwadraat van de correlatie tussen systematische score en geobserveerde score. Er zijn, zoals hierboven vermeld, meerdere manieren om tot een betrouwbaarheidscoëfficiënt te komen: Test-hertest betrouwbaarheid: Is gebaseerd op de consistentie van de respondenten over een bepaalde tijd. Er wordt tweemaal gemeten en de overeenstemming tussen de metingen wordt bepaald. Deze methode is betrouwbaar tenzij hetgeen er gemeten wordt snel verandert (honger, vermoeidheid) of de eerste meting invloed heeft op de tweede meting. Paralleltest betrouwbaarheid: Als test-hertest niet mogelijk is kan gebruik worden gemaakt van een parallel instrument. Een parallel instrument is een instrument dat overeenkomt met het andere instrument. Het probleem wat hier kan ontstaan is dat de instrumenten ook echt parallel moeten zijn. Inter-item betrouwbaarheid: Inter-item betrouwbaarheid wordt ook wel interne consistentie genoemd en is gebaseerd op de onderlinge samenhang tussen items in een instrument. Persoonlijkheidstoetsen zijn een voorbeeld van zo een instrument. Er zijn drie varianten van inter-item betrouwbaarheid: Item-totaal correlatie: Hierbij wordt de correlatie tussen een specifiek item en de som van alle andere items op de schaal bepaald. Over het algemeen willen onderzoekers dat de item-totaal correlatie tussen elk item en de som van alle items een waarde van boven de 0.30 heeft. Split-half betrouwbaarheid: Hierbij deelt de onderzoeker de items van een schaal in twee sets. Vervolgens wordt de correlatie van de som van de items in elke set berekend. Deze scores moeten een correlatie van tenminste 0.70 behalen om als betrouwbaar te kunnen worden aangemerkt. Cronbach’s alpha coëfficiënt: Dit komt overeen met het gemiddelde van alle mogelijk split-half betrouwbaarheden. Dit is een zeer populaire methode en zal daarom in week 3 uitgebreider behandeld worden. De betrouwbaarheid van metingen kan worden verhoogd door het elimineren van toevalsfouten. Er zijn een aantal manieren waarop dit kan worden bereikt: - Het standaardiseren van het afnemen van de scores. - Maak instructies en vragen zo helder mogelijk en controleer dit eventueel met een pilot-study. - Train de observatoren. Pagina 14 - Thomas Jansen (0878650) Minimaliseer het maken van fouten bij het coderen. Tenslotte bestaat betrouwbaarheid niet alleen voor een instrument of een meting. Er bestaat ook betrouwbaarheid van onderzoek. Dit wordt gecontroleerd door het complete onderzoek te repliceren. Validiteit van een meting heeft betrekking op de mate waarin gemeten wordt wat het bedoeld is te meten en niet iets anders. Er was al eerder behandeld dat de geobserveerde score overeenkomt met een optelling van de systematische (ware) score en de toevalsfout (meetfout), oftewel: Geobserveerde score = systematische score + toevalsfout Nu wordt ook de systematische score opgesplits: Systematische score = ware score + systematische fout (bias) En ziet de geobserveerde score er dus als volgt uit: Geobserveerde score = (ware score + systematische fout) + toevalsfout Er wordt onderscheid gemaakt in verschillende soorten validiteit: Face validity: Lijkt het instrument valide naar het oordeel van de onderzoeker of participanten. Dit leidt ertoe dat zowel onderzoeker als participant overtuigd raken van het nut van de meting. Er zijn echter een aantal problemen. Een instrument kan valide lijken, maar hoeft het daardoor nog niet te zijn. Iets wat niet valide lijkt kan het toch zijn. Soms willen onderzoekers het doel van hun test verbergen en ontwerpen hiervoor tests die niet valide lijken om daarmee hun doel te verbergen. Inhoudsvaliditeit (content validity): Hierbij wordt gekeken of het gehele inhoudelijke domein wordt gedekt door het instrument (dit staat overigens niet in Leary en wordt uitgebreid behandeld in aanvulling 2.1). Construct validiteit: Veel gedragsonderzoek is gebaseerd op hypothetische constructen, dingen die niet direct geobserveerd kunnen worden maar afgeleid worden van empirisch bewijs. Voorbeelden hiervan zijn bijvoorbeeld intelligentie, aantrekkingskracht of status. Hierbij moet de empirische samenhang overeenkomen met de theoretische samenhang. Een voorbeeld hiervan is dat scores op het gebied van zelfvertrouwen positief gerelateerd moeten zijn met scores op het gebied van zelfverzekerdheid en optimisme, maar negatief gerelateerd aan bijvoorbeeld onzekerheid en angst. Er is sprake van construct validity als een meting correleert met metingen waarmee het zou moeten correleren (convergente validiteit) en niet correleert met metingen waarmee het niet zou moeten correleren (discriminante validiteit). Criterium validiteit: Bij criterium validiteit draait het erom of de meting ons in staat stelt respondenten te onderscheiden op basis van een bepaald gedragscriterium. Is de CITO-toets bijvoorbeeld in staat om onderscheid te maken tussen leerlingen die het goed zullen doen op het voortgezet onderwijs en leerlingen die dat niet zullen. Er zijn twee varianten van criterium validiteit: Concurrente validiteit: Het criteriumgedrag wordt tegelijkertijd met de afname van het instrument gemeten. Predictieve validiteit: Het criteriumgedrag bevind zich nog in de toekomst (zoals bij de CITO-toets). Validiteit wordt ook gebruikt voor onderzoeken in plaats van metingen: Statistische validiteit: Zijn de berekeningen of data-analyse correct? Interne validiteit: In hoeverre zijn alternatieve verklaringen voor het resultaat uitgesloten? Externe validiteit: Is het resultaat ook geldig buiten de onderzochte groep? (Generaliseerbaarheid) Construct validiteit: Dit is gelijk aan instrument validiteit. Pagina 15 Thomas Jansen (0878650) Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 4: Approaches to Psychological Measurement Er zijn veel verschillende manieren om aan empirische gegevens te komen. Leary onderscheidt de volgende dataverzamelingsmethoden: 1. 2. 3. 4. 5. Observatie methoden Fysiologische methoden Zelfrapportage methoden Archiefdata methoden Inhoudsanalyse methoden (Content analyses) Observatie methoden: Hierbij gaat het om de directe observatie van gedrag. Hierbij zijn er in alle gevallen drie beslissingen om te nemen: De setting: Natuurlijk of kunstmatig. Bij natuurlijke observatie wordt het gedrag geobserveerd terwijl het zich op natuurlijke wijze voordoet zonder dat de onderzoeker hier inbreuk op maakt. Bij natuurlijke observatie neemt de onderzoeker zelf deel aan de situatie wat mogelijke gevaren oplevert. Allereerst is er de mogelijkheid van identificatie met de groep waardoor subjectiviteit kan ontstaan. Ten tweede kan de onderzoeker het gedrag beïnvloeden met zijn aanwezigheid. Bij kunstmatige observatie wordt het gedrag geobserveerd in een situatie die door de onderzoeker is gecreëerd. Hier zijn twee types te onderscheiden. Allereerst het laboratoriumonderzoek waarbij de observatie plaats kan vinden in een gecontroleerde omgeving. Daarnaast is er nog het veldexperiment waarbij er een situatie in de echte wereld wordt gecreëerd om observaties te kunnen doen. (Non)disguised: Weten de deelnemers dat ze worden geobserveerd of niet? Als een onderzoek openlijk wordt uitgevoerd bestaat er de mogelijkheid dat dit reacties teweeg brengt bij de participanten. Als onderzoekers bang zijn voor de gevolgen hiervan kunnen ze overgaan op verborgen onderzoek. Verborgen onderzoek geeft echter ethische bezwaren (the right of informed consent). Hiervoor zijn een aantal mogelijke oplossingen. Allereerst kan een onderzoek half verborgen worden uitgevoerd. De participanten weten dat ze deelnemen aan een onderzoek, maar niet de exacte details ervan. Ten tweede is het mogelijk om indirecte observatie uit te voeren door bijvoorbeeld gebruik te maken van mensen die de participanten goed kennen en daardoor informatie over het gedrag kunnen verstrekken. Als laatste is het mogelijk om Unobtrusive measures toe te passen. Hierbij wordt niet het gedrag zelf, maar de gevolgen van het gedrag gemeten. Bij drankgebruik wordt bijvoorbeeld niet gevraagd hoeveel de participanten drinken, maar wordt het aantal legen flessen in de prullenbak geteld. Type behavioral recording: Hoe wordt het gedrag precies vastgelegd? Leary onderscheidt vier manieren om gedrag vast te leggen: Narrative records: Een volledige beschrijving van het gedrag van een participant Checklist: Het bijhouden van het aantal keer dat een bepaald gedrag zich voordoet Tijdsmaten: Wanneer een bepaald gedrag voorkwam en hoe lang het duurde Observationele rating scales: Het bekendste voorbeeld hiervan is de Likert scale (score 1-5) Fysiologische methoden: Fysiologische methoden hebben betrekking op alle gedrag, gedachten en emoties die zijn ontstaan uit processen in de hersenen en andere delen van het zenuwstelsel. Meestal worden deze metingen niet op zichzelf gebruikt maar als indicatie van mentale of emotionele activiteit. Leary onderscheidt vier soorten: Neurale activiteit: Wordt gemeten via een EEG of EMG. Autonome zenuwstelsel: Het autonome zenuwstelsel stuurt onwillekeurige responsen en kan worden gemeten met een ECG of door het meten van de bloeddruk of huidweerstand. Bloed analyse: Het meten van bijvoorbeeld de hormoonspiegel of de hoeveelheid witte bloedlichaampjes. Open reacties: Het meten van bijvoorbeeld blozen of seksuele opwinding. Zelfrapportage methoden: Gedragsonderzoekers prefereren het direct observeren van gedrag, maar praktische en ethische bezwaren maken dit soms onmogelijk. Zelfrapportage is op te delen in vragenlijsten en interviews. Over deze methode moet het een en ander gezegd worden. Het formuleren van goede vragen: o Wees specifiek, precies, eenvoudig en kort. Hierdoor blijven de vragen voor iedereen begrijpelijk. o Doe geen onterechte aannames, de respondenten moeten kunnen antwoorden. o Geef noodzakelijke informatie voorafgaand aan de vraag. o Stel geen dubbelloops vragen. Een dubbelloops vraag stelt eigenlijk twee vragen, maar geeft de respondent slechts een mogelijkheid tot antwoorden. “Eet u gezond en sport u regelmatig?” is een voorbeeld van een dubbelloops vraag. o Probeer de vragen uit in een pilot-study. Verschillende mogelijke reponse formats: Vrij antwoord format (open vraag): Respondent bepaalt het soort antwoord en hoe uitgebreid het antwoord is Antwoorden moeten worden gecodeerd en geanalyseerd Rating scale format: 5-punts of 7-punts schalen, met of zonder labels, etc. Ontzettend veel gebruikt omdat het makkelijk scoren is voor de respondent. Multiple choice of fixed alternative response format Mogelijke bronnen van vragenlijsten: o Tijdschriftenartikelen o Bestaande handboeken over instrumenten o Databases op het internet o Commerciële uitgaven Pagina 16 Thomas Jansen (0878650) Goede manieren van interviewen: o Interview in een vriendelijk atmosfeer en toon belangstelling. o Verberg persoonlijke reacties. o Organiseer een schema ten behoeve van rapportage en maak een logische volgorde. o Stel de vragen letterlijk zoals ze zijn verwoord. o Stuur de respondent niet bij het beantwoorden van een vraag. Oplossingen voor problemen: Sociale wenselijkheid: Vragen neutraal formuleren Anonimiteit garanderen Indien mogelijk observeren Ja-knikken en nee-schudden Opsporen en tegengaan door wisselende richting van vragen Archiefdata methoden: Archiefdata is eerder door anderen verzameld. Een nadeel van de archiefdata methode is dat de onderzoeker niet kan bepalen wat er geobserveerd wordt en welke variabelen er worden gebruikt. Inhoudsanalyse methoden: Inhoudsanalyse kan in allerlei onderzoek nodig zijn en heeft tot doel om woorden, frasen of andere eenheden in tekst te coderen in zinvolle categorieën. Dit is nodig voor inhoudsanalyse: o De eenheden moeten worden bepaald. o Het kiezen of ontwerpen van een coderingssysteem. Hierbij kan worden gekozen tussen: Eenheden classificeren in wederzijds uitsluitende categorieën. Iedere eenheid op een of meer rating scales beoordelen. o Er moeten coderingsregels opgesteld worden Bij beoordeling van het materiaal wordt het volgende gebruikt: o Een eventueel reeds bestaand coderingssysteem. o Gecomputeriseerde systemen voor inhoudsanalyse. o Software om met de computer een eigen systeem te maken. Pagina 17 Thomas Jansen (0878650) Aanvulling 2.1 in syllabus; Variabelen Een variabele, iets wat varieert, is een verzameling waarden of categorieën. Deze woorden worden vaak door elkaar gebruikt, maar strikt genomen spreken we bij numerieke variabelen over waarden, en bij categorische variabelen over categorieën. Bij het observeren moet aan elke observatieëenheid één en niet meer dan één waarde worden toegekend, met andere woorden: de verzameling waarden moet uitputtend en wederzijds exclusief zijn. Uitputtend betekent dat voor iedere observatieëenheid tenminste één waarde moet zijn die van toepassing is. Wederzijds exclusief betekent dat er voor elke observatieëenheid niet meer dan één waarde van toepassing is. Samen garanderen ze dus dat er voor elke observatieëenheid precies één waarde is. Als voldaan is aan de voorwaarde dat de variabele wederzijds uitputtend en exclusief is, kun je vervolgens het meetniveau vaststellen door je de volgende dingen af te vragen: - Is er een betekenisvolle volgorde van de waarden? Zonee: de variabele is nominaal. Zoja: - Hebben de verschillen tussen de waarden een betekenis? Het makkelijkst is, te bekijken of verschillen die numeriek even groot zijn ook in de werkelijkheid ‘even grote stappen’ vormen. Zonee: de variabele is ordinaal. Zoja: - Heeft de nul een bepaalde betekenis? Vaak omdat het de ondergrens is of omdat het een zinvol midden van de schaal is (‘niet eens, niet oneens’ bijvoorbeeld). Zonee: Het meetniveau is niet hoger dan interval. Zoja: - Heeft de eenheid een bepaalde betekenis? Bijvoorbeeld omdat het het maximum is, zoals bij kansen. Zonee: de variabele heeft een ratio meetniveau. Zoja: - De variabele is op een absoluut meetniveau gemeten. Dit laatste meetniveau wordt door Leary niet genoemd; voorbeelden ervan zijn kansen en de correlatiecoëfficiënt. Bij variabelen op absoluut meetniveau kun je onmiddellijk aan de waarden zien of ze groot of klein zijn. Een opmerking over terminologie. De bovengenoemde termen numeriek en categorisch zijn verwant aan de meetniveaus. We noemen een variabele categorisch als het meetniveau laag is (nominaal of ordinaal) en het aantal waarden klein, en anders numeriek. Voor de meeste mensen geldt: nominaal en ordinaal zijn categorisch; interval en hoger numeriek. Verwante termen zijn kwantitatieve (numerieke) en kwalitatieve (categorische) variabelen. Pagina 18 Thomas Jansen (0878650) Aanvulling 2.1 in syllabus; De kwaliteit van instrument en conclusie Een vorm van validiteit die niet door Leary wordt genoemd is inhoudsvaliditeit (content validity). Dit heeft betrekking op de situatie dat een instrument bedoeld is om een bepaald gebied, het domein, van een begrip te dekken. Neem bijvoorbeeld intelligentie opgevat al een algemene mentale vaardigheid. Het domein wordt dan gevormd door alle mentale vaardigheden die er zijn: verbale, reken- en wiskundige, logisch denken, ruimtelijk inzicht enzovoorts. Als iemand dan een intelligentietest construeert die alleen uit rekensommen zou bestaan, zou de kritiek zijn: het domein van het begrip wordt niet door deze test gedekt, hij is veel te eenzijdig, met andere woorden: de inhoudsvaliditeit deugt niet. Je kunt de inhoudsvaliditeit systematisch garanderen als je tenminste in staat bent een opsomming te maken van wat tot het domein behoort. Daarna kun je simpelweg zorgen dat elk van de dingen op je lijst (evengoed) vertegenwoordigd is in het instrument. Een tweede aspect van betrouwbaarheid/validiteit dat niet door Leary wordt genoemd heeft betrekking op de kwaliteit van een compleet onderzoek; zijn opmerkingen slaan op de kwaliteit van een bepaald meetinstrument. Ook bij een compleet onderzoek kun je spreken over de betrouwbaarheid en validiteit van het geheel, de conclusie dus eigenlijk. Wat de betrouwbaarheid betreft gaat het dan weer om de vraag of het resultaat een toevalstreffer was of niet, dus of herhaling hetzelfde resultaat oplevert. Dit is iets dat onderzocht kan worden door het gehele onderzoek (letterlijk) nog eens uit te voeren; we spreken dan van een replicatie. De validiteit van een geheel onderzoek wordt meestal besproken aan de hand van een lijstje van Cook & Campbell (1979) dat met name bedoeld is voor onderzoek dat probeert causale relaties aan te tonen (experimenten dus), maar ook op andere onderzoeken van toepassing is. Dat lijstje is: statistische conclusie validiteit; de eerste vraag is of het verband tussen onafhankelijke en afhankelijke variabele op statistisch correcte wijze is aangetoond, bijvoorbeeld of aan de voorwaarden voor gebruik van de correlatiecoëfficiënt is voldaan. In ruimere zin kan de term gebruikt worden voor de beoordeling van de statistische correctheid van analyses. Interne validiteit; als de statistische conclusie validiteit in orde is weten we dat er een verband is tussen afhankelijke en onafhankelijke variabele, maar daarmee is nog geen causaal verband aangetoond. We moeten ook aannemelijk maken dat de tijdsvolgorde klopt (oorzaak moet voorafgaan aan gevolg) en dat er geen andere variabelen (alternatieve verklaringen, rivaliserende hypothesen) voor de gevonden samenhang verantwoordelijk zijn. Externe validiteit; als de statistische conclusie validiteit in orde is, en alternatieve verklaringen zijn uitgesloten, is aannemelijk gemaakt dat in dit onderzoek een causaal proces is opgetreden. De volgende vraag is, of dat bewijst dat dat causale proces ook in andere omstandigheden en bij andere personen optreedt, met andere woorden: of het resultaat generaliseerbaar is. Constructvaliditeit; als de eerste drie validiteiten in orde zijn is aannemelijk gemaakt dat er tussen de constructen zoals die zijn gemeten (construct-zoals-bepaald, de operationele definitie) een causale relatie bestaat die generaliseerbaar is. De laatste vraag is, of de constructen-zoals-bepaald overeenkomen met de constructen-zoals-bedoeld (de conceptuele definities) dus of de gebruikte instrumenten valide zijn. Dit omvat alle overwegingen die Leary noemt over de validiteit van instrumenten, dus voert ons terug naar zijn verhaal. De min of meer complete lijst van alle betrouwbaarheden en validiteiten is dus: - - - Wat betreft de betrouwbaarheid van instrumenten: a. Test-hertest betrouwbaarheid b. Paralleltest betrouwbaarheid c. Inter-item betrouwbaarheid, waaronder vallen: o Split-half betrouwbaarheid o Cronbach’s alpha Wat betreft de validiteit van instrumenten: d. Face validity e. Inhoudsvaliditeit f. Criteriumvaliditeit, waaronder vallen: o Concurrente validiteit o Predictieve validiteit g. Constructvaliditeit waar in ruime zin alle theoretische overwegingen onder vallen, maar in meer concrete zin met name de: o Convergente validiteit o Discriminante validiteit Wat betreft betrouwbaarheid van een geheel onderzoek: h. Repliceerbaarheid van het resultaat Wat betreft validiteit van een geheel onderzoek: i. Statistische conclusie validiteit j. Interne validiteit k. Externe validiteit l. Construct validiteit (is d tot en met g) Pagina 19 Thomas Jansen (0878650) Pagina 20 Thomas Jansen (0878650) Pagina 21 Thomas Jansen (0878650) Pagina 22 Thomas Jansen (0878650) Pagina 23 Thomas Jansen (0878650) Pagina 24 Thomas Jansen (0878650) Week 3, Interne consistentie; Beschrijvend Onderzoek Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 5: Descriptive Research Het doel van beschrijvend onderzoek (descriptive research) is het op een systematische en precieze manier beschrijven van eigenschappen of gedrag in een bepaalde populatie. Beschrijvend onderzoek is niet ontworpen voor het testen van hypotheses, maar is puur bedoeld om informatie te beschrijven. In Leary worden drie soorten beschrijvend onderzoek vermeld. Survey: Een survey is de meest voorkomende vorm van beschrijvend onderzoek. Bij een survey wordt gebruik gemaakt van een vragenlijst of een interview waarbij meestal een grote steekproef wordt genomen. Er zijn vier varianten van een survey: Cross-sectioneel: Hier wordt een enkele groep, een doorsnede van de populatie, ondervraagd. Opeenvolgende onafhankelijke steekproeven: Twee of meer samples van de respondenten beantwoorden dezelfde vragen op verschillende tijden. Dit wordt gebruikt om verandering te bestuderen. Het blijft echter een belangrijke vraag of de steekproeven goed vergelijkbaar zijn. Longitudinale of panel survey: Hierbij wordt een groep mensen meerdere malen ondervraagd. Ook deze vorm wordt gebruikt om verandering te bestuderen. Hierbij is de steekproef gelijk bij iedere ondervraging. Het levert wel het probleem op dat er sprake kan zijn van uitval binnen de groep personen. Internet survey: Deze vorm staat nog in zijn kinderschoenen. Er zijn voordelen aan internet surveys. Het is namelijk relatief goedkoop, het is makkelijk voor de respondenten, het voorkomt invoerfouten bij de onderzoekers en het maakt het mogelijk om mensen te ondervragen die moeilijk te bereiken zijn omdat ze bijvoorbeeld erg ver weg zijn. De nadelen zijn echter dat je als onderzoeker geen controle hebt over de selectie of steekproef. Je weet niet wie er geantwoord heeft en hoe vaak dit is gebeurd. Demografisch onderzoek: Bij demografisch onderzoek gaat het om het registreren van gebeurtenissen die bij het leven horen. Denk hierbij aan geboorte, huwelijk, scheiding, werk, migratie of dood. Epidemiologisch onderzoek: Deze vorm van beschrijvend onderzoek wordt gebruikt om te beschrijven hoe ziektes bij verschillende groepen mensen voorkomen. Beschrijvend onderzoek speelt in de psychologie geen grote rol maar is wel nuttig om onderwerpen, vraagstellingen en problemen op te sporen en hypotheses te suggereren. Omdat het praktisch vaak niet uitvoerbaar is om een volledige populatie te onderzoeken maken onderzoekers gebruik van een subset van de populatie, een zogenaamde steekproef. Het is ontzettend belangrijk om een goede steekproef te trekken uit een populatie, want zowel beschrijvend als toetsend onderzoek staat of valt met de kwaliteit van de steekproef. Een slechte steekproef is niet representatief voor de populatie en geeft daardoor geen goed beeld van de populatie. Een steekproef komt nooit volledig overeen met de populatie en de resultaten uit een steekproef zijn daarom altijd deels incorrect. In de statistiek wordt daarom de error of estimation (schattingsfout) of margin of error (foutmarge) bepaald. Bij de margin of error gaat het om de range waarin met een bepaalde zekerheid de werkelijke waarde ligt wat weer afhankelijk is van de steekproef, de populatie, spreiding, gewenste zekerheid en precisie. Er zijn twee mogelijkheden bij het trekken van steekproeven. Het is mogelijk om een kanssteekproef (probability sample) te trekken of gebruik te maken van het Epsem (Equal probability selection method) design. Bij een kanssteekproef is de kans bekend dat een bepaald individu getrokken wordt, terwijl bij een Epsem steekproef de kans dat een individu getrokken wordt voor elk individu even groot is. Dit wordt ook een aselecte steekproef genoemd. Er zijn vier types kanssteekproeven te onderscheiden. Hierbij wordt gebruik gemaakt van een steekproefkader (Sampling frame). Dit is een lijst van alle individuen in de populatie. Simple Random Steekproef (SRS): Hierbij worden individuen willekeurig uit de populatie geselecteerd. Vaak wordt hierbij gebruik gemaakt van een table of random numbers. Gestratificeerde Random Steekproef: Hierbij worden eerst strata gemaakt. Een stratum is een subset van de populatie die dezelfde specifieke eigenschappen deelt. Bijvoorbeeld het onderverdelen van de populatie in leeftijdscategorieën. Vervolgens wordt uit elk stratum een simple random steekproef getrokken. In veel gevallen zorgen de onderzoekers er ook nog voor dat het aantal samples dat uit een stratum wordt getrokken overeenkomt met de proportie van van het stratum ten opzichte van de totale populatie. Dit heet een proportionate sampling method. Cluster sampling: Bij deze vorm van steekproef trekken worden eerst clusters gemaakt die gebaseerd zijn op groepen die op natuurlijke wijze voorkomen. Een voorbeeld hiervan is de geografische ligging. Als een onderzoeker een sample wil trekken van basisschoolkinderen in Zui-Holland worden er eerst een aantal scholen geselecteerd die in Zuid-Holland liggen. Vervolgens nemen we een aantal dorpen of steden uit deze lijst en uit die lijst met namen trekken we een random steekproef. Multistage sampling: Vaak is er bij cluster sampling sprake van multistage sampling. Hierbij wordt er een steekproef getrokken en uit deze steekproef wordt een nieuwe steekproef getrokken op basis van andere clusters. Dit wordt net zo lang gedaan tot de gewenste grootte van de steekproef bereikt is. Voordelen van Multistage sampling ten opzichte van Simple random sampling is dat er geen steekproefkader nodig is en de participanten dicht bij elkaar zijn. Er zijn een aantal problemen te ontdekken bij het trekken van steekproeven: Pagina 25 Thomas Jansen (0878650) Nonresponse: Het niet reageren van de participanten waardoor er data mist en er niet bekend is hoeveel de steekproef minder representatief wordt. Dit kan opgelost worden door follow-ups uit te voeren. Eventueel kan er ook gecorrigeerd worden door de nonrespodenten te analyseren. Problemen met generalisatie: Kunnen ontstaan als er gegeneraliseerd wordt naar de verkeerde populatie Niet-kanssteekproeven: Als het trekken van een kanssteekproef niet tot de mogelijkheden behoort zit er niets anders op dan een niet-kanssteekproef te trekken. Probleem hierbij is dat de schattingsfout (error of estimation) niet te bepalen is. Dit is echter minder erg in experimenteel of correlationeel onderzoek. Er zijn verschillende soorten nietkanssteekproeven te onderscheiden: Gelegenheidssteekproef: Onderzoekers gebruiken alle participanten die ze voor handen hebben. Quota steekproef: Een variant van de gelegenheidssteekproef waarbij de onderzoeker nog wel een zekere selectie toepast. Doelgerichte steekproef: Hierbij baseren onderzoekers welke participanten ze onderzoeken op hun eigen oordeel of deze representatief zijn voor de populatie. Het laatste deel van het hoofdstuk gaat over het beschrijven en presenteren van data. Dit zal in Moore en McCabe duidelijker behandeld worden en wordt daarom niet hier samengevat. Pagina 26 Thomas Jansen (0878650) Aanvulling 3.1 in syllabus; Interne consistentie Leary bespreekt een aantal manieren om betrouwbaarheid te bestuderen die alle vormen van herhaalde meting zijn. Test-hertest en paralleltest betrouwbaarheid vergen beide dat hetzelfde begrip nogmaals wordt gemeten met ofwel letterlijk dezelfde test, ofwel een parallelle test; ze zijn dus duur en komen vooral voor in gespecialiseerde studies naar de kwaliteiten van een instrument. De andere manieren bekijken de inter-item betrouwbaarheid, ook wel: interne consistentie. Dat is aan de orde in elk onderzoek dat gebruik maakt van instrumenten die uit meer dan één item bestaan. Dat is bijvoorbeeld het geval als houdingen, opinies of persoonlijkheidstrekken gemeten worden en komt dus veel voor. Het herhalings-element zit hem nu in het feit dat elk item als het ware een klein eigen instrument is, en alle items dus paralleltestjes van elkaar. De split-half betrouwbaarheid is simpelweg de correlatie tussen de somscores op twee (meestal random gekozen) helften van het instrument. De methode heeft twee nadelen: - Elk halve instrument is meestal slechter dan het totale instrument omdat het minder items telt; de correlatie tussen die twee (slechtere) helften is daardoor meestal een onderschatting van de betrouwbaarheid van het gehele instrument. Hiervoor bestaan correctiemethoden. - Het resultaat hangt af van het resultaat van de (random) splitsing van het instrument. Een andere splitsing geeft een andere betrouwbaarheid. De oplossing hiervoor zou zijn alle mogelijke splitsingen door te rekenen (en het gemiddelde van de resultaten te nemen) maar dan is split-half betrouwbaarheid niet meer simpel. Cronbach’s alpha is verreweg de meest gebruikte manier om de interne consistentie van een instrument te bepalen en wordt ook veel gebruikt bij instrumentontwikkeling. We willen er daarom iets dieper op ingaan. Het uitgangspunt bij interne consistentiematen is dat men een instrument heeft dat bestaat uit een aantal items die alle hetzelfde proberen te meten. De som van de scores op alle items is de uiteindelijke score op het instrument (het gemiddelde kan ook; dat komt op hetzelfde neer). Dat alle items hetzelfde meten is een aanname die wel dient te worden gecontroleerd, bijvoorbeeld door inspectie van de correlatiematrix. Het is bijvoorbeeld mogelijk dat een instrument bestaat uit twee clusters van onderling hoog correlerende variabelen (terwijl die clusters min of meer onafhankelijk van elkaar zijn); dat kan een hoge alpha opleveren, terwijl het instrument feitelijk twee verschillende variabelen meet. De formule voor Cronbach’s alpha is: k (1 k 1 s i2 sx2 ) Hierbij is k het aantal items, en zijn de s2i de varianties van de verschillende items, X de somscore, en s2x de variantie van de somscores. De maat is gebaseerd op vergelijking van de variantie van de somscores met de som van de varianties van de oorspronkelijke items. s2x wordt groot als de items onderling positief correleren; daaruit blijkt hier de systematische variantie. Neem als voorbeeld twee items gescoord op een 7-punts schaal. Als die hoog positief correleren komen (onder andere) de combinaties 1-1 en 7-7, dus de lage en hoge somscores 2 en 14, relatief veel voor. Dat geeft een grote spreiding (variantie) van de somscores. Als de variabelen niet correleren zijn de combinaties als 1-7 en 7-1 met somscore 8 (ergens in het midden) ook waarschijnlijk; de spreiding van de somscores is dan minder groot. In het eerste geval is de s2x dus groter dan in het tweede geval. Dat betekend dat dan de laatste breuk in de formule relatief klein wordt; die breuk meet de inconsistentie. Trek je die af van 1 dan heb je een maat voor consistentie. De vermenigvuldiging met k/(k-1) is om te zorgen dat het maximum 1 wordt (zodat de maat op absoluut niveau is gemeten). Pagina 27 Thomas Jansen (0878650) Pagina 28 Thomas Jansen (0878650) Pagina 29 Thomas Jansen (0878650) Pagina 30 Thomas Jansen (0878650) Pagina 31 Thomas Jansen (0878650) Week 4, Inspecteren van Data: Verdelingen Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 1.1: Displaying distributions with graphs Het beschrijven en presenteren van gegevens is een belangrijk onderdeel van elk onderzoek. Om meer te weten te komen over de data hebben we meer nodig dan enkel de waarden. Metingen uit een onderzoek met enkele honderden deelnemers zeggen zelfs de meest grote experts niets tot deze gegevens zijn georganiseerd, weergegeven en samengevat. Elke set gegevens bevat informatie over een bepaalde groep individuen. De informatie over deze individuen is georganiseerd in variabelen. Een individu is dus de persoon die onderzocht is in een onderzoek. Als het geen mensen betreft wordt in een onderzoek vaak gesproken over cases in plaats van individuen. Een variabele is een eigenschap van een bepaald individu en een variabele kan verschillende waarden bevatten als het verschillende individuen betreft. In de praktijk wordt elke set gegevens begeleid door achtergrondinformatie die helpt bij het begrijpen van de gegevens. Wanneer men onderzoek doet naar iemand anders zijn werk moeten wat betreft de data-analyse de volgende vragen beantwoord worden: - Waarom wordt dit onderzoek gedaan? Welk doel hebben de gegevens? - Om wie gaat het? Welke individuen beschrijven de gegevens? Hoeveel individuen komen in de gegevens voor? - Wat voor gegevens bevatten de variabelen? Wat zijn de exacte definities van de variabelen? Welke meeteenheid of welk meetniveau is er gebruikt bij de metingen? Er zijn verschillende soorten variabelen: Categorische variabele: Deze plaatsen een individu in een of meerdere groepen of categorieën. Kwantitatieve variabele: Bevat numerieke waarden waar wiskundige berekeningen op kunnen worden toegepast. De verdeling van een variabele vertelt ons welke waarden een variabele heeft en hoe vaak een variabele bepaalde waarden aanneemt. % of people aged 25 to 34 Om categorische variabelen weer te geven kan een bar graph of een pie chart gebruikt worden. Een bar graph kan gebruikt worden om snel inzicht te krijgen in de grootte van bepaalde groepen. Hoe hoger de balken komen, hoe vaker een bepaalde groep voorkomt (zie linker grafiek). HS grad 30% 30 Some college 20% 25 20 15 10 5 Not HS grad 12% 0 Not HS grad HS grad Some college Associate 9% Associate Bachelor's Advanced Advanced 7% Bachelor's 22% De rechter van de twee grafieken hierboven is een pie chart. Een pie chart kan goed gebruikt worden om in een oogopslag weer te geven welk deel van en gehele groep door een bepaalde categorie wordt ingevuld. Door een punt van de pie chart uit het geheel te lichten kan er focus worden gecreëerd op een bepaalde categorie. Om kwantitatieve variabelen inzichtelijk te maken wordt een histogram of een stemplot gebruikt. Een histogram verdeelt de waarden van de variabelen in verschillende klassen en geeft het aantal waarden of de percentages van het geheel van de verdeling weer met een balk. Het grafische verschil tussen een bar graph en een histogram is dat bij een histogram de balken aan elkaar aansluiten om duidelijk te maken dat alle waarden gedekt zijn. Om geen vertekend beeld te krijgen is het belangrijk om bij een histogram de klassen van gelijke breedte te kiezen. Een stemplot (ook wel stem-and-leaf plot)geeft een snel inzicht in de vorm van een verdeling terwijl de numerieke waarden bewaard blijven. Dit is bij een histogram niet het geval omdat bij het indelen in klassen de numerieke waarden verloren gaan. Stemplots werken het beste bij kleine hoeveelheden waarden die allemaal groter zijn dan nul. Om een stemplot te maken moeten de volgende stappen doorlopen worden: 1. Splits elke observatie in een stam (stem) die alle cijfers op de laatste na bevat. Stems mogen zoveel cijfers bevatten als nodig is, maar de leafs mogen altijd maar uit een cijfer bestaan. 2. Schrijf de stems onder elkaar met de kleinste waarde bovenaan en teken rechts van deze lijst een verticale lijn. 3. Schrijf elke leaf in de rij rechts van de stem waar de leaf bijhoort in oplopende volgorde vanaf de stem gezien. Het is ook mogelijk om met een stemplot twee aan elkaar gerelateerde verdelingen tegen elkaar uit te zetten in een back-to-back stemplot, waarbij de stems gedeeld worden en de leafs van de tweede verdeling aan de linkerkant van de stem geschreven worden. Pagina 32 Thomas Jansen (0878650) Hieronder volgt een weergave van zowel een histogram als een stemplot. De stemplot is met statistische software gemaakt en wijkt iets af van de wijze waarop een stemplot met de hand gemaakt wordt. Een frequentietabel is ook een manier om inzicht te krijgen in gegevens. Zodra de gegevens onderverdeeld zijn in klassen zoals dat voor een histogram moet worden gedaan en daarna geteld wordt hoeveel waarden er in een bepaalde klasse vallen (de frequentie) en dit voor alle waarden en klassen is gedaan ontstaat er een tabel met links de klassen en rechts het aantal keren dat een waarde in deze klasse terecht is gekomen. Deze tabel heet een frequentietabel. Klasse 75 tot 84 85 tot 94 95 tot 104 105 tot 114 115 tot 124 125 tot 134 135 tot 144 145 tot 154 Aantal 2 3 10 16 13 10 5 1 Nadat de grafische weergave van de gegevens is gemaakt is het van groot belang om goed te bekijken wat er precies te zien is in de weergave. In elke weergave moet gekeken worden naar een patroon en opvallende afwijkingen van dit patroon. Het patroon van een verdeling kan worden beschreven aan de hand van de vorm, het middenpunt en de spreiding. Een belangrijke afwijking is een uitbijter, die sterk afwijkt van het algemene patroon. Een aantal punten waarnaar gekeken kan worden als het de vorm betreft is of de verdeling een of meerdere pieken heeft (modus). Als een verdeling één piek heeft is een verdeling unimodaal en als een verdeling meerdere pieken heeft spreken we van een bi- of multimodale verdeling. Verder kan er bij de vorm van een verdeling gekeken worden naar de scheefheid van de verdeling. Een verdeling is symmetrisch als de waarden onder en boven het middenpunt aan elkaar gespiegeld zijn. Een verdeling is scheef naar rechts als er meer waardes links van het middenpunt liggen dan rechts ervan. Voor een verdeling die scheef naar links is geldt het tegenovergestelde. Ook kan er gekeken worden naar de spreiding van de waarden in de verdeling. Dit kan bijvoorbeeld gedaan worden aan de hand van het verschil tussen de hoogste en de laagste waarden. Als deze waarden dicht bij elkaar liggen is er sprake van weinig spreiding. Pagina 33 Thomas Jansen (0878650) Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 1.2: Describing distributions with numbers Het omschrijven van een verdeling met behulp van getallen begint met bepalen van het midden of het gemiddelde van de verdeling. Later wordt ook de spreiding en de variabiliteit van de verdeling omschreven. De twee meest voorkomende manier om het midden te omschrijven is met behulp van de mean of de mediaan. De mean ( x ) is de gemiddelde waarde en de mediaan is de middelste waarde. Dit zijn twee verschillende manier om het midden te omschrijven en beiden gedragen zich dan ook anders. Om de mean van een aantal observaties te bepalen moeten alle waarden bij elkaar opgeteld worden en vervolgens gedeeld worden door het aantal observaties. In formulevorm ziet dat er als volgt uit: x x2 ... xn 1 of korter: x x 1 xi n n Een belangrijk zwak punt van de mean is dat deze gevoelig is voor scheve verdelingen en uitbijters. Slecht een paar extreme waarden kunnen al een vertekend beeld van de verdeling geven. De mediaan is het middenpunt van een verdeling. De helft van de waarnemingen bevind zich onder de mediaan en de andere helft bevind zich boven de mediaan. De werkwijze om de mediaan te lokaliseren is als volgt: 1. Sorteer alle observaties op grootte van klein naar groot 2. Als het aantal observaties oneven is, is de mediaan de middelste waarde van deze reeks. Om de locatie van de mediaan te vinden moet er dus (n 1) / 2 plaatsen vanaf de eerste waarde geteld worden. 3. Als het aantal observaties even is, is de mediaan het gemiddelde van de twee middelste observaties in de geordende lijst. Wees ervan bewust dat (n 1) / 2 niet de mediaan oplevert, maar slecht de locatie van de mediaan in de lijst. Naast de waarde van het midden is er ook een omschrijving van de spreiding nodig om een verdeling goed te kunnen weergeven met behulp van getallen. Het bepalen van quartielen is een mogelijke manier om dit te doen. De mediaan deelt de gegevens in twee delen. De helft van alle gegevens ligt boven de mediaan en de andere helft ligt onder de mediaan. Het eerste kwartiel (Q1) is de mediaan van het deel van de verdeling dat onder de hoofdmediaan ligt. Het derde kwartiel (Q3)is de mediaan van het deel van de verdeling dat boven de hoofdmediaan ligt. Verder is het ook mogelijk om over percentielen te spreken. Het p-de percentiel is de waarde in de verdeling waarbij p procent van de verdeling op of onder deze waarde valt. Het 90 ste percentiel is dus de waarde waarbij 90% van alle waarde daar onder vallen. In paragraaf 1.1 werden de hoogste en laagste waarden van een verdeling gebruikt om aan te geven hoe de spreiding van de verdeling was. Deze waarden vertellen niet heel erg veel over de spreiding van de verdeling, maar in combinatie met de kwartielen en de mediaan geeft dit een redelijk beeld va de spreiding van de verdeling. De fivenumber summary is hiervan het resultaat. Bij een five-number summary zijn het minimum, het eerste kwartiel, de mediaan, het derde kwartiel en het maximum in deze volgorde achter elkaar gezet. Een voorbeeld hiervan is: 13 18 23 27 32. Een grafische weergave van de five-number summary resulteert in een boxplot. In de boxplot zoals die hieronder weergegeven is stel het onderste streepje het minumum voor, de onderkant van de box is de waarde van het eerste kwartiel, de lijn in de box is de mediaan, de bovenkant van de box is het derde kwartiel en het bovenste streepje stelt het maximum voor. De stipjes boven het maximum geven mogelijke uitbijters aan. Het betreft hier een modified boxplot. Pagina 34 Thomas Jansen (0878650) Er is een manier om eventuele uitbijters makkelijk te kunnen identificeren. Deze zogeheten 1.5 x IQR rule for outliers gaat uit van de IQR, ofwel de Interquartile range. Dit is de afstand tussen het eerste en het derde kwartiel. De middelste helft van alle data valt in deze range. De 1.5 x IQR rule zegt dat alle waarden die meer dan 1,5 x IQR boven het derde kwartiel of meer dan 1,5 x IQR onder het eerste kwartiel vallen als mogelijke uitbijters aangewezen kunnen worden. Deze uitbijters mogen niet zomaar uit een verdeling geschrapt worden, maar er moet eerst gezocht worden naar een mogelijke oorzaak van de uitbijter. Misschien was er iets mis met de meetapparatuur of is het simpelweg een meetfout en het kan uiteraard ook gewoon een echte waarde zijn. Een correctie in een verdeling mag pas doorgevoerd worden als er een verklaring voor de uitbijters gevonden is. De standaard deviatie is een manier om de spreiding van een verdeling weer te geven. Bij de standaard deviatie wordt gekeken naar de afstand van een waarde ten opzichte van de mean. De standaard deviatie (ook wel standaard afwijking genoemd) is de wortel van de variantie zoals dat ook in week 1 behandeld is. Ter herinnering: s2 (y i y) 2 n 1 De vijf stappen voor het berekenen van de variantie zijn als volgt: 1. 2. 3. 4. 5. Bereken het gemiddelde Trek van elke score het gemiddelde af (deviatiescore) Kwadrateer elke deviatiescore Tel alle gekwadrateerde deviatiescores bij elkaar op (sum of all squares) Deel deze waarde door het aantal scores min één (variantie) De standaard deviatie is dus de wortel van de variantie: s ( y y) i 2 n 1 Over het algemeen wordt het gebruik van de standaard deviatie geprefereerd boven het gebruik van de variantie om een aantal redenen: De standaarddeviatie is precies de spreiding in een normaalverdeling Om te voorkomen dat er problemen ontstaan met andere meeteenheden wordt de kwadraat uit de berekening gehaald. Metabolic rates worden bijvoorbeeld in het kwadraat van calorieën berekend en dit kan botsen met de variantie als die zou worden berekend. De standaard deviatie heeft een aantal eigenschappen: de standaard deviatie meet de spreiding rond het gemiddelde en kan alleen gebruikt worden als het gemiddelde ook gekozen worden als middenpunt. s 0 geeft aan dat er geen spreiding is. Dit gebeurd alleen wanneer alle observaties dezelfde waarde hebben. Hoe meer gespreid de observaties liggen ten opzichte van het gemiddelde, hoe groter de standaard deviatie wordt. De standaard deviatie is nog gevoeliger voor uitbijters dan de mean is. Een aantal uitbijters kunnen de standaard deviatie zeer groot maken. Pagina 35 Thomas Jansen (0878650) Pagina 36 Thomas Jansen (0878650) Pagina 37 Thomas Jansen (0878650) Pagina 38 Thomas Jansen (0878650) Pagina 39 Thomas Jansen (0878650) Week 5, Normaalverdeling en z-scores Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 1.3 Density curves en normal distributions Het is (vooral met behulp van software) mogelijk om bij een histogram een vloeiende lijn te passen bij de grafiek. De curve die hier dan wordt gemaakt heet een dichtheidscurve. Het is een idealisatie van het patroon van het histogram en negeert daarom ook afwijkingen of uitbijters in dit patroon. In deze paragraaf wordt gecentreerd op het toepassen van een dichtheidscurve op een bell-shaped Normal curve. Een dichtheidscurve heeft de eigenschappen dat deze zich altijd op of boven de horizontale as bevindt en dat het gebied onder de curve altijd exact 1 is. De modus van een dichtheidscurve is de punt waarop de curve het hoogst is. De mediaan van een dichtheidscurve is het punt waarop de helft van het totale oppervlak onder de curve aan elke zijde ligt. De kwartielen zijn met het oog grof te schatten en delen de helften die de mediaan heeft aangegeven weer door de helft. Het gemiddelde is het punt waarop de curve in balans zou zijn als hij gemaakt zou zijn van vast materiaal. Omdat de dichtheidscurve een idealisatie van de werkelijke data is moet er onderscheid gemaakt worden tussen de mean en standaard deviatie van de curve en de waarden x en s die verkregen zijn bij de werkelijke observaties. De mean bij een geïdealiseerde verdeling wordt weergegeven met het symbool μ en de standaard deviatie wordt weergegeven met het symbool σ. Er is nog een bepaalde curve die van belang is. Het is een curve die symmetrisch, unimodaal en bell-shaped is. Deze curve wordt een Normaalcurve genoemd en deze beschrijft de normaalverdeling. De normaalverdeling heeft een aantal eigenschappen: Ze zijn allemaal bell-shaped (klok-vormig) μ geeft de horizontale locatie en σ geeft de plaats aan waar de curve buigt en van richting verandert. Bij een kleine σ hoort niet alleen een smalle maar ook een hoge curve omdat de oppervlakte onder de curve altijd 1 moet bedragen. De vorm van de curve wordt volledig bepaald door μ en σ. De hoogte van een dichtheidscurve wordt gegeven aan de hand van een formule: f ( x) 1 1 x 2 ( ) e 2 2 Hoewel deze formule niet direct gebruikt zal worden is het belangrijk om te zien dat de verdeling volledig bepaald wordt door μ en σ. Hoewel er veel verschillende normaalcurves zijn hebben ze allemaal dezelfde eigenschappen. Een van de meest belangrijke eigenschappen is de 68-95-99.7 rule. De regel houdt het volgende in: Bij een - normaalverdeling geldt dat: Ongeveer 68% van de observaties binnen de afstand van 1 keer σ vanaf μ valt. Ongeveer 95% van de observaties binnen de afstand van 2 keer σ vanaf μ valt. Ongeveer 99,7% van de observaties binnen de afstand van 3 keer σ vanaf μ valt. Zoals al eerder gemeld is hebben alle normaalverdelingen een flink aantal eigenschappen gemeen. Feitelijk zijn alle normaalverdelingen hetzelfde als we eenheden van de grootte van σ vanaf μ als middenpunt. Het omrekenen van waarden naar deze eenheden worden standaardiseren genoemd. Om een waarde te standaardiseren moet er eerst μ Pagina 40 Thomas Jansen (0878650) van worden afgetrokken en daarna worden gedeeld door σ. Een gestandaardiseerde waarde wordt vaak een z-score genoemd. De formule hiervoor ziet er als volgt uit: x z Een z-score geeft aan hoeveel standaard deviaties de originele observatie afligt van het gemiddelde en in welke richting. Observatie die groter zijn dan het gemiddelde leveren een positieve z-score op en observaties die kleiner zijn dat het gemiddelde leveren een negatieve z-score op. Omdat alle normaalverdelingen te standaardiseren zijn tot dezelfde verdeling ontstaat er een nieuwe standaardverdeling die nog steeds Normaal is, de standaard Normaalverdeling. De standaard normaalverdeling is een normaalverdeling met een gemiddelde van 0 en een standaard deviatie van 1: N(0,1). Als variabele X een normaalverdeling heeft dan is de gestandaardiseerde variabele Z ook normaal verdeeld. De formule die hierbij hoort ziet er als volgt uit: Z X n Om een z-score te berekenen was de volgende formule nodig: z x Om weer terug te rekenen van z-score naar de ruwe score x is de volgende formule nodig: x z Verder is het nodig om de volgende punten te onthouden wat betreft standaard normaalverdelingen: De verdeling van de standaard scores z heeft dezelfde vorm als de verdeling van de ruwe scores x Als x normaal verdeeld is: N(μ,σ) dan is z dat ook: N(0,1) Het gemiddelde verschuift bij het omrekenen met afstand μ De standaardafwijking wordt 1/σ maal zo groot Oppervlaktes onder de normaalcurve representeren proporties van de observaties uit die normaalverdeling. Er is geen formule om oppervlaktes onder de normaalcurve te kunnen berekenen. Berekeningen gebruiken ofwel software om de oppervlaktes te berekenen of ze gebruiken een tabel met bekende oppervlaktes. Deze tabel berekent een bepaald type gebied: de cumulatieve proporties. Een cumulatieve proportie is de proportie van observaties die op of onder een bepaalde waarde vallen. Als de verdeling is weergegeven in een dichtheidscurve is de cumulatieve proportie het gedeelte wat links ligt van een bepaalde waarde op de horizontale as. Om een bepaalde proportie van de oppervlakte onder de dichtheidscurve te bepalen moeten er dus een aantal cumulatieve proporties worden bepaald om daarmee vervolgens het betreffende gebied te kunnen uitrekenen. Om proporties onder de normaalcurve te berekenen aan de hand van de tabel A uit het boek (standard Normal cumulative proportions) moet een extra stap worden gezet in vergelijking met het gebruik van software. De extra stap die moet worden gezet is het omrekenen van de ruwe x naar een z score. Als voorbeeld wordt een z score van 1.47 gebruikt. In de tabel moet in de linker kolom 1.4 opgezocht worden. Als deze is gevonden moet in de bovenste rij .07 gezocht worden. De cel waar de rij en de kolom elkaar kruisen geeft de proportie van de oppervlakte onder de normaalcurve die onder de ruwe x valt. Door deze aanpak om te draaien kan een bepaalde z score gevonden worden die bij een bepaalde proportie hoort. Zoek daarvoor eerst de proportie op in de tabel en lees daarna in de linker kolom en de bovenste rij de z score af. De z score kan vervolgens weer teruggerekend worden naar de ruwe x. Om te controleren of een verdeling normaal verdeeld is kan gebruik worden gemaakt van histogrammen of stemplots. Deze zijn prima in staat om de grootste afwijkingen van de normale verdeling in beeld te brengen en aan de hand daarvan is grofweg te bepalen of een verdeling normaal verdeeld is of niet. Er is echter een accuratere methode nodig om dit met meer zekerheid te kunnen bepalen. Hiervoor wordt een ander soort grafiek gebruikt: het normaal kwantiel plot. Bij het maken van een normaal kwantiel plot wordt als volgt te werk gegaan: 1. Sorteer de data van laag naar hoog en noteer welk percentiel van de gegevens elke waarde bezet. Bij een set van 20 observaties bevindt de kleinste waarde zich bij het 5% punt en de op een na kleinste bij het 10% punt. 2. Bereken de z scores die bij deze percentielen horen. Deze scores worden normaalscores genoemd. 3. Plot elk datapunt x tegen de corresponderende normaalscore. Als een verdeling in de buurt komt van een normaalverdeling zullen de geplotte punten in de buurt komen van een rechte lijn. Normaal kwantiel plots worden nooit met hand gemaakt, maar altijd met behulp van software gemaakt. Pagina 41 Thomas Jansen (0878650) Pagina 42 Thomas Jansen (0878650) Pagina 43 Thomas Jansen (0878650) Pagina 44 Thomas Jansen (0878650) Pagina 45 Thomas Jansen (0878650) Week 6, Samenhang tussen variabelen Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 2.1: Scatterplots Twee variabelen die gemeten zijn bij dezelfde cases zijn geassocieerd als kennis over de ene variabele iets vertelt over de waarde van een andere variabele die zonder deze informatie niet bekend zou zijn. Oftewel: Twee variabelen V1 en V2 zijn geassocieerd als bepaalde waarden van V1 vaker optreden met sommige waarden van V2 dan met andere waarden. Een response variable meet de uitkomst van een onderzoek. Een explanatory variable verklaart of veroorzaakt veranderingen in de response variable. In de praktijk wordt een response variable vaak een afhankelijke variabele genoemd en een explanatory variable een onafhankelijke variabele al wordt dit om verwarring in andere gebieden van de statistiek te voorkomen sterk afgeraden. Ook in het geval van relaties tussen variabelen blijft de aanpak van het benaderen van de gegevens hetzelfde: 1. Geef de gegevens grafisch weer 2. Kijk naar patronen en afwijkingen van deze patronen 3. Gebaseerd op wat er te zien is moet een numerieke samenvatting gemaakt worden van specifieke aspecten van de gegevens. De meest gebruikte grafiek om relaties tussen twee kwantitatieve variabelen weer te geven is en scatterplot. Bij een scatterplot worden de waarden van de ene variabele op de horizontale en de waarden van de andere variabele op de verticale as weergegeven. Elk individu wordt weergegeven als een stipje in de grafiek op het punt waar de waarden van de twee variabelen van dat individu elkaar kruisen. De onafhankelijke variabele wordt altijd weergegeven op de x as. Dit geldt uiteraard alleen als er bekend is wat de afhankelijke en onafhankelijke variabele zijn. Om categorieën in een scatterplot aan te geven kan een verschillend symbool of kleur voor elke stip in het scatterplot worden geplaatst. Bij het interpreteren van een scatterplot moet dezelfde strategie gebruikt worden zoals die in hoofdstuk 1 beschreven is. Kijk of er een algemeen patroon te vinden is en of er opvallende afwijkingen zijn in dit patroon. Het patroon van een scatterplot is te beschrijven aan de hand van de vorm, richting en sterkte van de relatie tussen de variabelen. Twee variabelen zijn positief geassocieerd als positieve afwijkingen van het gemiddelde relatief vaak samen voorkomen en negatieve afwijkingen van het gemiddelde ook samengaan. Negatieve associatie treedt op wanneer positieve afwijkingen van de ene variabele vaak samengaan met negatieve afwijkingen van de andere variabele. Dit geldt ook andersom. De sterkte van een scatterplot wordt bepaald door de dichtheid waarmee de stippen in het scatterplot staan. Zoals gezegd geven scatterplots de relatie tussen twee kwatitatieve variabelen weer. Om de relatie tussen twee categorische variabelen weer te geven worden grafieken gebruikt die reeds in hoofdstuk 1 besproken zijn: een backto-back stemplot en een side-by-side boxplot. Pagina 46 Thomas Jansen (0878650) Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 2.2: Correlation Omdat het erg moeilijk is om op het oog te bepalen hoe sterk een relatie is, gebruiken we correlatie als maat voor de sterkte van een relatie. Correlatie meet de richting en de sterkte van een lineaire relatie tussen twee kwantitatieve variabelen. Correlatie wordt vaan genoteerd als r. We nemen aan dat we gegevens hebben over variabele x en y voor n individuen. De mean en standaard deviaties van de variabele zijn x en sx. Voor y geldt uiteraard hetzelfde. De formule om de correlatie uit te rekenen is dan als volgt: r 1 n 1 ( xi x yi y )( ) sx sy In de praktijk wordt de correlatie niet met de hand uitgerekend, maar wordt daar software voor gebruikt. De formule van de correlatie laat zien dat r positief is als er een positieve associatie is tussen de variabelen. De correlatie is negatief als er een negatieve associatie is tussen beide variabelen. De volgende punten zijn nodig om correlaties goed te kunnen interpreteren: Bij correlatie wordt er geen onderscheid gemaakt tussen de onafhankelijke en afhankelijke variabelen. Ongeacht welke variabele je kiest als x of y, het resultaat is hetzelfde. Beide variabelen moet kwantitatief zijn, met categorische variabelen kan niet gerekend worden. Omdat correlatie gebruik maakt van gestandaardiseerde waarden, verandert r niet als we de meeteenheid veranderen. De correlatie zelf heeft geen meeteenheid, het is slechts een cijfer. Een positieve r geeft een positieve associatie tussen twee variabelen aan, een negatieve r geeft een negatieve associatie aan. De correlatie r is altijd een getal tussen -1 en 1. Waarden vlak in de buurt van 0 geven een zeer zwakke lineaire relatie aan. De extreme waarden -1 en 1 komen alleen maar voor als de punten in het scatterplot exact op een lijn liggen. Correlatie meet alleen de sterkte van een lineaire relatie. Correlatie beschrijft geen gebogen relatie tussen variabelen, ongeacht hoe sterk ze zijn. Net als de mean en de standaard deviatie is correlatie erg gevoelig voor uitbijters. Pagina 47 Thomas Jansen (0878650) Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 6: Correlational research Omdat erg veel stof uit hoofdstuk 6 van Leary al gedekt wordt in hoofdstuk 2 van Moore, McCabe en Craig wordt hier enkel de vertaling van de samenvatting uit Leary gegeven. Dit is dus de samenvatting zoals deze letterlijk bij Leary in het boek staat. 1. 2. 3. Correlationeel onderzoek wordt gebruikt om de relatie tussen twee variabelen te beschrijven Een correlatie coëfficiënt (r) geeft zowel de richting als de grootte van de relatie weer. Als de scores van twee variabelen de neiging hebben samen groter of kleiner te worden zijn de variabelen positief gecorreleerd. Als de ene variabele groter wordt en de ander kleiner wordt spreken we van een negatieve correlatie. 4. De grootte van een correlatie coëfficiënt geeft de sterkte van de relatie tussen twee variabelen weer. Een correlatie van 0 geeft aan dat de variabelen niet gerelateerd zijn. Een correlatie van -1 of +1 geeft aan dat ze perfect gecorreleerd zijn. 5. Het kwadraat van het correlatie coëfficiënt, de coefficient of determination (r2) geeft de proportie van de totale variantie in een variabele weer die gerelateerd is aan de andere variabele. 6. Onderzoekers toetsen de statistische significantie van correlatie coëfficiënten om de kans in te schatten dat de correlatie die ze in hun onderzoek hebben gevonden afkomstig kan zijn uit een populatie waar de ware correlatie tussen de variabelen nul is. Een correlatie wordt normaal gezien als significant beschouwd als er minder dan 5% kan is dat de correlatie van de volledige populatie nul is. Significantie wordt beïnvloed door samplegrootte, grootte van de correlatie en de mate van zekerheid die een onderzoek wil hebben. 7. Wanneer onderzoekers correlaties interpreteren kijken ze naar factoren die een correlatie kunstmatig groter of kleiner zou kunnen maken. Mogelijke oorzaken kunnen zijn: Beperkte range, uitbijters en lage betrouwbaarheid. 8. De aanwezigheid van een correlatie betekent niet dat er ook een causaal verband is tussen de beide variabelen. 9. Een gedeeltelijke correlatie is de correlatie tussen twee variabelen waarbij de invloed van een of meer andere variabelen statistisch verwijderd is. Gedeeltelijke correlatie wordt gebruikt om te beoordelen of de correlatie tussen twee variabelen veroorzaakt kan worden door bepaalde andere variabelen. 10. Het Pearson correlatiecoëfficiënt is de meest gebruikt, maar de Spearman, Phi en punt biserieel coëfficiënten worden onder speciale omstandigheden gebruikt. Pagina 48 Thomas Jansen (0878650) Pagina 49 Thomas Jansen (0878650) Pagina 50 Thomas Jansen (0878650) Pagina 51 Thomas Jansen (0878650) Pagina 52 Thomas Jansen (0878650) Week 7, Samenhang tussen variabelen Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 2.3: Least-squares regression Een regressielijn is een rechte lijn die optimaal beschrijft hoe de response variabele y verandert als de verklarende variabele x verandert. Vaak wordt een regressielijn gebruikt om waarde van y voor een bepaalde waarde x te voorspellen. Als een scatterplot een lineair patroon heeft kunnen we dat patroon beschrijven door een rechte lijn door de punten te trekken. Uiteraard komt het zelden voor dat een rechte lijn door alle punten heen gaat. Het fitten van een lijn betekent dat er een lijn getrokken wordt die zo dichtbij als mogelijk is door de punten heen gaat. De vergelijking die bij deze lijn hoort geeft compact weer hoe het staat met de afhankelijkheid van variabele y ten opzichte van variabele x. Deze vergelijking luidt als volgt: y a bx In deze vergelijking is b het hellingsgetal, de hoeveelheid waarmee y verandert waneer x met 1 eenheid stijgt. In deze vergelijking staat a voor de intercept, de waarde van y wanneer x nul is. In de statistiek houdt voorspellen in: met een bekende waarde op de onafhankelijke variabele x een waarde schatten op de afhankelijk variabele y voor een nieuwe waarneming. Het gaat hier dus niet om een vorm van helderziendheid, maar een onderbouwde schatting. Bij extrapolatie wordt de regressielijn gebruikt om voorspellingen te doen die buiten het bereik van de verklarende variabele x vallen die gebruikt zijn om de lijn te trekken. Zulke voorspellingen zijn vaak niet accuraat. De onzekerheid over de voorspelde waarde groeit naarmate de afstand tot de laatste meting van x groter wordt. Het zou eventueel ook kunnen dat het model van een rechte lijn niet meer geldig is, maar dit pas zichtbaar zou worden als er verdere metingen van x zouden worden gedaan. Als mensen op het oog een regressielijn tekenen zullen geen twee lijnen dezelfde zijn, zeker als de punten in de scatterplot verspreid zijn. Een manier om een regressielijn te tekenen die niet afhankelijk is van het oog van de tekenaar is met behulp van het kleinste kwadraten criterium (Least-squares regression). Omdat een lijn nodig is die waarden van y voorspelt uit waarden van x moet deze lijn zo dicht mogelijk bij de punten liggen in verticale richting. Fouten die worden gemaakt zijn namelijk altijd fouten in y. Voor wat betreft errors geldt de volgende formule: Error = geobserveerde waarde – voorspelde waarde De least-squares regressie lijn van y op x is de lijn waarbij de som van de kwadraten van de verticale afstanden van de data punten tot de lijn zo klein mogelijk zijn. De mathematische manier om dit probleem op te lossen luidt als volgt. Een n aantal observaties van twee variabelen x en y worden als volgt weergegeven: (x1,y1), (x2,y2), …, (xn,yn) Als we een lijn y a bx door het scatterplot van deze observaties heen trekken voorspelt deze lijn de waarde van y ^ die correspondeert met x1 als y i a0 bxi . De y met het dakje in deze vergelijking staat voor de voorspelde waarde van y voor elke x. Om de lijn te vinden die verticaal gezien het dichtst bij de datapunten ligt moeten we de waarden van de intercept en de helling vinden waarbij de error minimaal is. Oftewel: (error) ( y a bx ) 2 i i 2 De variabelen x en y zijn uiteraard bekend, dus moet er gezocht worden naar a (helling) en b (intersect) die ervoor zorgen dat de error zo klein als mogelijk wordt. Normaal gezien wordt dit met software berekend, maar hieronder staat een voorbeeld om de gedachte achter deze formule te verduidelijken. We hebben gegevens van een onafhankelijke variabele x en een afhankelijk y variabele voor n individuen. De mean en de standaarddeviatie van deze gegevens zijn x en sx voor x en y en sy voor y. De correlatie tussen x en y is r. De vergelijking van de least-squares regressielijn van y over x is: ^ y a bx Met als hellingsgetal: br sy sx En met intercept: a y bx Pagina 53 Thomas Jansen (0878650) Zoals in het voorbeeld hierboven te zien is heeft de correlatie r invloed op de least-squares regressielijn. Een andere connectie tussen correlatie en regressie is zelfs nog belangrijker. De numerieke waarde van de correlatie als een maat van sterkte van een lineaire relatie is het beste te interpreteren aan de hand van regressie: Het kwadraat van de correlatie r, is het deel van de variatie in de waarden van y die verklaard worden door de least-square regressielijn van y op x. Oftewel, de variantie van voorspelde scores gedeeld door de variantie van de oorspronkelijke scores komt overeen met het kwadraat van de correlatie r. Dit wordt de proportie verklaarde variantie genoemd. Als r2 groot is dan is er sprake van een steile helling en is er weinig spreiding rond de lijn. Als r2 klein is dan is er sprake van een zwakke helling en is er veel spreiding rond de lijn. Pagina 54 Thomas Jansen (0878650) Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 2.4: Cautions about correlation and regression De verticale afstand tussen de regressielijn en de datapunten is zo klein als mogelijk in de zin dat ze een zo klein mogelijke sum-of-squares hebben. Omdat de afstanden staat voor de ‘restjes’ variatie in de respons heten deze verschillen residuen. Een residu is dus het verschil tussen de geobserveerde y en de voorspelde y. Omdat de residuen laten zien hoe ver de data van de regressielijn afligt helpen de residuen duidelijk te maken hoe goed de lijn de data beschrijft. De residuen van de least-squares regressielijn heb de eigenschap dat het gemiddelde van deze residuen altijd nul is. Als de residuen in een scatterplot tegenover de onafhankelijke variabele worden gezet spreken we van een residu plot. Een residu plot kan gebruikt worden om ongebruikelijk grote residuen makkelijk te herkennen. Let ook op niet lineaire patronen of ongelijke variaties ten opzichte van de nul lijn. Individuele punten die substantiële verandering in de regressielijn teweeg brengen zijn vaak uitbijters in de x richting. Ze hebben veel invloed op de richting van de regressielijn, maar hoeven niet per definitie grote residuen te hebben. Correlaties en regressielijnen moeten met voorzichtigheid geïnterpreteerd worden. Plot altijd de gegevens om er zeker van te zijn dat de relatie grofweg lineair is, maar ook om uitbijters en invloedrijke observaties te detecteren. Een verscholen variabele heeft een belangrijk effect op de bestudeerde relatie, maar wordt niet in aanmerking genomen. Correlatie en regressie kunnen misleidend zijn als er belangrijke verscholen variabelen genegeerd worden. Het feit dat er sprake is van een hoge correlatie wil niet zeggen dat de er ook meteen sprake is van een causaal verband. Een correlatie die gebaseerd is op gemiddelden is over het algemeen hoger dan als de data van de individuen zou zijn gebruikt. Een correlatie die gebaseerd is op gegevens met een beperkte range is vaak lager dan wat het geval zou zijn als de volledige range van de gegevens gebruikt zou worden. Pagina 55 Thomas Jansen (0878650) Pagina 56 Thomas Jansen (0878650) Pagina 57 Thomas Jansen (0878650) Pagina 58