Samenvatting Inleiding in de Methoden en Technieken

advertisement
Thomas Jansen (0878650)
Week 1, grondprincipes van de wetenschap
Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 1: Research in Behavioral Sciences
Voor de meeste mensen is een wetenschapper een man in een witte laboratoriumjas die aan het werk is in een
laboratorium dat volledig is gevuld met technische apparaten. De meeste mensen plaatsen een psycholoog of andere
gedragswetenschapper niet in hetzelfde rijtje als een bioloog of andere wetenschapper.
Als mensen gevraagd wordt welk beeld ze hebben van een psycholoog zullen ze een psycholoog vooral zien als een
persoon in de rol van “Mental Health Professional” die psychotherapie of counseling doet. Dit is echter maar een
deelgebied van de wetenschap psychologie.
Psychologie is een wetenschappelijke discipline die gedrag en mentale processen (emotie, denken)
bestudeert met wetenschappelijke methoden; één van de vormen waarin psychologische kennis wordt toegepast
en opgedaan is de geestelijke gezondheidszorg.
Buddha (563-483 v. Christus) en Aristoteles (384-322 v. Christus) stelden zich al vragen over de oorzaken van
gedrag, menselijk denken en emotie. Gedurende ruim 2000 jaar daarna waren de antwoorden speculatief. Mensen
verklaarden gedrag, menselijk denken en emotie door alledaagse observatie, creatief inzicht, intuïtie, filosofie en
theologie. Mensen baseerden de antwoorden op de vragen die ze hadden over gedrag niet op wetenschappelijk
onderzoek.
“Wetenschappelijke” Psychologie (ofwel gedragswetenschap) ontstond rond 1875 met Wilhelm Wundt (1832-1920)
als grondlegger. In 1874 publiceerde hij de tekst Principles of Physiological Psychology waarin hij al aangaf een nieuw
wetenschappelijk domein uit te willen zetten. In 1875 richtte hij een van de twee eerste psychologielaboratoria
ter wereld aan de Universiteit van Leipzig in Duitsland. William James richtte een soortgelijk laboratorium op aan de
universiteit van Harvard waarmee hij het eerste psychologielaboratorium in Amerika oprichtte.
Wundt startte in 1881 een wetenschappelijk tijdschrift op voor de publicatie van onderzoeksresultaten in de
experimentele psychologie. Wundt leidde ook mensen op in het nieuwe vakgebied en een van zijn studenten, James
McKeen Cattell was de eerste die een cursus experimentele methoden opnam in de opleiding Psychologie. Hij heeft
daarmee de allereerste voorloper van dit vak Methoden en Technieken opgezet.
Sommige onderzoekers maken onderscheid tussen twee primaire soorten onderzoek. Basic research (standaard
onderzoek) wordt uitgevoerd om kennis te vergroten zonder er rekening mee te houden of de gevonden kennis direct
toepasbaar is. Applied research (toegepast onderzoek) daarentegen heeft als doel oplossingen te vinden voor
bepaalde problemen. Een onderdeel van applied research is evaluation research (evaluatieonderzoek) wat
onderzoek doet naar de effecten van sociale of institutionele programma’s op gedrag. Een voorbeeld hiervan is
onderzoek naar de effectiviteit van een nieuw onderwijssysteem. Welk type onderzoek gedragsonderzoekers ook
toepassen, ze hebben altijd drie doelen voor ogen: Beschrijven van gedrag (enquêtes, polls), voorspellen van
gedrag (onderzoek bij sollicitatie om te zien hoe de sollicitant zijn werk zal doen) en verklaren van gedrag
(onderzoekers hebben vaak het idee dat ze iets niet begrijpen als ze het niet kunnen verklaren). Bij toegepast
onderzoek gaan de onderzoekers vaak nog een stap verder door suggesties en oplossingen te bieden aan de hand van
hun onderzoek.
De waarde van onderzoek voor de student (waarom dit vak als je geen onderzoeker wordt?) bestaat uit vijf punten:
 Om onderzoek te begrijpen dat relevant is voor je beroepsuitoefening (bijblijven, ontwikkelingen in het veld volgen);
publicatie is namelijk meestal in “Journals”.
 Om minder afhankelijk te zijn of te worden van “methodologen”
 Het stimuleert de ontwikkeling van kritisch denken en een analytische benadering
 Het maakt je tot een betere “onderzoeksconsument” in het alledaagse leven
 Vanwege de “kruisbestuiving” van onderzoek, toegepast werk en onderwijs
Of iets wetenschappelijk is wordt niet bepaald door het onderwerp wat bestudeerd wordt, maar de manier waarop het
bestudeerd wordt. Er zijn een drietal criteria waaraan voldaan moet worden om onderzoek wetenschappelijk te kunnen
noemen:
Systematisch Empirisme: Met Empirisme wordt bedoeld dat een onderzoeker moet vertrouwen op observaties om
conclusies te trekken (All those sheep have just been shorn, well on the side facing us anyway). Met systematisch
wordt bedoeld dat observaties onder gecontroleerde omstandigheden worden gedaan. Data die verkregen is door
middel van systematisch empirisme geeft de wetenschapper de kans om met meer zekerheid conclusies te trekken
dan data van losse observaties dat toelaat.
Publieke verificatie: Onderzoek moet zo uitgevoerd worden dat anderen het kunnen waarnemen, herhalen en
controleren. Dit zorgt ervoor dat onderzoeken altijd op ‘echtheid’ onderzocht kunnen worden. Wetenschappers
negeren claims van andere wetenschappers als deze claims niet geverifieerd kunnen worden. Publieke verificatie zorgt
er eveneens voor dat wetenschap een zelfcorrigerende werking krijgt; fouten in de methodologie en interpretatie
kunnen door anderen ontdekt en gecorrigeerd worden.
Oplosbare problemen: Onderzoekers kunnen alleen onderzoek doen naar vragen die beantwoord kunnen worden,
gegeven de huidige kennis en onderzoeksmethoden.
Pagina 1
Thomas Jansen (0878650)
In principe doen alle wetenschappers twee dingen. Allereerst het ontdekken en documenteren van
verschijnselen, patronen en relaties. Dit zorgt ervoor dat vage ideeën leiden tot goed doordachte en zorgvuldig
geformuleerde onderzoeksvragen. Ten tweede ontwerpen ze verklaringen en evalueren ze. Oftewel, ze
formuleren theorieën, toetsen deze en verbeteren ze eventueel. De voortgang van onderzoek is dan ook een cyclisch
proces.
Omdat Leary het cyclisch proces niet expliciet gestructureerd heeft gebruikt deze cursus daarvoor het model van A.D.
de Groot (1961). Meer informatie over dit model is te vinden in de aanvulling in de syllabus (zie samenvatting).
Onder een theorie wordt een verzameling uitspraken (proposities) verstaan die de relaties tussen een aantal
begrippen (concepten) leggen. De term theorie wordt vaak slordig gebruikt (“het is maar een theorie”, een “wild
guess”), maar theorieën zijn juist geen “wild guesses” maar worden (voorlopig) geaccepteerd in zoverre en zolang ze
ondersteund worden door empirische resultaten. Theorieconstructie is een creatieve bezigheid, ideeën voor theorieën
kunnen overal vandaan komen. Model en theorie worden vaak uitwisselbaar gebruikt, maar volgens Leary is er een
verschil. Het verschil tussen model en theorie is volgens Leary dat een model alleen beschrijvend is en niet verklarend.
Zodra er verklarend wordt gewerkt, betreft het dus een theorie.
Over het algemeen kunnen mensen voor praktisch alles een verklaring vinden nadat iets gebeurd is. Sterker nog, het
is vaak zelfs mogelijk om twee tegenstrijdige verklaringen te vinden nadat iets gebeurd is. Alle verklaringen klinken
logisch als iets al gebeurd is. Wetenschappers zijn dan ook sceptisch als het gaat om deze post hoc verklaringen en
zullen onderzoeken waarin post hoc verklaringen zijn opgenomen zullen dan ook verworpen worden. Om een
overtuigende toetsing van een theorie te kunnen doen maken onderzoekers specifieke werkhypotheses (research
hypotheses) voordat ze de data verzamelen (a priori). Het toetsen van een theorie is een indirect proces. Een theorie
zelf wordt niet direct getoetst omdat deze over het algemeen te breed en complex is om te toetsen. In plaats daarvan
toetsen wetenschappers een of meerdere hypotheses die zijn afgeleid van de theorie, zogenaamde werkhypotheses.
Een werkhypothese is een specifieke uitspraak die logisch is afgeleid van een theorie via deductie. Het gaat hier
dus om een vertaling van het algemene naar het bijzondere. Een werkhypothese komt meestal in van
“als…dan…stelling”. Het is niet in alle gevallen zo dat een wetenschapper via deductie een hypothese opstelt. Het is
namelijk ook mogelijk via inductie op een hypothese te komen. Onder inductie wordt het opstellen van een hypothese
aan de hand van een verzameling feiten verstaan. Hypotheses die enkel gebaseerd zijn op eerdere observaties van
een patroon in resultaten wordt ook wel empirische generalisatie genoemd. Verder is het belangrijk dat een
werkhypothese falsifieerbaar is, hij moet onwaar kunnen blijken te zijn.
Vaak proberen wetenschappers methodologisch pluralisme toe te passen waarbij meerdere methodes en
onderzoeksontwerpen worden gebruikt. Hoe meer methodes en onderzoeksontwerpen er worden gebruikt bij het
toetsen van een theorie, hoe betrouwbaarder de uitslag van het onderzoek wordt. In sommige gevallen een methode
die ook wel “strategy of strong inference” word genoemd. Hierbij worden twee tegenstrijdige theorieën tegenover
elkaar gezet in een onderzoek. De onderzoeksgegevens zullen hierbij de ene hypothese bevestigen en de ander niet.
Het is bij het formuleren van een hypothese van groot belang dat deze duidelijk geformuleerd en omschreven is. Als
de definities van termen in de hypothese niet duidelijk zijn (wat wordt onder ‘honger’ verstaan? Wanneer is een kind
een baby?) kan niet onderzocht worden of de hypothese aangenomen kan worden of moet worden verworpen.
Wetenschappers gebruiken twee soorten definities tijdens hun werk. Conceptuele definities, welke ook in een
woordenboek te vinden zijn, en operationele definities waarbij exact wordt omschreven wat er met de definitie
bedoeld wordt. Omdat conceptuele definities vaak niet specifiek genoeg zijn voor onderzoeksdoeleinden vallen
wetenschappers vaak terug op operationele definities.
Leary omschrijft meerdere manieren waarop een wetenschapper aan ideeën voor onderzoek kan komen:
Onderzoeksliteratuur
Hypotheses afleiden uit een bestaande theorie
Oude theorieën toepassen op een nieuw verschijnsel
Intensieve case-study uitvoeren
Draai de oorzaak-gevolg richting om voor een gezond-verstand hypothese
Opbreken van een proces in componenten
Kijk wat mediëert in een bekend oorzaak-gevolg proces
Analyseer de functie van een raadselachtig fenomeen
Stel je voor wat het effect is van het reduceren van een bepaalde factor tot nul
Het ontdekken van regelmaat of patronen in data (Empirische generalisatie)
Omdat een theorie alleen indirect onderzocht kan worden is het ook onmogelijk om een theorie te bewijzen aan de
hand van onderzoeksdata. Wetenschappers spreken daarom nooit over het bewijzen van een theorie, maar gebruiken
ze vaak bevestigen of verwerpen. Het positief bewijzen van een theorie (de theorie is waar) is logisch onmogelijk.
Stel er is een moord gepleegd op een feestje. De theorie is dat Jack de moordenaar is. Een mogelijke hypothese kan
dat zijn: als Jack de moordenaar is moet hij op het feestje zijn geweest. Een controle leert dat Jack op het feestje was,
dus hij is de moordenaar. Een hypothese kan een theorie dus nooit bewijzen, enkel versterken. Het negatief bewijzen
(de theorie is niet waar) is logisch wel te bewijzen, maar praktisch niet mogelijk. Jack was niet op het feestje en heeft
de moord dus niet gepleegd (logisch). Misschien is Jack wel ongezien naar binnen geslopen (praktisch).
Omdat er zoveel manieren zijn waarop een onderzoek verkeerd uitgevoerd kan worden betekend het verwerpen van
een specifieke hypothese zelden het verwerpen van de theorie. Het gaat om bevestiging of ondersteuning door
onderzoeksresultaten ook wel accumulatie van evidentie genoemd.
Pagina 2
Thomas Jansen (0878650)
Een andere manier om wetenschap te benaderen is een serie filters die erop gericht zijn om wetenschappelijk valide
ideeën van de niet valide ideeën te scheiden. Deze filter ziet er als volgt uit:
Alle ideeën
Filter 1
Wetenschappelijke training
Zorgen om professionele reputatie
Beschikbaarheid van fondsen
Filtert: Onzin
Initiële onderzoeksprojecten
Filter 2
Eigen evaluatie over levensvatbaarheid van een idee
Tijd
Filtert: doodlopende ideeën, geraffelde onderwerpen
Onderzoeksprogramma’s
Filter 3
Beoordeling door gelijken (peer review)
Filtert: Methodologische vooroordelen en fouten, onbelangrijke bijdragen
Gepubliceerd onderzoek
Filter 4
Gebruik, replicatie en toevoeging door anderen
Filtert: Nonreplicatie, oninteressante en niet te gebruiken dingen
Secondaire wetenschapsliteratuur – Gevestigde kennis
Er zijn grofweg vier categorieën van (gedrags)onderzoek.
Descriptief onderzoek beschrijft het gedrag, gedachten of gevoelens van een bepaalde groep individuen. Een
opiniepeiling is hier nog wel het meest bekende voorbeeld van. Descriptive research doet geen poging tot het
verklaren van gedrag, maar is het begin van alle onderzoek.
Correlationeel onderzoek onderzoekt de relaties tussen verscheidene geobserveerde verschijnselen. Er wordt
bijvoorbeeld gekeken of geslacht samenhangt met intelligentie. Correlationeel onderzoek kan ons niet vertellen of de
ene variabele daadwerkelijk de andere veroorzaakt.
Experimenteel onderzoek probeert causale (oorzaak-gevolg) relaties aan te tonen. Een wetenschapper onderzoekt
hier of het manipuleren van een (onafhankelijke) variabele een verandering in een andere (afhankelijke) variabele
veroorzaakt. Kenmerken van experimenteel onderzoek zijn manipulatie, random toewijzing en experimentele controle.
Quasi-experimenteel onderzoek lijkt erg op experimenteel onderzoek maar heeft een minder strenge controle. Met
name random toewijzing ontbreekt in quasi-experimenteel onderzoek. Dit type onderzoek wordt gebruikt op het
moment dat experimenteel onderzoek om praktische of ethische reden niet mogelijk is.
Pagina 3
Thomas Jansen (0878650)
Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 2: Behavioral Viariability and Research
Het doel van onderzoek is het beschrijven, voorspellen en verklaren van gedrag in termen van variabiliteit.
Psychologen gebruiken het woord schema om te verwijzen naar een cognitieve generalisatie die het verwerken van
informatie organiseert en begeleid. De essentie van een schema is dat al het onderzoek naar gedrag probeert om
vragen over de gedragsvariabiliteit te beantwoorden. Hoe en waarom varieert gedrag in verschillende situaties,
verschilt het tussen individuen en verandert het door de tijd heen. Dit wordt in Leary geïllustreerd aan de hand van vijf
uitspraken:
1. Psychologie gaat over de studie van gedragsvariabiliteit
Psychologie wordt vaak gedefinieerd als de studie van gedrag en mentale processen. Maar wat psychologen
en andere gedragswetenschappers daadwerkelijk bestuderen is gedragsvariabiliteit. Ze willen weten hoe en
waarom gedrag varieert in verschillende situaties, tussen verschillende mensen en door de tijd heen. Het
begrijpen van mentale processen betekend eigenlijk het begrijpen wat er voor zorgt dat gedrag en mentale
processen variëren.
2. Onderzoeksvragen zijn vragen over gedragsvariabiliteit
Zoals bij uitspraak 1 al is behandeld kunnen alle onderzoeksvragen gezien worden als vragen over de
gedragsvariabiliteit. Stel dat een onderzoeker wil weten in hoeverre slaaptekort invloed heeft op functioneren
en cognitieve taken. In principe vraagt hij zich dan af op welke manier de hoeveelheid slaap die iemand krijgt
veranderingen in zijn functioneren veroorzaakt.
3. Onderzoek moet zo worden opgezet dat vragen over gedragsvariabiliteit zo goed mogelijk kunnen
worden beantwoord
Bij elke stap in het opzetten en uitvoeren van een onderzoek moet wetenschappers er zeker van zijn dat hun
onderzoek hen toestaat hun vragen over gedragsvariabiliteit te beantwoorden.
4. Het meten van gedrag impliceert het vaststellen van gedragsvariabiliteit
Ongeacht wat er wordt gemeten willen we dat de variabiliteit van een waarde die we toekennen aan bepaalde
deelnemers correspondeert met de daadwerkelijke variabiliteit van de deelnemers hun gedrag, gedachten,
emoties of fysiologische reacties.
5. Statistische analyses worden gebruikt voor beschrijving, voorspelling en verklaring van
geobserveerde gedragsvariabiliteit.
Op een bepaald moment moet de data die verzameld is in een studie worden geanalyseerd. Statistiek wordt
gebruikt om vragen over de variabiliteit in de data te beantwoorden. Statistiek heeft twee algemene doelen
voor onderzoekers. Beschrijvende statistiek (descriptive statistics) wordt gebruikt om gedrag van
deelnemers aan een onderzoek samen te vatten en te beschrijven. Inferentiële statistiek (inferential
statistics) daarentegen wordt gebruikt om conclusies te kunnen trekken over hoe betrouwbaar of
generaliseerbaar bepaalde resultaten zijn. Hoe representatief zijn de gegevens van mijn sample van de
deelnemers voor de grotere populatie?
Omdat het belang van variabiliteit voor onderzoekers zo groot is hebben ze ook een manier nodig om aan te geven
hoeveel variabiliteit er in een hoeveelheid data is. Er zijn vele maten om variabiliteit van een hoeveelheid data weer te
geven. Zo is er bijvoorbeeld de spreidingsbreedte (range): Spreidingsbreedte = maximum – minimum. Het probleem
met de range is echter dat het wel vertelt hoe de laagste en de hoogste score variëren, maar niet de andere scores en
hun variatie in ogenschouw neemt. Onderzoekers gebruiken daarom de term variantie als maat voor variabiliteit. Bij
variantie worden de scores bekeken ten opzichte van een standaard (vaak het gemiddelde). De variantie is dus niet
meer dat een indicatie hoe een set gegevens geclusterd ligt rond het gemiddelde van de scores.
Variantie wordt duidelijker uitgelegd aan de hand van de volgende vijf stappen:
Stap 1: Zoals we eerder hebben gezien vertelt variantie iets over de spreiding van de waarden ten opzichte van het
gemiddelde. Om te beginnen moet dus het gemiddelde worden berekend. Het gemiddelde is te berekenen door alle
scores bij elkaar op te tellen en te delen door het aantal scores. Het symbool
y wordt gebruikt om het gemiddelde van
een dataset te vertegenwoordigen. De correcte statistische notatie voor het gemiddelde ziet er als volgt uit:
y
y
i
n
De statistische notatie voor het somteken (
y
i

) ziet er als volgt uit:
 y1  y2  ...  yn
Stap 2: Nu moet weergegeven worden hoeveel de scores afwijken van het gemiddelde. Dit wordt gedaan door van
elke score het gemiddelde af te trekken. De uitkomst hiervan heet de deviatiescore:
Deviatiescore
 yi  y
Stap 3: Bij de deviatiescores staat een negatieve waarde voor een score die onder het gemiddelde viel en een
positieve deviatiescore staat voor een score die boven het gemiddelde viel. Men zou verwachten dat een optelling van
alle deviatiescores een totale variabiliteitsscore voor de sample zou opleveren, maar het optellen van alle
deviatiescores levert altijd nul op als resultaat. Daarom moeten de negatieve tekens weggewerkt worden. Dit doen we
door alle deviatiescores te kwadrateren.
Pagina 4
Thomas Jansen (0878650)
( yi  y )
2
Stap 4: Nu kunnen alle waardes bij elkaar opgeteld worden. De waarde die nu verkregen wordt heet ook wel sum of
all squares.
Sum of all squares =
( y
i
 y) 2
Stap 5: De waarde van de sum of all squares die bij stap 4 verkregen is afhankelijk van het aantal scores, maar een
groter aantal scores betekend niet per definitie dat de variabiliteit van de data groter is. Om de grootte van het sample
niet van invloed te laten zijn op de variantie moet de sum of all squares gedeeld worden door het aantal scores min
één. Dit levert de variantie op:
s
2
(y

i
 y) 2
n 1
In het kort zijn de vijf stappen dus als volgt:
1. Bereken het gemiddelde
2. Trek van elke score het gemiddelde af (deviatiescore)
3. Kwadrateer elke deviatiescore
4. Tel alle gekwadrateerde deviatiescores bij elkaar op (sum of all squares)
5. Deel deze waarde door het aantal scores min één (variantie)
Tot nu toe is telkens de totale variantie behandeld. Variantie is echter op te delen in twee delen:
Totale variantie = systematische variantie + foutenvariantie (of liever toevalsfluctuatie)
Systematische variantie is het deel van de totale variantie in het gedrag van deelnemers aan een onderzoek dat op
een ordelijke, voorspelbare wijze gerelateerd is aan de variabelen die een onderzoeker onderzoekt. Als het gedrag van
een deelnemer op een systematische manier varieert als andere variabelen veranderen heeft de onderzoeker het
bewijs dat die variabelen gerelateerd zijn aan het gedrag. Het deel van de totale variantie in het gedrag van een
deelnemer dat systematisch gerelateerd is aan de variabele die onderzocht wordt is systematische variantie.
Foutenvariantie (Error variance) is het deel van de totale variantie waar geen verklaring voor wordt gevonden.
Foutenvariantie is het deel waarbij geen relatie is tussen de variantie en de variabelen die onderzocht worden. Bij
foutenvariantie betreft het niet altijd menselijke fouten zoals opname- of coderingsfouten, maar vaak is het een gevolg
van factoren die geen onderdeel uitmaken van het onderzoek en dus niet onderzocht zijn. Omdat ze niet onderzocht
zijn kunnen ze ook niet verklaard worden en komt dit stukje variantie automatisch bij de foutenvariantie terecht.
Om de sterkte van een relatie weer te geven wordt de effect size of measures of strength of association gebruikt.
De effect size is te berekenen als de verklaarde variantie bekend is. De verklaarde variantie is het deel van de
variantie waarvoor een verklaring is gevonden. Dit is dus hetzelfde als de systematische variantie.
Effect size 
systematische variantie
totale variantie
Op het moment dat de effect size 0,00 is, is er geen relatie en is er niets verklaard. De effect size is 1 bij een perfecte
relatie waarbij alles verklaard is. Er wordt over een grote effect size gesproken als deze meer dan 0,15 bedraagt, bij
0,06 spreekt men van een medium effect size en bij 0,01 van een kleine effect size.
Het is ook mogelijk om de sterkte van een relatie te bereken over meerdere studies. Door een gemiddelde te nemen
van de effect size uit meerdere studies wordt er een meer accurate schatting gegeven van de sterkte van de relatie
tussen twee variabelen. Een onderzoek als dit wordt een meta-analyse genoemd.
Pagina 5
Thomas Jansen (0878650)
Aanvulling 1.1 in syllabus; De empirische cyclus volgens A.D. de Groot
De voortgang van de wetenschap wordt door veel mensen gezien als een cyclisch proces waarin een aantal fasen in
(min of meer) vaste volgorde wordt doorlopen en met aan het eind weer terug is bij het uitgangspunt. Dit is de versie
van deze empirische volgens A.D. de Groot. De Groot onderscheidt vijf fasen in de cyclus welke hieronder beschreven
worden.
Observatiefase: Hier ontstaat het idee voor een theorie of onderzoeksvraag. Het gaat er niet om waar het idee
vandaan komt, maar hoe het vervolgens wordt onderzocht en of er bevestiging wordt gevonden. Dit principe heet het
principe van de vrijheid van ontwerp.
Inductiefase: Hier wordt het idee uitgewerkt tot een algemeen principe of theorie waarin ten minste het verband
tussen twee variabelen wordt gelegd. De vertaalslag in de inductiefase is een redenering van het bijzondere naar het
algemene (inductie). Het gaat van die ene observatie uit de observatiefase naar een algemeen principe. Het resultaat
is een zeer algemene hypothese. Er wordt hier niet gekozen voor de term theorie, omdat deze gewoonlijk
gereserveerd wordt voor een wat meer omvattend geheel waarvan verscheidene hypotheses deel uitmaken.
Deductiefase: Hier wordt uit de algemene hypothese een onderzoekbare voorspelling, ofwel werkhypothese
afgeleid. In deze fase wordt een concreet onderzoek ontworpen, want een volledig uitgewerkte werkhypothese omvat
ook precies hoe en wat er geobserveerd zal worden. De vertaalslag in de deductiefase is een redenering van het
algemene naar het bijzondere (deductie). De deductiefase heeft in feite twee eindproducten. De werkhypothese en
een concrete onderzoeksopzet waarin de omstandigheden, proefpersonen en vooral de observatiemethoden precies
zijn vastgelegd.
Toetsingsfase: In de toetsingsfase wordt het onderzoek wat in de deductiefase is opgezet ook daadwerkelijk
uitgevoerd.
Evaluatiefase: Hier wordt bekeken wat het resultaat van de toetsingsfase zegt over de algemene hypothese. In deze
fase wordt een hypothese aangenomen of verworpen, al is het bij verwerping van een hypothese aannemelijker dat
een onderzoeker uitzoekt of er niet iets mis wat met het onderzoek waardoor het resultaat uitbleef. Via empirische
generalisatie kan er eventueel een uitbreiding op de theorie volgen.
In alle gevallen komt een onderzoeker na de evaluatiefase weer in de observatiefase terecht. De onderzoeker heeft bij
aanname van de werkhypothese aangetoond dat het in bepaalde omstandigheden bij bepaalde personen met bepaalde
taken waar is, maar zou het ook in andere omstandigheden met andere personen en taken waar zijn?
Pagina 6
Thomas Jansen (0878650)
Aanvulling 1.2 in syllabus; Toelichting op het verklaren van variantie
Omdat aanvulling 1.2 zeer kernachtig geschreven is wordt aanvulling 1.2, met slechts een kleine aanpassing die
verwijst naar de opgaven in de syllabus, in zijn geheel opgenomen in deze samenvatting.
Het verklaren van variabiliteit is een centraal idee in de methodologie. Variabiliteit is de algemene aanduiding voor de
mate waarin een variabele varieert, schommelt om een bepaalde; dit wordt ook vaak spreiding genoemd. Variantie is
een bepaalde maat om die variabiliteit uit te drukken. Er bestaan ook andere spreidingsmaten, maar deze is de meest
gebruikte. Meestal is het verklaren van de variabiliteit gebaseerd op de splitsing van de te verklaren variantie in een
verklaard en een onverklaard deel; in Leary’s woorden (p. 43): Total variance = systematic variance + error
variance.
De te verklaren of totale variantie is alle variantie van de afhankelijke of responsevariabele die we willen verklaren.
Het deel daarvan dat kan worden toegeschreven aan een of andere onafhankelijk of verklarende variabele is de
verklaarde variantie (‘systematic’ bij Leary), en het deel dat dan nog overblijft is de onverklaarde rest, ook wel residu
of foutenvariantie genoemd (‘error’ bij Leary). Merk overigens op dat de berekeningen niet via de varianties, maar via
de overeenkomstige kwadratensommen (sums of squares) gaan; het zou misschien correcter zijn om te spreken over
verklaarde kwadratensom, maar we houden ons aan de gangbare uitdrukking verklaarde variantie.
Elke variantie is gebaseerd op een som van gekwadrateerde afwijkingen die we kort aanduiden als kwadratensom
(Sum of Squares, SS). De afwijkingen zijn bij de totale kwadratensom de verschillen tussen de observaties en het
gemiddelde van alle observaties. In formulevorm:
SS(totaal) =
(y
ij  y )
2
i, j
Dus bereken het gemiddelde, trek dat van alle observaties af (d.i.: bereken de afwijkingen), kwadrateer de
afwijkingen en tel de gekwadrateerde afwijkingen bij elkaar op. (Als je het resultaat door n-1 deelt krijg je de
variantie).
Ook de verklaarde variantie is een som van gekwadrateerde afwijkingen. Het gaat nu echter om wat de verklarende
variabele zegt over de afhankelijke: welk deel van de afwijkingen kan worden toegeschreven aan de verklarende
variabele? Als schatting van de waarde van de afhankelijke variabele voor een bepaalde categorie van de verklarende
variabele kunnen we de gemiddelde score in die categorie gebruiken. De informatie die de verklarende variabele ons
geeft over de afhankelijke variabele is het verschil tussen dat groepsgemiddelde en het gemiddelde van alle
observaties (als we niks zouden weten zou dat een verstandige schatting zijn); dat vertelt hoeveel de betreffende
groep gemiddeld hoger of lager scoort. Die verschillen zijn de ‘verklaarde afwijkingen’. De betreffende kwadratensom
is dus:
SS(tussen) =
 ( y  y)
i
2
i, j
‘Tussen’ is een afkorting voor ‘tussengroepen’: deze kwadratensom geeft aan hoe groot de verschillen tussen de
groepen zijn; dit is dus de verklaarde of ‘systematic’ kwadratensom. Bereken de groepsgemiddelden, trek daarvan het
algemene gemiddelde af, kwadrateer en tel op over alle individuen. Er zijn maar net zoveel verschillende getallen als
er groepen (is categorieën van de verklarende variabele) zijn, maar elk van die getallen telt één keer voor elk individu
in een groep.
Wat weten we nu nog niet? Met de groepgemiddelden zitten we in het algemeen dichter bij de waarden van de
individuele personen, maar helemaal raak zal die schatting meestal niet wezen. Het verschil tussen de individuele
scores en de groepsgemiddelden is dus wat we nog niet weten, de onverklaarde rest. Je kunt ook zeggen: zoveel
zitten we er bij een bepaald individu naast als we zijn score schatten op basis van de verklarende variabele, vandaar
de term ‘foutenvariantie’. Op die verschillen is de onverklaarde kwadratensom gebaseerd:
SS(binnen) =
(y
ij  yi )
2
i, j
‘Binnen’ is de afkorting van ‘binnengroepen’; het gaat hier om de verschillen die er binnen de groepen nog zijn. Trek
van elke individuele score het bijbehorende groepsgemiddelde af, kwadrateer die afwijking en tel op.
Nog een opmerking over de notatie. Leary en ook Moore en McCabe laten indexen bij sommeringen zoveel mogelijk
weg; als maar duidelijk is waarover je moet sommeren is dat geen probleem, en dat is altijd over alle observaties.
Pagina 7
Thomas Jansen (0878650)
Pagina 8
Thomas Jansen (0878650)
Pagina 9
Thomas Jansen (0878650)
Pagina 10
Thomas Jansen (0878650)
Pagina 11
Thomas Jansen (0878650)
Pagina 12
Week 2, observeren en meten
Thomas Jansen (0878650)
Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 3: The Measurement of Behavior
In 1905 ontwikkelde Alfred Binet (1857-1911) een voor die tijd nieuwe manier om intelligentie te kunnen meten. Tot
die tijd werd vooral ‘Craniometry’ gebruikt voor het meten van intelligentie waarbij de grootte en vorm van het hoofd
als maat voor intelligentie werd aangenomen. Binet werd sceptisch ten aanzien van het meten van intelligentie aan de
hand van uiterlijke kenmerken en hij ontwikkelde een serie korte taken waarvoor onder andere begrip en redeneren
nodig waren. Toen hij drie jaar later zijn tests herzag stelde Binet een nieuwe index voor intelligentie voor die
gebaseerd was op een leeftijdsniveau voor elk van de taken. Aan de hand van de taken werd een mentale leeftijd
bepaald. Later raadde de Duitse psycholoog William Stern aan om de mentale leeftijd van een kind (zoals Binet die
bepaalde) te delen door de lichamelijke leeftijd. Hiermee creëerde hij het intelligentie quotiënt, ofwel IQ.
Alle gedragsonderzoek vereist het meten van responsen op het gebied van gedrag, cognitie, emotie of fysiologie.
De manieren van meten in gedragsonderzoek zijn grofweg in te delen in drie categorieën:
Observationeel: Het direct observeren van gedrag; alles dat je kunt zien of horen, direct of indirect via bijvoorbeeld
een videotape.
Fysiologisch: Onderzoekers die geïnteresseerd zijn in de relatie tussen lichamelijke processen en gedrag gebruiken
fysiologische metingen. Directe observaties als reflexen of blozen horen tot de mogelijkheden, maar ook indirecte
observaties via apparatuur zoals het meten van de hartslag, het maken van een EEG of het meten van de
hormoonspiegel behoren tot de mogelijkheden.
Zelfrapportage: Zelfrapportage gaat uit van de antwoorden die personen geven op vragenlijsten en interviews. Een
zelfrapportage kan cognitief zijn als het er om gaat hoe de persoon denkt. Het kan ook affectief zijn als het om het
gevoel van de persoon gaat of gedragsmatig als het om het gedrag van de persoon gaat.
Omdat metingen zo belangrijk zijn is er een compleet specialisme gewijd aan het bestuderen van psychologisch meten
en de ontwikkeling van (meet)instrumenten.
Op welke manier er ook gemeten wordt, het doel is altijd het toekennen van getallen aan responsen zodat er mee
gerekend kan worden. In meer detail komt het er op neer dat bij het observeren via waarnemingen individuen in
klassen of categorieën worden ingedeeld. Om dit te kunnen doen moeten er variabelen zijn. Een variabele is datgene
wat varieert. Het is een verzameling waarden of categorieën. Voorwaarde is dat deze variabelen uitputtend en
wederzijds uitsluitend (exclusief) zijn. In dat geval ka er worden gemeten. Bij het meten worden aan de variabelen
getallen toegekend. De rekenkundige kwaliteit van deze getallen wordt uitgedrukt met het meetniveau.
Onderzoekers onderscheiden vier verschillende meetniveaus:
Nominaal: De getallen zijn slechts labels waarbij maar weinig bewerkingen mogelijk zijn. Geslacht wordt bijvoorbeeld
op een nominale schaal gemeten, waarbij jongens de waarde “1” krijgen en de meisjes waarde “2”.
Ordinaal: Bij de ordinale schaal is alleen de volgorde van de getallen van betekenis. Bijvoorbeeld een wedstrijd
waarbij het applaus gemeten wordt om de winnaar te bepalen. Hoewel het mogelijk is om op ordinale schaal te
bepalen wie de winnaar is, is het onmogelijk om te bepalen hoe de verschillen tussen de deelnemers zijn.
Interval: De intervalschaal is ook te vergelijken met een liniaal. Gelijke afstanden tussen de getallen geven gelijke
afstanden tussen de eigenschappen weer. Omdat een intervalschaal geen absoluut nulpunt om de afwezigheid van een
eigenschap weer te geven kan er niet mee gerekend worden. Het is niet zo dat 100 graden Celsius op een
thermometer twee keer zo warm is als 50 graden Celsius.
Ratio: Het hoogst mogelijk meetniveau is de ratioschaal. Omdat de ratioschaal een absoluut nulpunt heeft zijn alle
mogelijke rekenkundige bewerkingen mogelijk. Eenheden zoals gewicht worden gemeten op de ratioschaal.
Onderzoekers prefereren het gebruik van het hoogst mogelijke meetniveau omdat dit de meest exacte informatie geeft
over de reactie of eigenschappen van de personen.
Bij meetresultaten moet de variabiliteit van hetgeen wat gemeten wordt zo goed mogelijk worden weergegeven. Het
meest ideale zou zijn dat de variabiliteit in de getallen overeenkomt met de variabiliteit van hetgeen gemeten wordt
(de eigenschappen). Leary noemt dit betrouwbaarheid en omvat bij hem ook validiteit. Betrouwbaarheid heeft
betrekking op de betrouwbaarheid van een meetinstrument.
In het algemeen zijn er twee aspecten van kwaliteit te onderscheiden:
Betrouwbaarheid: Bij betrouwbaarheid draait het erom of de variabiliteit van de getallen overeenkomt met de
werkelijke variabiliteit in hetgeen er gemeten wordt. Er wordt hierbij dus gekeken naar de aan- of afwezigheid van
toevalsfouten
Validiteit: Bij validiteit draait het erom of de variabiliteit van de getallen overeenkomt met de variabiliteit in wat we
bedoelen te meten. Er wordt hierbij gekeken naar de aan- of afwezigheid van systematische fouten.
Pagina 13
Thomas Jansen (0878650)
Wat betreft geobserveerde score kan gezegd worden: Geobserveerde score = systematische (ware) score +
toevalsfout (meetfout). De ware score is de score die een respondent had behaald als onze meting perfect was
geweest en we in staat waren geweest te meten zonder fouten. Een probleem is echter dat praktisch alle metingen
meetfouten (of liever toevalsfouten) bevatten. Toevalsfouten kunnen alle kanten op werken en kunnen zichzelf
daardoor opheffen. Een manier om toevalsfouten op te sporen is door veelvuldige herhaling van de meting.
Er zijn een vijftal bronnen van toevalsfouten aan te wijzen:
Transiënte toestanden van de respondent: stemming, vermoeidheid, etc.
Stabiele eigenschappen van de respondent: paranoia, intelligentie, etc.
Situationele factoren: gedrag van de onderzoeker, temperatuur, licht, etc.
Eigenschappen van het instrument: onduidelijke vragen, lay-out, etc.
Fouten gemaakt door de onderzoeker: slordig aflezen, typfouten, etc.
Zoals hierboven vermeld staat komt de geobserveerde score overeen met de optelling van de systematische score en
de toevalsfout. Dit geldt voor de meting van een enkele respondent. Wanneer de scores van meerdere respondenten
wordt genomen en de variantie wordt berekend geldt voor de variantie van deze set scores het volgende: Totale
variantie in een set scores = Variantie van de ware scores + variantie van meetfouten.
Om de betrouwbaarheid van een meting te bepalen wordt de volgende berekening uitgevoerd:
betrouwbaa rheid 
systematische (ware score) variantie
Totale (geobserve erde)variantie
Dit betrouwbaarheidscoëfficiënt loopt van 0 tot 1. Een betrouwbaarheidscoëfficiënt van 0 geeft aan dat er geen
systematische variantie is en de meting dus enkel uit meetfouten bestaat. Een betrouwbaarheidscoëfficiënt van 1 geeft
aan dat er enkel systematische variantie is en geen meetfouten gemaakt zijn. Als vuistregel wordt gebruikt dat een
meting betrouwbaar is als het betrouwbaarheidscoëfficiënt een waarde heeft van minimaal 0.7. Dit houdt in dat 70%
van de totale variantie systematisch is en 30% van de totale variantie toevalsfouten zijn.
Onderzoekers gebruiken drie methodes om de betrouwbaarheid van hun metingen in te schatten: Test-hertest
betrouwbaarheid, Paralleltest betrouwbaarheid en Inter-item betrouwbaarheid. Alle drie de methodes zijn gebaseerd
op dezelfde logica: Twee metingen van hetzelfde gedrag, object of gebeurtenis moeten gelijke scores opleveren. Als
twee metingen een verschillend resultaat opleveren moet er dus sprake zijn van toevalsfouten. Aan de hand van mate
waarin metingen dezelfde scores opleveren kunnen we het deel van de totale variantie die berust op systematische
variantie bepalen waarmee we het betrouwbaarheidscoëfficiënt kunnen bepalen.
De meeste schattingen van betrouwbaarheid worden verkregen door de correlatie tussen de twee metingen te
bepalen. Een correlatiecoëfficiënt is een maat om de samenhang weer te geven op een schaal van 0 tot 1 (met
betrekking op betrouwbaarheid). Het kwadraat van het correlatiecoëfficiënt levert de proportie verklaarde variantie op.
Voor nu moet aangenomen worden dat de correlatie tussen twee metingen (test-hertest) overeenkomt met het
kwadraat van de correlatie tussen systematische score en geobserveerde score.
Er zijn, zoals hierboven vermeld, meerdere manieren om tot een betrouwbaarheidscoëfficiënt te komen:
Test-hertest betrouwbaarheid: Is gebaseerd op de consistentie van de respondenten over een bepaalde tijd. Er
wordt tweemaal gemeten en de overeenstemming tussen de metingen wordt bepaald. Deze methode is betrouwbaar
tenzij hetgeen er gemeten wordt snel verandert (honger, vermoeidheid) of de eerste meting invloed heeft op de
tweede meting.
Paralleltest betrouwbaarheid: Als test-hertest niet mogelijk is kan gebruik worden gemaakt van een parallel
instrument. Een parallel instrument is een instrument dat overeenkomt met het andere instrument. Het probleem wat
hier kan ontstaan is dat de instrumenten ook echt parallel moeten zijn.
Inter-item betrouwbaarheid: Inter-item betrouwbaarheid wordt ook wel interne consistentie genoemd en is
gebaseerd op de onderlinge samenhang tussen items in een instrument. Persoonlijkheidstoetsen zijn een voorbeeld
van zo een instrument. Er zijn drie varianten van inter-item betrouwbaarheid:
Item-totaal correlatie: Hierbij wordt de correlatie tussen een specifiek item en de som van alle andere items
op de schaal bepaald. Over het algemeen willen onderzoekers dat de item-totaal correlatie tussen elk item en
de som van alle items een waarde van boven de 0.30 heeft.
Split-half betrouwbaarheid: Hierbij deelt de onderzoeker de items van een schaal in twee sets. Vervolgens
wordt de correlatie van de som van de items in elke set berekend. Deze scores moeten een correlatie van
tenminste 0.70 behalen om als betrouwbaar te kunnen worden aangemerkt.
Cronbach’s alpha coëfficiënt: Dit komt overeen met het gemiddelde van alle mogelijk split-half
betrouwbaarheden. Dit is een zeer populaire methode en zal daarom in week 3 uitgebreider behandeld worden.
De betrouwbaarheid van metingen kan worden verhoogd door het elimineren van toevalsfouten. Er zijn een aantal
manieren waarop dit kan worden bereikt:
- Het standaardiseren van het afnemen van de scores.
- Maak instructies en vragen zo helder mogelijk en controleer dit eventueel met een pilot-study.
- Train de observatoren.
Pagina 14
-
Thomas Jansen (0878650)
Minimaliseer het maken van fouten bij het coderen.
Tenslotte bestaat betrouwbaarheid niet alleen voor een instrument of een meting. Er bestaat ook betrouwbaarheid
van onderzoek. Dit wordt gecontroleerd door het complete onderzoek te repliceren.
Validiteit van een meting heeft betrekking op de mate waarin gemeten wordt wat het bedoeld is te meten en niet iets
anders. Er was al eerder behandeld dat de geobserveerde score overeenkomt met een optelling van de systematische
(ware) score en de toevalsfout (meetfout), oftewel:
Geobserveerde score = systematische score + toevalsfout
Nu wordt ook de systematische score opgesplits:
Systematische score = ware score + systematische fout (bias)
En ziet de geobserveerde score er dus als volgt uit:
Geobserveerde score = (ware score + systematische fout) + toevalsfout
Er wordt onderscheid gemaakt in verschillende soorten validiteit:
Face validity: Lijkt het instrument valide naar het oordeel van de onderzoeker of participanten. Dit leidt ertoe dat
zowel onderzoeker als participant overtuigd raken van het nut van de meting. Er zijn echter een aantal problemen.
Een instrument kan valide lijken, maar hoeft het daardoor nog niet te zijn. Iets wat niet valide lijkt kan het toch zijn.
Soms willen onderzoekers het doel van hun test verbergen en ontwerpen hiervoor tests die niet valide lijken om
daarmee hun doel te verbergen.
Inhoudsvaliditeit (content validity): Hierbij wordt gekeken of het gehele inhoudelijke domein wordt gedekt door het
instrument (dit staat overigens niet in Leary en wordt uitgebreid behandeld in aanvulling 2.1).
Construct validiteit: Veel gedragsonderzoek is gebaseerd op hypothetische constructen, dingen die niet direct
geobserveerd kunnen worden maar afgeleid worden van empirisch bewijs. Voorbeelden hiervan zijn bijvoorbeeld
intelligentie, aantrekkingskracht of status. Hierbij moet de empirische samenhang overeenkomen met de theoretische
samenhang. Een voorbeeld hiervan is dat scores op het gebied van zelfvertrouwen positief gerelateerd moeten zijn
met scores op het gebied van zelfverzekerdheid en optimisme, maar negatief gerelateerd aan bijvoorbeeld
onzekerheid en angst. Er is sprake van construct validity als een meting correleert met metingen waarmee het zou
moeten correleren (convergente validiteit) en niet correleert met metingen waarmee het niet zou moeten correleren
(discriminante validiteit).
Criterium validiteit: Bij criterium validiteit draait het erom of de meting ons in staat stelt respondenten te
onderscheiden op basis van een bepaald gedragscriterium. Is de CITO-toets bijvoorbeeld in staat om onderscheid te
maken tussen leerlingen die het goed zullen doen op het voortgezet onderwijs en leerlingen die dat niet zullen. Er zijn
twee varianten van criterium validiteit:
Concurrente validiteit: Het criteriumgedrag wordt tegelijkertijd met de afname van het instrument gemeten.
Predictieve validiteit: Het criteriumgedrag bevind zich nog in de toekomst (zoals bij de CITO-toets).
Validiteit wordt ook gebruikt voor onderzoeken in plaats van metingen:
Statistische validiteit: Zijn de berekeningen of data-analyse correct?
Interne validiteit: In hoeverre zijn alternatieve verklaringen voor het resultaat uitgesloten?
Externe validiteit: Is het resultaat ook geldig buiten de onderzochte groep? (Generaliseerbaarheid)
Construct validiteit: Dit is gelijk aan instrument validiteit.
Pagina 15
Thomas Jansen (0878650)
Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 4: Approaches to Psychological Measurement
Er zijn veel verschillende manieren om aan empirische gegevens te komen. Leary onderscheidt de volgende
dataverzamelingsmethoden:
1.
2.
3.
4.
5.
Observatie methoden
Fysiologische methoden
Zelfrapportage methoden
Archiefdata methoden
Inhoudsanalyse methoden (Content analyses)
Observatie methoden: Hierbij gaat het om de directe observatie van gedrag. Hierbij zijn er in alle gevallen drie
beslissingen om te nemen:
De setting: Natuurlijk of kunstmatig.
Bij natuurlijke observatie wordt het gedrag geobserveerd terwijl het zich op natuurlijke wijze
voordoet zonder dat de onderzoeker hier inbreuk op maakt. Bij natuurlijke observatie neemt de
onderzoeker zelf deel aan de situatie wat mogelijke gevaren oplevert. Allereerst is er de mogelijkheid
van identificatie met de groep waardoor subjectiviteit kan ontstaan. Ten tweede kan de onderzoeker
het gedrag beïnvloeden met zijn aanwezigheid.
Bij kunstmatige observatie wordt het gedrag geobserveerd in een situatie die door de onderzoeker
is gecreëerd. Hier zijn twee types te onderscheiden. Allereerst het laboratoriumonderzoek waarbij
de observatie plaats kan vinden in een gecontroleerde omgeving. Daarnaast is er nog het
veldexperiment waarbij er een situatie in de echte wereld wordt gecreëerd om observaties te
kunnen doen.
(Non)disguised: Weten de deelnemers dat ze worden geobserveerd of niet?
Als een onderzoek openlijk wordt uitgevoerd bestaat er de mogelijkheid dat dit reacties teweeg
brengt bij de participanten. Als onderzoekers bang zijn voor de gevolgen hiervan kunnen ze overgaan
op verborgen onderzoek.
Verborgen onderzoek geeft echter ethische bezwaren (the right of informed consent). Hiervoor zijn
een aantal mogelijke oplossingen. Allereerst kan een onderzoek half verborgen worden uitgevoerd.
De participanten weten dat ze deelnemen aan een onderzoek, maar niet de exacte details ervan. Ten
tweede is het mogelijk om indirecte observatie uit te voeren door bijvoorbeeld gebruik te maken van
mensen die de participanten goed kennen en daardoor informatie over het gedrag kunnen
verstrekken. Als laatste is het mogelijk om Unobtrusive measures toe te passen. Hierbij wordt niet
het gedrag zelf, maar de gevolgen van het gedrag gemeten. Bij drankgebruik wordt bijvoorbeeld niet
gevraagd hoeveel de participanten drinken, maar wordt het aantal legen flessen in de prullenbak
geteld.
Type behavioral recording: Hoe wordt het gedrag precies vastgelegd?
Leary onderscheidt vier manieren om gedrag vast te leggen:
Narrative records: Een volledige beschrijving van het gedrag van een participant
Checklist: Het bijhouden van het aantal keer dat een bepaald gedrag zich voordoet
Tijdsmaten: Wanneer een bepaald gedrag voorkwam en hoe lang het duurde
Observationele rating scales: Het bekendste voorbeeld hiervan is de Likert scale (score 1-5)
Fysiologische methoden: Fysiologische methoden hebben betrekking op alle gedrag, gedachten en emoties die zijn
ontstaan uit processen in de hersenen en andere delen van het zenuwstelsel. Meestal worden deze metingen niet op
zichzelf gebruikt maar als indicatie van mentale of emotionele activiteit. Leary onderscheidt vier soorten:
Neurale activiteit: Wordt gemeten via een EEG of EMG.
Autonome zenuwstelsel: Het autonome zenuwstelsel stuurt onwillekeurige responsen en kan worden
gemeten met een ECG of door het meten van de bloeddruk of huidweerstand.
Bloed analyse: Het meten van bijvoorbeeld de hormoonspiegel of de hoeveelheid witte bloedlichaampjes.
Open reacties: Het meten van bijvoorbeeld blozen of seksuele opwinding.
Zelfrapportage methoden: Gedragsonderzoekers prefereren het direct observeren van gedrag, maar praktische en
ethische bezwaren maken dit soms onmogelijk. Zelfrapportage is op te delen in vragenlijsten en interviews. Over
deze methode moet het een en ander gezegd worden.
Het formuleren van goede vragen:
o
Wees specifiek, precies, eenvoudig en kort. Hierdoor blijven de vragen voor iedereen begrijpelijk.
o
Doe geen onterechte aannames, de respondenten moeten kunnen antwoorden.
o
Geef noodzakelijke informatie voorafgaand aan de vraag.
o
Stel geen dubbelloops vragen. Een dubbelloops vraag stelt eigenlijk twee vragen, maar geeft de
respondent slechts een mogelijkheid tot antwoorden. “Eet u gezond en sport u regelmatig?” is een
voorbeeld van een dubbelloops vraag.
o
Probeer de vragen uit in een pilot-study.
Verschillende mogelijke reponse formats:
Vrij antwoord format (open vraag):

Respondent bepaalt het soort antwoord en hoe uitgebreid het antwoord is

Antwoorden moeten worden gecodeerd en geanalyseerd
Rating scale format:

5-punts of 7-punts schalen, met of zonder labels, etc.

Ontzettend veel gebruikt omdat het makkelijk scoren is voor de respondent.
Multiple choice of fixed alternative response format
Mogelijke bronnen van vragenlijsten:
o
Tijdschriftenartikelen
o
Bestaande handboeken over instrumenten
o
Databases op het internet
o
Commerciële uitgaven
Pagina 16
Thomas Jansen (0878650)
Goede manieren van interviewen:
o
Interview in een vriendelijk atmosfeer en toon belangstelling.
o
Verberg persoonlijke reacties.
o
Organiseer een schema ten behoeve van rapportage en maak een logische volgorde.
o
Stel de vragen letterlijk zoals ze zijn verwoord.
o
Stuur de respondent niet bij het beantwoorden van een vraag.
Oplossingen voor problemen:
Sociale wenselijkheid:

Vragen neutraal formuleren

Anonimiteit garanderen

Indien mogelijk observeren
Ja-knikken en nee-schudden

Opsporen en tegengaan door wisselende richting van vragen
Archiefdata methoden: Archiefdata is eerder door anderen verzameld. Een nadeel van de archiefdata methode is
dat de onderzoeker niet kan bepalen wat er geobserveerd wordt en welke variabelen er worden gebruikt.
Inhoudsanalyse methoden: Inhoudsanalyse kan in allerlei onderzoek nodig zijn en heeft tot doel om woorden,
frasen of andere eenheden in tekst te coderen in zinvolle categorieën.
Dit is nodig voor inhoudsanalyse:
o
De eenheden moeten worden bepaald.
o
Het kiezen of ontwerpen van een coderingssysteem. Hierbij kan worden gekozen tussen:

Eenheden classificeren in wederzijds uitsluitende categorieën.

Iedere eenheid op een of meer rating scales beoordelen.
o
Er moeten coderingsregels opgesteld worden
Bij beoordeling van het materiaal wordt het volgende gebruikt:
o
Een eventueel reeds bestaand coderingssysteem.
o
Gecomputeriseerde systemen voor inhoudsanalyse.
o
Software om met de computer een eigen systeem te maken.
Pagina 17
Thomas Jansen (0878650)
Aanvulling 2.1 in syllabus; Variabelen
Een variabele, iets wat varieert, is een verzameling waarden of categorieën. Deze woorden worden vaak door elkaar
gebruikt, maar strikt genomen spreken we bij numerieke variabelen over waarden, en bij categorische variabelen over
categorieën. Bij het observeren moet aan elke observatieëenheid één en niet meer dan één waarde worden
toegekend, met andere woorden: de verzameling waarden moet uitputtend en wederzijds exclusief zijn.
Uitputtend betekent dat voor iedere observatieëenheid tenminste één waarde moet zijn die van toepassing is.
Wederzijds exclusief betekent dat er voor elke observatieëenheid niet meer dan één waarde van toepassing is.
Samen garanderen ze dus dat er voor elke observatieëenheid precies één waarde is.
Als voldaan is aan de voorwaarde dat de variabele wederzijds uitputtend en exclusief is, kun je vervolgens het
meetniveau vaststellen door je de volgende dingen af te vragen:
- Is er een betekenisvolle volgorde van de waarden? Zonee: de variabele is nominaal.
Zoja:
- Hebben de verschillen tussen de waarden een betekenis? Het makkelijkst is, te bekijken of verschillen die
numeriek even groot zijn ook in de werkelijkheid ‘even grote stappen’ vormen. Zonee: de variabele is
ordinaal.
Zoja:
- Heeft de nul een bepaalde betekenis? Vaak omdat het de ondergrens is of omdat het een zinvol midden van de
schaal is (‘niet eens, niet oneens’ bijvoorbeeld). Zonee: Het meetniveau is niet hoger dan interval.
Zoja:
- Heeft de eenheid een bepaalde betekenis? Bijvoorbeeld omdat het het maximum is, zoals bij kansen. Zonee:
de variabele heeft een ratio meetniveau.
Zoja:
- De variabele is op een absoluut meetniveau gemeten.
Dit laatste meetniveau wordt door Leary niet genoemd; voorbeelden ervan zijn kansen en de correlatiecoëfficiënt. Bij
variabelen op absoluut meetniveau kun je onmiddellijk aan de waarden zien of ze groot of klein zijn.
Een opmerking over terminologie. De bovengenoemde termen numeriek en categorisch zijn verwant aan de
meetniveaus. We noemen een variabele categorisch als het meetniveau laag is (nominaal of ordinaal) en het aantal
waarden klein, en anders numeriek. Voor de meeste mensen geldt: nominaal en ordinaal zijn categorisch; interval en
hoger numeriek. Verwante termen zijn kwantitatieve (numerieke) en kwalitatieve (categorische) variabelen.
Pagina 18
Thomas Jansen (0878650)
Aanvulling 2.1 in syllabus; De kwaliteit van instrument en conclusie
Een vorm van validiteit die niet door Leary wordt genoemd is inhoudsvaliditeit (content validity). Dit heeft
betrekking op de situatie dat een instrument bedoeld is om een bepaald gebied, het domein, van een begrip te
dekken. Neem bijvoorbeeld intelligentie opgevat al een algemene mentale vaardigheid. Het domein wordt dan
gevormd door alle mentale vaardigheden die er zijn: verbale, reken- en wiskundige, logisch denken, ruimtelijk inzicht
enzovoorts. Als iemand dan een intelligentietest construeert die alleen uit rekensommen zou bestaan, zou de kritiek
zijn: het domein van het begrip wordt niet door deze test gedekt, hij is veel te eenzijdig, met andere woorden: de
inhoudsvaliditeit deugt niet. Je kunt de inhoudsvaliditeit systematisch garanderen als je tenminste in staat bent een
opsomming te maken van wat tot het domein behoort. Daarna kun je simpelweg zorgen dat elk van de dingen op je
lijst (evengoed) vertegenwoordigd is in het instrument.
Een tweede aspect van betrouwbaarheid/validiteit dat niet door Leary wordt genoemd heeft betrekking op de kwaliteit
van een compleet onderzoek; zijn opmerkingen slaan op de kwaliteit van een bepaald meetinstrument. Ook bij een
compleet onderzoek kun je spreken over de betrouwbaarheid en validiteit van het geheel, de conclusie dus eigenlijk.
Wat de betrouwbaarheid betreft gaat het dan weer om de vraag of het resultaat een toevalstreffer was of niet, dus of
herhaling hetzelfde resultaat oplevert. Dit is iets dat onderzocht kan worden door het gehele onderzoek (letterlijk) nog
eens uit te voeren; we spreken dan van een replicatie.
De validiteit van een geheel onderzoek wordt meestal besproken aan de hand van een lijstje van Cook & Campbell
(1979) dat met name bedoeld is voor onderzoek dat probeert causale relaties aan te tonen (experimenten dus), maar
ook op andere onderzoeken van toepassing is. Dat lijstje is:
statistische conclusie validiteit; de eerste vraag is of het verband tussen onafhankelijke en afhankelijke
variabele op statistisch correcte wijze is aangetoond, bijvoorbeeld of aan de voorwaarden voor gebruik van de
correlatiecoëfficiënt is voldaan. In ruimere zin kan de term gebruikt worden voor de beoordeling van de
statistische correctheid van analyses.
Interne validiteit; als de statistische conclusie validiteit in orde is weten we dat er een verband is tussen
afhankelijke en onafhankelijke variabele, maar daarmee is nog geen causaal verband aangetoond. We
moeten ook aannemelijk maken dat de tijdsvolgorde klopt (oorzaak moet voorafgaan aan gevolg) en dat er
geen andere variabelen (alternatieve verklaringen, rivaliserende hypothesen) voor de gevonden samenhang
verantwoordelijk zijn.
Externe validiteit; als de statistische conclusie validiteit in orde is, en alternatieve verklaringen zijn
uitgesloten, is aannemelijk gemaakt dat in dit onderzoek een causaal proces is opgetreden. De volgende
vraag is, of dat bewijst dat dat causale proces ook in andere omstandigheden en bij andere personen
optreedt, met andere woorden: of het resultaat generaliseerbaar is.
Constructvaliditeit; als de eerste drie validiteiten in orde zijn is aannemelijk gemaakt dat er tussen de
constructen zoals die zijn gemeten (construct-zoals-bepaald, de operationele definitie) een causale relatie
bestaat die generaliseerbaar is. De laatste vraag is, of de constructen-zoals-bepaald overeenkomen met de
constructen-zoals-bedoeld (de conceptuele definities) dus of de gebruikte instrumenten valide zijn. Dit
omvat alle overwegingen die Leary noemt over de validiteit van instrumenten, dus voert ons terug naar zijn
verhaal.
De min of meer complete lijst van alle betrouwbaarheden en validiteiten is dus:
-
-
-
Wat betreft de betrouwbaarheid van instrumenten:
a. Test-hertest betrouwbaarheid
b. Paralleltest betrouwbaarheid
c. Inter-item betrouwbaarheid, waaronder vallen:
o
Split-half betrouwbaarheid
o
Cronbach’s alpha
Wat betreft de validiteit van instrumenten:
d. Face validity
e. Inhoudsvaliditeit
f.
Criteriumvaliditeit, waaronder vallen:
o
Concurrente validiteit
o
Predictieve validiteit
g. Constructvaliditeit waar in ruime zin alle theoretische overwegingen onder vallen, maar in meer concrete
zin met name de:
o
Convergente validiteit
o
Discriminante validiteit
Wat betreft betrouwbaarheid van een geheel onderzoek:
h. Repliceerbaarheid van het resultaat
Wat betreft validiteit van een geheel onderzoek:
i.
Statistische conclusie validiteit
j.
Interne validiteit
k. Externe validiteit
l.
Construct validiteit (is d tot en met g)
Pagina 19
Thomas Jansen (0878650)
Pagina 20
Thomas Jansen (0878650)
Pagina 21
Thomas Jansen (0878650)
Pagina 22
Thomas Jansen (0878650)
Pagina 23
Thomas Jansen (0878650)
Pagina 24
Thomas Jansen (0878650)
Week 3, Interne consistentie; Beschrijvend Onderzoek
Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 5: Descriptive Research
Het doel van beschrijvend onderzoek (descriptive research) is het op een systematische en precieze manier
beschrijven van eigenschappen of gedrag in een bepaalde populatie. Beschrijvend onderzoek is niet ontworpen voor
het testen van hypotheses, maar is puur bedoeld om informatie te beschrijven. In Leary worden drie soorten
beschrijvend onderzoek vermeld.
Survey: Een survey is de meest voorkomende vorm van beschrijvend onderzoek. Bij een survey wordt gebruik
gemaakt van een vragenlijst of een interview waarbij meestal een grote steekproef wordt genomen. Er zijn vier
varianten van een survey:
Cross-sectioneel: Hier wordt een enkele groep, een doorsnede van de populatie, ondervraagd.
Opeenvolgende onafhankelijke steekproeven: Twee of meer samples van de respondenten beantwoorden
dezelfde vragen op verschillende tijden. Dit wordt gebruikt om verandering te bestuderen. Het blijft echter een
belangrijke vraag of de steekproeven goed vergelijkbaar zijn.
Longitudinale of panel survey: Hierbij wordt een groep mensen meerdere malen ondervraagd. Ook deze
vorm wordt gebruikt om verandering te bestuderen. Hierbij is de steekproef gelijk bij iedere ondervraging. Het
levert wel het probleem op dat er sprake kan zijn van uitval binnen de groep personen.
Internet survey: Deze vorm staat nog in zijn kinderschoenen. Er zijn voordelen aan internet surveys. Het is
namelijk relatief goedkoop, het is makkelijk voor de respondenten, het voorkomt invoerfouten bij de
onderzoekers en het maakt het mogelijk om mensen te ondervragen die moeilijk te bereiken zijn omdat ze
bijvoorbeeld erg ver weg zijn. De nadelen zijn echter dat je als onderzoeker geen controle hebt over de selectie
of steekproef. Je weet niet wie er geantwoord heeft en hoe vaak dit is gebeurd.
Demografisch onderzoek: Bij demografisch onderzoek gaat het om het registreren van gebeurtenissen die bij het
leven horen. Denk hierbij aan geboorte, huwelijk, scheiding, werk, migratie of dood.
Epidemiologisch onderzoek: Deze vorm van beschrijvend onderzoek wordt gebruikt om te beschrijven hoe ziektes
bij verschillende groepen mensen voorkomen.
Beschrijvend onderzoek speelt in de psychologie geen grote rol maar is wel nuttig om onderwerpen, vraagstellingen en
problemen op te sporen en hypotheses te suggereren.
Omdat het praktisch vaak niet uitvoerbaar is om een volledige populatie te onderzoeken maken onderzoekers gebruik
van een subset van de populatie, een zogenaamde steekproef. Het is ontzettend belangrijk om een goede steekproef
te trekken uit een populatie, want zowel beschrijvend als toetsend onderzoek staat of valt met de kwaliteit van de
steekproef. Een slechte steekproef is niet representatief voor de populatie en geeft daardoor geen goed beeld van de
populatie.
Een steekproef komt nooit volledig overeen met de populatie en de resultaten uit een steekproef zijn daarom altijd
deels incorrect. In de statistiek wordt daarom de error of estimation (schattingsfout) of margin of error
(foutmarge) bepaald. Bij de margin of error gaat het om de range waarin met een bepaalde zekerheid de werkelijke
waarde ligt wat weer afhankelijk is van de steekproef, de populatie, spreiding, gewenste zekerheid en precisie.
Er zijn twee mogelijkheden bij het trekken van steekproeven. Het is mogelijk om een kanssteekproef (probability
sample) te trekken of gebruik te maken van het Epsem (Equal probability selection method) design. Bij een
kanssteekproef is de kans bekend dat een bepaald individu getrokken wordt, terwijl bij een Epsem steekproef de kans
dat een individu getrokken wordt voor elk individu even groot is. Dit wordt ook een aselecte steekproef genoemd.
Er zijn vier types kanssteekproeven te onderscheiden. Hierbij wordt gebruik gemaakt van een steekproefkader
(Sampling frame). Dit is een lijst van alle individuen in de populatie.
Simple Random Steekproef (SRS): Hierbij worden individuen willekeurig uit de populatie geselecteerd. Vaak wordt
hierbij gebruik gemaakt van een table of random numbers.
Gestratificeerde Random Steekproef: Hierbij worden eerst strata gemaakt. Een stratum is een subset van de
populatie die dezelfde specifieke eigenschappen deelt. Bijvoorbeeld het onderverdelen van de populatie in
leeftijdscategorieën. Vervolgens wordt uit elk stratum een simple random steekproef getrokken. In veel gevallen
zorgen de onderzoekers er ook nog voor dat het aantal samples dat uit een stratum wordt getrokken overeenkomt
met de proportie van van het stratum ten opzichte van de totale populatie. Dit heet een proportionate sampling
method.
Cluster sampling: Bij deze vorm van steekproef trekken worden eerst clusters gemaakt die gebaseerd zijn op
groepen die op natuurlijke wijze voorkomen. Een voorbeeld hiervan is de geografische ligging. Als een onderzoeker
een sample wil trekken van basisschoolkinderen in Zui-Holland worden er eerst een aantal scholen geselecteerd die in
Zuid-Holland liggen. Vervolgens nemen we een aantal dorpen of steden uit deze lijst en uit die lijst met namen trekken
we een random steekproef.
Multistage sampling: Vaak is er bij cluster sampling sprake van multistage sampling. Hierbij wordt er een steekproef
getrokken en uit deze steekproef wordt een nieuwe steekproef getrokken op basis van andere clusters. Dit wordt net
zo lang gedaan tot de gewenste grootte van de steekproef bereikt is. Voordelen van Multistage sampling ten opzichte
van Simple random sampling is dat er geen steekproefkader nodig is en de participanten dicht bij elkaar zijn.
Er zijn een aantal problemen te ontdekken bij het trekken van steekproeven:
Pagina 25
Thomas Jansen (0878650)
Nonresponse: Het niet reageren van de participanten waardoor er data mist en er niet bekend is hoeveel de
steekproef minder representatief wordt. Dit kan opgelost worden door follow-ups uit te voeren. Eventueel kan er ook
gecorrigeerd worden door de nonrespodenten te analyseren.
Problemen met generalisatie: Kunnen ontstaan als er gegeneraliseerd wordt naar de verkeerde populatie
Niet-kanssteekproeven: Als het trekken van een kanssteekproef niet tot de mogelijkheden behoort zit er niets
anders op dan een niet-kanssteekproef te trekken. Probleem hierbij is dat de schattingsfout (error of estimation) niet
te bepalen is. Dit is echter minder erg in experimenteel of correlationeel onderzoek. Er zijn verschillende soorten nietkanssteekproeven te onderscheiden:
Gelegenheidssteekproef: Onderzoekers gebruiken alle participanten die ze voor handen hebben.
Quota steekproef: Een variant van de gelegenheidssteekproef waarbij de onderzoeker nog wel een zekere
selectie toepast.
Doelgerichte steekproef: Hierbij baseren onderzoekers welke participanten ze onderzoeken op hun eigen
oordeel of deze representatief zijn voor de populatie.
Het laatste deel van het hoofdstuk gaat over het beschrijven en presenteren van data. Dit zal in Moore en McCabe
duidelijker behandeld worden en wordt daarom niet hier samengevat.
Pagina 26
Thomas Jansen (0878650)
Aanvulling 3.1 in syllabus; Interne consistentie
Leary bespreekt een aantal manieren om betrouwbaarheid te bestuderen die alle vormen van herhaalde meting zijn.
Test-hertest en paralleltest betrouwbaarheid vergen beide dat hetzelfde begrip nogmaals wordt gemeten met ofwel
letterlijk dezelfde test, ofwel een parallelle test; ze zijn dus duur en komen vooral voor in gespecialiseerde studies
naar de kwaliteiten van een instrument. De andere manieren bekijken de inter-item betrouwbaarheid, ook wel:
interne consistentie. Dat is aan de orde in elk onderzoek dat gebruik maakt van instrumenten die uit meer dan één
item bestaan. Dat is bijvoorbeeld het geval als houdingen, opinies of persoonlijkheidstrekken gemeten worden en
komt dus veel voor. Het herhalings-element zit hem nu in het feit dat elk item als het ware een klein eigen instrument
is, en alle items dus paralleltestjes van elkaar.
De split-half betrouwbaarheid is simpelweg de correlatie tussen de somscores op twee (meestal random gekozen)
helften van het instrument. De methode heeft twee nadelen:
- Elk halve instrument is meestal slechter dan het totale instrument omdat het minder items telt; de correlatie
tussen die twee (slechtere) helften is daardoor meestal een onderschatting van de betrouwbaarheid van het
gehele instrument. Hiervoor bestaan correctiemethoden.
- Het resultaat hangt af van het resultaat van de (random) splitsing van het instrument. Een andere splitsing
geeft een andere betrouwbaarheid. De oplossing hiervoor zou zijn alle mogelijke splitsingen door te rekenen
(en het gemiddelde van de resultaten te nemen) maar dan is split-half betrouwbaarheid niet meer simpel.
Cronbach’s alpha is verreweg de meest gebruikte manier om de interne consistentie van een instrument te bepalen en
wordt ook veel gebruikt bij instrumentontwikkeling. We willen er daarom iets dieper op ingaan. Het uitgangspunt bij
interne consistentiematen is dat men een instrument heeft dat bestaat uit een aantal items die alle hetzelfde proberen
te meten. De som van de scores op alle items is de uiteindelijke score op het instrument (het gemiddelde kan ook; dat
komt op hetzelfde neer). Dat alle items hetzelfde meten is een aanname die wel dient te worden gecontroleerd,
bijvoorbeeld door inspectie van de correlatiematrix. Het is bijvoorbeeld mogelijk dat een instrument bestaat uit twee
clusters van onderling hoog correlerende variabelen (terwijl die clusters min of meer onafhankelijk van elkaar zijn);
dat kan een hoge alpha opleveren, terwijl het instrument feitelijk twee verschillende variabelen meet.
De formule voor Cronbach’s alpha is:

k
(1 
k 1
s
i2
sx2
)
Hierbij is k het aantal items, en zijn de s2i de varianties van de verschillende items, X de somscore, en s2x de variantie
van de somscores. De maat is gebaseerd op vergelijking van de variantie van de somscores met de som van de
varianties van de oorspronkelijke items. s2x wordt groot als de items onderling positief correleren; daaruit blijkt hier de
systematische variantie. Neem als voorbeeld twee items gescoord op een 7-punts schaal. Als die hoog positief
correleren komen (onder andere) de combinaties 1-1 en 7-7, dus de lage en hoge somscores 2 en 14, relatief veel
voor. Dat geeft een grote spreiding (variantie) van de somscores. Als de variabelen niet correleren zijn de combinaties
als 1-7 en 7-1 met somscore 8 (ergens in het midden) ook waarschijnlijk; de spreiding van de somscores is dan
minder groot. In het eerste geval is de s2x dus groter dan in het tweede geval. Dat betekend dat dan de laatste breuk
in de formule relatief klein wordt; die breuk meet de inconsistentie. Trek je die af van 1 dan heb je een maat voor
consistentie. De vermenigvuldiging met k/(k-1) is om te zorgen dat het maximum 1 wordt (zodat de maat op absoluut
niveau is gemeten).
Pagina 27
Thomas Jansen (0878650)
Pagina 28
Thomas Jansen (0878650)
Pagina 29
Thomas Jansen (0878650)
Pagina 30
Thomas Jansen (0878650)
Pagina 31
Thomas Jansen (0878650)
Week 4, Inspecteren van Data: Verdelingen
Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 1.1: Displaying distributions with graphs
Het beschrijven en presenteren van gegevens is een belangrijk onderdeel van elk onderzoek. Om meer te weten te
komen over de data hebben we meer nodig dan enkel de waarden. Metingen uit een onderzoek met enkele honderden
deelnemers zeggen zelfs de meest grote experts niets tot deze gegevens zijn georganiseerd, weergegeven en
samengevat. Elke set gegevens bevat informatie over een bepaalde groep individuen. De informatie over deze
individuen is georganiseerd in variabelen. Een individu is dus de persoon die onderzocht is in een onderzoek. Als het
geen mensen betreft wordt in een onderzoek vaak gesproken over cases in plaats van individuen. Een variabele is een
eigenschap van een bepaald individu en een variabele kan verschillende waarden bevatten als het verschillende
individuen betreft.
In de praktijk wordt elke set gegevens begeleid door achtergrondinformatie die helpt bij het begrijpen van de
gegevens. Wanneer men onderzoek doet naar iemand anders zijn werk moeten wat betreft de data-analyse de
volgende vragen beantwoord worden:
- Waarom wordt dit onderzoek gedaan? Welk doel hebben de gegevens?
- Om wie gaat het? Welke individuen beschrijven de gegevens? Hoeveel individuen komen in de gegevens voor?
- Wat voor gegevens bevatten de variabelen? Wat zijn de exacte definities van de variabelen? Welke
meeteenheid of welk meetniveau is er gebruikt bij de metingen?
Er zijn verschillende soorten variabelen:
Categorische variabele: Deze plaatsen een individu in een of meerdere groepen of categorieën.
Kwantitatieve variabele: Bevat numerieke waarden waar wiskundige berekeningen op kunnen worden toegepast.
De verdeling van een variabele vertelt ons welke waarden een variabele heeft en hoe vaak een variabele bepaalde
waarden aanneemt.
% of people aged 25 to 34
Om categorische variabelen weer te geven kan een bar graph of een pie chart gebruikt worden. Een bar graph kan
gebruikt worden om snel inzicht te krijgen in de grootte van bepaalde groepen. Hoe hoger de balken komen, hoe
vaker een bepaalde groep voorkomt (zie linker grafiek).
HS grad
30%
30
Some college
20%
25
20
15
10
5
Not HS grad
12%
0
Not HS
grad
HS grad
Some
college
Associate
9%
Associate Bachelor's Advanced
Advanced
7%
Bachelor's
22%
De rechter van de twee grafieken hierboven is een pie chart. Een pie chart kan goed gebruikt worden om in een
oogopslag weer te geven welk deel van en gehele groep door een bepaalde categorie wordt ingevuld. Door een punt
van de pie chart uit het geheel te lichten kan er focus worden gecreëerd op een bepaalde categorie.
Om kwantitatieve variabelen inzichtelijk te maken wordt een histogram of een stemplot gebruikt. Een histogram
verdeelt de waarden van de variabelen in verschillende klassen en geeft het aantal waarden of de percentages van het
geheel van de verdeling weer met een balk. Het grafische verschil tussen een bar graph en een histogram is dat bij
een histogram de balken aan elkaar aansluiten om duidelijk te maken dat alle waarden gedekt zijn. Om geen
vertekend beeld te krijgen is het belangrijk om bij een histogram de klassen van gelijke breedte te kiezen.
Een stemplot (ook wel stem-and-leaf plot)geeft een snel inzicht in de vorm van een verdeling terwijl de numerieke
waarden bewaard blijven. Dit is bij een histogram niet het geval omdat bij het indelen in klassen de numerieke
waarden verloren gaan. Stemplots werken het beste bij kleine hoeveelheden waarden die allemaal groter zijn dan nul.
Om een stemplot te maken moeten de volgende stappen doorlopen worden:
1. Splits elke observatie in een stam (stem) die alle cijfers op de laatste na bevat. Stems mogen zoveel cijfers
bevatten als nodig is, maar de leafs mogen altijd maar uit een cijfer bestaan.
2. Schrijf de stems onder elkaar met de kleinste waarde bovenaan en teken rechts van deze lijst een verticale
lijn.
3. Schrijf elke leaf in de rij rechts van de stem waar de leaf bijhoort in oplopende volgorde vanaf de stem
gezien.
Het is ook mogelijk om met een stemplot twee aan elkaar gerelateerde verdelingen tegen elkaar uit te zetten in een
back-to-back stemplot, waarbij de stems gedeeld worden en de leafs van de tweede verdeling aan de linkerkant van
de stem geschreven worden.
Pagina 32
Thomas Jansen (0878650)
Hieronder volgt een weergave van zowel een histogram als een stemplot. De stemplot is met statistische software
gemaakt en wijkt iets af van de wijze waarop een stemplot met de hand gemaakt wordt.
Een frequentietabel is ook een manier om inzicht te krijgen in gegevens. Zodra de gegevens onderverdeeld zijn in
klassen zoals dat voor een histogram moet worden gedaan en daarna geteld wordt hoeveel waarden er in een
bepaalde klasse vallen (de frequentie) en dit voor alle waarden en klassen is gedaan ontstaat er een tabel met links
de klassen en rechts het aantal keren dat een waarde in deze klasse terecht is gekomen. Deze tabel heet een
frequentietabel.
Klasse
75 tot 84
85 tot 94
95 tot 104
105 tot 114
115 tot 124
125 tot 134
135 tot 144
145 tot 154
Aantal
2
3
10
16
13
10
5
1
Nadat de grafische weergave van de gegevens is gemaakt is het van groot belang om goed te bekijken wat er precies
te zien is in de weergave. In elke weergave moet gekeken worden naar een patroon en opvallende afwijkingen van
dit patroon. Het patroon van een verdeling kan worden beschreven aan de hand van de vorm, het middenpunt en de
spreiding. Een belangrijke afwijking is een uitbijter, die sterk afwijkt van het algemene patroon.
Een aantal punten waarnaar gekeken kan worden als het de vorm betreft is of de verdeling een of meerdere pieken
heeft (modus). Als een verdeling één piek heeft is een verdeling unimodaal en als een verdeling meerdere pieken
heeft spreken we van een bi- of multimodale verdeling.
Verder kan er bij de vorm van een verdeling gekeken worden naar de scheefheid van de verdeling. Een verdeling is
symmetrisch als de waarden onder en boven het middenpunt aan elkaar gespiegeld zijn. Een verdeling is scheef
naar rechts als er meer waardes links van het middenpunt liggen dan rechts ervan. Voor een verdeling die scheef
naar links is geldt het tegenovergestelde.
Ook kan er gekeken worden naar de spreiding van de waarden in de verdeling. Dit kan bijvoorbeeld gedaan worden
aan de hand van het verschil tussen de hoogste en de laagste waarden. Als deze waarden dicht bij elkaar liggen is er
sprake van weinig spreiding.
Pagina 33
Thomas Jansen (0878650)
Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 1.2: Describing distributions with numbers
Het omschrijven van een verdeling met behulp van getallen begint met bepalen van het midden of het gemiddelde
van de verdeling. Later wordt ook de spreiding en de variabiliteit van de verdeling omschreven. De twee meest
voorkomende manier om het midden te omschrijven is met behulp van de mean of de mediaan. De mean ( x ) is de
gemiddelde waarde en de mediaan is de middelste waarde. Dit zijn twee verschillende manier om het midden te
omschrijven en beiden gedragen zich dan ook anders.
Om de mean van een aantal observaties te bepalen moeten alle waarden bij elkaar opgeteld worden en vervolgens
gedeeld worden door het aantal observaties. In formulevorm ziet dat er als volgt uit:

x  x2  ...  xn
1
of korter: x 
x 1
xi
n
n
Een belangrijk zwak punt van de mean is dat deze gevoelig is voor scheve verdelingen en uitbijters. Slecht een paar
extreme waarden kunnen al een vertekend beeld van de verdeling geven.
De mediaan is het middenpunt van een verdeling. De helft van de waarnemingen bevind zich onder de mediaan en de
andere helft bevind zich boven de mediaan. De werkwijze om de mediaan te lokaliseren is als volgt:
1. Sorteer alle observaties op grootte van klein naar groot
2. Als het aantal observaties oneven is, is de mediaan de middelste waarde van deze reeks. Om de locatie van
de mediaan te vinden moet er dus (n  1) / 2 plaatsen vanaf de eerste waarde geteld worden.
3.
Als het aantal observaties even is, is de mediaan het gemiddelde van de twee middelste observaties in de
geordende lijst.
Wees ervan bewust dat (n  1) / 2 niet de mediaan oplevert, maar slecht de locatie van de mediaan in de lijst.
Naast de waarde van het midden is er ook een omschrijving van de spreiding nodig om een verdeling goed te kunnen
weergeven met behulp van getallen. Het bepalen van quartielen is een mogelijke manier om dit te doen. De mediaan
deelt de gegevens in twee delen. De helft van alle gegevens ligt boven de mediaan en de andere helft ligt onder de
mediaan. Het eerste kwartiel (Q1) is de mediaan van het deel van de verdeling dat onder de hoofdmediaan ligt. Het
derde kwartiel (Q3)is de mediaan van het deel van de verdeling dat boven de hoofdmediaan ligt. Verder is het ook
mogelijk om over percentielen te spreken. Het p-de percentiel is de waarde in de verdeling waarbij p procent van de
verdeling op of onder deze waarde valt. Het 90 ste percentiel is dus de waarde waarbij 90% van alle waarde daar onder
vallen.
In paragraaf 1.1 werden de hoogste en laagste waarden van een verdeling gebruikt om aan te geven hoe de spreiding
van de verdeling was. Deze waarden vertellen niet heel erg veel over de spreiding van de verdeling, maar in
combinatie met de kwartielen en de mediaan geeft dit een redelijk beeld va de spreiding van de verdeling. De fivenumber summary is hiervan het resultaat. Bij een five-number summary zijn het minimum, het eerste kwartiel, de
mediaan, het derde kwartiel en het maximum in deze volgorde achter elkaar gezet. Een voorbeeld hiervan is:
13 18 23 27 32.
Een grafische weergave van de five-number summary resulteert in een boxplot. In de boxplot zoals die hieronder
weergegeven is stel het onderste streepje het minumum voor, de onderkant van de box is de waarde van het eerste
kwartiel, de lijn in de box is de mediaan, de bovenkant van de box is het derde kwartiel en het bovenste streepje stelt
het maximum voor. De stipjes boven het maximum geven mogelijke uitbijters aan. Het betreft hier een modified
boxplot.
Pagina 34
Thomas Jansen (0878650)
Er is een manier om eventuele uitbijters makkelijk te kunnen identificeren. Deze zogeheten 1.5 x IQR rule for
outliers gaat uit van de IQR, ofwel de Interquartile range. Dit is de afstand tussen het eerste en het derde kwartiel.
De middelste helft van alle data valt in deze range. De 1.5 x IQR rule zegt dat alle waarden die meer dan 1,5 x IQR
boven het derde kwartiel of meer dan 1,5 x IQR onder het eerste kwartiel vallen als mogelijke uitbijters aangewezen
kunnen worden. Deze uitbijters mogen niet zomaar uit een verdeling geschrapt worden, maar er moet eerst gezocht
worden naar een mogelijke oorzaak van de uitbijter. Misschien was er iets mis met de meetapparatuur of is het
simpelweg een meetfout en het kan uiteraard ook gewoon een echte waarde zijn. Een correctie in een verdeling mag
pas doorgevoerd worden als er een verklaring voor de uitbijters gevonden is.
De standaard deviatie is een manier om de spreiding van een verdeling weer te geven. Bij de standaard deviatie
wordt gekeken naar de afstand van een waarde ten opzichte van de mean. De standaard deviatie (ook wel standaard
afwijking genoemd) is de wortel van de variantie zoals dat ook in week 1 behandeld is. Ter herinnering:
s2 
(y
i
 y) 2
n 1
De vijf stappen voor het berekenen van de variantie zijn als volgt:
1.
2.
3.
4.
5.
Bereken het gemiddelde
Trek van elke score het gemiddelde af (deviatiescore)
Kwadrateer elke deviatiescore
Tel alle gekwadrateerde deviatiescores bij elkaar op (sum of all squares)
Deel deze waarde door het aantal scores min één (variantie)
De standaard deviatie is dus de wortel van de variantie:
s
 ( y  y)
i
2
n 1
Over het algemeen wordt het gebruik van de standaard deviatie geprefereerd boven het gebruik van de variantie om
een aantal redenen:
De standaarddeviatie is precies de spreiding in een normaalverdeling
Om te voorkomen dat er problemen ontstaan met andere meeteenheden wordt de kwadraat uit de
berekening gehaald. Metabolic rates worden bijvoorbeeld in het kwadraat van calorieën berekend en dit kan
botsen met de variantie als die zou worden berekend.
De standaard deviatie heeft een aantal eigenschappen:
de standaard deviatie meet de spreiding rond het gemiddelde en kan alleen gebruikt worden als het
gemiddelde ook gekozen worden als middenpunt.
s  0 geeft aan dat er geen spreiding is. Dit gebeurd alleen wanneer alle observaties dezelfde waarde hebben.
Hoe meer gespreid de observaties liggen ten opzichte van het gemiddelde, hoe groter de standaard deviatie
wordt.
De standaard deviatie is nog gevoeliger voor uitbijters dan de mean is. Een aantal uitbijters kunnen de
standaard deviatie zeer groot maken.
Pagina 35
Thomas Jansen (0878650)
Pagina 36
Thomas Jansen (0878650)
Pagina 37
Thomas Jansen (0878650)
Pagina 38
Thomas Jansen (0878650)
Pagina 39
Thomas Jansen (0878650)
Week 5, Normaalverdeling en z-scores
Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 1.3 Density curves en normal distributions
Het is (vooral met behulp van software) mogelijk om bij een histogram een vloeiende lijn te passen bij de grafiek. De
curve die hier dan wordt gemaakt heet een dichtheidscurve. Het is een idealisatie van het patroon van het histogram
en negeert daarom ook afwijkingen of uitbijters in dit patroon. In deze paragraaf wordt gecentreerd op het toepassen
van een dichtheidscurve op een bell-shaped Normal curve. Een dichtheidscurve heeft de eigenschappen dat deze
zich altijd op of boven de horizontale as bevindt en dat het gebied onder de curve altijd exact 1 is.
De modus van een dichtheidscurve is de punt waarop de curve het hoogst is. De mediaan van een dichtheidscurve is
het punt waarop de helft van het totale oppervlak onder de curve aan elke zijde ligt. De kwartielen zijn met het oog
grof te schatten en delen de helften die de mediaan heeft aangegeven weer door de helft. Het gemiddelde is het punt
waarop de curve in balans zou zijn als hij gemaakt zou zijn van vast materiaal.
Omdat de dichtheidscurve een idealisatie van de werkelijke data is moet er onderscheid gemaakt worden tussen de
mean en standaard deviatie van de curve en de waarden x en s die verkregen zijn bij de werkelijke observaties. De
mean bij een geïdealiseerde verdeling wordt weergegeven met het symbool μ en de standaard deviatie wordt
weergegeven met het symbool σ.
Er is nog een bepaalde curve die van belang is. Het is een curve die symmetrisch, unimodaal en bell-shaped is. Deze
curve wordt een Normaalcurve genoemd en deze beschrijft de normaalverdeling. De normaalverdeling heeft een
aantal eigenschappen:
Ze zijn allemaal bell-shaped (klok-vormig)
μ geeft de horizontale locatie en σ geeft de plaats aan waar de curve buigt en van richting verandert.
Bij een kleine σ hoort niet alleen een smalle maar ook een hoge curve omdat de oppervlakte onder de curve
altijd 1 moet bedragen.
De vorm van de curve wordt volledig bepaald door μ en σ.
De hoogte van een dichtheidscurve wordt gegeven aan de hand van een formule:
f ( x) 
1
1 x 2
 (
)
e 2

 2
Hoewel deze formule niet direct gebruikt zal worden is het belangrijk om te zien dat de verdeling volledig bepaald
wordt door μ en σ.
Hoewel er veel verschillende normaalcurves zijn hebben ze allemaal dezelfde eigenschappen. Een van de meest
belangrijke eigenschappen is de 68-95-99.7 rule. De regel houdt het volgende in:
Bij een
-
normaalverdeling geldt dat:
Ongeveer 68% van de observaties binnen de afstand van 1 keer σ vanaf μ valt.
Ongeveer 95% van de observaties binnen de afstand van 2 keer σ vanaf μ valt.
Ongeveer 99,7% van de observaties binnen de afstand van 3 keer σ vanaf μ valt.
Zoals al eerder gemeld is hebben alle normaalverdelingen een flink aantal eigenschappen gemeen. Feitelijk zijn alle
normaalverdelingen hetzelfde als we eenheden van de grootte van σ vanaf μ als middenpunt. Het omrekenen van
waarden naar deze eenheden worden standaardiseren genoemd. Om een waarde te standaardiseren moet er eerst μ
Pagina 40
Thomas Jansen (0878650)
van worden afgetrokken en daarna worden gedeeld door σ. Een gestandaardiseerde waarde wordt vaak een z-score
genoemd. De formule hiervoor ziet er als volgt uit:
x
z

Een z-score geeft aan hoeveel standaard deviaties de originele observatie afligt van het gemiddelde en in welke
richting. Observatie die groter zijn dan het gemiddelde leveren een positieve z-score op en observaties die kleiner zijn
dat het gemiddelde leveren een negatieve z-score op.
Omdat alle normaalverdelingen te standaardiseren zijn tot dezelfde verdeling ontstaat er een nieuwe
standaardverdeling die nog steeds Normaal is, de standaard Normaalverdeling. De standaard normaalverdeling is
een normaalverdeling met een gemiddelde van 0 en een standaard deviatie van 1: N(0,1). Als variabele X een
normaalverdeling heeft dan is de gestandaardiseerde variabele Z ook normaal verdeeld. De formule die hierbij hoort
ziet er als volgt uit:
Z
X n

Om een z-score te berekenen was de volgende formule nodig:
z
x

Om weer terug te rekenen van z-score naar de ruwe score x is de volgende formule nodig:
x    z
Verder is het nodig om de volgende punten te onthouden wat betreft standaard normaalverdelingen:
De verdeling van de standaard scores z heeft dezelfde vorm als de verdeling van de ruwe scores x
Als x normaal verdeeld is: N(μ,σ) dan is z dat ook: N(0,1)
Het gemiddelde verschuift bij het omrekenen met afstand μ
De standaardafwijking wordt 1/σ maal zo groot
Oppervlaktes onder de normaalcurve representeren proporties van de observaties uit die normaalverdeling. Er is geen
formule om oppervlaktes onder de normaalcurve te kunnen berekenen. Berekeningen gebruiken ofwel software om de
oppervlaktes te berekenen of ze gebruiken een tabel met bekende oppervlaktes. Deze tabel berekent een bepaald type
gebied: de cumulatieve proporties. Een cumulatieve proportie is de proportie van observaties die op of onder een
bepaalde waarde vallen. Als de verdeling is weergegeven in een dichtheidscurve is de cumulatieve proportie het
gedeelte wat links ligt van een bepaalde waarde op de horizontale as. Om een bepaalde proportie van de oppervlakte
onder de dichtheidscurve te bepalen moeten er dus een aantal cumulatieve proporties worden bepaald om daarmee
vervolgens het betreffende gebied te kunnen uitrekenen.
Om proporties onder de normaalcurve te berekenen aan de hand van de tabel A uit het boek (standard Normal
cumulative proportions) moet een extra stap worden gezet in vergelijking met het gebruik van software.
De extra stap die moet worden gezet is het omrekenen van de ruwe x naar een z score. Als voorbeeld wordt een z
score van 1.47 gebruikt. In de tabel moet in de linker kolom 1.4 opgezocht worden. Als deze is gevonden moet in de
bovenste rij .07 gezocht worden. De cel waar de rij en de kolom elkaar kruisen geeft de proportie van de oppervlakte
onder de normaalcurve die onder de ruwe x valt. Door deze aanpak om te draaien kan een bepaalde z score gevonden
worden die bij een bepaalde proportie hoort. Zoek daarvoor eerst de proportie op in de tabel en lees daarna in de
linker kolom en de bovenste rij de z score af. De z score kan vervolgens weer teruggerekend worden naar de ruwe x.
Om te controleren of een verdeling normaal verdeeld is kan gebruik worden gemaakt van histogrammen of stemplots.
Deze zijn prima in staat om de grootste afwijkingen van de normale verdeling in beeld te brengen en aan de hand
daarvan is grofweg te bepalen of een verdeling normaal verdeeld is of niet. Er is echter een accuratere methode nodig
om dit met meer zekerheid te kunnen bepalen. Hiervoor wordt een ander soort grafiek gebruikt: het normaal
kwantiel plot. Bij het maken van een normaal kwantiel plot wordt als volgt te werk gegaan:
1. Sorteer de data van laag naar hoog en noteer welk percentiel van de gegevens elke waarde bezet. Bij een set
van 20 observaties bevindt de kleinste waarde zich bij het 5% punt en de op een na kleinste bij het 10%
punt.
2. Bereken de z scores die bij deze percentielen horen. Deze scores worden normaalscores genoemd.
3. Plot elk datapunt x tegen de corresponderende normaalscore. Als een verdeling in de buurt komt van een
normaalverdeling zullen de geplotte punten in de buurt komen van een rechte lijn.
Normaal kwantiel plots worden nooit met hand gemaakt, maar altijd met behulp van software gemaakt.
Pagina 41
Thomas Jansen (0878650)
Pagina 42
Thomas Jansen (0878650)
Pagina 43
Thomas Jansen (0878650)
Pagina 44
Thomas Jansen (0878650)
Pagina 45
Thomas Jansen (0878650)
Week 6, Samenhang tussen variabelen
Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 2.1: Scatterplots
Twee variabelen die gemeten zijn bij dezelfde cases zijn geassocieerd als kennis over de ene variabele iets vertelt over
de waarde van een andere variabele die zonder deze informatie niet bekend zou zijn. Oftewel: Twee variabelen V1 en
V2 zijn geassocieerd als bepaalde waarden van V1 vaker optreden met sommige waarden van V2 dan met andere
waarden.
Een response variable meet de uitkomst van een onderzoek. Een explanatory variable verklaart of veroorzaakt
veranderingen in de response variable. In de praktijk wordt een response variable vaak een afhankelijke variabele
genoemd en een explanatory variable een onafhankelijke variabele al wordt dit om verwarring in andere gebieden
van de statistiek te voorkomen sterk afgeraden.
Ook in het geval van relaties tussen variabelen blijft de aanpak van het benaderen van de gegevens hetzelfde:
1. Geef de gegevens grafisch weer
2. Kijk naar patronen en afwijkingen van deze patronen
3. Gebaseerd op wat er te zien is moet een numerieke samenvatting gemaakt worden van specifieke aspecten
van de gegevens.
De meest gebruikte grafiek om relaties tussen twee kwantitatieve variabelen weer te geven is en scatterplot. Bij een
scatterplot worden de waarden van de ene variabele op de horizontale en de waarden van de andere variabele op de
verticale as weergegeven. Elk individu wordt weergegeven als een stipje in de grafiek op het punt waar de waarden
van de twee variabelen van dat individu elkaar kruisen. De onafhankelijke variabele wordt altijd weergegeven op de x
as. Dit geldt uiteraard alleen als er bekend is wat de afhankelijke en onafhankelijke variabele zijn.
Om categorieën in een scatterplot aan te geven kan een verschillend symbool of kleur voor elke stip in het scatterplot
worden geplaatst.
Bij het interpreteren van een scatterplot moet dezelfde strategie gebruikt worden zoals die in hoofdstuk 1 beschreven
is. Kijk of er een algemeen patroon te vinden is en of er opvallende afwijkingen zijn in dit patroon. Het patroon van
een scatterplot is te beschrijven aan de hand van de vorm, richting en sterkte van de relatie tussen de variabelen.
Twee variabelen zijn positief geassocieerd als positieve afwijkingen van het gemiddelde relatief vaak samen
voorkomen en negatieve afwijkingen van het gemiddelde ook samengaan. Negatieve associatie treedt op wanneer
positieve afwijkingen van de ene variabele vaak samengaan met negatieve afwijkingen van de andere variabele. Dit
geldt ook andersom. De sterkte van een scatterplot wordt bepaald door de dichtheid waarmee de stippen in het
scatterplot staan.
Zoals gezegd geven scatterplots de relatie tussen twee kwatitatieve variabelen weer. Om de relatie tussen twee
categorische variabelen weer te geven worden grafieken gebruikt die reeds in hoofdstuk 1 besproken zijn: een backto-back stemplot en een side-by-side boxplot.
Pagina 46
Thomas Jansen (0878650)
Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 2.2: Correlation
Omdat het erg moeilijk is om op het oog te bepalen hoe sterk een relatie is, gebruiken we correlatie als maat voor de
sterkte van een relatie. Correlatie meet de richting en de sterkte van een lineaire relatie tussen twee kwantitatieve
variabelen. Correlatie wordt vaan genoteerd als r. We nemen aan dat we gegevens hebben over variabele x en y voor
n individuen. De mean en standaard deviaties van de variabele zijn x en sx. Voor y geldt uiteraard hetzelfde. De
formule om de correlatie uit te rekenen is dan als volgt:
r
1
n 1
(
xi  x yi  y
)(
)
sx
sy
In de praktijk wordt de correlatie niet met de hand uitgerekend, maar wordt daar software voor gebruikt.
De formule van de correlatie laat zien dat r positief is als er een positieve associatie is tussen de variabelen. De
correlatie is negatief als er een negatieve associatie is tussen beide variabelen. De volgende punten zijn nodig om
correlaties goed te kunnen interpreteren:
Bij correlatie wordt er geen onderscheid gemaakt tussen de onafhankelijke en afhankelijke variabelen.
Ongeacht welke variabele je kiest als x of y, het resultaat is hetzelfde.
Beide variabelen moet kwantitatief zijn, met categorische variabelen kan niet gerekend worden.
Omdat correlatie gebruik maakt van gestandaardiseerde waarden, verandert r niet als we de meeteenheid
veranderen. De correlatie zelf heeft geen meeteenheid, het is slechts een cijfer.
Een positieve r geeft een positieve associatie tussen twee variabelen aan, een negatieve r geeft een negatieve
associatie aan.
De correlatie r is altijd een getal tussen -1 en 1. Waarden vlak in de buurt van 0 geven een zeer zwakke
lineaire relatie aan. De extreme waarden -1 en 1 komen alleen maar voor als de punten in het scatterplot
exact op een lijn liggen.
Correlatie meet alleen de sterkte van een lineaire relatie. Correlatie beschrijft geen gebogen relatie tussen
variabelen, ongeacht hoe sterk ze zijn.
Net als de mean en de standaard deviatie is correlatie erg gevoelig voor uitbijters.
Pagina 47
Thomas Jansen (0878650)
Mark. R. Leary; Introduction to behavioral Research Methods; Chapter 6: Correlational research
Omdat erg veel stof uit hoofdstuk 6 van Leary al gedekt wordt in hoofdstuk 2 van Moore, McCabe en Craig wordt hier
enkel de vertaling van de samenvatting uit Leary gegeven. Dit is dus de samenvatting zoals deze letterlijk bij Leary in
het boek staat.
1.
2.
3.
Correlationeel onderzoek wordt gebruikt om de relatie tussen twee variabelen te beschrijven
Een correlatie coëfficiënt (r) geeft zowel de richting als de grootte van de relatie weer.
Als de scores van twee variabelen de neiging hebben samen groter of kleiner te worden zijn de variabelen
positief gecorreleerd. Als de ene variabele groter wordt en de ander kleiner wordt spreken we van een
negatieve correlatie.
4. De grootte van een correlatie coëfficiënt geeft de sterkte van de relatie tussen twee variabelen weer. Een
correlatie van 0 geeft aan dat de variabelen niet gerelateerd zijn. Een correlatie van -1 of +1 geeft aan dat ze
perfect gecorreleerd zijn.
5. Het kwadraat van het correlatie coëfficiënt, de coefficient of determination (r2) geeft de proportie van de
totale variantie in een variabele weer die gerelateerd is aan de andere variabele.
6. Onderzoekers toetsen de statistische significantie van correlatie coëfficiënten om de kans in te schatten dat
de correlatie die ze in hun onderzoek hebben gevonden afkomstig kan zijn uit een populatie waar de ware
correlatie tussen de variabelen nul is. Een correlatie wordt normaal gezien als significant beschouwd als er
minder dan 5% kan is dat de correlatie van de volledige populatie nul is. Significantie wordt beïnvloed door
samplegrootte, grootte van de correlatie en de mate van zekerheid die een onderzoek wil hebben.
7. Wanneer onderzoekers correlaties interpreteren kijken ze naar factoren die een correlatie kunstmatig groter
of kleiner zou kunnen maken. Mogelijke oorzaken kunnen zijn: Beperkte range, uitbijters en lage
betrouwbaarheid.
8. De aanwezigheid van een correlatie betekent niet dat er ook een causaal verband is tussen de beide
variabelen.
9. Een gedeeltelijke correlatie is de correlatie tussen twee variabelen waarbij de invloed van een of meer andere
variabelen statistisch verwijderd is. Gedeeltelijke correlatie wordt gebruikt om te beoordelen of de correlatie
tussen twee variabelen veroorzaakt kan worden door bepaalde andere variabelen.
10. Het Pearson correlatiecoëfficiënt is de meest gebruikt, maar de Spearman, Phi en punt biserieel coëfficiënten
worden onder speciale omstandigheden gebruikt.
Pagina 48
Thomas Jansen (0878650)
Pagina 49
Thomas Jansen (0878650)
Pagina 50
Thomas Jansen (0878650)
Pagina 51
Thomas Jansen (0878650)
Pagina 52
Thomas Jansen (0878650)
Week 7, Samenhang tussen variabelen
Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 2.3: Least-squares regression
Een regressielijn is een rechte lijn die optimaal beschrijft hoe de response variabele y verandert als de verklarende
variabele x verandert. Vaak wordt een regressielijn gebruikt om waarde van y voor een bepaalde waarde x te
voorspellen. Als een scatterplot een lineair patroon heeft kunnen we dat patroon beschrijven door een rechte lijn
door de punten te trekken. Uiteraard komt het zelden voor dat een rechte lijn door alle punten heen gaat. Het fitten
van een lijn betekent dat er een lijn getrokken wordt die zo dichtbij als mogelijk is door de punten heen gaat. De
vergelijking die bij deze lijn hoort geeft compact weer hoe het staat met de afhankelijkheid van variabele y ten
opzichte van variabele x. Deze vergelijking luidt als volgt:
y  a  bx
In deze vergelijking is b het hellingsgetal, de hoeveelheid waarmee y verandert waneer x met 1 eenheid stijgt. In
deze vergelijking staat a voor de intercept, de waarde van y wanneer x nul is.
In de statistiek houdt voorspellen in: met een bekende waarde op de onafhankelijke variabele x een waarde schatten
op de afhankelijk variabele y voor een nieuwe waarneming. Het gaat hier dus niet om een vorm van helderziendheid,
maar een onderbouwde schatting. Bij extrapolatie wordt de regressielijn gebruikt om voorspellingen te doen die
buiten het bereik van de verklarende variabele x vallen die gebruikt zijn om de lijn te trekken. Zulke voorspellingen
zijn vaak niet accuraat. De onzekerheid over de voorspelde waarde groeit naarmate de afstand tot de laatste meting
van x groter wordt. Het zou eventueel ook kunnen dat het model van een rechte lijn niet meer geldig is, maar dit pas
zichtbaar zou worden als er verdere metingen van x zouden worden gedaan.
Als mensen op het oog een regressielijn tekenen zullen geen twee lijnen dezelfde zijn, zeker als de punten in de
scatterplot verspreid zijn. Een manier om een regressielijn te tekenen die niet afhankelijk is van het oog van de
tekenaar is met behulp van het kleinste kwadraten criterium (Least-squares regression). Omdat een lijn nodig is
die waarden van y voorspelt uit waarden van x moet deze lijn zo dicht mogelijk bij de punten liggen in verticale
richting. Fouten die worden gemaakt zijn namelijk altijd fouten in y. Voor wat betreft errors geldt de volgende
formule:
Error = geobserveerde waarde – voorspelde waarde
De least-squares regressie lijn van y op x is de lijn waarbij de som van de kwadraten van de verticale afstanden van
de data punten tot de lijn zo klein mogelijk zijn.
De mathematische manier om dit probleem op te lossen luidt als volgt. Een n aantal observaties van twee variabelen x
en y worden als volgt weergegeven:
(x1,y1), (x2,y2), …, (xn,yn)
Als we een lijn y  a  bx door het scatterplot van deze observaties heen trekken voorspelt deze lijn de waarde van y
^
die correspondeert met x1 als y i  a0  bxi . De y met het dakje in deze vergelijking staat voor de voorspelde waarde
van y voor elke x. Om de lijn te vinden die verticaal gezien het dichtst bij de datapunten ligt moeten we de waarden
van de intercept en de helling vinden waarbij de error minimaal is. Oftewel:
(error)  ( y  a  bx )
2
i
i
2
De variabelen x en y zijn uiteraard bekend, dus moet er gezocht worden naar a (helling) en b (intersect) die ervoor
zorgen dat de error zo klein als mogelijk wordt. Normaal gezien wordt dit met software berekend, maar hieronder
staat een voorbeeld om de gedachte achter deze formule te verduidelijken.
We hebben gegevens van een onafhankelijke variabele x en een afhankelijk y variabele voor n individuen. De mean en
de standaarddeviatie van deze gegevens zijn x en sx voor x en y en sy voor y. De correlatie tussen x en y is r. De
vergelijking van de least-squares regressielijn van y over x is:
^
y  a  bx
Met als hellingsgetal:
br
sy
sx
En met intercept:
a  y  bx
Pagina 53
Thomas Jansen (0878650)
Zoals in het voorbeeld hierboven te zien is heeft de correlatie r invloed op de least-squares regressielijn. Een andere
connectie tussen correlatie en regressie is zelfs nog belangrijker. De numerieke waarde van de correlatie als een maat
van sterkte van een lineaire relatie is het beste te interpreteren aan de hand van regressie:
Het kwadraat van de correlatie r, is het deel van de variatie in de waarden van y die verklaard worden door de
least-square regressielijn van y op x. Oftewel, de variantie van voorspelde scores gedeeld door de variantie van de
oorspronkelijke scores komt overeen met het kwadraat van de correlatie r. Dit wordt de proportie verklaarde
variantie genoemd. Als r2 groot is dan is er sprake van een steile helling en is er weinig spreiding rond de lijn. Als r2
klein is dan is er sprake van een zwakke helling en is er veel spreiding rond de lijn.
Pagina 54
Thomas Jansen (0878650)
Moore, McCabe & Craig; Introduction to the practice of statistics; Paragraph 2.4: Cautions about correlation and
regression
De verticale afstand tussen de regressielijn en de datapunten is zo klein als mogelijk in de zin dat ze een zo klein
mogelijke sum-of-squares hebben. Omdat de afstanden staat voor de ‘restjes’ variatie in de respons heten deze
verschillen residuen. Een residu is dus het verschil tussen de geobserveerde y en de voorspelde y. Omdat de residuen
laten zien hoe ver de data van de regressielijn afligt helpen de residuen duidelijk te maken hoe goed de lijn de data
beschrijft. De residuen van de least-squares regressielijn heb de eigenschap dat het gemiddelde van deze residuen
altijd nul is. Als de residuen in een scatterplot tegenover de onafhankelijke variabele worden gezet spreken we van
een residu plot. Een residu plot kan gebruikt worden om ongebruikelijk grote residuen makkelijk te herkennen. Let
ook op niet lineaire patronen of ongelijke variaties ten opzichte van de nul lijn.
Individuele punten die substantiële verandering in de regressielijn teweeg brengen zijn vaak uitbijters in de x richting.
Ze hebben veel invloed op de richting van de regressielijn, maar hoeven niet per definitie grote residuen te hebben.
Correlaties en regressielijnen moeten met voorzichtigheid geïnterpreteerd worden. Plot altijd de gegevens om er zeker
van te zijn dat de relatie grofweg lineair is, maar ook om uitbijters en invloedrijke observaties te detecteren.
Een verscholen variabele heeft een belangrijk effect op de bestudeerde relatie, maar wordt niet in aanmerking
genomen. Correlatie en regressie kunnen misleidend zijn als er belangrijke verscholen variabelen genegeerd worden.
Het feit dat er sprake is van een hoge correlatie wil niet zeggen dat de er ook meteen sprake is van een causaal
verband.
Een correlatie die gebaseerd is op gemiddelden is over het algemeen hoger dan als de data van de individuen zou zijn
gebruikt. Een correlatie die gebaseerd is op gegevens met een beperkte range is vaak lager dan wat het geval zou zijn
als de volledige range van de gegevens gebruikt zou worden.
Pagina 55
Thomas Jansen (0878650)
Pagina 56
Thomas Jansen (0878650)
Pagina 57
Thomas Jansen (0878650)
Pagina 58
Download