STATISTIEK

advertisement
INLEIDING IN DE STATISTIEKEN VOOR DE
GEDRAGSWETENSCHAPPEN, ondersteuning SPSS
HOOFDSTUK 1: DE STATISTIEK IN ONDERZOEK
1.1
TWEE TYPEN VAN STATISTIEKEN



1.2
(PAG 11-32)
(pag 12)
Beschrijvende statistieken: betrekking op de kengetallen van de steekproef
Inductieve statistieken: betrekking op de parameters van de populatie
Beiden bieden methodologische ondersteuning van wetenschappelijk onderzoek
DIT IS ONDERZOEK (pag 13-15)

Gaat over onderzoek dat op basis van waarnemingen probeert ware en algemene uitspraken
te doen over de werkelijkheid.
(Brinkman, 2006)
Een uitspraak is een bewering waarin een of meerdere objecten een eigenschap wordt
toegeschreven
VB van uitspraken: - Jan is ziek
- Assepoester is lang ongelukkig geweest
- Kabouters zijn kleiner dan mensen
- Bomen hebben een stam
- Mannen zijn gemiddeld intelligenter dan vrouwen

Wetenschappelijk verantwoord onderzoek indien voldaan aan volgende 4 voorwaarden:
- objectiviteit
- controleerbaarheid
- herhaalbaarheid
- systematiek

Deterministische uitspraken: de wet van de zwaartekracht is een wetmatigheid die ervoor
zorgt dat als ik een voorwerp loslaat, dit naar beneden valt


Probabilistische uitspraken: vaststelling dat frustratie agressie bevordert
TWEE TYPEN VARIABELEN (pag 14)
 Variabel is een eigenschap/kenmerk van de onderzoekseenheden
 Kan diverse waarden (uitkomsten) aannemen. Mensen verschillen op het vlak van deze eigenschappen
bv. man/vrouw
 Tegengestelde van een constante

Onafhankelijke variabele: verschillen in deze variabelen worden gezien als oorzaak (?) van
verschillen in de afhankelijke variabele. Dus deze variabelen kunnen een verklaring bieden.

Afhankelijke variabele = variabele ter studie: verschillen in deze variabelen worden gezien
als gevolg (?) van verschillen in de onafhankelijke variabele. De verschillen in deze variabelen
dienen we te verklaren.
TWEE TYPEN ONDERZOEKEN
1.2.1 HET EXPERIMENTEEL OPZET (pag 15-16)
Doelbewust worden één of enkele variabelen gemanipuleerd en de effecten hiervan worden
onderzocht op de afhankelijke variabele.
VB: welk is de relatie tussen de attitude en het gedrag? Het experiment van de verloren brief
(Nuttin en Beckers)
Twee typen van experiment:
 Between subjects design: groepsvergelijkende experimenten
 Within subjects design (= repeated measures design): experimenten met herhaalde metingen
Mogelijkheid tot besluiten van causale relaties.
1.2.2 HET VELDONDERZOEK/ SURVEYONDERZOEK/ ENQUÊTEONDERZOEK (pag 17-18)
Hier worden geen variabelen gemanipuleerd. Er wordt aan een steekproef uit de populatie een reeks
van vragen/tests voorgelegd;
Geen mogelijkheid om te besluiten tot causale relaties.
VB: hebben babyboomers en busters een andere levensstijl en koopgedrag?
WANNEER KUNNEN WE CAUSALE RELATIES VASTSTELLEN?
 tijdruimtelijke structuur van oorzaak en gevolg;
 oorzaak dient vooraf te gaan aan het gevolg;
 het gevolg zal nooit optreden zonder het voorkomen van de oorzaak;
en alle andere mogelijke verklaringen zijn uitgesloten (cf derde factor).
1.3.
FASEN IN HET ONDERZOEK (pag 19)






1.3.1.
De vraagstelling
De operationalisering
Steekproefopzet
Verzamelen van de gegevens
Beschrijven en analyse van de resultaten
Rapportage
DE VRAAGSTELLING
(pag 19-20)


de vraagstelling is de vraag waarop het onderzoek een antwoord moet geven
de vraagstelling kan gaan:
 over het voorkomen van iets
 over het verschil tussen groepen
 over de samenhang tussen variabelen


Vraag naar secundaire gegevens: wat hebben andere onderzoekers reeds vastgesteld?
Vraag naar primaire gegevens via experiment of survey-onderzoek
Vanwaar komt deze vraagstelling?



Fundamenteel onderzoek: uit de resultaten van eerdere onderzoeken kunnen vragen geformuleerd
worden
Vraagstelling groeit uit spontane observaties
Vragen vormen de cont(r)acten met het bedrijfsleven en overheden
1.3.2. DE OPERATIONALISERING





1.3.3



(pag 21-23)
de onderzoeker dient aan te geven op welke wijze hij de begrippen meetbaar kan maken
toegepast onderzoek verloopt via een survey
hier kan je gebruik maken van een kwalitatief onderzoek (eerste kennismaking en voorbereiding
van het feitelijke onderzoek) en kwantitatief onderzoek
voorkeur om een likertschaal te gebruiken
contrabalanceren: de volgorde van de condities afwisselen
DE STEEKPROEFOPZET
(pag 23-27)
steekproefkader: selectie van individuen uit de populatie
populatie: het geheel van individuen waar de onderzoeker iets over wil vaststellen en die bijgevolg
in aanmerking komen voor het onderzoek
census: alle individuen in de populatie worden uitgenodigd om aan het onderzoek deel te nemen
2 types van steekproeven:

een aselecte steekproeftrekking (at random): een steekproef waarbij elk individu van de
populatie evenveel kans heeft om getrokken te worden waarbij deze kans groter is dan
nul. Nodig om een uitspraak te doen over de populatie

niet-aselecte steekproeftrekking: elk individu heeft niet evenveel kans om getrokken te
worden.
ASELECTE STEEKPROEFTREKKING
Voordelen



generalisering naar de populatie is mogelijk
veel statistische technieken zijn mogelijk
hoeveel proefpersonen?
Nadelen


levert geografisch verspreide individuen op met bijkomende kosten en tijdsinvestering
Kan wel of niet leiden tot representatieve steekproef. Zeker bij kleine steekproeven kan
representativiteit een probleem geven
5 normen van aselecte steekproeftrekkingen:

een volledig aselecte steekproeftrekking: we maken een lijst van de individuen in de populatie en
geven elk individu een nummer. Nadien laten we de computer getallen genereren. De namen die met
deze nummers overeenkomen worden gekozen

een systematische steekproef: de onderzoeker kiest willekeurig een eerste persoon uit het
steekproefkader en de volgende persoon heeft telkens een nummer dat x aantal hoger ligt

een gestratificeerde steekproef: de populatie eerst in subgroepen verdelen en nadien uit elke groep
aselect een steekproef trekken

een clustersteekproef: de populatie ingedeeld in subgroepen die heterogeen mogelijk zijn.
Vervolgens wordt een aantal subgroepen geselecteerd en elk individu van deze subgroep zal bevraagd
worden

een getrapte steekproef: de combinatie van de voorgaande regels toegepast wordt bij de trekking
van de steekproef
NIET-ASELECTE STEEKPROEF




geschikt voor verkennend onderzoek
geschikt om meetinstrumenten te testen
goedkoop en snel
veel gebruikt in de psychologie
Maar: resultaten kunnen niet veralgemeend worden naar de populatie
5 typen van niet-aselecte steekproeftrekkingen:

Convenience sampling: kies de individuen die ‘voor het grijpen liggen’

Judgement sampling: kies deze individuen die als bevoorrechte getuigen kunnen fungeren, bv. groep
van zware gebruikers

Snowball sampling: de eerste respondent levert volgende proefpersoon op, enz… Te gebruiken bij
‘moeilijk vindbare’ doelgroepen

Quota sampling: verdeel de populatie in een aantal subgroepen (= strata) en kies uit elke subgroep
willekeurig een aantal proefpersonen. M.a.w. uit elke subgroep trekken we een convenience
sampling. Belangrijk voor representativiteit

Random Walk: de onderzoeker selecteert proefpersonen volgens een vooraf vastgesteld
wandeltraject. Toeval bij de keuze van proefpersonen speelt een rol. Deze procedure benadert het
beste de aselecte opzet en wordt gebruikt wanneer een steekproefkader niet voor handen is.
1.3.4.


VERZAMELEN VAN GEGEVENS
(pag 28)
diverse methoden voor verrichtingen van metingen:
o afname psychologische tests
o vragenlijsten
o interview
o observaties, …
deze gegevens worden systematisch weergegeven in datamatrix SPSS
1.3.5 ANALYSE VAN DE RESULTATEN (pag 29-30)

deductief redenering: uitgaande van bestaande waarden (zonder contact met de werkelijkheid)
nieuwe kennis opbouwen

inductief redenering: 2 tegengestelde beweringen tegenover elkaar stellen. We spreken dan over een
nul- en een alternatieve hypothese.
o Alternatieve hypothese: de stelling die de onderzoeker zal trachten te bewijzen
o Nulhypothese: vormt het tegengestelde van deze alternatieve hypothese
1.3.6 DE RAPPORTAGE (pag 30-31)
bevat 4 onderdelen:

de inleiding: de probleemstelling wordt beschreven en wat er vastgesteld is

de methode: beschrijft de proefgroep, het gebruikte materiaal, de gevolgde procedure en de
gehanteerde analyse

Resultaten: bevat de bevindingen van het onderzoek

De discussie: de resultaten worden samengevat en van commentaar voorzien
HOOFDSTUK 2: AAN DE SLAG MET SPSS
2.1.
HOE KUN JE STARTEN MET
(PAG 33-56)
SPSS? (pag 34-37)
Menu opties:








File: bewaren, openen … van bestanden
Edit: kopiëren,plakken
View: beeld – werkbalken aanpassen
Data: cases selecteren, wegen, sorteren, bestanden samenvoegen, splitsen
Transform: werken met variabelen, zoals optellen van items, hercoderen van variabelen, tellen van
bepaalde waarden per persoon
Analyze: uitvoeren van statistische analyses
Direct marketing: belang voor markeeters
Graphs: opvragen grafieken
2.2. HOE VUL JE EEN VARIABLE VIEW IN? (pag 37-45)










Name: 64 karakters zonder enige andere tekens
Type: altijd numerieke variabelen gebruiken, string is alfanumeriek
Width:
Decimals: op nul zetten
Label:
Values: in te vullen bij kwalitatieve variabelen vb geslacht 1:man 2: vrouw
Missing: geen waarde voor deze cel
Columns/align:
Measure: nominaal, ordinaal of scale
Role: standaard input
Nominaal
Te gebruiken bij kwalitatieve
variabelen
Geen meeteenheid en er bestaat
geen volgorde
Enkel categorieën met diverse
waarden VB geslacht: man en
vrouw
Ordinaal
Te gebruiken bij kwalitatieve
variabelen
De waarden kunnen we ordenen
maar er bestaat geen
meeteenheid
Een categorie met een volgorde
VB ontwikkelingsniveau: baby,
peuter, kleuter,
2.3. HOE VUL JE DATAVIEW IN? (pag 45-49)


1 respondent invoeren in 1 rij
1 cel bevat slecht 1 waarde
2.4. HOE KUN JE DATA OPSLAAN?


(pag 48-49)
Databestand: extensie .sav
Analyse v/d resultaten: extensie .spv
2.5. HOE KUN JE EEN BESTAND OPENEN? (pag 49-51)

File – open – data
2.6. MAAK KENNIS MET DE VIEWER
(pag 51-54)
Scale
Te gebruiken bij kwantitatieve
variabelen
Er is een meeteenheid
Ratio en interval
HOOFDSTUK 3: OPERATIONALISERING EN METEN VAN VARIABELEN (pag57-82)
3.1. WAT IS OPERATIONALISERING?


(pag 58)
Aangeven hoe gemeten zal worden
waarden van variabelen kunnen kwalitatief of kwantitatief zijn
kwalitatieve variabele
bestaat enkel uit een indeling in categorieën
3.2. WELKE ZIJN DE MEETNIVEAUS?



kwantitatieve variabele
de waarden bestaan uit getallen/scores
Discreet: het aantal waarden voor de variabel
beperkt is. Het resultaat van een telling
Continu: het aantal tussenliggende waarden is
onbegrensd. Het verschil tussen 2 opeenvolgende
waarden willekeurig klein kan worden. Afgerond
getal.
(pag 59)
nominaal
ordinaal
scale
3.2.1. NOMINAAL MEETNIVEAU
(pag 59-60)
3.2.2. ORDINAAL MEETNIVEAU
(pag 60)
3.2.3. INTERVALMEETNIVEAU
(pag 60-61)
3.2.4. RATIOMEETNIVEAU
(pag 61)
Nominaal meetniveau
Geen rangordening
Geen meeteenheid
Geen nulpunt
Kwalitatief
Ordinaal meetniveau
Rangordening
Geen meeteenheid
Nulpunt
Kwalitatief
De afstand tussen 2
opeenvolgende
categorieën is niet gelijk
Intervalmeetniveau
Rangordening
Meeteenheid
Geen nulpunt
Ratiomeetniveau
Rangordening
Meeteenheid
Nulpunt
de onderlinge afstanden
tussen de opeenvolgende
waarden zijn beschikbaar
de onderlinge afstanden
tussen de opeenvolgende
waarden zijn gelijk
Koppeling getal mogelijk
maar hebben geen
getalswaarde
Dichotome variabele: 2
waarden aannemen
Categorische variabelen:
in 2 subgroepen verdelen
De waarden kunnen
exhaustief en mutueel
exclusief zijn: elke
deelnemer moet kunnen
geplaatst worden en elke
deelnemer kan slechts in
1 categorie geplaatst
worden
3.3. WAT IS DE BETEKENIS VAN DEZE MEETNIVEAUS?




(pag 61-64)
vooral gebruik maken van nominale, ordinale en intervalvariabelen
Naarmate het meetniveau hoger is kunnen we meer bewerkingen uitvoeren
Zorg voor variabelen – indien mogelijk - met een zo hoog mogelijk meetniveau, bv. leeftijd.
Diverse variabelen met intervalniveau kunnen opgeteld worden… Zorg ervoor dat de afhankelijke
variabele zo veel mogelijk op interval niveau gemeten wordt. Dit heeft eveneens consequenties voor
de analyse van de gegevens
3.4. BETROUWBAARHEID EN VALIDITEIT
(pag 64-65)
Betrouwbaarheid
Heeft te maken met stabiliteit van de meting
Betrouwbaarheid bestuderen door hertesting,
halvering, parallelvorm en interne homogeniteit
Interne homogeniteit: onderzoek door na te gaan of
de items van eenzelfde test door de respondenten
op eenzelfde manier beantwoordt worden. Dus de
samenhang bestuderen tussen de wijze waarop elke
item beantwoord werd en de totaaluitslag voor deze
schaal= CRONBACH’S ALPHA
3.5. VOORBEREIDENDE BEWERKINGEN IN SPSS



(pag 66)
SPSS: transform – compute: de mogelijkheid om nieuwe variabelen aan te maken met bestaande
variabelen
SPSS: transform – recode into different variables: hercoderen van bestaande variabelen in nieuw
variabelen
SPSS: transform – count: per waarnemingsobject bepaalde scores te tellen
3.5.1. TRANSFORM – RECODE

Validiteit
De test meet wat hij wil meten
Betrouwbaarheid is een voorwaarde voor validiteit
(pag 66-70)
New value is altijd numeriek
3.5.2. TRANSFORM – COMPUTE VARIABLE (pag 70-73)

Hoe maken we een schaaluitslag via de som?
o Voor het samenstellen van items tot een schaal

Hoe maken we een schaaluitslag via de functie MEAN?
(pag 72-73)
3.5.3. TRANSFORM – COUNT



(pag 73-75)
Per persoon nagaan hoe vaak een bepaalde score behaald werd
Op deze wijze ontstaat een nieuwe variabele waarin het aantal missing values per persoon
samengeteld wordt.
U kunt hierbij ook gebruik maken van de optie Count IF.
3.5.4. CRONBACH’S ALPHA

(pag 75-80)
Analyze  scale  reliability analysis
HOOFDSTUK 4: DE FREQUENTIEVERDELING
4.1. HOE MAAK JE EEN FREQUENTIETABEL?
(PAG 83-108)
(pag 84-89)

Datamatrix: bevat de resultaten van een onderzoek en dit is onoverzichtelijk

Een frequentieverdeling geeft een beter overzicht

Frequentie is het aantal keren dat een bepaalde waarde voorkomt:
o Een absolute frequentie: het aantal keren dat een waarde voorkomt
o
Een relatieve frequentie: de absolute frequentie te delen door het totale aantal
respondenten
o
Een cumulatieve frequentie: geeft aan hoeveel observaties lager of gelijk zijn aan een
bepaalde waarde
o
Een cumulatieve proportie: duidt aan hoeveel procent van de respondenten eenzelfde of een
lagere score behaalden

2 soorten tabel: ééndimensionale of meerdimensionaal

Ééndimensionale
Heeft slechts 1 ingang, dus 1 variabele


Univariate tabel of tabel met 1 ingang

meerdimensionaal
Om de relatie tussen 2 nominale variabelen
aan te geven
Kruistabel of contingentietabel
Geslacht * nieuwleeftijd Crosstabulation
Count
Ges lacht
man
vrouw
Total
nieuwleeftijd
bus ter
boomer
38
99
79
177
117
276
Total
137
256
393
HOE MAKEN WE EEN FREQUENTIETABEL MET SPSS?

Univariate tabel: analyze  descriptive statistics  frequencies

Kruistabel: analyze  descriptive statistics  crosstabs
Opmerking: het aanmaken van een kruistabel is enkel interessant als we te maken hebben met een
kwalitatieve variabelen en zover het aantal waarden beperkt is.
4.2. HOE MAAK JE EEN GRAFISCHE VOORSTELLING?

(pag 89-100)
Het niveau van meting heeft een impact op de wijze van grafische voorstelling van de gegevens
4.2.1. EEN TAARTDIAGRAM
(pag 89-91)
4.2.2. EEN STAAFDIAGRAM
(pag 91-92)
4.2.3. EEN HISTOGRAM
(pag 92-93)
4.2.4. EEN STAMDIAGRAM
(pag 94-96)
4.2.5. EEN BOXPLOT
(pag 96-98)
4.2.6. EEN GECLUSTERD STAAFDIAGRAM (pag 98-100)
4.2.7. EEN GESTAPELD STAAFDIAGRAM
(pag 100)
Taartdiagram
nominaal
Analyze  descriptive
statistics  frequencies
 charts  pie charts
Taartpuntendiagram of
cirkeldiagram
Presenteert op een
grafische wijze de
proportie van elke
waarde
Staafdiagram
ordinaal
Analyze  descriptive
statistics  frequencies
 charts  bar charts
balkendiagram
Histogram
interval
Analyze  descriptive
statistics  frequencies
 charts  histograms
Presenteert een
grafische voorstelling van
de frequentie van elke
waarde
Horizontale as: de
geobserveerde waarden
van de variabele
Verticale as: de absolute
frequentie
Het gemiddelde, de
standaarddeviatie en het
aantal observaties
worden ook aangegeven
Boxplot
Samenhang van 2 nominalen
Geclusterd staafdiagram
Samenhang van 2 nominalen
grafisch weergegeven
Graphs  legacy dialogs  bar
clustered
Graphs  legacy dialogs 
boxplot  simple
Presenteert op een grafische wijze
de verdeling van uitslagen van een
intervalgeschaalde variabele
Stamdiagram
scale
Analyze  descriptive
statistics  explore 
plots
Stem-and-leafplot of
stam-met-loofdiagram
De eerste kolom duidt de
frequentie aan
De 2de kolom bevat de
gemeenschappelijke
stam, vermenigvuldigen
met 100
De 3de kolom komt
overeen met één
observatie
Presentatie van de
individuele observaties
Gestapeld staafdiagram
Samenhang van 2 nominalen
grafisch weergegeven
Graphs  legacy dialogs  bar
diplome
400
lager onderwijs
lager middelbaar
hoger middelbaar
hoger niet-universitair
onderwijs
universitair onderwijs
300
lager onderw ijs
lager middelbaar
hoger middelbaar
hoger niet-universitair onderw ijs
universitair onderw ijs
Count
75
Count
Diploma
200
Bars show counts
50
100
25
0
man
v rouw
Geslacht
0
man
vrouw
geslacht
4.3.
HOE KUN JE DATA SELECTEREN?
(pag 101-102)
4.4.
PERCENTIELEN
(pag 103-105)

Een percentiel geeft aan hoeveel procent van de deelnemers eenzelfde of een zwakkere score
behaalde.

Het percentiel komt overeen met de cumulatieve proportie van een bepaald resultaat

SPSS: Analyze  descriptive statistics  frequencies  statistics  percentiles
Taa lvaa rdighe id
Vali d
Mis sin g
Tota l
62
66
68
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
91
Tota l
Sys te m
Fre qu en cy
1
1
1
4
5
1
7
8
13
10
9
16
19
15
16
7
10
9
12
10
6
4
2
1 86
2
1 88
Perce nt
,5
,5
,5
2 ,1
2 ,7
,5
3 ,7
4 ,3
6 ,9
5 ,3
4 ,8
8 ,5
1 0,1
8 ,0
8 ,5
3 ,7
5 ,3
4 ,8
6 ,4
5 ,3
3 ,2
2 ,1
1 ,1
9 8,9
1 ,1
1 00 ,0
Vali d Pe rcen t
,5
,5
,5
2 ,2
2 ,7
,5
3 ,8
4 ,3
7 ,0
5 ,4
4 ,8
8 ,6
1 0,2
8 ,1
8 ,6
3 ,8
5 ,4
4 ,8
6 ,5
5 ,4
3 ,2
2 ,2
1 ,1
1 00 ,0
Cum u la tive
Perce nt
,5
1 ,1
1 ,6
3 ,8
6 ,5
7 ,0
1 0,8
1 5,1
2 2,0
2 7,4
3 2,3
4 0,9
5 1,1
5 9,1
6 7,7
7 1,5
7 6,9
8 1,7
8 8,2
9 3,5
9 6,8
9 8,9
1 00 ,0
VARIANTEN VAN HET PERCENTIEL

Het kwartiel: alle scores verdelen in 4 groepen. Dus P25 = Q1 / P50 = Q2 / P75 = Q3

Het deciel: het geheel van de observaties verdelen in 10 evenwaardige delen waarin telkens 10% van
de observaties zich bevindt. VB 1 percentiel 10% dus D1 = P10
HOOFDSTUK 5: CENTRUMMATEN
5.1. DE MODUS
(PAG 109-122)
(pag 110)


De modus is de waarde met de hoogste frequentie
Gebruikt bij metingen van nominaal, ordinaal, interval en ratio niveau


Bimodaal: indien 2 modi voorkomen in een verdeling
Multimodaal: een frequentieverdeling met meerdere modi
5.2.






DE MEDIAAN
(pag 111)
De mediaan is de middelste waarde wanneer de observaties in volgorde van laag naar hoog
gerangschikt zijn.
Rangordening van de waarden kunnen maken
Geen mediaan op nominaal niveau
Alleen op ordinaal, interval en ratio niveau
Bij oneven aantal observaties de middelste waarde nemen VB 2,4,6,8,10 mediaan 6
Bij even aantal observaties het midden tussen de 2 middelste VB 2,4,6,7,8,10 mediaan 6.5
 Mediaan  X n 1 (n oneven)

2


Xn + Xn
1

2
2
Mediaan

(n even)

2

5.3.


Grafische voorstelling: BOXPLOT
HET REKENKUNDIG GEMIDDELDE
(pag 111-115)
Het gemiddelde is de som van alle scores gedeeld door het aantal scores/observaties
Is enkel mogelijk voor interval en ratio meetniveaus, bv. IQ, schooluitslagen, testuitslagen,
leeftijd,…
X1  X 2  ...  X n
1 n
X   i 1 X i 
n
n

Populatie: µ
_
 Steekproef: X

VB:
Score
Frequentie
4
9
6
15
8
21
gemiddelde: (9*4 + 15*6 + 21*8)/45 = 6,53
5.3.1. HET GEWOGEN GEMIDDELDE

(pag 112)
Het gemiddelde van de samengestelde proefgroep waarin beide groepen zijn opgenomen
X
n1  X1  n 2  X 2
n1  n 2

Een analoge eigenschap voor de mediaan bestaat niet. Om de mediaan van de samengestelde
steekproef te kennen, moet je al de metingen kennen

VB: Tien jongens kijken gemiddeld 3 uur per dag tv en vijf meisjes kijken gemiddeld 2 uur per dag tv.
Wat is dan het gemiddelde van de gezamenlijke proefgroep?
Oplossing
de jongens kijken 30 uur tv
de meisjes kijken 10 uur tv
totaal:
40 uur;
dit is gemiddeld 40/15 = 2,67 (=gewogen gemiddelde)
X
n1  X1  n 2  X2 10  3  5  2 40


 2,67
n1  n 2
10  5
15
5.3.2. HET GETRIMDE GEMIDDELDE

(pag 113)
Het rekenkundig gemiddelde van het deel van de waarnemingsgetallen dat overblijft na weglating
van de P% kleinste en P% grootste
X  18, 2
Xgetrimd  17,94
WELKE ZIJN DE EIGENSCHAPPEN VAN HET REKENKUNDIG GEMIDDELDE?

Som van de afwijkingen van de waarnemingsgetallen tot het rekenkundig gemiddelde gelijk is aan 0.
 X
N
i 1

(pag 113-115)
i
 X  0
Lineaire transformatie: bij een lineaire transformatie van de scores wordt het rekenkundig
gemiddelde getransformeerd. Alle waarnemingsgetallen met b vermenigvuldigt en daar een constant
a bij optelt, wordt het rekenkundig gemiddelde van de nieuwe verdeling op dezelfde manier
getransformeerd.
Yi  a  b  Xi
i  1, 2,..., n 
 Y  a  bX

De centrale limietstelling: Het rekenkundig gemiddelde van een aselecte steekproef is een zuivere
schatter van het populatiegemiddelde (µ). D.w.z. dat wanneer we van een oneindig aantal
steekproeven (met hetzelfde aantal n) steeds het steekproefgemiddelde berekenen, het rekenkundig
gemiddelde van alle steekproefgemiddelden gelijk is aan het populatiegemiddelde.





snel te berekenen en eenvoudig te begrijpen
in dezelfde meeteenheid als de waarden
Alle waarden worden bij de berekening betrokken
Gevoelig voor extreme waarden
Steeds berekenen bij interval en ratio waarden

Eventueel vergelijken met mediaan:
 Een rechtsscheve verdeling: indien het gemiddelde groter is dan de mediaan en de mediaan
op zijn beurt groter is dan de modus

Een linksscheve verdeling: indien het gemiddelde kleiner is dan de mediaan en de mediaan
op zijn beurt kleiner is dan de modus
GEBRUIK VAN DE CENTRUMMATEN
 Modus vooral bij nominale waarden
 Gemiddelde versus mediaan?
- Gemiddelde gebruikt meer informatie dan de mediaan; de mediaan gebruikt enkel de rangorde van
de getallen, dus bij interval waarden….
- Invloed van ‘uitbijters’/’’outliers’? Uitbijters hebben geen invloed op de mediaan, wel op het
gemiddelde.
Bij de mogelijkheid van extreme waarden kan getrimde gemiddelde een oplossing bieden.
Getrimde gemiddelden worden berekend zonder rekening te houden met bv. de 5% hoogste en 5%
laagste waarden
 Gemiddelde versus mediaan:
Het gemiddelde varieert minder van steekproef tot steekproef t.o.v. de mediaan. Dus het
gemiddelde wordt meer gebruikt in de toetsende statistiek om het centrum van de populatie te
schatten.
 Gemiddelde is algebraïsch aardiger. We kunnen gegevens van subgroepen samenvoegen om gewogen
gemiddelde te berekenen, … dit kan niet bij een mediaan.
Het gemiddelde verdient de voorkeur bij interval/ratio schalen.
 Onderlinge positie van gemiddelde en mediaan zegt iets over de mate van scheefheid van de
verdeling.
 Besluit:
1. De vorm van de verdeling heeft invloed op de onderlinge positie van de centrummaten.
2. Indien mogelijk maak gebruik van het rekenkundig gemiddelde als maat van centrale tendens.
5.4.

DE CENTRALE TENDENS VIA
SPSS
(pag 115-120)
SPSS: analyze  descriptive Statistics  frequencies  statistics  median/mode/mean
HOE KUNNEN WE SUBGROEPEN VERGELIJKEN?


Om subgroepen te vergelijken maken we vaak gebruik van het rekenkundig gemiddelde.
SPSS: analyze  compare means  means
HOOFDSTUK 6: VARIABILITEITSMATEN
6.1. DE RANGE OF HET BEREIK
(PAG 123-138)
(pag 124-125)

Om de range te berekenen dienen de uitslagen gerangschikt te worden van groot naar klein of
omgekeerd. Dit betekent dat de scores minimaal van ordinaal niveau moet zijn (nominaal geen
rangorde). Indien de uitslagen geordend zijn van klein naar groot, is het verschil tussen de
grootste en de kleinste waarde de range of het bereik.

Nadeel: slechts 2 observaties hebben invloed op de range, nl. de hoogste en de laagste score. De
tussenliggende observaties leveren geen bijdrage  geen goed zicht op de diversiteit van
uitslagen
6.2. DE INTERKWARTIELAFSTAND / INTERKWARTIELBEREIK (pag 125-126)





Het gebied op de X-as waartussen de middelste helft (50%) van alle waarnemingen valt, is de
interkwartielafstand (Q). Q  P75  P25  Q3  Q1
Biedt een goed inzicht in de variabiliteit van de uitslagen
alle uitslagen gelijk zijn aan elkaar  Q-waarde is gelijk aan nul
naarmate de uitslagen onderling meer verschillen vertonen  interkwartielafstand neemt toe
grafische voorstelling: BOXPLOT
6.3. DE GEMIDDELDE AFWIJKINGSSCORE /DEVIATIESCORE (pag 126)


De som van de afwijkingscores bedraagt 0; gemiddelde afwijkingscore dus ook
Dus deze maat kunnen we niet gebruiken als maat van variabiliteit
k
 X
i 1
i
 X  0
6.4. DE GEMIDDELDE ABSOLUTE AFWIJKINGSSCORE (PAG 126-127)


De gemiddelde absolute afwijking komt overeen met het rekenkundig gemiddelde van de absolute
(geen rekening houden met het teken) waarde van de afwijking van elke score t.o.v. het gemiddelde
Geeft een goed idee van de variabiliteit van de scores  maar wordt niet gebruikt
6.5. DE VARIANTIE (PAG 127-130)


De afwijking van elke uitslag ten opzichte van het rekenkundig gemiddelde berekenen en deze
afwijking kwadrateren. Vervolgens het gemiddelde nemen van deze gekwadrateerde afwijkingsscore.
Dus in eerste instantie de som van deze gekwadrateerde afwijkingsscores bepalen en deze som te
delen door het aantal observaties  altijd positief getal
SPSS: analyze  descriptive Statistics  frequencies  statistics  variance
6.6.
DE STANDAARDDEVIATIE
(PAG 130-131)

Standaardafwijking of standaarddeviatie is gelijk aan de wortel uit de variantie




Altijd een positief getal!!
De kleinste SD is gelijk aan nul  wanneer alle waarden gelijk zijn aan elkaar
In alle andere situaties is de SD een getal groter dan nul.
Altijd uitgedrukt in dezelfde eenheid als de scores

SPSS: analyze  descriptive Statistics  frequencies  statistics  std deviation
6.7. DE VARIATIECOËFFICIËNT (PAG 131-132)

Is gelijk aan de SD gedeeld door het gemiddelde
V
sX
X
6.8. LINEAIRE TRANSFORMATIES (PAG 132-136)

Indien we enkel rekenkundige bewerkingen als delen, vermenigvuldigen, optellen en aftrekken

Als je alle waarden (X) met eender welke constante vergroot of verkleint, dan wordt het gemiddelde
eveneens met die waarde vergroot of verkleind, maar dit heeft geen effect op de standaardafwijking,
noch op de variantie.

Als je alle waarden (X) met 3 vermenigvuldigt, dan wordt het gemiddelde 3 keer groter en de
standaardafwijking ook 3 keer groter. De variantie wordt 9 keer groter.

Als je alle waarden (X) met -3 vermenigvuldigt, dan wordt het gemiddelde met -3 keer
vermenigvuldigd, maar de standaardafwijking wordt met 3 vermenigvuldigd. De variantie wordt 9
keer groter.
DE STANDAARDSCORE
 Van elke ruwe score het gemiddelde aftrekken en vervolgens dit verschil delen door de SD
zi 
Xi  X
sX
 SPSS: analyze  descriptive Statistics  descriptives  save standardized values as variables
 Standaardisering: Wat wordt het rekenkundig gemiddelde en variantie van deze Z-waarden?
- het gemiddelde zal altijd nul zijn
- de variantie en standaarddeviatie zullen altijd 1 zijn.
 Z-waarden zijn een dimensieloos getal, en kunnen zowel positief als negatief zijn.
 Een negatieve Z-waarde betekent dat deze uitslag zich links van het gemiddelde bevindt.
 Een positieve Z-waarde betekent dat deze uitslag zich rechts van het gemiddelde bevindt.
 De uitslagen kunnen omgezet worden in Z-waarden, maar ook omgekeerd, indien we het rekenkundig
gemiddelde hebben en de standaarddeviatie van de oorspronkelijke gegevens kunnen we elke Zwaarde terug plaatsen in de oorspronkelijke verdeling
 Xi  X  zi  s X
 Let wel: het standaardiseren heeft geen effect op de vorm van de verdeling, m.a.w. scheef blijft
scheef, symmetrisch blijft symmetrisch.
Enkel het gemiddelde wordt nul en de standaarddeviatie wordt één

Samenvatting
Meetniveau
Nominaal
Ordinaal
Interval
Ratio
Centrummaat
Modus
Modus
Mediaan
Mediaan
Gemiddelde
Mediaan
Gemiddelde
Spreidingsmaat
Range
Interkwartielafstand
Range
Interkwartielafstand
Standaard afwijking
Range
Interkwartielafstand
Standaard afwijking
Andere
Gemiddelde absolute
afwijking
Gemiddelde absolute
afwijking
HOOFDSTUK 7: DE NORMALE VERDELING
(PAG 139-152)
7.1. DE NORMALE VERDELING (pag 140-142)

Een intervalwaarde die afhankelijke is van een oneindig aantal factoren, die los van elkaar inwerken,
zal in de populatie een normale verdeling vertonen (Gausscurve); bv. Intelligentie.
o
o
o
o
Gemiddelde in steekproef: X
Gemiddelde in de populatie: µ
Standaarddeviatie in de steekproef: s
Standaarddeviatie in de populatie: σ
WAT ZIJN DE EIGENSCHAPPEN VAN EEN NORMALE VERDELING?





Er is maar 1 gemiddelde
2 buigpunten: altijd op gelijke afstand van het rekenkundig gemiddelde, nl 1 SD links en rechts
verwijderd
De normale verdeling heeft 1 maximum, dwz dat het gemiddelde gelijk is aan modus en aan de
mediaan
De grafische weergave van de normale verdeling is klokvormig;
De uitslagen liggen vooral geconcentreerd rond het gemiddelde, naarmate scores afwijken t.o.v. het
gemiddelde wordt de frequentie kleiner.
3
7.2.

DE STANDAARDNORMALE VERDELING
1
1
2
3
4
(pag 143-148)
Ontstaat wanneer alle uitslagen van een normale verdeling zullen verminderen met het gemiddelde
en deze uitkomst delen door de standaarddeviatie:
o Normale verdeling met gemiddelde nul
o

2
Standaarddeviatie van 1
Er bestaan vaste relaties tussen de proportie van uitslagen en Z-waarden
o Linkeroverschrijdingskans: een uitslag die kleiner is of gelijk aan
o Rechteroverschrijdingskans: een uitslag die groter of gelijk aan
HOOFDSTUK 8: DE VORM VAN DE VERDELING
8.1.




DE KURTOSIS
(PAG 153-168)
(PAG 154-156)
Is een maat die aangeeft in hoeverre de verdeling van uitslagen een afwijkende welving vertoont
Indien de kurtosis nul is, zal de verdeling perfect overeenkomen met een normale verdeling
Positieve uitslag: verdeling piekt hoog
Negatieve uitslag: verdeling is platter of ingedeukt
VAR00003
VAR00005
25
20
Frequency
Frequency
30
20
15
10
10
5
Mean = 50,4933
Std. Dev. = 6,83629
N = 150
0
30,00
40,00
50,00
60,00
70,00
Mean = 51,0933
Std. Dev. = 14,34819
N = 150
0
30,00
40,00
50,00
60,00
70,00
VAR00003
VAR00005
8.2. DE SKEWNESS / SCHEEFHEID (PAG 156-158)
 Geeft aan in hoeverre een verdeling van uitslagen afwijkt ten opzichte van de symmetrie van een
normale verdeling

Afwijkende skewness: de waarde van de skewness is groter dan 2x de overeenkomstige standaardfout

Een symmetrische verdeling: de waarde van de skewness is nul
Absolute Frequenties
Histogram
40
35
30
25
20
15
10
5
0
0
20
40
Metingen X
60
80

Een linksscheve verdeling: de skewness is negatief:
o De staart verwijst naar de verdeling links, top verschuift naar rechts
o Modus is groter dan de mediaan
o Mediaan is groter dan het gemiddelde
 Een plafondeffect: een concentratie van uitslagen aan de rechterkant van de X-as
vaststellen
Absolute Frequenties
Histogram
45
40
35
30
25
20
15
10
5
0
0
20
40
60
80
Metingen X

Een rechtsscheve verdeling: de skewness is positief:
o De staart verwijst naar de verdeling rechts
o Modus is kleiner dan de mediaan
o Mediaan is kleiner dan het gemiddelde
 Vloereffect: er ontstaat een concentratie van lage uitslagen, terwijl de hoge
uitslagen meer verspreid liggen op de X-as
Histogram
Absolute Frequenties
45
40
35
30
25
20
15
10
5
0
0
20
40
Metingen X
8.3.
BEREKENING VIA
SPSS (PAG 158-160)
 SPSS: analyze  descriptive Statistics  explore  both
60
80
8.4.
HET EFFECT VAN EEN LINEAIRE TRANSFORMATIVE
(PAG 160-163)

Het gemiddelde wordt op dezelfde wijze getransformeerd.

De standaarddeviatie wordt met |b| vermenigvuldigd, de variantie met b².

De ‘skewness’ blijft onveranderd indien b>0.

De kurtosis blijft onveranderd
Model: Y = a + bX

Deze omzetting heeft GEEN
m.a.w. scheef blijft scheef.

Deze omzetting heeft wel een invloed op het rekenkundig gemiddelde (altijd nul) en de s (altijd 1).
8.5.
DE BOXPLOT
invloed
op
de
scheefheid
en
kurtosis
van
de
verdeling;
/ BOX-AND-WHISKERPLOT / DOOS MET SNORHAREN-DIAGRAM (PAG 163-164)

In de boxplot wordt in een doos de mediaan, het 25ste en het 75ste percentiel geplaatst, waardoor de
doos in feite het interkwatielafstand voorstelt.

Daarnaast worden de extreme en uiterst extreme waarden
Uitbijter ligt op meer dan 1,5 dooslengte van het 25ste of 75ste percentiel

Extreme uitbijters liggen op meer dan 3 dooslengtes van het 25 ste of 75ste percentiel.
 SPSS: analyze  descriptive Statistics  explore  plots
(=uitbijter)
afgebeeld.
HOOFDSTUK 9: ANALYSE VAN DE KRUISTABEL
(PAG 169-188)
ANALYSE VAN DE SAMENHANG

Vereisten: 2 uitslagen per persoon
2 nominale variabelen
kruistabel
2 ordinale variabelen
de correlatiecoëfficiënt van
Spearman
2 interval variabelen
de Pearson correlatiecoëfficiënt
en de regressietechniek.
Analyse met chikwadraattoets
voor kruistabellen en de
associatiematen.
9.1.
DE KRUISTABEL
(PAG 170-171)
Voorbeeld:
Rokers
Niet-rokers
Totaal


Verband tussen roken en hart- en vaatziekten (n=120)
Ja
Neen
5
15
1
99
6
114
Celfrequenties
De kolom- en rijtotalen / de randtotalen/ marginale totalen
totaal
20
100
120
 Nadien omzetten in percentage: altijd in de horizontale richting
 Dus 2 niveaus van de onafhankelijke variabelen die telkens 100% moeten vormen
 Aan de hand van dergelijke percentages de samenhang tussen 2 variabelen nagaan
Verband tussen roken en hart- en vaatziekten (n=120)
Ja
Neen
totaal
25%
75%
100
1%
99%
100
Rokers
Niet-rokers
Samenhang?:
o
o
De nulhypothese stelt dat er geen verband bestaat tussen de 2 variabelen en de
alternatieve hypothese stelt dat er wel een samenhang bestaat
Indien de gegevens uit de empirie niet stroken met de nulhypothese, kunnen we deze
hypothese verwerpen  er is een verband
 Zwakke, matige of sterke samenhang???  nagaan met chikwadraattoets
9.2. DE CHIKWADRAATTOETS / CHI-SQUARE TEST / INDEPENDENCE

(PAG 171)
De bestaande tabel vergelijken met de theoretische tabel of er samenhang bestaat tussen de 2
variabelen  zoekt dus het verschil uit
9.2.1. DE CHIKWADRAATTOETS VOOR KRUISTABELLEN
(PAG 172-175)
 SPSS: analyze  descriptive Statistics  crosstabs  statistics  chi-square
 De verwachte frequenties = fe
o Hoort bij de nulhypothese = er is geen samenhang tussen de variabelen
o Kolomtotaal cj te vermenigvuldigen met het overeenkomstige rijtotaal ri en dit te delen
door het aantal respondenten n
f
e
= r
i
.
cj
n
 Vervolgens de waarde van de chikwadraattoets berekenen: nodig om de mate van verschil tussen de
geobserveerde frequenties en de frequenties in de veronderstelling dat er helemaal geen samenhang
zou bestaan tussen beide variabelen
2  
 fo  fe 
2
fo : geobserveerde celfrequentie
fe
fe : verwachte celfrequentie
 Is de waarde groot genoeg om de nulhypothese onderuit te halen??
o de kritische waarden van de chikwadraattoets zijn nodig
o
o
dus vrijheidsgraden (= df) bepalen: het aantal vrij te variëren cellen
bepalen door het aantal kolommen minus 1, vermenigvuldigd met het
aantal rijen minus 1
BEMERKING:

je kunt de waarde van de chikwadraattoets enkel bepalen op grond van frequenties  nooit gebruik
maken van percentages in kruistabel

niet gebruiken indien de verwachte frequenties te klein zijn  indien te klein recode toepassen
Verwachte frequentie mag in max. 20% van de gevallen kleiner zijn dan 5
geen enkele Fe waarde mag kleiner zijn dan 1

niet gebruiken bij te kleine proefgroepen

niet gebruiken bij herhaalde metingen (= voor- en na meting)  McNemartest (|A-D|-1)2/(A+D)
o Let op welke celfrequenties u gebruikt als A en D versus C en B. A en D hebben betrekking op
de proefpersonen die veranderen in functie van de behandeling.
NA
VOOR
Niet geslaagd
Geslaagd
Geslaagd
5 (A)
35 (B)
Niet geslaagd
40 (C)
20 (D)
o
o
o
Uitwerking: 14*14/25 = 7,84, hetgeen getest wordt als chikwadraat toets;
enkel de groep van proefpersonen die van positie gewisseld gebruiken
enkel te gebruiken bij dichotome variabelen.
 SPSS: analyze  descriptive Statistics  crosstabs  statistics  McNemar
Chi-Square Tests
Value
McNem ar Test
N of Valid Cases
100
a. Binom ial distribution us ed.
Exact Sig.
(2-sided)
,004a
HOEVEEL WAARDEN KUNNEN ER IN EEN KRUISTABEL VRIJ VARIËREN WANNEER DE RANDTOTALEN INGEVULD WERDEN?

Dit is in een viervelden tabel slechts 1. Na het invullen van één van de celfrequenties liggen de
overige drie cellenfrequenties ook vast.
df: (r-1)*(k-1)
WAT IS DE KANS OM DEZE WAARDE VAN DEZE CHIKWADRAAT TE VINDEN INDIEN DE NULHYPOTHESE WAAR ZOU ZIJN?

Deze nulhypothese is bij een chikwadraattoets: er is geen verband tussen beide variabelen.

De alternatieve hypothese is: er is wel een verband.

Deze kans is uiterst klein, vandaar dat we de nulhypothese verwerpen.

Deze kans is redelijk aanwezig, vandaar dat we de nulhypothese niet verwerpen.

Significantie betekent dat de samenhang in de kruistabel niet toevallig is, maar verwijst naar een
samenhang in de populatie
9.2.
DE CHIKWADRAATTOETS VOOR FREQUENTIES
/ GOODNESS-OF-FIT-TEST (PAG 175-176)

toetsen over de verdeling van de uitslagen op één nominale variabele  vergelijking van de
vastgestelde resultaten met een vooropgestelde variabele

Wordt vaak gebruikt om aan te tonen dat de samenstelling van de steekproef een weerspiegeling is
van de populatie.

gebruik geen percentages, beide verdelingen dienen eenzelfde aantal respondenten te hebben.
Eventueel downscalen: vergelijkbaar maken met de aantallen in de steekproef
 SPSS: analyze  non parametric tests  legacy dialogs  chi-square test
Test Statistics
politiek
1
2
3
Total
9.3.

Obs erved N
60
5
25
90
Expected N
30,0
30,0
30,0
DE ASSOCIATIEMATEN
Res idual
30,0
-25,0
-5,0
Chi-Squarea
df
Asymp. Sig.
politiek
51,667
2
,000
a. 0 cells (,0%) have expected frequencies les s than
5. The minimum expected cell frequency is 30,0.
(PAG 177-178)
Associatiematen gebaseerd op de chikwadraattoets voor kruistabellen:
o De Cramer’s V
o De contingentiecoëfficiënt
o De phi-coëfficiënt (enkel bij 2X2 tabel)
9.3.1. DE CRAMER’S V


Deze index geeft de sterkte van het verband aan en varieert van 0 tot 1.
Kan in elk type kruistabel gebruikt worden.
9.3.2. DE CONTINGENTIECOËFFICIËNT

in vergelijking met het geen maximum haalbaar is in functie van de grootte van de tabel
9.3.3. DE PHI-COËFFICIËNT
 Kan beschouwd worden als een standaardisering van de chikwadraattoets.
o
o
o
Kan enkel gelijk worden aan 1 indien verhouding tussen rijtotalen en kolomtotalen gelijk is, in
het andere geval blijft deze waarde kleiner dan 1.
Het teken van deze coëfficiënt speelt geen rol: we kunnen de waarden van plaats wisselen,
waardoor het teken verandert.
Het is niet zinvol te spreken over een negatief of positief verband bij nominale waarden.
 enkel bij vierveldentabel
o berekening uitgaande van de celfrequenties en de marginale totalen in de kruistabel
a,b,c, en d vormen de celfrequenties
e,f,g,h vormen de randtotalen
9.4. ANALYSE VIA SPSS
(PAG 179-187)
9.4.1. EEN SNELLE INVOER VAN EEN KRUISTABEL
 eerst in de variable view de variabelen aangeven
 SPSS: data  weight cases  weight cases by  frequency variable
 Opvragen van kruistabel
 SPSS: data  descriptive statistics  crosstabs
9.4.2. HOE BEREKEN JE DE SAMENHANG IN EEN KRUISTABEL? (PAG 182-185)
 SPSS: analyze  descriptive Statistics  crosstabs  statistics 
 Output
Symmetric Measures
Nom inal by
Nom inal
Phi
Cram er's V
Contingency Coeffi cient
N of Vali d Cases
Value
,507
,358
,452
85
Approx. Sig.
,000
,000
,000
a. Not as s um ing the null hypothesi s.
b. Usi ng the as ym ptotic standard error as sum ing the nul l
hypothesis .
 In welke richting bestaat het verschil?  Vergelijking van de frequenties
SPSS: data  descriptive statistics  crosstabs  cells
partij * attitude Crosstabulation
voor
partij
Total
9.4.3.
Nieuw Groen Count
Expected Count
NOTAX
Count
Expected Count
NOVA
Count
Expected Count
Count
Expected Count
HOE BEREKEN JE DE CHIKWADRAATTOETS VOOR FREQUENTIES?
12
8,5
5
13,6
12
6,8
29
29,0
attitude
weet niet
5
7,1
12
11,3
7
5,6
24
24,0
tegen
8
9,4
23
15,1
1
7,5
32
32,0
(PAG 185-187)
Zie punt 9.2 SPSS: analyze  non parametric tests  legacy dialogs  chi-square test
Total
25
25,0
40
40,0
20
20,0
85
85,0
HOOFDSTUK 10: HET CORRELATIEVRAAGSTUK
10.1.
DE SCATTERPLOT
(PAG 189-214)
/ SPREIDINGSDIAGRAM (PAG 190-193)


Interval- en ratiovariabelen: dus tussen 2 kwantitatieve variabelen
Is de mate waarin elk individu eenzelfde relatieve positie inneemt op de twee variabelen

Positief: wanneer de hoge score voor de 1ste variabele samenhangt met een hoge score voor de 2 de
variabele
Negatief: wanneer de hoge score voor de 1ste variabele samenhangt met een lage score voor de 2de
variabele




X-as: de onafhankelijke variabele
Y-as: de afhankelijke variabele
Elk punt is een proefpersoon  het geheel vormt een puntenwolk
140,00
120,00
120,00
100,00
100,00
Y
Y
80,00
80,00
60,00
60,00
40,00
40,00
20,00
20,00
30,00
40,00
50,00
60,00
70,00
20,00
30,00
X
40,00
50,00
60,00
70,00
X
Zeer hoge positieve correlatie
Hoge positieve correlatie
80,00
80,00
70,00
70,00
60,00
Y
Y
60,00
50,00
40,00
50,00
40,00
30,00
30,00
20,00
20,00
20,00
30,00
40,00
50,00
60,00
X
Een geringe positieve correlatie
70,00
20,00
30,00
40,00
50,00
X
geen correlatie
60,00
70,00
80,00
70,00
80,00
60,00
70,00
50,00
Y
60,00
Y
40,00
50,00
30,00
40,00
20,00
30,00
10,00
20,00
20,00
30,00
40,00
50,00
60,00
20,00
70,00
30,00
40,00
50,00
X
X
Negatieve matige correlatie
hoge negatieve correlatie
70,00
60,00
Y
50,00
40,00
30,00
20,00
20,00
30,00
40,00
50,00
X
60,00
70,00
zeer hoge negatieve correlatie
60,00
70,00
10.2. HET BEGRIP CORRELATIE
(PAG 193-196)
 De Pearson correlatie:
o 2 intervalvariabelen berekenen door het gemiddelde product te nemen van de
overeenkomstige Z-waarden en de som van deze producten te delen door het aantal
deelnemers
o -1  bij perfecte negatieve correlatie
o +1  bij perfecte positieve correlatie
o 0  geen samenhang tussen de 2 variabelen
 = ∑ * /n
correlatie is symmetrisch
 = ∑ * /n
 De covariantie:
o niet gestandaardiseerde maat van samenhang tussen twee interval variabelen
o Gemiddelde product van de afwijking t.o.v. het rekenkundig gemiddelde
 Indien we de covariantie delen door het product van de standaarddeviaties van beide variabelen,
ontstaat de pearson correlatie
o een gestandaardiseerde maat van samenhang, varieert van – 1 tot + 1
o Blijft constant als de X en/of de Y waarden vermenigvuldigd, gedeeld worden door een
bepaald getal. Let wel op het teken van de correlatie.
o Blijft constant als de X en/of de Y waarden opgeteld of verminderd worden met een bepaald
getal.
o Dus r is invariant onder lineaire transformaties (afgezien van het teken).
10.3.
X'i  a  b  Xi



(PAG 196-198)
INVLOED VAN TRANSFORMATIES OP DE CORRELATIE
rX',Y' 
Yi'  c  d  Yi
bd
 rX,Y
bd
Één of beide variabelen worden vermeerderd of verminderd met een constante  heeft geen effect
op de onderlinge samenhang (lineaire transformaties)
Is niet invariant voor niet-lineaire transformaties, zoals bv. omzetting in percentielscores, of bv.
worteltrekking of kwadratering.
Niet lineaire transformaties wijzigen de vorm van de verdeling en tevens de correlatie met andere
variabelen
10.4 INTERPRETATIE VAN DE CORRELATIE (PAG 198-203)

De variabelen hangen niet met elkaar samen (bv. lichaamslengte en schooluitslag)
80,00
70,00
Y
60,00
50,00
40,00
30,00
20,00
20,00
30,00
40,00
50,00
60,00
70,00
X

Het verband tussen de beide variabelen is niet lineair (bv. relatie tussen angst en prestaties)
40,00
35,00
Y
30,00
25,00
20,00
15,00
0,00
2,00
4,00
6,00
8,00
10,00
X
Er is sprake van ‘restriction of range’. Eén van de variabelen heeft onvoldoende bereik, waardoor de
correlatie gedrukt wordt.
20,00
7,00
6,00
15,00
5,00
10,00
Y
Y

4,00
3,00
5,00
2,00
0,00
1,00
0,00
20,00
40,00
60,00
X
80,00
100,00
15,00
20,00
25,00
30,00
X
35,00
40,00
10.4.1. BESTAAT ER EEN OORZAKELIJK VERBAND?

10.5.
Het is mogelijk dat er een causale relatie bestaat tussen beide variabelen maar het is ook mogelijk
van niet
SCATTERPLOT EN CORRELATIE VIA
SPSS (PAG 203-208)
10.5.1. HOE TEKEN JE EEN SCATTERPLOT?
 SPSS: Graphs  legacy dialogs  scatter/dot  simple scatter  define
o Afhankelijke variabel op de Y-as
o Onafhankelijke variabel op de X-as
10.5.2. HOE BEREKEN JE DE CORRELATIE?
 SPSS: Analyze  correlate  bivariate  pearson aangevinkt
Output
Correlations
Intelligentie quotient
schooluitslag
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Intelligentie
quotient
1
schooluitslag
,914**
,001
8
8
,914**
1
,001
8
8
**. Correlation is significant at the 0.01 level (2-tailed).
10.6.
MEER DAN 2 INTERVALGESCHAALDE VARIABELEN
(PAG 208-209)

Multiple correlatie: de samenhang tussen de afhankelijke variabele en meerdere onafhankelijke
variabelen maar ook van de onderlinge samenhang tussen deze variabelen
VB: Er is een samenhang tussen het schoolresultaat en de intelligentie, maar ook tussen het
schoolresultaat en de studietijd.

Partiële correlatie: de zuivere samenhang tussen 1 afhankelijke variabele en 1 onafhankelijke
variabele en dit onder constant houding van een 3 de variabele
SPSS: Analyze  correlate  partial  partial correlations
10.7.



DE RANGCORRELATIE
(PAG 209-211)
Het betreft het verband tussen twee ordinale variabelen.
Correlatiecoëfficiënt van Spearman
Deze correlatie varieert van -1 tot + 1
 SPSS: Analyze  correlate  bivariate  pearson aanvinken
Correlations
Spearman's rho
Leiders chap
Intelligentie
Correlation Coefficient
Sig. (2-tailed)
N
Correlation Coefficient
Sig. (2-tailed)
N
Leiders chap
1,000
.
10
,614
,059
10
Intelligentie
,614
,059
10
1,000
.
10
HOOFDSTUK 11: DE REGRESSIETECHNIEK
11.1.
DE REGRESSIELIJN
(PAG 215-235)
(PAG 216-220)


De samenhang nagaan tussen 2 intervalgeschaalde variabelen
De regressielijn voldoet aan het criterium van het kleinste kwadraat. D.w.z. dat de gekwadrateerde
afwijking van de verwachte uitslag t.o.v. de feitelijke uitslag minimaal is.

Een lijn trekken door de puntenwolk in de scatterplot
SPSS: Graphs  interactive  scatterplot  create scatterplot


Criteriumvariabele: de variabele waarvoor een voorspelling maken
Predictorvariabele: de variabele op basis waarvan de voorspelling maken
11.1.1. WAT IS DE FORMULE VOOR DEZE REGRESSIELIJN?
Algemene werkformule van de regressielijn:
Y=Y+r
o
XY
(Xi – X)*SDY/SDX
Vergelijking van de best passende lijn, waarbij de Y waarden zo goed mogelijk geschat kunnen
worden op grond van de X waarden. De regressielijn is niet symmetrisch.
Y = a + bX
Waarbij:
o
o
o
o
X = de onafhankelijke (predictor) variabele (horizontale as)
Y = de afhankelijke (criterium) variabele (verticale as)
a = de constante, die het snijpunt (intercept) met de Y-as vormt
b = de hellingscoëfficiënt (slope, of richtingscoëfficiënt)
HOE VINDEN WE DEZE A EN B COËFFICIËNTEN?
o
a: dit is de uitslag van Y indien X nul bedraagt;
a = Y – bX (intercept)
o
b: dit is de richtingscoëfficiënt; deze is functie van de r en de verhouding tussen de beide SD.
b = rYX. SDY/SDX (slope)
Deze b geeft aan hoe de Y waarde verandert wanneer de X waarde met één eenheid toeneemt.
11.1.2. WAT IS DE WAARDE VAN DEZE REGRESSIELIJN? (PAG 220)

Proportie verklaarde variantie: r2XY
Deze determinatiecoëfficiënt geeft de gemeenschappelijk variantie weer.
Kan berekend worden via het kwadraat van de r. Voorstelling:
r2

Proportie niet-verklaarde variantie:

Het verschil tussen de verwachte en de feitelijke score van Y is de schattingsfout.
De standaarddeviatie van deze fout is de standaardschattingsfout. Dit komt overeen met de
standaarddeviatie van de verschillen tussen de verwachte en feitelijke uitslag.
o
o
o
(1- r2XY)
In SPSS wordt deze standaardfout aangeduid middels ‘std. error of the estimate’.
Deze standaardschattingsfout geeft een indicatie van de (on)nauwkeurigheid van de voorspelling.
(omgekeerde) relatie met rXY
11.2. REGRESSIEANALYSE VIA SPSS
(PAG 220-223)
 SPSS: Analyze  regression  linear  linear regression
Model Summar y
Model
1
R
,914a
Adjusted
R Square
,808
R Square
,835
Std. Error of
the Estimate
4,219
a. Predictors: (Constant), IQ
ANOVAb
Model
1
Regres sion
Residual
Total
Sum of
Squares
541,088
106,787
647,875
df
1
6
7
Mean Square
541,088
17,798
F
30,402
Sig.
,001a
a. Predictors: (Constant), IQ
b. Dependent Variable: Schooluitsl
Coefficientsa
Model
1
(Constant)
IQ
Unstandardized
Coefficients
B
Std. Error
16,457
10,654
,517
,094
a. Dependent Vari able: Schooluitsl
Standardized
Coefficients
Beta
,914
t
1,545
5,514
Sig.
,173
,001
11.3.



DE MEERVOUDIGE REGRESSIETECHNIEK
(PAG 223-231)
In dit geval zijn er meerdere X variabelen, op grond waarvan de Y variabele geschat wordt.
Veel gebruikte procedure om aan te geven hoe diverse onafhankelijke variabelen gezamenlijk een
invloed uitoefenen op de afhankelijke variabele. Diverse onafhankelijke variabelen worden t.o.v.
mekaar uitgespeeld.
De afzonderlijke bètacoëfficiënten bieden een inzicht in het impact van elke onafhankelijke
variabele, onder constant houding van de overige variabelen.
Download