Inleiding in de statistiek voor de gedragswetenschappen. Met

advertisement
INLEIDING IN DE STATISTIEK VOOR
DE GEDRAGSWETENSCHAPPEN.
MET ONDERSTEUNING VAN SPSS
1
INLEIDING IN DE STATISTIEK VOOR DE
GEDRAGSWETENSCHAPPEN
HOOFDSTUK V CENTRUMMATEN & SPSS
DESCRIPTIVES
DOELSTELLINGEN HOOFDSTUK V
• De student kent de diverse begrippen over de
centrummaten;
• De student kent de impact van de aard van de
schaal op de bepaling van de centrale tendens;
• De student kan – handmatig - de centrale tendens
berekenen voor een (beperkte) verdeling van
uitslagen;
• Via SPSS kan de student de centrale tendens van
een reeks gegevens bepalen.
DE MODUS
• Is de waarde met de hoogste frequentie
Bijvoorbeeld scores op een Likertschaal (1-5)
Ik vind de opwarming van de aarde een groot probleem
(helemaal akk….. helemaal niet akk)
score
frequentie
1 helemaal akk
13
2 akkoord
12
3 weet niet
3
5 helemaal niet akk
1
Welk is de modus? Score 1 ‘helemaal akkoord’
Voorbeeld van nominale
gegevens
APS-SURVEY 2004: Burgerlijke stand
Burgerlijke stand
Absolute Relatieve
Frequentie Frequentie
Gehuwd
Weduwe/weduwnaar
Wettelijk gescheiden
Feitelijk gescheiden
Ongehuwd
TOTAAL
957
98
100
28
355
1538
Modus = ‘GEHUWD’
62,2%
6,4%
6,5%
1,8%
23,1%
100,0%
DE MODUS
• Zal vooral gebruikt worden voor nominale
waarden; maar kan in principe altijd bepaald
worden. Is meteen duidelijk in de
frequentietabel
• Meer dan één modus is mogelijk, bij een
bimodale verdeling zijn er twee modi.
• Gebruikt weinig informatie uit de gegevens.
DE MEDIAAN
• De mediaan is de middelste waarde wanneer
de observaties in volgorde van laag naar hoog
zijn gezet. (niet mogelijk voor nominale
waarden)
• Bij een oneven aantal observaties precies de
middelste, en bij een even aantal observaties
het midden tussen de twee middelste scores;
• Komt dus overeen met percentiel 50.
DE MEDIAAN
• Welk is de mediaanwaarde van
2, 4, 6, 8, 10?
De mediaanwaarde is 6, als middelste waarde
• Welk is de mediaanwaarde van
2, 4, 6, 7, 8, 10?
De mediaan is 6,5 zijnde het midden tussen 6 en7.
• Welk is de impact van een wijzing van de laatste
observatie 10 in 20?
Verandert hierdoor de mediaan?
Voorbeeld van ordinaal meetniveau
APS-SURVEY 2004: Hoogste diploma
Diploma
Absolute Relatieve
Geen/LO
Lager secundair
Hoger secundair
Niet universitair HO
Universitair HO
TOTAAL
Frequentie
Frequentie
365
324
506
262
89
1546
23,6%
21,0%
32,7%
16,9%
5,8%
100,0%
Mediaan = ‘HOGER SECUNDAIR ONDERWIJS’
Voorbeeld van ordinaal
meetniveau
Oordeel
Absolute frequentie
Zeer slecht
15
Slecht
20
Neutraal
18
Goed
10
Zeer goed
07
TOTAAL
70
Mediaan = ‘Grens van slecht en neutraal’
Voorbeeld voor interval niveau
Mediaan  X n 1 (n oneven)

2


Xn + Xn
1

2
2
(n even)
Mediaan 
2
18 13 17 16 10 09 15
18 13 17 16 10 09 15 12
09 10 13 15 16 17 18
09 10 12 13 15 16 17 18
Mediaan  15
Mediaan 
13  15
 14
2
Bepaal de mediaan uit een tabel
Score
f
12
1
13
3
14
1
15
2
16
2
17
1
is hetzelfde als :
14  15
Mediaan 
 14,5
2
12 13 13 13 14 15 15 16 16 17
DE MEDIAAN
• Kan niet gebruikt worden bij nominale waarden;
• Is niet afhankelijk van extreem hoge of lage
uitslagen.
Gebruikt weinig info uit de gegevens;
• Kan gezien worden in vergelijking met het
rekenkundig gemiddelde;
• Is gemakkelijk te begrijpen/uit te leggen/grafisch
voor te stellen.
DE MEDIAAN
• Kan grafisch voorgesteld worden via een
boxplot. SPSS kan een verdeling van
uitslagen voorstellen middels een
boxplot. In dergelijke boxplot worden
PC25, PC50 en PC75 grafisch voorgesteld
middels een ‘doos’
OPDRACHT
• Maak uitgaande van het bestand busters.sav
een boxplot voor de levensstijl variabelen
gezondheidsbesef, internetgebruik,
materialisme, modebesef waaruit de
verschillen kunnen blijken tussen de groepen
met verschillend diploma.
• Wat blijkt?
HET GEMIDDELDE
•
Zeer
belangrijk
Het gemiddelde is de som van alle scores gedeeld door
het aantal scores.
X1  X 2  ...  X n
1 n
X   i 1 X i 
n
n
•
Is enkel mogelijk voor interval en ratio meetniveaus, bv.
IQ, schooluitslagen, testuitslagen, leeftijd,…
HET GEMIDDELDE
• Voorstelling van gemiddelde:
_
in de steekproef: X
in de populatie: µ
HET GEMIDDELDE: EEN VOORBEELD I
• Score
4
6
8
Frequentie
9
15
21
gemiddelde: (9*4 + 15*6 + 21*8)/45 = 6,53
HET GEMIDDELDE BIJ EEN
SAMENGESTELDE STEEKPROEF
• Veronderstel je beschikt over twee
steekproeven n1 en n2 met een
respectievelijk gemiddelde X1 en X2, welk
is dan het zgn. gewogen gemiddelde?
n1  X1  n 2  X 2
X
n1  n 2
HET GEMIDDELDE BIJ EEN
SAMENGESTELDE STEEKPROEF, EEN
VOORBEELD
Tien jongens kijken gemiddeld 3 uur per dag tv en
vijf meisjes kijken gemiddeld 2 uur per dag tv. Wat
is dan het gemiddelde van de gezamenlijke
proefgroep?
• Oplossing
de jongens kijken 30 uur tv
de meisjes kijken 10 uur tv
totaal:
40 uur;
dit is gemiddeld 40/15 = 2,67 (=gewogen
•
gemiddelde)
n1  X1  n 2  X 2 10  3  5  2 40
X


 2, 67
n1  n 2
10  5
15
HET GEMIDDELDE BIJ EEN SAMENGESTELDE
STEEKPROEF
Een analoge eigenschap voor de mediaan
bestaat niet. Om de mediaan van de
samengestelde steekproef te kennen,
moet je alle metingen kennen
HET GETRIMDE GEMIDDELDE
Het rekenkundig gemiddelde van het
deel van de waarnemingsgetallen dat
overblijft na weglating van de P%
kleinste en P% grootste.
Voorbeeld
n  20
1
1
3
3
6
6
7
8
P  5%
7
8
9
9
10
10
14
14
15
15
16
16
17
17
19
19
21
21
23
25
28
30
33
39
40
23
X  18, 2
25
28
30
33
39
40
X getrimd  17,94
Eigenschappen van het rekenkundig gemiddelde
Som van de afwijkingen van de waarnemingsgetallen tot het rekenkundig gemiddelde is gelijk aan 0.
Xi
Xi  X
18
18-14=4
13
13-14=-1
17
17-14=3
16
16-14=2
10
10-14=-4
09
9-14=-5
15
15-14=1
SOM=0
 X
N
i 1
i
 X  0
X  14
Eigenschappen van het rekenkundig gemiddelde
• Bij een lineaire transformatie van de scores,
wordt het rekenkundig gemiddelde op dezelfde
wijze getransformeerd, d.w.z. als je alle
waarnemingsgetallen met b vermenigvuldigt en
daar een constante a bijtelt, dan wordt het
rekenkundig gemiddelde op dezelfde manier
getransformeerd.
Yi  a  b  X i
 i  1, 2,..., n 
 Y  a  bX
Voorbeeld
Eigenschappen van het rekenkundig
gemiddelde
Je meet de volgende temperaturen met de schaal van Celsius:
18°C 13°C 17°C 16°C 10°C 09°C 15°C
X  14C
Via een eenvoudige transformatie kan je de waarden
overbrengen naar de schaal van Fahrenheit:
F  32  1,8 C
64,4F 55,4F 62,6F 60,8F 50F 48,2F 59F
Y  57, 2F
Y  a  b  X  Y  32  1,8 14  57, 2
Eigenschappen van het rekenkundig gemiddelde


Het rekenkundig gemiddelde van een aselecte
steekproef is een zuivere schatter van het
populatiegemiddelde (µ). D.w.z. dat wanneer
we van een oneindig aantal steekproeven (met
hetzelfde aantal n) steeds het
steekproefgemiddelde berekenen, het
rekenkundig gemiddelde van alle
steekproefgemiddelden gelijk is aan het
populatiegemiddelde.
d.i.Centrale limietstelling
HET REKENKUNDIG GEMIDDELDE
Snel te berekenen en eenvoudig te begrijpen
In dezelfde meeteenheid als de waarden
Alle waarden worden bij de berekening betrokken
Gevoelig voor extreme waarden
Steeds berekenen bij interval en ratio waarden
Eventueel vergelijken met mediaan
GEBRUIK VAN CENTRUMMATEN
• Modus: bij nominale, ordinale, interval en
ratio waarden;
• Mediaan: bij ordinale, interval en ratio
waarden;
• Gemiddelde: bij interval en ratio waarden.
GEBRUIK VAN CENTRUMMATEN
Modus vooral bij nominale waarden
• Gemiddelde versus mediaan?
- Gemiddelde gebruikt meer informatie dan de mediaan; de
mediaan gebruikt enkel de rangorde van de getallen, dus bij
interval waarden….
•
- Invloed van ‘uitbijters’/’’outliers’? Uitbijters hebben geen
invloed op de mediaan, wel op het gemiddelde.
Bij de mogelijkheid van extreme waarden kan getrimde
gemiddelde een oplossing bieden.
Getrimde gemiddelden worden berekend zonder rekening te
houden met bv. de 5% hoogste en 5% laagste waarden.
GEBRUIK VAN CENTRUMMATEN
•
Gemiddelde versus mediaan:
Het gemiddelde varieert minder van steekproef tot
steekproef t.o.v. de mediaan. Dus het gemiddelde wordt
meer gebruikt in de toetsende statistiek om het centrum van
de populatie te schatten.
•
Gemiddelde is algebraïsch aardiger. We kunnen gegevens
van subgroepen samenvoegen om gewogen gemiddelde te
berekenen, … dit kan niet bij een mediaan.
Het gemiddelde verdient de voorkeur bij interval/ratio
schalen.
•
Onderlinge positie van gemiddelde en mediaan zegt iets over
de mate van scheefheid van de verdeling.
VERGELIJKING VAN CENTRUMMATEN
• Voor symmetrische verdelingen
Bij een normaalachtige verdeling is
MO=Me=Gem.
bv. verdeling
van de IQ’s
VERGELIJKING VAN CENTRUMMATEN
• Voor symmetrische verdelingen
bij een uniforme verdeling
Me=gemid.
Modus?
Bv. verdeling
van leeftijd,
van 20 t/m
50 jaar
VERGELIJKING VAN CENTRUMMATEN
• Bij asymmetrische verdelingen
voor een rechts scheve verdeling
(scheefheid pos.)
Mo<Me<gemid
bv. verdeling
van inkomens
VERGELIJKING VAN CENTRUMMATEN
• Bij asymmetrische verdelingen
voor een links scheve verdeling
(neg. scheefheid)
Mo>Me>gemid
bv. een
gemakkelijke
toets
VERGELIJKING VAN CENTRUMMATEN
• Besluit:
1. De vorm van de verdeling heeft invloed op
de onderlinge positie van de centrummaten.
2. Indien mogelijk maak gebruik van het
rekenkundig gemiddelde als maat van
centrale tendens.
SPSS EN DE CENTRUMMATEN
SPSS EN DE CENTRUMMATEN
SPSS EN DE CENTRUMMATEN
SPSS OUTPUT VAN DE
CENTRUMMATEN
SPSS EN HET REKENKUNDIG GEMIDDELDEN
• Om subgroepen te vergelijken maken we vaak
gebruik van het rekenkundig gemiddelde.
• Maak uitgaande van het bestand busters.sav
een vergelijking tussen de beide
leeftijdsgroepen voor wat betreft de
levensstijl variabelen (op grond van de
gemiddelden)
SPSS MAAK EEN VERGELIJKING TUSSEN
SUBGROEPEN
SPSS VERGELIJKING VAN SUBGROEPEN
OUTPUT COMPARE MEANS
Report
modetot
Geslacht
man
vrouw
Total
Mean
3,6082
4,5744
4,2331
N
142
260
402
Std. Deviation
1,23673
1,12907
1,25498
Kan dit verschil toevallig zijn?
Verwijst het naar een verschil tussen de
populaties?
Zie inductieve statistiek: jaar II
OPGAVEN
BIJKOMENDE OPGAVE
Bereken alle zinvolle centrummaten op de volgende
tabel
INLEIDING IN DE STATISTIEK VOOR
DE GEDRAGSWETENSCHAPPEN.
MET ONDERSTEUNING VAN SPSS
47
Download