Hoofdstuk 3 Maatstaven voor ligging en spreiding

advertisement
Hoofdstuk 3
Maatstaven voor ligging en spreiding

3.1. Centrummaten – Gemiddelden

3.2. Kwantielen

3.3. De spreidingsmaten
Centrummaten
het rekenkundig gemiddelde
 de mediaan
 de modus



bij niet-gegroepeerde waarnemingen
bij gegroepeerde waarnemingen of
frequentieverdelingen
Eigenschappen van kengetallen voor
frequentieverdelingen
a.
b.
c.
d.
e.
eenduidig gedefinieerd zijn (ondubbelzinnig)
alle waarnemingen spelen een rol bij de
bepaling van het kengetal
de interpretatie moet eenvoudig en inzichtelijk
zijn
de kengetallen moeten niet al te gevoelig zijn
voor steekproeftoevalligheden, maar een grote
steekproefstabiliteit bezitten
met de kengetallen moeten algebraïsche
bewerkingen mogelijk zijn
Het rekenkundig gemiddelde
Wat?
Het rekenkundig gemiddelde van een reeks
waarnemingsresutaten is gelijk aan de som van
alle resultaten gedeeld door het aantal
waarnemingen (dit is de steekproef- of
popultieomvang)
Symbool: X
N
Formule:
X 
X
i 1
n
i
Het rekenkundig gemiddelde:
eigenschappen (1)

1. Vermindert men alle waarnemingen met een
zelfde getal, dan wordt ook het rekenkundig
gemiddelde verminderd met dat getal
 men mag op de meetschaal een nieuwe
oorsprong invoeren

2. Vermenigvuldigt men alle resultaten met
een zelfde getal, dan wordt ook het
rekenkundig gemiddelde met dit getal
vermenigvuldigd (idem delen)
 men mag alle resultaten vereenvoudigen
Het rekenkundig gemiddelde:
eigenschappen (2)

3. De som van de afwijking van alle
waarnemingsresultaten ten opzichte van hun
rekenkundig gemiddelde is nul
 X  X   0
Opm. : het rekenkundig gemiddelde wordt in de
statistiek altijd berekend op één rang meer
dan de waarnemingsresultaten.
Het gewogen rekenkundig gemiddelde
(1)
Wat?
Als niet aan alle waarnemingen een zelfde
belang mag gehecht worden,
vermenigvuldigt men elke waarde met
een wegingsfactor en bepaalt men pas
dan het rekenkundig gemiddelde
Het gewogen rekenkundig gemiddelde
(2)
Voorbeeld: examenuitslagen student D.V.
Vakken
Resultaat op 10
studiepunten
Economie
5
6
Statistiek
7
3
Recht
9
4
Rekenkundig gemiddelde: X 
579
 7,0
3
Gewogen rek.gemiddelde: X g  5 x 6   7 x3  9 x 4  6,7
6  3  4
Het rekenkundig gemiddelde van
gegroepeerde gegevens
Formule:
X 
f
i
mi
n
De klassemiddens worden representatief voor
elke klasse: alle frequenties worden
vermenigvuldigd met de overeenkomende
klassemiddens
Centrummaten
het rekenkundig gemiddelde
 de mediaan
 de modus



bij niet-gegroepeerde waarnemingen
bij gegroepeerde waarnemingen of
frequentieverdelingen
De mediaan (1)
Wat?
De mediaan van een reeks waarnemingsresultaten is de middelste van de naar grootte
gerangschikte resultaten.
De mediaan verdeelt een reeks resultaten in
twee gelijke groepen:
aantal waarden < Me = aantal waarden > Me
Symbool: Me
Synoniem: midscore
De mediaan (2)



bij oneven aantal waarnemingen:
Me = middelste van naar grootte gerangschikte
bij even aantal waarnemingen:
Me = rek. gemiddelde van middelste twee
Bij gegroepeerde frequentieverdelingen:


Me = tweede kwartiel (Q2)
mediaanklasse: zie cumulatief frequentiehistogram
De modus
Wat?
De modus van een reeks waarnemingsresultaten
is de waarneming die het meest voorkomt
(= de uitslag met de hoogste frequentie)
Symbool: Mo
Opmerkingen:



hebben alle resultaten in een reeks dezelfde frequentie, dan
is er geen modus
de modus is de enige centrummaat ook te gebruiken voor
kwalitatieve kenmerken
unimodale, bimodale, multimodale verdelingen
De modus bij gegroepeerde
waarnemingen (1)


de modale klasse is de klasse met de
hoogste frequentie
nauwkeuriger:
f  fl
Mo  b 
i
f  fl   f  fh 
f = frequentie modale klasse
fl = frequentie (lagere) voorgaande klasse
fh= frequentie (hogere) volgende klasse
b = benedengrens modale klasse
i = klasse-interval
De modus bij gegroepeerde
waarnemingen (2)
Grafische bepaling van de modus bij
frequentieverdelingen:
30
frequentie
25
20
15
10
5
0
Mo
Eigenschappen van kengetallen voor
frequentieverdelingen
a.
b.
c.
d.
e.
eenduidig gedefinieerd zijn (ondubbelzinnig)
alle waarnemingen spelen een rol bij de
bepaling van het kengetal
de interpretatie moet eenvoudig en inzichtelijk
zijn
de kengetallen moeten niet al te gevoelig zijn
voor steekproeftoevalligheden, maar een grote
steekproefstabiliteit bezitten
met de kengetallen moeten algebraïsche
bewerkingen mogelijk zijn
Keuze van de centrummaten (1)
+
Rekenkundig voldoet in alle
opzichten als
gemiddelde centrummaat
gevoelig voor
uitbijters
eign: a,b,c,d,e
Mediaan
ongevoelig voor
uitbijters
eign: a,b,c
Modus
snel te bepalen
eign: a,c
kleine steekproefstabiliteit
algebraïsch weinig
mogelijkheden
nagenoeg geen
positieve eigenschappen
Keuze van de centrummaten (2)
De keuze hangt af van:
 het meetniveau
 de scheefheid van de verdeling
 extreme waarden
Keuze centrummaat in functie
van het meetniveau
ratio
Rek.
gemidd.
Mediaan
Modus
interval
ordinaal nominaal
 
  
   
Keuze van de centrummaten (3)
De keuze hangt af van:
 het meetniveau
 de scheefheid
 mogelijke extreme waarden
Keuze centrummaat in functie
van de scheefheid (1a)
Symmetrische verdelingen
 normale verdelingen
b.v. IQ-scores, de meeste natuurlijke verschijnselen
60
50
40
f

30
20
10
0
X  Me  Mo
Keuze centrummaat in functie
van de scheefheid (1b)
Bimodale symmetrische verdelingen
Mo1
Mo2
30
25
X  Me
20
f

15
10
5
0
Mo1  X  Me  Mo2
Keuze centrummaat in functie
van de scheefheid (2)
 Scheef naar links (negatief scheef)
b.v. lichaamsgewicht mannelijke 40-plussers in België
Mo
120
frequentie
100
80
60
40
staart
20
0
X  Me  Mo
Keuze centrummaat in functie
van de scheefheid (3)
Scheef naar rechts (positief scheef)
b.v. belastbaar inkomen Belgische bevolking in €
Mo
70
60
50
40
f

30
20
staart
10
0
X  Me  Mo
Keuze van de centrummaten (4)
De keuze hangt af van:
 het meetniveau
 de scheefheid
 mogelijke extreme waarden
Keuze centrummaat in functie van
mogelijke extreme waarden
Extreme waarden (= uitbijters):
beïnvloeden het gemiddelde  de
mediaan is hier beter geschikt dan het
rekenkundig gemiddelde
Voorbeeld:
1
2
2
X
3
4
= 15,6
5
5
7
9
Me= 4,5
118
Hoofdstuk 3
Maatstaven voor ligging en spreiding

3.1. Centrummaten – Gemiddelden

3.2. Kwantielen

3.3. De spreidingsmaten
Kwantielen
Wat?
Kwantielen verdelen een frequentieverdeling in
een aantal gelijke stukken (= stukken met
gelijke frequentie)
Doel?
Kwantielen dienen om een uitkomst te situeren
ten opzichte van andere uitkomsten
Kwantielen (2)
Soorten kwantielen:
 Kwartielen: Q1, Q2 , Q3
verdelen de frequentieverdeling in 4 gelijke
intervallen, elk met 25% van de uitkomsten

Decielen: D1, D2 , … , D9
verdelen de frequentieverdeling in 10 gelijke
intervallen, elk met 10% van de uitkomsten

Percentielen: P01, P02 , … , P99
verdelen de frequentieverdeling in 100 gelijke
intervallen, elk met 1% van de uitkomsten
Kwantielen (3)
Q2  Me  D5  P50
De interkwartielafstand (IKA) geeft de
range aan van de middelste helft van de
resultaten.
De IKA is ongevoelig voor uitbijters.
IKA  Q3  Q1  P75  P25
Percentiel  percentiele rang

percentiel (P)
rel .Fk  resultaat
b.v. P57 = 173,5 cm
57% van de resultaten zijn kleiner of gelijk aan 173,5 cm

percentiele rang (p)
rel .Fk  resultaat
b.v. p168cm = 48,3%
een lengte van 168cm komt overeen met de 48,3%
kleinste resultaten
5-getallen-résumé
Een frequentieverdeling kan
omschreven worden met 5
kengetallen:
Xmin,Q1,Me,Q3, Xmax
Boxplot (boxdiagram)
Een boxplot is de grafische voorstelling
van het 5-getallen-résumé:



de randen van de box:
Q1 (bodem)
Q3 (deksel)
het tussenschot in de box: Me
twee « bakkebaarden »:
van de box tot aan Xmin en Xmax
Doel:
een snelle vergelijking van verschillende
frequentieverdelingen
Boxplot (5-getallen-résumé)
Xmax
Q3
Me
Q1
Xmin
Vergelijking boxplots
Grafische bepaling van kwantielen
120
100
96
rel.F
80
27
percentiel:
60
P27 = 133
40
percentiele rang:
20
0
133
528
meetschaal
P528 = 96%
Hoofdstuk 3
Maatstaven voor ligging en spreiding

3.1. Centrummaten – Gemiddelden

3.2. Kwantielen

3.3. De spreidingsmaten
Spreiding, dispersie, variatie
3 invalshoeken:
 de verschillen tussen de uitkomsten
onderling
 de range op de meetschaal, waarbinnen
een bepaald percentage van het totaal
aantal waarnemingen ligt
 de verschillen tussen de uitkomsten en de
centrummaten
De variatiebreedte of de range (1)
Wat?
het verschil tussen de uiterste resultaten
R  X max  X min
Voordelen:
zeer snel en eenvoudig te bepalen
Nadeel:
maximaal beïnvloed door uitbijters
De variatiebreedte of de range (2)
Bij gegroepeerde gegevens is de range:
0
R1  BH  bL
R2  mH  mL
R1  R2  i
De interkwartielafsand (IKA)
Beter dan de range:
IKA  Q3  Q1  P75  P25
Voordeel:
totaal ongevoelig voor uitbijters!
Ook: IDA = interdecielafstand (D9 – D1)
Spreiding, dispersie, variatie
3 invalshoeken:
 de verschillen tussen de uitkomsten
onderling
 de range op de meetschaal, waarbinnen
een bepaald percentage van het totaal
aantal waarnemingen ligt
 de verschillen tussen de uitkomsten en
de centrummaten
Spreiding
Algemeen:
de afstand tussen een centrummaat C en de
waarnemingsresultaten Xi
Spreiding:
X
i
C
q
n
waarin C  X ,Me,Mo
q  1,2,..., n
De gemiddelde absolute afwijking
Wat?
het gemiddeld verschil tussen elke uitslag
en het rekenkundig gemiddelde van alle
uitslagen
Symbool: 
1
Formule:  
fi  X
mi  X

n
voor gegroepeerde gegevens: Xi mi
De variantie en de standaardafwijking
Wat?
de variantie van een reeks uitslagen
geeft aan in hoeverre deze afwijken van
het gemiddelde
Symbool:
Formule:
S
2
S
m  X

X


2
2
ii
n
De standaardafwijking (1)
Variantie:
wordt uitgedrukt in de tweede macht van de
meeteenheid
de standaardafwijking is de
vierkantswortel uit de variantie
de standaardafwijking is de belangrijkste
spreidingsmaat in de statistiek
De standaardafwijking (2)
Formule:
 X
S S 
2
of
S
i
X

2
n

2
i
fi X
. mi²
n
X
2
voor gegroepeerde gegevens: Xi  fi .mi
De standaardafwijking (3)
De standaardafwijking is de meest
gebruikte spreidingsmaat:



normale verdelingen worden gekarakteriseerd
door het rekenkundig gemiddelde en de
standaardafwijking
in een Gauss-curve is de afstand van de
buigpunten tot de symmetrieas steeds gelijk aan
de standaardafwijking
in een normale verdeling ligt steeds een zelfde
percentage van de waarnemingen tussen het
gemiddelde vermeerderd/verminderd met 1, 2 of
3 keer de standaardafwijking
Normale verdelingen (1)
 
N X ;S
b.v. N(63;12,7)
Normale verdelingen (2)
vlakke normale verdeling
spitse normale verdeling
Normale verdelingen (3)
156 164 172 180 188 196 204 cm
150 157 164 171 178 185 192 cm
NL
B
De variatiecoëfficiënt
Wat?
Een relatieve spreidingsmaat, onafhankelijk van
de meeteenheid, om de spreiding van
verschillende steekproeven te vergelijken
Symbool: V
Formule:
S
V 
X
De standaardafwijking wordt uitgedrukt in verhouding
tot het rekenkundig gemiddelde
Download