1 Statistiek module 1 De frequentieverdeling

advertisement
Statistiek module 1
In deze module komen de volgende statistische begrippen aan bod: frequentieverdeling,
gemiddelde, modus, mediaan, variantie, kansverdelingen.
De frequentieverdeling
Variabele eigenschappen van individuen kunnen, binnen zekere grenzen, allerlei
verschillende waarden aannemen: de gemeten getallen komen niet overeen met een
enkel punt op de getallenas, maar met een bepaald gebied of interval. Binnen dit interval
komen sommige waarden vaker voor dan andere (figuur 1). Dit blokdiagram beschrijft de
lengte van bijna 100.000 dienstplichtigen die in 1990 zijn gekeurd. De horizontale
getallenas is ingedeeld in klassen van telkens 5 cm. Boven ieder stukje staat een blokje
waarvan de oppervlakte overeenkomt met het aantal dienstplichtigen in die klasse, de
frequentie. In dit geval zijn alle klassen even breed, zodat de oppervlakte gelijk opgaat
met de hoogte van het blokje; de frequentie kan zo direct worden afgelezen. De grafiek
verandert niet als op de verticale as in plaats van aantallen procenten worden geteld, en
we zullen voortaan altijd met deze relatieve frequenties werken. De oppervlakte onder de
getekende frequenties van figuur 1 is dan 100%.
Figuur 1 Frequentieverdeling van dienstplichtigen naar lichaamslengte, 1990 (bron: CBS)
Deze grafiek staat bekend als een frequentieverdeling. Het voorbeeld hoort bij de
beschrijvende statistiek, want het berust op een vrijwel volledige telling van Nederlandse
mannen van 19 jaar in 1990. Het toeval komt er niet aan te pas, behalve in die zin dat
sommige mensen toevallig erg lang uitvallen en andere erg klein.
Aan deze frequentieverdeling kunnen we een aantal dingen zien. Ten eerste lijkt het alsof
er geen dienstplichtigen zijn kleiner dan 1.60 m of groter dan 2 m. Dit laatste komt
doordat dienstplichtigen langer dan 2 m direct naar huis worden gestuurd; ze komen niet
in de statistiek voor. Bovendien is het aantal mannen langer dan 2 m of korter dan 1.60
m zo klein dat de frequentie toch onzichtbaar klein zou zijn. Ten tweede heeft de
frequentieverdeling een vrij regelmatig verloop, met één enkele top in het midden; het is
een eentoppige en ook bijna een symmetrische verdeling.
1
Figuur 2 Frequentieverdeling van meisjes en jongens naar lichaamslengte (schematisch)
Wat er gebeurt als meisjes ook voor de dienstplicht worden gekeurd, is schematisch
weergegeven in figuur 2. Daarin zijn vloeiende krommen getekend in plaats van
blokdiagrammen. Als de lengte van rekruten in heel kleine klassen van bijvoorbeeld een
halve centimeter zou zijn gerapporteerd, vallen blokdiagram en vloeiende lijn (bijna)
samen; het gebruik van een gladde kromme sluit aan bij de voorkeur die in de wiskunde
bestaat voor vloeiende lijnen, zonder hoeken of breuken.
We nemen aan dat de verdeling van de lengte voor meisjes dezelfde is als voor jongens,
maar dan een eindje verschoven; volgroeide meisjes zijn over het geheel genomen
ongeveer 10 cm korter dan jongens. Als men beide frequenties samenvoegt tot één
enkele frequentieverdeling van de lichaamslengte van jonge mensen, dan krijgt men de
frequentieverdeling volgens de stippellijn. Deze frequentieverdeling is breder dan die van
jongens en meisjes apart en ze bestrijkt een groter interval. Om dat we alle verdelingen
in één figuur zo tekenen dat hun hele oppervlakte van 100% even groot is, is de
samengestelde verdeling ook lager. De verdeling wordt altijd breder en platter als
uiteenlopende groepen worden samengevoegd, en smaller en spitser als ze voor een
beperkte, homogene groep geldt. Dit zou bijvoorbeeld gelden voor de soldaten van een
regiment grenadiers, die veel minder in lengte verschillen dan alle dienstplichtigen
samen.
Plaatsbepaling
Voor sommige doeleinden is het nodig de hele frequentieverdeling te kennen,
bijvoorbeeld als men schoenen of uniformen gaat inkopen voor een lichting
(goedgekeurde) rekruten; vaak is het echter voldoende de verdeling samen te vatten in
enkele kengetallen. De plaats van de verdeling op de getallenas kan worden aangegeven
met het gemiddelde; we hadden zojuist ook kunnen schrijven dat meisjes gemiddeld 10
cm korter zijn dan jongens. Iedereen weet wel wat het gemiddelde is: de waargenomen
getallen worden opgeteld en de som wordt gedeeld door hun aantal:
gemiddelde = som (of totaal) gedeeld door aantal.
De gemiddelde lengte van de dienstplichtigen is 181,2 cm, en dat komt overeen met het
midden van de getekende verdeling.
Het gemiddelde is eenvoudig te berekenen en heeft een aantal aantrekkelijke
eigenschappen. In een lift hangt een bordje waarop staat aangegeven dat de maximale
belasting gelijk is aan 6 personen of 500 kg. De fabrikant neemt blijkbaar aan dat de
2
mensen die in de lift stappen gemiddeld niet meer dan 83 kg wegen, al vermeldt hij voor
de goede orde de grens ook nog eens in kilo's. Het gemiddelde is handig om een totaal te
berekenen, bijvoorbeeld als men niet schoenen of uniformen, maar eten moet inslaan
voor een groep rekruten (of voor een ander gezelschap), of als men het totale gewicht
wil weten van de bagage van een groep reizigers. Deze voorbeelden geven aan dat het
gemiddelde in dezelfde eenheden luidt als de waargenomen eigenschap (kilo's voedsel of
bagage), en ook dat er niet één waarneming hoeft te zijn die precies met het gemiddelde
overeenkomt. Soms is dat zelfs onmogelijk: het gemiddelde aantal kinderen dat een
vrouw voortbrengt, is in ons land thans 1,5, maar er is geen enkele moeder met 1, 5
kinderen. Het gemiddelde is niet de enige maatstaf voor de plaats of centrale tendentie
van een frequentieverdeling; men kan ook gebruik maken van de mediaan of de modus.
Voor de mediaan geldt dat de helft van alle lengten eronder ligt en de helft
erboven; de modus is de waarde (of beter: klasse) die het meest voorkomt, de 'top'
van de verdeling. De mediaan is veel minder gevoelig voor een enkele extreme
uitschieter dan het gemiddelde, de modus is gemakkelijk af te lezen en correspondeert
met de meest gangbare waarde. Bij een regelmatige, symmetrische verdeling vallen
gemiddelde, mediaan en modus praktisch samen: bij de gemiddelde lengte van
dienstplichtigen van 181,2 cm vinden we een mediaan van 181,3 cm. De modus ligt
ergens tussen 180 en 185 cm, en zou alleen bij een indeling in kleinere klassen (niet van
5 maar van 1 cm) preciezer kunnen worden bepaald.
Figuur 3 Frequentieverdeling besteedbaar huishoudensinkomen naar samenstelling van
het huishouden, 1990 (bron: CBS)
Tegenover de nagenoeg symmetrische verdeling van de lengte van dienstplichtigen
stellen we nu de inkomensverdeling in ons land. In figuur 3 staan frequentieverdelingen
van het besteedbaar inkomen per huishouden in 1990, dat wil zeggen van het inkomen
na aftrek van belasting en premies. Ook dit is een beschrijvende statistiek, die is
samengesteld uit de gegevens van de belastingdienst. De indeling in inkomensklassen
3
van fl 2000,- per jaar is heel fijn, en we laten de schotten tussen de blokjes weg. De
frequentieverdeling ziet er dan uit als een nogal beverig getrokken lijn.
De verdeling van alle inkomens in de bovenste grafiek is niet zo regelmatig: er zijn twee
toppen, en de verdeling is helemaal niet symmetrisch. Dit komt doordat de verdeling
betrekking heeft op twee verschillende groepen: eenpersoonshuishoudens en
meerpersoonshuishoudens, ieder met een heel verschillende inkomensverdeling. Dit lijkt
enigszins op de lengte van jongens en van meisjes, met dit verschil dat de twee groepen
nu niet even groot zijn. De eenpersoonshuishoudens maken slechts 30% van het totaal
uit, en de kenmerken van hun inkomensverdeling (met streepjes getekend) komen
daardoor slechts zwak tot uitdrukking in de inkomensverdeling van alle huishoudens
samen. Het zijn grotendeels of jonge mensen, studenten, of alleenstaande bejaarden.
Beide groepen hebben lage inkomens: de top ligt bij fl 20.000,- (dat is dus de modus),
en de verdeling daaromheen is erg smal, bijna symmetrisch, met een kleine piek in de
buurt van het minimumloon. De inkomens- verdeling van de meerpersoonshuishoudens
is daarentegen scheef, en wel scheef naar rechts: er zijn heel veel lage inkomens, zo
tussen de 20 en 40 mille per jaar (besteedbaar inkomen), en daarnaast een lange staart
van hoge en zeer hoge inkomens. Dit beeld weerspiegelt de maatschappelijke
verhoudingen, maar het kan ook (mede) worden verklaard uit het feit dat er aan de
bovenkant meer ruimte is voor extreme waarden dan aan de onderkant. Er is geen
bovengrens aan het inkomen, wel een ondergrens in de buurt van het bestaansminimum;
inkomens kleiner dan nul komen niet voor. Dergelijke scheve verdelingen vindt men wel
meer bij grootheden die niet onder een bepaalde grens kunnen dalen (vaak is die grens
nul), maar wel onbeperkt groot kunnen worden: het motorvermogen van auto's, het
aantal sigaretten per dag van rokers of het aantal kamers van een woning.
In een scheve verdeling vallen modus, mediaan en gemiddelde niet langer samen. Het
gemiddelde besteedbaar inkomen van meerpersoonshuishoudens is fl 49.200,-; de
mediaan is fl 45.000; en het inkomen van 'Jan Modaal' (gesteld dat hij een gezin heeft) is
fl 43.000,- (dit alles in 1990). Omdat het gemiddelde sterker dan de twee andere
maatstaven gevoelig is voor extreme waarden, in dit geval: extreem hoge inkomens, ligt
het gemiddelde inkomen boven de mediaan. Dit leidt tot het onverwachte resultaat dat
meer dan de helft van de inkomens kleiner is dan het gemiddelde.
Gemiddelde, modus en mediaan zijn alle drie plaatsbepalende grootheden van het
verschijnsel dat wordt beschreven. Hun kenmerkende eigenschap is dat ze altijd
meeschuiven als men alle gemeten getallen zou verschuiven. Telt men bij al deze
getallen eenzelfde getal op, bijvoorbeeld doordat men bij de lengte van rekruten 5 cm
optelt om rekening te houden met de helm die ze als soldaat zullen dragen, dan worden
gemiddelde, modus en mediaan alle drie 5 cm groter.
De gecumuleerde verdeling
Voor sommige doeleinden is het handig bij de frequentieverdeling een gecumuleerde
verdeling te construeren, zoals in figuur 4 is gedaan voor de lengte van dienstplichtigen.
Deze grafiek geeft voor iedere lengte aan welk percentage van de groep kleiner is; de
curve loopt dus altijd naar rechts op, van nul tot 100%. Het blokdiagram van figuur 1
leidt tot de gebroken lijn, waar een vloeiende lijn doorheen is getrokken, alsof de
frequentieverdeling van de lengten voor heel veel kleine klassen bekend is. De mediaan
kunnen we nu direct aflezen; het is het punt waarbij de gecumuleerde verdeling de
waarde 50% heeft, in dit geval 181,3 cm.
4
Figuur 4 Gecumuleerde frequentieverdeling van dienstplichtigen naar lichaamslengte,
1990 (bron: CBS)
De gecumuleerde verdeling geeft precies dezelfde gegevens weer als de
frequentieverdeling, maar op een andere manier. Voor sommige doeleinden is ze
handiger. Een fabrikant van stoelen voor auto's en vliegtuigen moet de maten niet
afstemmen op gemiddelde of mediaan, want zijn stoelen zouden dan voor de helft van de
mensen te klein zijn. Het is erger dat een stoel te klein is dan te groot, zodat hij maar
beter grote stoelen kan bouwen; grote stoelen kosten echter meer materiaal en vragen
meer ruimte. De fabrikant kan nu bijvoorbeeld de norm stellen dat niet meer dan 2,5%
van de volwassen mannen zijn stoel te klein mag vinden. De lengte die bij deze grens
hoort kan direct uit de gecumuleerde verdeling worden afgelezen: ze is 194,5 cm.
Daarop moet de fabrikant zich dus richten.
Spreiding
We keren terug tot het geval dat men niet de hele frequentieverdeling wil of kan
gebruiken en genoegen moet nemen met enkele kenmerkende kengetallen. Gemiddelde,
mediaan en modus geven de plaats aan waar de verdeling zich bevindt, maar dat is niet
voldoende: men zal vaak ook willen weten welke vorm de verdeling heeft, en vooral of ze
plat en breed is, of hoog en smal (bedenk dat de totale oppervlakte altijd op dezelfde
100% uitkomt). De frequentieverdelingen van de lengte van jongens en meisjes van
figuur 2 liggen niet op dezelfde plaats, maar hebben wel dezelfde vorm. De
inkomensverdelingen van eenpersoonshuishoudens en meerpersoonshuishoudens van
figuur 3 verschillen daarentegen niet alleen in plaats, maar ook in vorm.
Meerpersoonshuishoudens hebben niet alleen grotere inkomens dan
eenpersoonshuishoudens, maar ook lopen hun inkomens veel sterker uiteen.
De mate waarin de afzonderlijke waarden verschillen, geven we weer met de spreiding.
Plaatsbepalende grootheden schuiven met de waarnemingen mee als de gemeten
getallen opschuiven; de maatstaf voor de spreiding moet dit echter juist niet doen. Telt
men een vast getal op bij alle waargenomen getallen, dan verandert immers hun
onderlinge afstand niet, en de afstand van iedere waarneming tot het gemiddelde ook
5
niet. Daarvan maken we bij de maatstaf voor de spreiding gebruik, zij het op een manier
die op het eerste gezicht erg ingewikkeld is. Het recept voor de berekening van de
spreiding luidt namelijk als volgt:
1. bepaal van iedere waarneming het verschil met het gemiddelde dat men eerst heeft
berekend (dit verschil kan positief of negatief zijn)
2. ,neem vervolgens het kwadraat van dit verschil
3. tel de kwadraten op
4. deel die som van kwadraten door het aantal waarnemingen, met andere woorden
bepaal het gemiddelde van de kwadraten.
De grootheid die men krijgt, heet de variantie, en de vierkantswortel van de variante
heet de standaardafwijking. De verleiding is groot nu een getal ten voorbeeld te geven
van de berekening van gemiddelde en standaardafwijking dat de lezer na kan rekenen;
men vindt dit in de appendix bij dit hoofdstuk.
Net zoals het gemiddelde luidt de standaardafwijking in dezelfde grootheid als de
oorspronkelijke waarnemingen. Meet men de lengte van dienstplichtigen in centimeters,
dan luiden gemiddelde en standaardafwijking ook in centimeters; bij het gemiddelde van
181,2 cm vinden we een standaardafwijking van 6,9 cm. Meet men de dienstplichtigen
wat preciezer, in millimeters, dan zijn gemiddelde en standaardafwijking 1812 mm
respectievelijk 69 mm. Vanwege deze eigenschap wordt de standaardafwijking vaker
gebruikt dan de variantie.
Net zoals bij de plaatsbepaling zijn er ook voor de spreiding verschillende maatstaven; de
standaardafwijking wordt echter verreweg het meest gebruikt omdat ze de beste
eigenschappen heeft. Eén van die eigenschappen staat al direct in de volgend paragraaf.
Een statistische vuistregel
Er is een heel eenvoudige vuistregel die aangeeft binnen welk grenzen waarnemingen
met een gegeven gemiddelde en standaardafwijking terechtkomen. Deze grenzen worden
door gemiddelde en spreiding bepaald. Ze luiden als volgt:
− ondergrens: het gemiddelde min tweemaal de standaardafwijking
− bovengrens: het gemiddelde plus tweemaal de standaardafwijking.
Men kan aantonen dat tussen deze twee grenzen altijd ten minste 75% van de
waarnemingen ligt. Voor de praktijk is deze theoretische uitspraak echter niet heel
nuttig, want dan kan er altijd nog een kwart buiten de grenzen liggen en dat is (te) veel,
Veel meer praktisch nut heeft de vuistregel.
Als regel ligt ongeveer 95% van de waarnemingen binnen de aangegeven
grenzen.
We zullen deze regel in het vervolg vaak gebruiken; hij is van grote praktische betekenis.
Uit gemiddelde en variantie van de lengte van dienstplichtigen volgt direct dat 5% kleiner
is dan 181,2 - (2 x 6,9) = 167,4 cm, of groter dan 181,2 + (2 x 6,9) = 195,0 cm. Omdat
de verdeling bijna symmetrisch is, zal dit wel eerlijk zijn verdeeld, en dan is 2,5% van de
keurlingen groter dan 195 cm. Dit scheelt niet veel van de eerder voor deze grens
gegeven waarde van 194,5; de stoelenfabrikant had dus heel goed de vuistregel kunnen
gebruiken.
Natuurlijk gaat deze verbazingwekkende regel niet altijd en overal op: het is niet voor
niets een vuistregel, en er staat niet voor niets 'Als regel' en 'ongeveer'. Deze eigenschap
van frequentieverdelingen berust niet op een wiskundige stelling, maar is een
ervaringsfeit. Zolang de verdeling één top heeft en niet al te scheef is, kan men er goed
mee werken; voor dit soort verdelingen vindt de vuistregel ondersteuning in de
beschouwingen over de normale verdeling.
6
Berekening van gemiddelde en standaardafwijking
Tegenwoordig rekent niemand gemiddelde en standaardafwijking meer 'met de hand' of
met potlood en papier uit: computers en rekenmachines hebben dat werk overgenomen.
Dit is een groot gemak, zeker als het aantal waarnemingen wat groter is. Toch geven we
een voorbeeld hoe gemiddelde erin standaardafwijking uit vijf getallen worden berekend.
Deze vijf getallen zijn de prijs in centen van een flesje bier van verschillende soorten. Als
de lezer het voorbeeld narekent, zal hij de eigenschappen van gemiddelde en
standaardafwijking beter begrijpen. Telt men bij alle getallen hetzelfde getal op
(bijvoorbeeld het statiegeld van 15 cent), dan verandert het gemiddelde ook met 15 cent
en de standaardafwijking verandert niet. Drukt men de prijs uit in guldens per zes
flesjes, dan worden alle getallen met 0,06 vermenigvuldigd en gemiddelde en
standaardafwijking beide ook.
type
prijs
A
B
C
D
E
som
gemiddelde
80
140
119
97
89
525
105
afwijking van
Gemiddelde
-25
35
14
-8
-16
kwadraat van
afwijking
625
1225
196
64
256
2366
Variantie 473,2
Standaardafwijking 21,75
De tabel heeft vier kolommen. De eerste geeft het soort bier aan (strikt nodig is dit
gegeven niet), de tweede de waargenomen prijs. Deze prijzen worden opgeteld, de som
wordt door 5 gedeeld, en dat is het gemiddelde. De volgende twee kolommen dienen
voor de standaardafwijking. In kolom 3 staat het verschil van iedere prijs ten opzichte
van het gemiddelde; som en gemiddelde van deze getallen zijn vanzelfsprekend nul. In
de kolom daarnaast staan de kwadraten van deze getallen. Deze kwadraten worden
opgeteld en de som wordt weer gedeeld door 5. Dit is de variantie. Tenslotte wordt uit de
variantie de wortel getrokken en dat is de standaardafwijking.
Volgens de statistische theorie is het bij sommige toepassingen beter om bij de
berekening van de variantie de som van kwadraten niet te delen door het aantal
waarnemingen (hier 5), maar door 1 minder, dat is 4. In dit voorbeeld zou dat verschil
maken, maar bij een groter aantal waarnemingen is het verschil te verwaarlozen.
7
Kansverdelingen
In het navolgende kijken we naar kansmechanismen met een getal als uitkomst: het
cijfer van de roulette, het aantal ogen bij de worp met een of meer dobbelstenen, niet
kruis of munt bij het gooien van een munt, maar het aantal keren kruis, dat bij één worp
altijd nul of een is. De uitkomst is een getal en kan worden geordend en afgebeeld op de
getallenas. Als we de kans op iedere mogelijke uitkomst aangeven met een staafje van
overeenkomstige hoogte, dan ontstaat een grafiek die kansverdeling heet.
Figuur 1 Kansverdeling van het aantal ogen bij worpen met een en met meer
dobbelstenen
In figuur 1 staan drie voorbeelden. De bovenste kansverdeling geldt voor de uitkomsten
van de worp met één dobbelsteen; deze lopen van 1 tot 6, en ze hebben ieder kans 1/6.
Daaronder staat de kansverdeling voor het aantal ogen uit een worp met twee
dobbelstenen. Deze variabele loopt van 2, tot 12, en de kansen zijn niet gelijk. De
verdeling voor drie worpen begint op een klokvorm te lijken.
De kansverdelingen bestrijken alle mogelijke uitkomsten; deze zijn op dezelfde schaal
getekend. De som van de kansen of de totale lengte van de staafjes is 1. Het bereik van
de mogelijke uitkomsten neemt natuurlijk toe naarmate men meer dobbel- stenen
8
gebruikt, en daardoor wordt de verdeling breder. Uit een rechthoekige verdeling ontstaat
eerst een nette piramide en vervolgens een verdeling met de vorm van een klok.
De binomiale verdeling
Dezelfde techniek kan worden gebruikt om de kans uit te rekenen op x keren kruis in een
worp met n munten of n opeenvolgende worpen met één munt. De beschouwde munt
kan een zuivere munt zijn met een kans van 0,5 op kruis, of een onzuivere munt met
een kans van 0,6 op kruis en 0,4 op munt, of iedert andere toevalsvariabele die met een
redelijke kans ieder var twee waarden kan aannemen. Deze verdeling heet de binomiaIe
verdeling. De plaats en vorm worden geheel bepaald door twee coëfficiënten, namelijk p,
de kans op de gebeurtenis die al! een succes wordt geteld (hier:'kruis'), en n, het aantal
worpen, of proeven. Het gemiddelde van x is n*p, de variantie n*p* (1 - p) de
standaardafwijking de wortel daarvan. Als p gelijk is aan 0,5 is de verdeling
symmetrisch, als p niet gelijk is aan 0,5 is de verdeling asymmetrisch - maar naarmate n
toeneemt, wordt deze verdeling al snel ook bijna symmetrisch. In figuur 2 is de verdeling
van het aantal malen 'kruis' bij worpen met een zuivere munt getekend voor drie
verschillende waarden van n. Bij de grote waarden is voor het gemak een vloeiende lijn
gebruikt in plaats van dicht op elkaar gepakte staafjes.
Figuur 2 Kansverdeling voor het aantal malen kruis bij een verschillend aantal worpen
met een munt
9
In deze voorstellingen is de uitkomst van het toevalsexperiment een variabele geworden
en we noemen die een toevalsvariabe, en ook wel stochast of stochastische variabele
(Engels: random variable). Een toevalsvariabele kan altijd verschillende waarde
aannemen, en de kansverdeling of waarschijnlijkheidsverdeling geel aan hoe groot de
kans op ieder van die waarden is. Dat bete kent dat de kans een functie is van de
waarden die de toevals variabele kan aannemen, en die functie kan worden voorgesteld
door een formule.
Overeenkomst en verschil met een frequentieverdeling
In figuur 1 staan de kansverdelingen van het aantal ogen uit worpen met een, twee of
drie dobbelstenen, en men kan natuurlijk verder gaan met vier, vijf, enzovoort,
dobbelstenen. In figuur 2 staan de kansverdelingen van het aantal keren kruis bij 10, 25
en 100 worpen met een munt. Beide figuren suggereren dat er, naarmate n toeneemt,
een nette, symmetrische functie met één top ontstaat, en dat is ook zo. De verdeling zal
op den duur dezelfde vorm krijgen als de frequentieverdeling van dienstplichtigen naar
hun lengte, als we die tenminste ook met een vloeiende lijn zouden weergeven en niet
met een blokdiagram.
Kansverdeling en frequentieverdeling vertonen een aantal overeenkomsten. Beide
bestaan uit een reeks staafjes (of blokjes) waarvan de lengte (of oppervlakte) tot 1
sommeert, en sommige frequentieverdelingen kunnen in vorm erg op bepaalde
kansverdelingen lijken. Dit heeft het grote praktische voordeel dat de kansverdeling als
benadering van de frequentieverdeling kan worden gebruikt. Men hoeft dan niet langer
de hele tabel van de frequentieverdeling te raadplegen, maar kan direct gaan rekenen
met de kansverdeling die doorgaans een vrij eenvoudige wiskundige vorm heeft.
Ook hoort er bij iedere kansverdeling een gecumuleerde functie zoals die voor de
frequentieverdeling van de lengte van rekruten. Dit is de waarschijnlijkheidsfunctie of
verdelingsfunctie (probabilityfunction, distribution function) die aangeeft hoe
groot de kans is dat de toevalsvariabele onder een bepaalde grens blijft.Voor de worp
met drie dobbelstenen is ze in figuur 3 getekend.
10
Figuur 3 Waarschijnlijkheidsfunctie voor het aantal ogen met drie dobbelstenen
Een kansverdeling heeft net zoals een frequentieverdeling een gemiddelde en een
standaardafwijking. Deze worden alleen niet langer berekend uit getallen, maar afgeleid
uit de wiskundige functie die de verdeling beschrijft. Bovendien verandert de naam van
het gemiddelde; men spreekt van de (mathematische) verwachting (expectation) van
een toevalsvariabele.Voor de spreiding blijft men echter variantie en standaardafwijking
gebruiken.
Net zoals bij de frequentieverdeling luiden gemiddelde en standaardafwijking in dezelfde
eenheden als de toevalsvariabele zelf, en opnieuw hoeft het gemiddelde niet met een
mogelijke uitkomst overeen te komen. De verwachting van het aantal ogen bij een worp
met één dobbelsteen is 3,5, maar die uitkomst is onmogelijk en heeft kans nul.
Er is één groot principieel verschil tussen de twee verdelingen: de frequentieverdeling is
verkregen door waarnemingen te ordenen, de kansverdeling is afgeleid uit theoretische
overwegingen. Een kansverdeling volgt uit een theoretisch model van het verschijnsel,
met behulp van veronderstellingen over het toevalsmechanisme en rekenregels; ze kan
nooit worden waargenomen.
Verschillende soorten variabelen
Door veel van de figuren die zijn getoond is de verleiding groot maar eens op te houden
met die blokjes en staafjes en de kansverdeling altijd als een vloeiende lijn te tekenen.
Bij de ogen van een dobbelsteen is dat strikt genomen niet toegestaan, want alleen de
natuurlijke getallen van i tot 6 (of van 2 tot 12, van 3 tot i8, al naar gelang het aantal
11
stenen waarmee men werpt) kunnen voorkomen. Het is een discrete variabele, en de
tussengelegen waarden zijn uitgesloten. De lichaamslengte van rekruten is daarentegen
een continue variabele, die alle waarden tussen 160 en 200 cm kan aannemen. In de
frequentieverdeling van de lengte van rekruten komt maar een eindig aantal waarden
voor, op zijn hoogst evenveel als er mensen zijn gemeten, als ze zo precies worden
gemeten dat er geen twee even lang zijn. Beschouwt men echter de lengte van één
willekeurige keurling, dan kan die oneindig veel waarden aannemen, behoudens de
precisie waarmee de lengte wordt gemeten. Als die op hele centimeters wordt afgerond,
is de lengte weer een discrete variabele, die ongeveer 40 verschillende waarden kan
aannemen, namelijk van 160 tot 200.
Een discrete variabele wordt ook wel kwalitatieve variabele genoemd. Een voorbeeld is
een variabele die aanduidt of iemand een man (waarde 0) of een vrouw is (waarde 1).
Een continue variabele wordt ook wel kwantitatieve variabele genoemd (bijvoorbeeld
geboortejaar).
Een andere manier om variabelen in te delen is de volgende:
− Nominaal: nominale variabelen geven alleen een onderscheid aan (bijvoorbeeld
geslacht man/vrouw)
− Ordinaal: ordinale variabelen geven ook een ordening aan (bijvoorbeeld
opleidingsniveau)
− Interval: bij interval variabelen is er sprake van gelijke verschillen tussen de
waardes (bijvoorbeeld intelligentiequotiënt)
− Ratio: bij ratio variabelen is er sprake van gelijke verschillen tussen de waardes en
er is een natuurlijk nulpunt (bijvoorbeeld leeftijd)
In figuur 4 wordt dit verduidelijkt aan de hand van voorbeelden.
12
Figuur 4: de as van ‘preciesheid’ van variabelen
13
De normale verdeling
Wat is de normale verdeling?
De normale verdeling is een kansverdeling zoals die in het vorige hoofdstuk is besproken,
en wel voor een continue toevalsvariabele. Het is dus een onderdeel van het statistisch
model, en als zodanig een theoretische constructie, niet iets dat we rechtd treeks kunnen
waarnemen. Op zichzelf is het niets anders dan een wiskundige functie, een dichtheid. Er
zijn veel wiskundige functies die een dichtheid (kunnen) beschrijven (als ze maar
nergens negatief zijn en het oppervlakte onder de functie 1 is); de normale dichtheid of
verdeling van Gauss (1777~1855) is er daar één van. Deze verdeling wordt vaak
gebruikt; veel, maar lang niet alle, grootheden zijn bij benadering normaal verdeeld. Het
bIijft echter een van de vele verdelingen, en men moet niet denken dat de verdeling een
norm stelt, of dat de andere verdelingen in enig opzicht abnormaal zijn.Wat dit aangaat,
is de naam ongelukkig gekozen. De verdeling is trouwens ook niet door Gauss bedacht,
maar wel door hem als eerste toegepast op een praktisch probleem, namelijk de
berekening van de banen van hemellichamen. Gauss veronderstelde dat de afwijkingen
normaal verdeeld waren.
Figuur 5 Normale verdelingen
De normale kansverdeling heeft de vorm van een klok. In figuur 5 hebben we er een
aantal getekend voor verschillende toevalsvariabelen x; ze zullen de lezer bekend
voorkomen, want de verdeling is al meer dan eens in figuren gebruikt zonder het erbij te
14
zeggen. De kansverdelingen verschillen in vorm en positie, maar de schaal is zo gekozen
dat de oppervlakte onder de normale curve (die altijd met een kans van 100%
correspondeert) voor de zes verdelingen even groot is. Iedere normale verdeling wordt
geheel bepaald door twee coëfficiënten, de verwachting m1 en de standaardafwijking s.
Bij verdeling A van figuur 5 is aangegeven welke rol m en s spelen en hoe men de uit een
getekende verdeling kan aflezen. De andere verdelingen zijn verkregen door m en s te
variëren. De twee verdelingen van B hebben dezelfde standaardafwijking en dus ook
dezelfde vorm, maar een andere verwachting: ze zijn ten opzichte van elkaar
verschoven. C en D hebben dezelfde m, maar s is respectievelijk groot en klein: de
verdeling wordt uitgerekt of in elkaar gedrukt.
Welke waarden van m en s in feite van toepassing zijn, hangt af van het verschijnsel
waarop de normale verdeling betrekking heeft en de eenheden waarin het wordt
gemeten. Als het model bedoeld is voor de lichaamstemperatuur van gezonde mensen,
dan zal men een m van 37 graden en een s van 0,1 graad kiezen;voor koortsige
patiënten in een ziekenhuis ligt m echter hoger, en s vermoedelijk ook. Natuurlijk luiden
m en s in dezelfde eenheden als het verschijnsel, namelijk in dit geval in graden Celsius;
zouden we nog met de oude schaal van Fahrenheit werken, dan veranderen ze volgens
de bekende regels. Ten slotte veranderen plaats en vorm van een getekende verdeling
met de gebruikte schaal.
Soms past men de twee coëfficiënten van de normale verdeling niet aan de eenheid van
de toevalsvariabele aan, maar omge keerd de meeteenheid aan de verdeling, en wel zo
dat m nul wordt en s één. Dit is de gestandaardiseerde normaal verdeelde
toevalsvariabele, in figuur 5 getekend als E. Als x een normale verdeling met
verwachting m en standaardafwijking s heeft, dan heeft (x - m)/s een standaardnormale
verdeling.Vroeger gebruikte men tabellen van de dichtheid en de verdelingsfunctie van
deze verdeling; tegenwoordig leveren alle statistische computerprogramma's vlot de
gewenste waarden. Door het argument met een vast getal te vermenigvuldigen en er een
vast getal bij op te tellen, kan men er iedere andere normale verdeling uit construeren: s
*(x - m)/s + m = x.
Wil men een frequentieverdeling beschrijven met een norma le verdeling, dan kiest men
daarvoor een aangepaste verdeling waarvan m en s overeenkomen met waargenomen
gemiddelde en standaardafwijking. In figuur 6 is zo'n aangepaste dichtheid over de
frequentieverdeling van de lichaamslengte van rekruten gelegd.
1
Ook vaak aangeduid met het symbool µ
15
Figuur 6 Aangepaste normale verdeling: de lichaamslengte van dienstplichtigen (bron:
CBS)
Eigenschappen van de normale verdeling
Alle normale verdelingen hebben één top en zijn symmetrisch. De top ligt bij m en dat is
dus niet alleen de verwachting of het (theoretisch) gemiddelde, maar ook de
(theoretische) modus van de verdeling. De symmetrie rondom m betekent dat er van de
totale oppervlakte onder de curve precies 50% onder m en 50% boven m ligt, en m is
dus ook nog eens de (theoretische) mediaan. De standaardafwijking geeft de afstand aan
van het midden tot de taille van de verdeling. Een en ander is aangege- ven in verdeling
A van figuur 5.
In de plaatjes van figuur 5 kan men ook zien dat de normale curve links en rechts tot de
getallenas nadert, zonder deze ooit te raken; de wiskundige functie van de normale
dichtheid kan zo klein worden als men maar wil, maar nul wordt ze nooit. In principe
strekt de verdeling zich dus uit over de gehele getallenas, van min oneindig tot plus
oneindig, en is er geen grens aan de waarden die de toevalsvariabele x kan bereiken,
noch naar beneden noch naar boven. De oppervlakte onder de curve is wel begrensd en
ze is 1 (of 100%), zoals voor een kansverdeling of dichtheid hoort. Daarvan ligt 95%
tussen de grenzen m - 2*s en m + 2*s (of eigenlijk m + 1,96s en m - 1,96s); vanwege
de symmetrie ligt er aan iedere kant 2,5% buiten de grens. Deze oppervlakten zijn in
verdeling E van figuur 5 gearceerd. Voor de normale verdeling gaat de volgende
vuistregel op: als regel ligt ongeveer 95% van de waarnemingen binnen de
aangegeven grenzen.
We noemen nog een wiskundige eigenschap van normaal verdeelde toevalsvariabelen,
omdat die ertoe kan bijdragen dat men het vervolg gemakkelijker begrijpt: de som van
twee normale toevalsvariabelen heeft zelf ook weer een normale verdeling.
De centrale limietstelling
Een verdeling kan op verschillende manieren worden verkregen, of uit de theorie, door
een proces te bezien waar de ver deling uit volgt, of uit de praktijk, door een functie te
beden ken die bepaalde waargenomen verschijnselen zo ongeveer beschrijft.
Een veel gebruikte theoretische afleiding van de normale verdeling houdt in dat het de
verdeling is van een som van vele onafhankelijke termen. Beschouw een groot aantal
toevalsexperimenten die onafhankelijk van elkaar zijn, en tel de uitkomsten op. De som
die zo wordt verkregen, is zelf ook weer een toevalsvariabele. Als het aantal elementen
dat wordt opgeteld steeds verder toeneemt, nadert de verdeling van de som steeds
dichter tot de normale dichtheid; in de limiet, voor een oneindig aantal termen, wordt de
normale functie exact verkregen.
16
Een voorbeeld is de frequentie van kruis bij worpen met een zuivere munt. Het aantal
keren kruis bij n worpen volgt een binomiale verdeling, maar het is tegelijkertijd de som
van de uitkomsten van n onafhankelijke experimenten; als n maar groot genoeg is, moet
het vrijwel normaal zijn verdeeld. Beide verdelingen gaan op: de binomiale verdeling is
namelijk bij toenemende n nauwelijks te onderscheiden van de normale verdeling.
Andere sommen van een (groot) aantal onafhankelijke toevalsvariabelen zijn op den duur
ook normaal verdeeld. Voor worpen met een onzuivere munt is de binomiale verdeling
asymmetrisch, maar naarmate n toeneemt, verdwijnt die scheefheid. Het gaat ook op
voor de som van onafhankelijke uitkomsten van verschillende experimenten, mits die aan
bepaalde voorwaarden voldoen, zoals langs wiskundige weg kan worden bewezen. Dit
theoretische resultaat staat bekend als de centrale limietstelling.
Proef op de som
Net zoals voor de wet van de grote aantallen kan ook voor de centrale limietstelling
worden nagegaan of de werkelijkheid in een concreet geval met het model klopt.Voor de
binomiale verdeling van worpen met een munt zouden we dan een groot aantal mensen
aan het werk moeten zetten die ieder het experiment overdoen. Eerst werpen ze allemaal
tienmaal met een munt, we noteren het aantal keren kruis van
Ieder en maken een frequentieverdeling van die honderd getallen; daarna werpen ze
honderdmaal en we noteren de uitkomsten op dezelfde wijze, enzovoort. Als de centrale
limietstelling opgaat, zal de frequentieverdeling steeds meer op de normale verdeling
gaan lijken naarmate het aantal experimenten van ieder van de deelnemers toeneemt.
Voor het algemenere geval van de optelling van verschillende onafhankelijke toevalsvariabelen zou men kleine teams aan het werk kunnen zetten: de een werpt met een
munt, een ander met een dobbelsteen, een derde raapt geblinddoekt een steentje uit het
grind dat wordt gewogen, enzovoort. leder van de proeven wordt herhaald en de
uitkomsten worden voor ieder team opgeteld. De eindresultaten van een groot aantal
teams vormen een frequentieverdeling, en volgens de centrale limietstelling moet deze
steeds meer op de normale verdeling gaan lijken naarmate het aantal experimenten van
ieder team verder toeneemt. We hebben dit niet door mensen, maar door de computer
laten doen (figuur 7). Er zijn vijf toevalsexperimenten gekozen waarvan de som van de
uitkomsten niet netjes symmetrisch is verdeeld. In figuur 7 staat bovenaan de
kansverdeling van deze som, en daaronder de verdeling van de som bij duizend
herhalingen van het samengestelde experiment, of n = 5000 herhalingen van vijf
verschillende proeven. Onderaan staat een blokdiagram van de normale verdeling. Alle
blokdiagrammen zijn gestandaardiseerd op gemiddelde nul en standaardafwijking 1.
Zoals men ziet gaat de verdeling op de normale verdeling lijken als n toeneemt; dit is in
overeenstemming met de centrale limietstelling.
17
Figuur 7 Nabootsing door de computer van de centrale limietstelling
Toepassingen
Men kan normale verdelingen die in de praktijk optreden omgekeerd interpreteren als het
resultaat van de centrale limietstelling. Dat zoveel verschijnselen bij benadering normaal
verdeeld zijn, komt dan doordat ze de resultante zijn - of preciezer: de som van de
inwerking van een groot aantal onafhankelijke factoren. Het gewicht van pakken koffie of
boter is ondanks alle voorzorgen normaal verdeeld, zij het met een heel kleine spreiding;
wat men ook doet, het lukt nooit volstrekt identieke producten af te leveren. In figuur 8
is de verdeling weergegeven van het gewicht van bijna 1000 muntplaatjes, schijfjes
metaal die 's Rijks munt vervaardigt om er guldens van te maken. Deze moeten
natuurlijk evenveel wegen, in dit geval 10 gram. Ondanks alle zorg die aan de productie
wordt besteed blijkt bij uiterst nauwkeurige weging dat er toch verschillen het gewicht
van de plaatjes optreden, en dat dit gewicht normaal verdeeld is. De verschillen zijn
overigens wel erg klein: standaardafwijking is 22 milligram, dat is 2,2 duizendste van 1
gemiddelde gewicht, en volgens de vuistregel verschilt dus 9 van alle muntplaatjes niet
meer dan 4,4 duizendste van het gemiddelde.
Bij een ingewikkeld productieproces zijn de onvermijdelijke afwijkingen het gevolg van
allerlei factoren die onafhankelijk van elkaar optreden, en daar komen dan nog eens
meetfouten bij: vandaar de normale verdeling. Vanuit deze interpretatie noemt men de
normale verdeling ook wel eens de foutenverdeling, en zo werd ze ook door Gauss
gebruikt.
18
Figuur 8: Aangepaste normale verdeling: het gewicht van muntplaatjes
19
Download