Statistiek module 1 In deze module komen de volgende statistische begrippen aan bod: frequentieverdeling, gemiddelde, modus, mediaan, variantie, kansverdelingen. De frequentieverdeling Variabele eigenschappen van individuen kunnen, binnen zekere grenzen, allerlei verschillende waarden aannemen: de gemeten getallen komen niet overeen met een enkel punt op de getallenas, maar met een bepaald gebied of interval. Binnen dit interval komen sommige waarden vaker voor dan andere (figuur 1). Dit blokdiagram beschrijft de lengte van bijna 100.000 dienstplichtigen die in 1990 zijn gekeurd. De horizontale getallenas is ingedeeld in klassen van telkens 5 cm. Boven ieder stukje staat een blokje waarvan de oppervlakte overeenkomt met het aantal dienstplichtigen in die klasse, de frequentie. In dit geval zijn alle klassen even breed, zodat de oppervlakte gelijk opgaat met de hoogte van het blokje; de frequentie kan zo direct worden afgelezen. De grafiek verandert niet als op de verticale as in plaats van aantallen procenten worden geteld, en we zullen voortaan altijd met deze relatieve frequenties werken. De oppervlakte onder de getekende frequenties van figuur 1 is dan 100%. Figuur 1 Frequentieverdeling van dienstplichtigen naar lichaamslengte, 1990 (bron: CBS) Deze grafiek staat bekend als een frequentieverdeling. Het voorbeeld hoort bij de beschrijvende statistiek, want het berust op een vrijwel volledige telling van Nederlandse mannen van 19 jaar in 1990. Het toeval komt er niet aan te pas, behalve in die zin dat sommige mensen toevallig erg lang uitvallen en andere erg klein. Aan deze frequentieverdeling kunnen we een aantal dingen zien. Ten eerste lijkt het alsof er geen dienstplichtigen zijn kleiner dan 1.60 m of groter dan 2 m. Dit laatste komt doordat dienstplichtigen langer dan 2 m direct naar huis worden gestuurd; ze komen niet in de statistiek voor. Bovendien is het aantal mannen langer dan 2 m of korter dan 1.60 m zo klein dat de frequentie toch onzichtbaar klein zou zijn. Ten tweede heeft de frequentieverdeling een vrij regelmatig verloop, met één enkele top in het midden; het is een eentoppige en ook bijna een symmetrische verdeling. 1 Figuur 2 Frequentieverdeling van meisjes en jongens naar lichaamslengte (schematisch) Wat er gebeurt als meisjes ook voor de dienstplicht worden gekeurd, is schematisch weergegeven in figuur 2. Daarin zijn vloeiende krommen getekend in plaats van blokdiagrammen. Als de lengte van rekruten in heel kleine klassen van bijvoorbeeld een halve centimeter zou zijn gerapporteerd, vallen blokdiagram en vloeiende lijn (bijna) samen; het gebruik van een gladde kromme sluit aan bij de voorkeur die in de wiskunde bestaat voor vloeiende lijnen, zonder hoeken of breuken. We nemen aan dat de verdeling van de lengte voor meisjes dezelfde is als voor jongens, maar dan een eindje verschoven; volgroeide meisjes zijn over het geheel genomen ongeveer 10 cm korter dan jongens. Als men beide frequenties samenvoegt tot één enkele frequentieverdeling van de lichaamslengte van jonge mensen, dan krijgt men de frequentieverdeling volgens de stippellijn. Deze frequentieverdeling is breder dan die van jongens en meisjes apart en ze bestrijkt een groter interval. Om dat we alle verdelingen in één figuur zo tekenen dat hun hele oppervlakte van 100% even groot is, is de samengestelde verdeling ook lager. De verdeling wordt altijd breder en platter als uiteenlopende groepen worden samengevoegd, en smaller en spitser als ze voor een beperkte, homogene groep geldt. Dit zou bijvoorbeeld gelden voor de soldaten van een regiment grenadiers, die veel minder in lengte verschillen dan alle dienstplichtigen samen. Plaatsbepaling Voor sommige doeleinden is het nodig de hele frequentieverdeling te kennen, bijvoorbeeld als men schoenen of uniformen gaat inkopen voor een lichting (goedgekeurde) rekruten; vaak is het echter voldoende de verdeling samen te vatten in enkele kengetallen. De plaats van de verdeling op de getallenas kan worden aangegeven met het gemiddelde; we hadden zojuist ook kunnen schrijven dat meisjes gemiddeld 10 cm korter zijn dan jongens. Iedereen weet wel wat het gemiddelde is: de waargenomen getallen worden opgeteld en de som wordt gedeeld door hun aantal: gemiddelde = som (of totaal) gedeeld door aantal. De gemiddelde lengte van de dienstplichtigen is 181,2 cm, en dat komt overeen met het midden van de getekende verdeling. Het gemiddelde is eenvoudig te berekenen en heeft een aantal aantrekkelijke eigenschappen. In een lift hangt een bordje waarop staat aangegeven dat de maximale belasting gelijk is aan 6 personen of 500 kg. De fabrikant neemt blijkbaar aan dat de 2 mensen die in de lift stappen gemiddeld niet meer dan 83 kg wegen, al vermeldt hij voor de goede orde de grens ook nog eens in kilo's. Het gemiddelde is handig om een totaal te berekenen, bijvoorbeeld als men niet schoenen of uniformen, maar eten moet inslaan voor een groep rekruten (of voor een ander gezelschap), of als men het totale gewicht wil weten van de bagage van een groep reizigers. Deze voorbeelden geven aan dat het gemiddelde in dezelfde eenheden luidt als de waargenomen eigenschap (kilo's voedsel of bagage), en ook dat er niet één waarneming hoeft te zijn die precies met het gemiddelde overeenkomt. Soms is dat zelfs onmogelijk: het gemiddelde aantal kinderen dat een vrouw voortbrengt, is in ons land thans 1,5, maar er is geen enkele moeder met 1, 5 kinderen. Het gemiddelde is niet de enige maatstaf voor de plaats of centrale tendentie van een frequentieverdeling; men kan ook gebruik maken van de mediaan of de modus. Voor de mediaan geldt dat de helft van alle lengten eronder ligt en de helft erboven; de modus is de waarde (of beter: klasse) die het meest voorkomt, de 'top' van de verdeling. De mediaan is veel minder gevoelig voor een enkele extreme uitschieter dan het gemiddelde, de modus is gemakkelijk af te lezen en correspondeert met de meest gangbare waarde. Bij een regelmatige, symmetrische verdeling vallen gemiddelde, mediaan en modus praktisch samen: bij de gemiddelde lengte van dienstplichtigen van 181,2 cm vinden we een mediaan van 181,3 cm. De modus ligt ergens tussen 180 en 185 cm, en zou alleen bij een indeling in kleinere klassen (niet van 5 maar van 1 cm) preciezer kunnen worden bepaald. Figuur 3 Frequentieverdeling besteedbaar huishoudensinkomen naar samenstelling van het huishouden, 1990 (bron: CBS) Tegenover de nagenoeg symmetrische verdeling van de lengte van dienstplichtigen stellen we nu de inkomensverdeling in ons land. In figuur 3 staan frequentieverdelingen van het besteedbaar inkomen per huishouden in 1990, dat wil zeggen van het inkomen na aftrek van belasting en premies. Ook dit is een beschrijvende statistiek, die is samengesteld uit de gegevens van de belastingdienst. De indeling in inkomensklassen 3 van fl 2000,- per jaar is heel fijn, en we laten de schotten tussen de blokjes weg. De frequentieverdeling ziet er dan uit als een nogal beverig getrokken lijn. De verdeling van alle inkomens in de bovenste grafiek is niet zo regelmatig: er zijn twee toppen, en de verdeling is helemaal niet symmetrisch. Dit komt doordat de verdeling betrekking heeft op twee verschillende groepen: eenpersoonshuishoudens en meerpersoonshuishoudens, ieder met een heel verschillende inkomensverdeling. Dit lijkt enigszins op de lengte van jongens en van meisjes, met dit verschil dat de twee groepen nu niet even groot zijn. De eenpersoonshuishoudens maken slechts 30% van het totaal uit, en de kenmerken van hun inkomensverdeling (met streepjes getekend) komen daardoor slechts zwak tot uitdrukking in de inkomensverdeling van alle huishoudens samen. Het zijn grotendeels of jonge mensen, studenten, of alleenstaande bejaarden. Beide groepen hebben lage inkomens: de top ligt bij fl 20.000,- (dat is dus de modus), en de verdeling daaromheen is erg smal, bijna symmetrisch, met een kleine piek in de buurt van het minimumloon. De inkomens- verdeling van de meerpersoonshuishoudens is daarentegen scheef, en wel scheef naar rechts: er zijn heel veel lage inkomens, zo tussen de 20 en 40 mille per jaar (besteedbaar inkomen), en daarnaast een lange staart van hoge en zeer hoge inkomens. Dit beeld weerspiegelt de maatschappelijke verhoudingen, maar het kan ook (mede) worden verklaard uit het feit dat er aan de bovenkant meer ruimte is voor extreme waarden dan aan de onderkant. Er is geen bovengrens aan het inkomen, wel een ondergrens in de buurt van het bestaansminimum; inkomens kleiner dan nul komen niet voor. Dergelijke scheve verdelingen vindt men wel meer bij grootheden die niet onder een bepaalde grens kunnen dalen (vaak is die grens nul), maar wel onbeperkt groot kunnen worden: het motorvermogen van auto's, het aantal sigaretten per dag van rokers of het aantal kamers van een woning. In een scheve verdeling vallen modus, mediaan en gemiddelde niet langer samen. Het gemiddelde besteedbaar inkomen van meerpersoonshuishoudens is fl 49.200,-; de mediaan is fl 45.000; en het inkomen van 'Jan Modaal' (gesteld dat hij een gezin heeft) is fl 43.000,- (dit alles in 1990). Omdat het gemiddelde sterker dan de twee andere maatstaven gevoelig is voor extreme waarden, in dit geval: extreem hoge inkomens, ligt het gemiddelde inkomen boven de mediaan. Dit leidt tot het onverwachte resultaat dat meer dan de helft van de inkomens kleiner is dan het gemiddelde. Gemiddelde, modus en mediaan zijn alle drie plaatsbepalende grootheden van het verschijnsel dat wordt beschreven. Hun kenmerkende eigenschap is dat ze altijd meeschuiven als men alle gemeten getallen zou verschuiven. Telt men bij al deze getallen eenzelfde getal op, bijvoorbeeld doordat men bij de lengte van rekruten 5 cm optelt om rekening te houden met de helm die ze als soldaat zullen dragen, dan worden gemiddelde, modus en mediaan alle drie 5 cm groter. De gecumuleerde verdeling Voor sommige doeleinden is het handig bij de frequentieverdeling een gecumuleerde verdeling te construeren, zoals in figuur 4 is gedaan voor de lengte van dienstplichtigen. Deze grafiek geeft voor iedere lengte aan welk percentage van de groep kleiner is; de curve loopt dus altijd naar rechts op, van nul tot 100%. Het blokdiagram van figuur 1 leidt tot de gebroken lijn, waar een vloeiende lijn doorheen is getrokken, alsof de frequentieverdeling van de lengten voor heel veel kleine klassen bekend is. De mediaan kunnen we nu direct aflezen; het is het punt waarbij de gecumuleerde verdeling de waarde 50% heeft, in dit geval 181,3 cm. 4 Figuur 4 Gecumuleerde frequentieverdeling van dienstplichtigen naar lichaamslengte, 1990 (bron: CBS) De gecumuleerde verdeling geeft precies dezelfde gegevens weer als de frequentieverdeling, maar op een andere manier. Voor sommige doeleinden is ze handiger. Een fabrikant van stoelen voor auto's en vliegtuigen moet de maten niet afstemmen op gemiddelde of mediaan, want zijn stoelen zouden dan voor de helft van de mensen te klein zijn. Het is erger dat een stoel te klein is dan te groot, zodat hij maar beter grote stoelen kan bouwen; grote stoelen kosten echter meer materiaal en vragen meer ruimte. De fabrikant kan nu bijvoorbeeld de norm stellen dat niet meer dan 2,5% van de volwassen mannen zijn stoel te klein mag vinden. De lengte die bij deze grens hoort kan direct uit de gecumuleerde verdeling worden afgelezen: ze is 194,5 cm. Daarop moet de fabrikant zich dus richten. Spreiding We keren terug tot het geval dat men niet de hele frequentieverdeling wil of kan gebruiken en genoegen moet nemen met enkele kenmerkende kengetallen. Gemiddelde, mediaan en modus geven de plaats aan waar de verdeling zich bevindt, maar dat is niet voldoende: men zal vaak ook willen weten welke vorm de verdeling heeft, en vooral of ze plat en breed is, of hoog en smal (bedenk dat de totale oppervlakte altijd op dezelfde 100% uitkomt). De frequentieverdelingen van de lengte van jongens en meisjes van figuur 2 liggen niet op dezelfde plaats, maar hebben wel dezelfde vorm. De inkomensverdelingen van eenpersoonshuishoudens en meerpersoonshuishoudens van figuur 3 verschillen daarentegen niet alleen in plaats, maar ook in vorm. Meerpersoonshuishoudens hebben niet alleen grotere inkomens dan eenpersoonshuishoudens, maar ook lopen hun inkomens veel sterker uiteen. De mate waarin de afzonderlijke waarden verschillen, geven we weer met de spreiding. Plaatsbepalende grootheden schuiven met de waarnemingen mee als de gemeten getallen opschuiven; de maatstaf voor de spreiding moet dit echter juist niet doen. Telt men een vast getal op bij alle waargenomen getallen, dan verandert immers hun onderlinge afstand niet, en de afstand van iedere waarneming tot het gemiddelde ook 5 niet. Daarvan maken we bij de maatstaf voor de spreiding gebruik, zij het op een manier die op het eerste gezicht erg ingewikkeld is. Het recept voor de berekening van de spreiding luidt namelijk als volgt: 1. bepaal van iedere waarneming het verschil met het gemiddelde dat men eerst heeft berekend (dit verschil kan positief of negatief zijn) 2. ,neem vervolgens het kwadraat van dit verschil 3. tel de kwadraten op 4. deel die som van kwadraten door het aantal waarnemingen, met andere woorden bepaal het gemiddelde van de kwadraten. De grootheid die men krijgt, heet de variantie, en de vierkantswortel van de variante heet de standaardafwijking. De verleiding is groot nu een getal ten voorbeeld te geven van de berekening van gemiddelde en standaardafwijking dat de lezer na kan rekenen; men vindt dit in de appendix bij dit hoofdstuk. Net zoals het gemiddelde luidt de standaardafwijking in dezelfde grootheid als de oorspronkelijke waarnemingen. Meet men de lengte van dienstplichtigen in centimeters, dan luiden gemiddelde en standaardafwijking ook in centimeters; bij het gemiddelde van 181,2 cm vinden we een standaardafwijking van 6,9 cm. Meet men de dienstplichtigen wat preciezer, in millimeters, dan zijn gemiddelde en standaardafwijking 1812 mm respectievelijk 69 mm. Vanwege deze eigenschap wordt de standaardafwijking vaker gebruikt dan de variantie. Net zoals bij de plaatsbepaling zijn er ook voor de spreiding verschillende maatstaven; de standaardafwijking wordt echter verreweg het meest gebruikt omdat ze de beste eigenschappen heeft. Eén van die eigenschappen staat al direct in de volgend paragraaf. Een statistische vuistregel Er is een heel eenvoudige vuistregel die aangeeft binnen welk grenzen waarnemingen met een gegeven gemiddelde en standaardafwijking terechtkomen. Deze grenzen worden door gemiddelde en spreiding bepaald. Ze luiden als volgt: − ondergrens: het gemiddelde min tweemaal de standaardafwijking − bovengrens: het gemiddelde plus tweemaal de standaardafwijking. Men kan aantonen dat tussen deze twee grenzen altijd ten minste 75% van de waarnemingen ligt. Voor de praktijk is deze theoretische uitspraak echter niet heel nuttig, want dan kan er altijd nog een kwart buiten de grenzen liggen en dat is (te) veel, Veel meer praktisch nut heeft de vuistregel. Als regel ligt ongeveer 95% van de waarnemingen binnen de aangegeven grenzen. We zullen deze regel in het vervolg vaak gebruiken; hij is van grote praktische betekenis. Uit gemiddelde en variantie van de lengte van dienstplichtigen volgt direct dat 5% kleiner is dan 181,2 - (2 x 6,9) = 167,4 cm, of groter dan 181,2 + (2 x 6,9) = 195,0 cm. Omdat de verdeling bijna symmetrisch is, zal dit wel eerlijk zijn verdeeld, en dan is 2,5% van de keurlingen groter dan 195 cm. Dit scheelt niet veel van de eerder voor deze grens gegeven waarde van 194,5; de stoelenfabrikant had dus heel goed de vuistregel kunnen gebruiken. Natuurlijk gaat deze verbazingwekkende regel niet altijd en overal op: het is niet voor niets een vuistregel, en er staat niet voor niets 'Als regel' en 'ongeveer'. Deze eigenschap van frequentieverdelingen berust niet op een wiskundige stelling, maar is een ervaringsfeit. Zolang de verdeling één top heeft en niet al te scheef is, kan men er goed mee werken; voor dit soort verdelingen vindt de vuistregel ondersteuning in de beschouwingen over de normale verdeling. 6 Berekening van gemiddelde en standaardafwijking Tegenwoordig rekent niemand gemiddelde en standaardafwijking meer 'met de hand' of met potlood en papier uit: computers en rekenmachines hebben dat werk overgenomen. Dit is een groot gemak, zeker als het aantal waarnemingen wat groter is. Toch geven we een voorbeeld hoe gemiddelde erin standaardafwijking uit vijf getallen worden berekend. Deze vijf getallen zijn de prijs in centen van een flesje bier van verschillende soorten. Als de lezer het voorbeeld narekent, zal hij de eigenschappen van gemiddelde en standaardafwijking beter begrijpen. Telt men bij alle getallen hetzelfde getal op (bijvoorbeeld het statiegeld van 15 cent), dan verandert het gemiddelde ook met 15 cent en de standaardafwijking verandert niet. Drukt men de prijs uit in guldens per zes flesjes, dan worden alle getallen met 0,06 vermenigvuldigd en gemiddelde en standaardafwijking beide ook. type prijs A B C D E som gemiddelde 80 140 119 97 89 525 105 afwijking van Gemiddelde -25 35 14 -8 -16 kwadraat van afwijking 625 1225 196 64 256 2366 Variantie 473,2 Standaardafwijking 21,75 De tabel heeft vier kolommen. De eerste geeft het soort bier aan (strikt nodig is dit gegeven niet), de tweede de waargenomen prijs. Deze prijzen worden opgeteld, de som wordt door 5 gedeeld, en dat is het gemiddelde. De volgende twee kolommen dienen voor de standaardafwijking. In kolom 3 staat het verschil van iedere prijs ten opzichte van het gemiddelde; som en gemiddelde van deze getallen zijn vanzelfsprekend nul. In de kolom daarnaast staan de kwadraten van deze getallen. Deze kwadraten worden opgeteld en de som wordt weer gedeeld door 5. Dit is de variantie. Tenslotte wordt uit de variantie de wortel getrokken en dat is de standaardafwijking. Volgens de statistische theorie is het bij sommige toepassingen beter om bij de berekening van de variantie de som van kwadraten niet te delen door het aantal waarnemingen (hier 5), maar door 1 minder, dat is 4. In dit voorbeeld zou dat verschil maken, maar bij een groter aantal waarnemingen is het verschil te verwaarlozen. 7 Kansverdelingen In het navolgende kijken we naar kansmechanismen met een getal als uitkomst: het cijfer van de roulette, het aantal ogen bij de worp met een of meer dobbelstenen, niet kruis of munt bij het gooien van een munt, maar het aantal keren kruis, dat bij één worp altijd nul of een is. De uitkomst is een getal en kan worden geordend en afgebeeld op de getallenas. Als we de kans op iedere mogelijke uitkomst aangeven met een staafje van overeenkomstige hoogte, dan ontstaat een grafiek die kansverdeling heet. Figuur 1 Kansverdeling van het aantal ogen bij worpen met een en met meer dobbelstenen In figuur 1 staan drie voorbeelden. De bovenste kansverdeling geldt voor de uitkomsten van de worp met één dobbelsteen; deze lopen van 1 tot 6, en ze hebben ieder kans 1/6. Daaronder staat de kansverdeling voor het aantal ogen uit een worp met twee dobbelstenen. Deze variabele loopt van 2, tot 12, en de kansen zijn niet gelijk. De verdeling voor drie worpen begint op een klokvorm te lijken. De kansverdelingen bestrijken alle mogelijke uitkomsten; deze zijn op dezelfde schaal getekend. De som van de kansen of de totale lengte van de staafjes is 1. Het bereik van de mogelijke uitkomsten neemt natuurlijk toe naarmate men meer dobbel- stenen 8 gebruikt, en daardoor wordt de verdeling breder. Uit een rechthoekige verdeling ontstaat eerst een nette piramide en vervolgens een verdeling met de vorm van een klok. De binomiale verdeling Dezelfde techniek kan worden gebruikt om de kans uit te rekenen op x keren kruis in een worp met n munten of n opeenvolgende worpen met één munt. De beschouwde munt kan een zuivere munt zijn met een kans van 0,5 op kruis, of een onzuivere munt met een kans van 0,6 op kruis en 0,4 op munt, of iedert andere toevalsvariabele die met een redelijke kans ieder var twee waarden kan aannemen. Deze verdeling heet de binomiaIe verdeling. De plaats en vorm worden geheel bepaald door twee coëfficiënten, namelijk p, de kans op de gebeurtenis die al! een succes wordt geteld (hier:'kruis'), en n, het aantal worpen, of proeven. Het gemiddelde van x is n*p, de variantie n*p* (1 - p) de standaardafwijking de wortel daarvan. Als p gelijk is aan 0,5 is de verdeling symmetrisch, als p niet gelijk is aan 0,5 is de verdeling asymmetrisch - maar naarmate n toeneemt, wordt deze verdeling al snel ook bijna symmetrisch. In figuur 2 is de verdeling van het aantal malen 'kruis' bij worpen met een zuivere munt getekend voor drie verschillende waarden van n. Bij de grote waarden is voor het gemak een vloeiende lijn gebruikt in plaats van dicht op elkaar gepakte staafjes. Figuur 2 Kansverdeling voor het aantal malen kruis bij een verschillend aantal worpen met een munt 9 In deze voorstellingen is de uitkomst van het toevalsexperiment een variabele geworden en we noemen die een toevalsvariabe, en ook wel stochast of stochastische variabele (Engels: random variable). Een toevalsvariabele kan altijd verschillende waarde aannemen, en de kansverdeling of waarschijnlijkheidsverdeling geel aan hoe groot de kans op ieder van die waarden is. Dat bete kent dat de kans een functie is van de waarden die de toevals variabele kan aannemen, en die functie kan worden voorgesteld door een formule. Overeenkomst en verschil met een frequentieverdeling In figuur 1 staan de kansverdelingen van het aantal ogen uit worpen met een, twee of drie dobbelstenen, en men kan natuurlijk verder gaan met vier, vijf, enzovoort, dobbelstenen. In figuur 2 staan de kansverdelingen van het aantal keren kruis bij 10, 25 en 100 worpen met een munt. Beide figuren suggereren dat er, naarmate n toeneemt, een nette, symmetrische functie met één top ontstaat, en dat is ook zo. De verdeling zal op den duur dezelfde vorm krijgen als de frequentieverdeling van dienstplichtigen naar hun lengte, als we die tenminste ook met een vloeiende lijn zouden weergeven en niet met een blokdiagram. Kansverdeling en frequentieverdeling vertonen een aantal overeenkomsten. Beide bestaan uit een reeks staafjes (of blokjes) waarvan de lengte (of oppervlakte) tot 1 sommeert, en sommige frequentieverdelingen kunnen in vorm erg op bepaalde kansverdelingen lijken. Dit heeft het grote praktische voordeel dat de kansverdeling als benadering van de frequentieverdeling kan worden gebruikt. Men hoeft dan niet langer de hele tabel van de frequentieverdeling te raadplegen, maar kan direct gaan rekenen met de kansverdeling die doorgaans een vrij eenvoudige wiskundige vorm heeft. Ook hoort er bij iedere kansverdeling een gecumuleerde functie zoals die voor de frequentieverdeling van de lengte van rekruten. Dit is de waarschijnlijkheidsfunctie of verdelingsfunctie (probabilityfunction, distribution function) die aangeeft hoe groot de kans is dat de toevalsvariabele onder een bepaalde grens blijft.Voor de worp met drie dobbelstenen is ze in figuur 3 getekend. 10 Figuur 3 Waarschijnlijkheidsfunctie voor het aantal ogen met drie dobbelstenen Een kansverdeling heeft net zoals een frequentieverdeling een gemiddelde en een standaardafwijking. Deze worden alleen niet langer berekend uit getallen, maar afgeleid uit de wiskundige functie die de verdeling beschrijft. Bovendien verandert de naam van het gemiddelde; men spreekt van de (mathematische) verwachting (expectation) van een toevalsvariabele.Voor de spreiding blijft men echter variantie en standaardafwijking gebruiken. Net zoals bij de frequentieverdeling luiden gemiddelde en standaardafwijking in dezelfde eenheden als de toevalsvariabele zelf, en opnieuw hoeft het gemiddelde niet met een mogelijke uitkomst overeen te komen. De verwachting van het aantal ogen bij een worp met één dobbelsteen is 3,5, maar die uitkomst is onmogelijk en heeft kans nul. Er is één groot principieel verschil tussen de twee verdelingen: de frequentieverdeling is verkregen door waarnemingen te ordenen, de kansverdeling is afgeleid uit theoretische overwegingen. Een kansverdeling volgt uit een theoretisch model van het verschijnsel, met behulp van veronderstellingen over het toevalsmechanisme en rekenregels; ze kan nooit worden waargenomen. Verschillende soorten variabelen Door veel van de figuren die zijn getoond is de verleiding groot maar eens op te houden met die blokjes en staafjes en de kansverdeling altijd als een vloeiende lijn te tekenen. Bij de ogen van een dobbelsteen is dat strikt genomen niet toegestaan, want alleen de natuurlijke getallen van i tot 6 (of van 2 tot 12, van 3 tot i8, al naar gelang het aantal 11 stenen waarmee men werpt) kunnen voorkomen. Het is een discrete variabele, en de tussengelegen waarden zijn uitgesloten. De lichaamslengte van rekruten is daarentegen een continue variabele, die alle waarden tussen 160 en 200 cm kan aannemen. In de frequentieverdeling van de lengte van rekruten komt maar een eindig aantal waarden voor, op zijn hoogst evenveel als er mensen zijn gemeten, als ze zo precies worden gemeten dat er geen twee even lang zijn. Beschouwt men echter de lengte van één willekeurige keurling, dan kan die oneindig veel waarden aannemen, behoudens de precisie waarmee de lengte wordt gemeten. Als die op hele centimeters wordt afgerond, is de lengte weer een discrete variabele, die ongeveer 40 verschillende waarden kan aannemen, namelijk van 160 tot 200. Een discrete variabele wordt ook wel kwalitatieve variabele genoemd. Een voorbeeld is een variabele die aanduidt of iemand een man (waarde 0) of een vrouw is (waarde 1). Een continue variabele wordt ook wel kwantitatieve variabele genoemd (bijvoorbeeld geboortejaar). Een andere manier om variabelen in te delen is de volgende: − Nominaal: nominale variabelen geven alleen een onderscheid aan (bijvoorbeeld geslacht man/vrouw) − Ordinaal: ordinale variabelen geven ook een ordening aan (bijvoorbeeld opleidingsniveau) − Interval: bij interval variabelen is er sprake van gelijke verschillen tussen de waardes (bijvoorbeeld intelligentiequotiënt) − Ratio: bij ratio variabelen is er sprake van gelijke verschillen tussen de waardes en er is een natuurlijk nulpunt (bijvoorbeeld leeftijd) In figuur 4 wordt dit verduidelijkt aan de hand van voorbeelden. 12 Figuur 4: de as van ‘preciesheid’ van variabelen 13 De normale verdeling Wat is de normale verdeling? De normale verdeling is een kansverdeling zoals die in het vorige hoofdstuk is besproken, en wel voor een continue toevalsvariabele. Het is dus een onderdeel van het statistisch model, en als zodanig een theoretische constructie, niet iets dat we rechtd treeks kunnen waarnemen. Op zichzelf is het niets anders dan een wiskundige functie, een dichtheid. Er zijn veel wiskundige functies die een dichtheid (kunnen) beschrijven (als ze maar nergens negatief zijn en het oppervlakte onder de functie 1 is); de normale dichtheid of verdeling van Gauss (1777~1855) is er daar één van. Deze verdeling wordt vaak gebruikt; veel, maar lang niet alle, grootheden zijn bij benadering normaal verdeeld. Het bIijft echter een van de vele verdelingen, en men moet niet denken dat de verdeling een norm stelt, of dat de andere verdelingen in enig opzicht abnormaal zijn.Wat dit aangaat, is de naam ongelukkig gekozen. De verdeling is trouwens ook niet door Gauss bedacht, maar wel door hem als eerste toegepast op een praktisch probleem, namelijk de berekening van de banen van hemellichamen. Gauss veronderstelde dat de afwijkingen normaal verdeeld waren. Figuur 5 Normale verdelingen De normale kansverdeling heeft de vorm van een klok. In figuur 5 hebben we er een aantal getekend voor verschillende toevalsvariabelen x; ze zullen de lezer bekend voorkomen, want de verdeling is al meer dan eens in figuren gebruikt zonder het erbij te 14 zeggen. De kansverdelingen verschillen in vorm en positie, maar de schaal is zo gekozen dat de oppervlakte onder de normale curve (die altijd met een kans van 100% correspondeert) voor de zes verdelingen even groot is. Iedere normale verdeling wordt geheel bepaald door twee coëfficiënten, de verwachting m1 en de standaardafwijking s. Bij verdeling A van figuur 5 is aangegeven welke rol m en s spelen en hoe men de uit een getekende verdeling kan aflezen. De andere verdelingen zijn verkregen door m en s te variëren. De twee verdelingen van B hebben dezelfde standaardafwijking en dus ook dezelfde vorm, maar een andere verwachting: ze zijn ten opzichte van elkaar verschoven. C en D hebben dezelfde m, maar s is respectievelijk groot en klein: de verdeling wordt uitgerekt of in elkaar gedrukt. Welke waarden van m en s in feite van toepassing zijn, hangt af van het verschijnsel waarop de normale verdeling betrekking heeft en de eenheden waarin het wordt gemeten. Als het model bedoeld is voor de lichaamstemperatuur van gezonde mensen, dan zal men een m van 37 graden en een s van 0,1 graad kiezen;voor koortsige patiënten in een ziekenhuis ligt m echter hoger, en s vermoedelijk ook. Natuurlijk luiden m en s in dezelfde eenheden als het verschijnsel, namelijk in dit geval in graden Celsius; zouden we nog met de oude schaal van Fahrenheit werken, dan veranderen ze volgens de bekende regels. Ten slotte veranderen plaats en vorm van een getekende verdeling met de gebruikte schaal. Soms past men de twee coëfficiënten van de normale verdeling niet aan de eenheid van de toevalsvariabele aan, maar omge keerd de meeteenheid aan de verdeling, en wel zo dat m nul wordt en s één. Dit is de gestandaardiseerde normaal verdeelde toevalsvariabele, in figuur 5 getekend als E. Als x een normale verdeling met verwachting m en standaardafwijking s heeft, dan heeft (x - m)/s een standaardnormale verdeling.Vroeger gebruikte men tabellen van de dichtheid en de verdelingsfunctie van deze verdeling; tegenwoordig leveren alle statistische computerprogramma's vlot de gewenste waarden. Door het argument met een vast getal te vermenigvuldigen en er een vast getal bij op te tellen, kan men er iedere andere normale verdeling uit construeren: s *(x - m)/s + m = x. Wil men een frequentieverdeling beschrijven met een norma le verdeling, dan kiest men daarvoor een aangepaste verdeling waarvan m en s overeenkomen met waargenomen gemiddelde en standaardafwijking. In figuur 6 is zo'n aangepaste dichtheid over de frequentieverdeling van de lichaamslengte van rekruten gelegd. 1 Ook vaak aangeduid met het symbool µ 15 Figuur 6 Aangepaste normale verdeling: de lichaamslengte van dienstplichtigen (bron: CBS) Eigenschappen van de normale verdeling Alle normale verdelingen hebben één top en zijn symmetrisch. De top ligt bij m en dat is dus niet alleen de verwachting of het (theoretisch) gemiddelde, maar ook de (theoretische) modus van de verdeling. De symmetrie rondom m betekent dat er van de totale oppervlakte onder de curve precies 50% onder m en 50% boven m ligt, en m is dus ook nog eens de (theoretische) mediaan. De standaardafwijking geeft de afstand aan van het midden tot de taille van de verdeling. Een en ander is aangege- ven in verdeling A van figuur 5. In de plaatjes van figuur 5 kan men ook zien dat de normale curve links en rechts tot de getallenas nadert, zonder deze ooit te raken; de wiskundige functie van de normale dichtheid kan zo klein worden als men maar wil, maar nul wordt ze nooit. In principe strekt de verdeling zich dus uit over de gehele getallenas, van min oneindig tot plus oneindig, en is er geen grens aan de waarden die de toevalsvariabele x kan bereiken, noch naar beneden noch naar boven. De oppervlakte onder de curve is wel begrensd en ze is 1 (of 100%), zoals voor een kansverdeling of dichtheid hoort. Daarvan ligt 95% tussen de grenzen m - 2*s en m + 2*s (of eigenlijk m + 1,96s en m - 1,96s); vanwege de symmetrie ligt er aan iedere kant 2,5% buiten de grens. Deze oppervlakten zijn in verdeling E van figuur 5 gearceerd. Voor de normale verdeling gaat de volgende vuistregel op: als regel ligt ongeveer 95% van de waarnemingen binnen de aangegeven grenzen. We noemen nog een wiskundige eigenschap van normaal verdeelde toevalsvariabelen, omdat die ertoe kan bijdragen dat men het vervolg gemakkelijker begrijpt: de som van twee normale toevalsvariabelen heeft zelf ook weer een normale verdeling. De centrale limietstelling Een verdeling kan op verschillende manieren worden verkregen, of uit de theorie, door een proces te bezien waar de ver deling uit volgt, of uit de praktijk, door een functie te beden ken die bepaalde waargenomen verschijnselen zo ongeveer beschrijft. Een veel gebruikte theoretische afleiding van de normale verdeling houdt in dat het de verdeling is van een som van vele onafhankelijke termen. Beschouw een groot aantal toevalsexperimenten die onafhankelijk van elkaar zijn, en tel de uitkomsten op. De som die zo wordt verkregen, is zelf ook weer een toevalsvariabele. Als het aantal elementen dat wordt opgeteld steeds verder toeneemt, nadert de verdeling van de som steeds dichter tot de normale dichtheid; in de limiet, voor een oneindig aantal termen, wordt de normale functie exact verkregen. 16 Een voorbeeld is de frequentie van kruis bij worpen met een zuivere munt. Het aantal keren kruis bij n worpen volgt een binomiale verdeling, maar het is tegelijkertijd de som van de uitkomsten van n onafhankelijke experimenten; als n maar groot genoeg is, moet het vrijwel normaal zijn verdeeld. Beide verdelingen gaan op: de binomiale verdeling is namelijk bij toenemende n nauwelijks te onderscheiden van de normale verdeling. Andere sommen van een (groot) aantal onafhankelijke toevalsvariabelen zijn op den duur ook normaal verdeeld. Voor worpen met een onzuivere munt is de binomiale verdeling asymmetrisch, maar naarmate n toeneemt, verdwijnt die scheefheid. Het gaat ook op voor de som van onafhankelijke uitkomsten van verschillende experimenten, mits die aan bepaalde voorwaarden voldoen, zoals langs wiskundige weg kan worden bewezen. Dit theoretische resultaat staat bekend als de centrale limietstelling. Proef op de som Net zoals voor de wet van de grote aantallen kan ook voor de centrale limietstelling worden nagegaan of de werkelijkheid in een concreet geval met het model klopt.Voor de binomiale verdeling van worpen met een munt zouden we dan een groot aantal mensen aan het werk moeten zetten die ieder het experiment overdoen. Eerst werpen ze allemaal tienmaal met een munt, we noteren het aantal keren kruis van Ieder en maken een frequentieverdeling van die honderd getallen; daarna werpen ze honderdmaal en we noteren de uitkomsten op dezelfde wijze, enzovoort. Als de centrale limietstelling opgaat, zal de frequentieverdeling steeds meer op de normale verdeling gaan lijken naarmate het aantal experimenten van ieder van de deelnemers toeneemt. Voor het algemenere geval van de optelling van verschillende onafhankelijke toevalsvariabelen zou men kleine teams aan het werk kunnen zetten: de een werpt met een munt, een ander met een dobbelsteen, een derde raapt geblinddoekt een steentje uit het grind dat wordt gewogen, enzovoort. leder van de proeven wordt herhaald en de uitkomsten worden voor ieder team opgeteld. De eindresultaten van een groot aantal teams vormen een frequentieverdeling, en volgens de centrale limietstelling moet deze steeds meer op de normale verdeling gaan lijken naarmate het aantal experimenten van ieder team verder toeneemt. We hebben dit niet door mensen, maar door de computer laten doen (figuur 7). Er zijn vijf toevalsexperimenten gekozen waarvan de som van de uitkomsten niet netjes symmetrisch is verdeeld. In figuur 7 staat bovenaan de kansverdeling van deze som, en daaronder de verdeling van de som bij duizend herhalingen van het samengestelde experiment, of n = 5000 herhalingen van vijf verschillende proeven. Onderaan staat een blokdiagram van de normale verdeling. Alle blokdiagrammen zijn gestandaardiseerd op gemiddelde nul en standaardafwijking 1. Zoals men ziet gaat de verdeling op de normale verdeling lijken als n toeneemt; dit is in overeenstemming met de centrale limietstelling. 17 Figuur 7 Nabootsing door de computer van de centrale limietstelling Toepassingen Men kan normale verdelingen die in de praktijk optreden omgekeerd interpreteren als het resultaat van de centrale limietstelling. Dat zoveel verschijnselen bij benadering normaal verdeeld zijn, komt dan doordat ze de resultante zijn - of preciezer: de som van de inwerking van een groot aantal onafhankelijke factoren. Het gewicht van pakken koffie of boter is ondanks alle voorzorgen normaal verdeeld, zij het met een heel kleine spreiding; wat men ook doet, het lukt nooit volstrekt identieke producten af te leveren. In figuur 8 is de verdeling weergegeven van het gewicht van bijna 1000 muntplaatjes, schijfjes metaal die 's Rijks munt vervaardigt om er guldens van te maken. Deze moeten natuurlijk evenveel wegen, in dit geval 10 gram. Ondanks alle zorg die aan de productie wordt besteed blijkt bij uiterst nauwkeurige weging dat er toch verschillen het gewicht van de plaatjes optreden, en dat dit gewicht normaal verdeeld is. De verschillen zijn overigens wel erg klein: standaardafwijking is 22 milligram, dat is 2,2 duizendste van 1 gemiddelde gewicht, en volgens de vuistregel verschilt dus 9 van alle muntplaatjes niet meer dan 4,4 duizendste van het gemiddelde. Bij een ingewikkeld productieproces zijn de onvermijdelijke afwijkingen het gevolg van allerlei factoren die onafhankelijk van elkaar optreden, en daar komen dan nog eens meetfouten bij: vandaar de normale verdeling. Vanuit deze interpretatie noemt men de normale verdeling ook wel eens de foutenverdeling, en zo werd ze ook door Gauss gebruikt. 18 Figuur 8: Aangepaste normale verdeling: het gewicht van muntplaatjes 19