Beschrijvende statistiek sta 1 Inleiding: De cursus bevat vijf hoofdstukken en heeft als doel om zoveel als mogelijk de computer te gebruiken bij het verwerken van statistische gegevens. Voor het verwerken van de gegevens werd gekozen voor MS-EXCEL Het gebruik van Excel wordt in het begin van deze notities beschreven, hiertoe werden de notities genomen die op de website.wiskunde ter beschikking zijn. Ze werden opgesteld door Paul De Cuypere in voorbereiding van de ‘Dag van de Wiskunde’ 1998. De notities zijn ter beschikking van iedereen. (dpb.sip.be/secundair/wiskunde/ICT in de wiskundeles) Hst 1: Hst 2: Hst 3: Hst 4: Hst 5: Statistische gegevens Het ordenen van gegevens Grafische voorstelling van een gegroepeerde frequentietabel Centrummaten Spreidingsmaten ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 2 Hoofdstuk 1: statistische gegevens 1.1 Inleiding We zoeken voorbeelden omtrent het gebruik van statistiek in onze maatschappij. (het vergelijken van het gezinsinkomen in meerdere landen, bedrijfsinkomsten, de resulaten van de leerlingen,…) 1.2 Begrippen 1.2.1 De populatie Het betreft de verzameling van personen of objecten die bestudeerd worden. Als voorbeelden nemen we: de Belgische bevolking, de waspoedergebruikers, … 1.2.2 Een steekproef Is een verzameling van elementen van de populatie waarvoor de waarnemingen worden uitgevoerd. b.v.: de krantenlezers in Leuven, de waspoedergebruikers in Gent, de luisteraars naar een regionaal radiostation, … 1.2.3 Een variabele Is een kenmerk van de populatie-elementen dat men wil nagaan of meten. b.v.: het stemgedrag, het gewicht van een product in de verpakking, de lichaamslengte, het gezinsinkomen, … 1.2.4 Wat doet de statistiek? Het is de wetenschap die de eigenschappen van de elementen van een verzameling bestudeert door tellingen, metingen of waarnemingen. Hiertoe gebeurt het volgende: het samenstellen van de steekproef en het verzamelen van de gegevens; het ordenen van de gegevens, het maken van een voorstelling en het berekenen van een aantal typerende waarden; het nagaan van de betrouwbaarheid van de resultaten. De beschrijvende statistiek, ons leeronderwerp, leert ons ordenen en typerende waarden berekenen. 1.3 Het bepalen van de steekproef ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 3 Het samenstellen van de steekproef is een moeilijke opdracht, wie kiest men als persoon, waar halen we de producten die we willen onderzoeken, … De steekproef moet representatief zijn voor de ganse populatie. De steekproef moet een voldoende omvang hebben. De vraagstelling moet gebeuren over meetbare onderwerpen en met een zeer duidelijke vraagstelling. 1.4 Het sigmateken () 4 xi = x1 + x2 + x3 + x4 i=1 5 (2xi) = 2x3 + 2x4 + 2x5 i=3 Eigenschappen : E1 : (xi + yi) = xi + yi E2 : (a.xi) = a. xi E3 : (a) = n.a 1.5 Het rekenkundig gemiddelde V = { x1, x2, …xn} m = ( xi) / n 1.6 statistiek en excel Het rekenblad Excel biedt heel wat mogelijkheden voor de verwerking van gegevens in de beschrijvende statistiek. In het geheel van de voorliggende notities worden heel wat voorbeelden uitgewerkt. De meeste functies die we gebruiken, zijn ook in andere rekenbladen mogelijk, zij het in een ietwat aangepaste vorm. Zelfs in een eenvoudig rekenblad zoals dat van het pakket MS-Works zitten voldoende mogelijkheden om uit te werken wat in deze notities voor Excel beschreven wordt. Na de ervaringen met het rekenblad die de leerlingen hebben verworven tijdens de lessen informatica in de tweede graad, is het in principe mogelijk alle oefeningen met de computer te maken (ook de grafische rekentoestellen bieden heel wat mogelijkheden). Het kan in Excel nuttig zijn om vooraf een aanvulling in de menu’s aan te brengen. Kies in het menu extra voor invoegtoepassingen. Bij de mogelijkheden die nu verschijnen, vink je het vakje analysis ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 4 toolpak aan. Door deze keuze wordt in het vervolg in datzelfde menu extra onderaan een keuze bijgeplaatst : gegevensanalyse. 1.7 Enkele voorbeelden uitgewerkt met Excel Gebruik deze bladzijden (samen met de voorbeelden in bijlage) om vlot statistiek te verwerken met Excel. beschrijvende statistiek en excel Het rekenblad Excel biedt heel wat mogelijkheden voor de verwerking van gegevens in de beschrijvende statistiek. We werken hieronder enkele typische voorbeelden uit. De meeste functies die hierbij gebruikt worden, zijn ook in andere rekenbladen mogelijk, zij het in een ietwat aangepaste vorm. Zelfs in een eenvoudig rekenblad zoals dat van het pakket MS-Works zitten voldoende mogelijkheden om uit te werken wat hieronder in Excel gebeurt. Omdat de leerlingen in de tweede graad normaal gezien in de lessen informatica allemaal wat kennis van een rekenblad hebben opgedaan, is het in principe mogelijk om de leerlingen de oefeningen te laten maken op de computer (in plaats van met een rekentoestel). De ervaring leert mij dat zoiets wel de nodige tijd (1 à 2 lessen) vraagt om aan te leren. Positief is dan wel dat de leerlingen gewoonlijk enthousiast zijn om op die manier te werken. Een praktisch probleem is natuurlijk dat de computerklas moet kunnen gebruikt worden. Is dat niet het geval, maar is er wel één computer beschikbaar (met beeldprojectie) in bijvoorbeeld een wiskundelokaal, dan kan Excel natuurlijk gebruikt worden ter illustratie van de gemaakte oefeningen. Vooral de grafieken uit de beschrijvende statistiek geven dan veel tijdwinst. Het kan in Excel nuttig zijn om vooraf een aanvulling in de menu's aan te brengen. Kies in het menu extra voor invoegtoepassingen. Bij de mogelijkheden die nu verschijnen, vink je het vakje analysis toolpak aan. Door deze keuze wordt in het vervolg in datzelfde menu extra onderaan een keuze bij geplaatst: gegevensanalyse. 1 Eerste voorbeeld: statistische verwerking van een steekproef met een beperkt aantal verschillende waarnemingsgetallen Van 1000 gezinnen werd genoteerd hoeveel kinderen in het gezin voorkomen. Het resultaat van die waarnemingen wordt in een frequentietabel weergegeven. Voor het opstellen van die tabel zijn 5 kolommen opgenomen: xi : waarnemingsgetallen ni : frequentie van de waarnemingsgetallen fi : relatieve frequentie (procentueel t.o.v. het totaal) cni : cumulatieve frequentie ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 5 cfi : relatieve cumulatieve frequentie Van deze grootheden worden achteraf grafieken gemaakt. De titels boven de kolommen en de opmaak moeten zelf ingetypt en ingesteld worden. Ook de getallen uit de eerste twee kolommen moeten natuurlijk ingetypt worden. De laatste drie kunnen we laten berekenen door Excel: in cel C9 =B9/B$18 en omlaag doorvoeren D9 =B9 en in D10 =D9+B10 en omlaag doorvoeren E9 =D9/B$18 en omlaag doorvoeren B18 =som(B9:B17) en in C18 =som(C9:C17) De cellen van relatieve frequentie en cumulatieve relatieve frequentie hebben getalopmaak percentage (in te stellen via opmaak - celeigenschappen - getal). Voor de berekening van het gemiddelde en de standaardafwijking worden nog twee kolommen bij gemaakt: een kolom voor en voor : in cel G9 =A9*B9 en omlaag doorvoeren H9 =A9^2*B9 en omlaag doorvoeren G18 =som(G9:G17) en in H18 =som(H9:H17) Onder de frequentietabel (maar de plaats is natuurlijk vrij te kiezen), zijn de centrummaten en de spreidingsmaten berekend. Eerste en derde kwartiel, mediaan modus en variatiebreedte, zijn niet door Excel berekend (dat kan wel als alle waarnemingsgetallen ingetypt worden vóór de frequentietabel: zie tweede voorbeeld). Voor de andere zijn de volgende formules ingegeven: in cel E24 =G18/B18 E31 =E26-E25 E32 =wortel(H18/B18-E24^2) E33 =E32/E24 Gemiddelde en standaardafwijking zijn hier dus berekend met de volgende formules: Bemerk dat Excel ook rechtstreeks het gemiddelde en de standaardafwijking kan berekenen, weer op voorwaarde dat alle waarnemingsgetallen afzonderlijk ingegeven zijn. Grafieken van deze verschillende frequenties Van zowel de frequentie, de relatieve frequentie, de cumulatieve frequentie en de relatieve cumulatieve frequentie is een grafiek gemaakt. Voor de 4 grootheden is dat op precies dezelfde manier gebeurd. Bij de uitleg beperken we ons dan ook tot één grafiek, bijvoorbeeld die van de cumulatieve frequentie. selecteer de getallen waarvan de grafiek moet getekend worden; hier dus de cellen D9 tot en met D17 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 6 Druk op de knop Wizard grafieken bovenaan in de werkbalk (of kies invoegengrafiek…). Er zijn nu 4 stappen nodig om de grafiek te voltooien: - eerste stap: kies het grafiektype; voor onze oefening: kies het eerste (kolom): - tweede stap: (je ziet nu overigens al een voorlopig voorbeeld van de grafiek) In het vakje gegevensbereik moet normaal niets gewijzigd worden (de selectie vooraf van de cellen D9-D17 zorgt ervoor dat dit vakje al ingevuld is); is het vakje toch leeg of verkeerd, dan klik je in dat vakje, maak het eventueel leeg, en selecteer nu in het rekenblad de cellen D9-D17; in het tabblad reeks staat alles meteen ook goed ingevuld, behalve het vakje labels categorieas (X); dat vakje is bedoeld om de cellen aan te geven van de waarden die bij de X-as horen; klik dus in het vakje en selecteer de cellen A9-A17. In sommige gevallen is dit invullen niet nodig, namelijk als Excel zelf ontdekt waar die gegevens staan. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 7 - derde stap: de meeste zaken die hier kunnen ingevuld worden, spreken voor zich: titel bovenaan de grafiek, bij de assen, weergeven van assen en rasterlijnen enz. We kiezen hier om géén labels af te drukken, ook geen gegevenslabels (getallen bovenaan de staven van de grafiek, de eigenlijke waarden van de grafiek dus). - vierde stap: kies de plaats waar de grafiek moet komen: in een nieuw (reken)blad, of als een object in het actuele rekenblad; kies voor de tweede mogelijkheid: ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 8 De grafiek komt nu als object in het rekenblad; sleep die grafiek eerst naar een plaats waar ze goed thuis hoort, pas eventueel al de afmetingen aan. Het wijzigen van de onderdelen van de grafiek gebeurt nu bijvoorbeeld door dubbel te klikken op dat item. Wil je bijvoorbeeld het lettertype van de titel veranderen of de grootte ervan wijzigen, klik dan dubbel op die titel. Wil je bijvoorbeeld de kleur van de staaf wijzigen, klik dan dubbel op één van de staven, en kies voor het tabblad patronen. In hetzelfde venster, tabblad opties, kun je de breedte van de ruimte tussen de staven aanpassen. Daardoor worden de staven smaller of breder. 2 Tweede voorbeeld: statistische verwerking van een steekproef met veel verschillende waarnemingsgetallen (indeling in klassen) We werken het voorbeeld uit waarbij van 120 leerlingen het resultaat van een proefwerk wiskunde opgetekend is (in procenten uitgedrukt, afgerond op de eenheid). Zoals gebruikelijk bij veel verschillende waarnemingsgetallen, worden de getallen in klassen verdeeld. Alle waarnemingsgetallen binnen één klasse krijgen dan dezelfde waarde: die van het klassemidden. Daardoor krijgen we in de berekeningen (overigens aanvaardbare) kleine ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 9 afwijkingen tussen bijvoorbeeld het precieze gemiddelde en het gemiddelde berekend volgens de klassen. (In Excel kunnen we nu overigens gemakkelijk deze afwijking nagaan.) Er is natuurlijk veel gelijkenis tussen het statistisch verwerken van deze gegevens in klassen en het vorige voorbeeld, maar ook wat verschil. Met name het indelen in klassen is een bijkomende berekening die moet gebeuren. Maar ook hier kan Excel ons helpen. We typen eerst alle 120 waarnemingsgetallen in, bijvoorbeeld in de cellen A3-J14. Om de klassen te definiëren zoeken we eerst het grootste en het kleinste waarnemingsgetal (zie K21 (=MAX(A3:J14)) en L21 (=MIN(A3:J14))). We kunnen er uit afleiden dat 9 klassen een goede verdeling zullen geven: [45;49] [50;54] [55;59] … [80;84] [85;89]. Om Excel nu de frequentie te laten zoeken die in elke klasse voorkomt, voeren we de volgende stappen uit: typ ergens in het rekenblad (desnoods buiten de af te drukken bladzijde; hier is gekozen voor A17-A25) de waarden 49 54 59 … 84 89 in. Excel gaat namelijk op zoek naar het aantal waarnemingsgetallen (voor de eerste klasse) kleiner dan of gelijk aan 49, voor de tweede klasse groter dan 49 en kleiner dan of gelijk aan 54 enz. kies nu voor extra - gegevensanalyse - histogram en vul de volgende gegevens in: (invoerbereik = plaats waar de te verwerken gegevens staan, dus A3-J14; verzamelbereik = grenzen waarmee de klassen gemaakt worden, dus A17-A25; uitvoerbereik = plaats vanaf waar de frequentietabel (indeling in klassen) zal ingevuld worden) Door op OK te klikken verschijnt op de plaats van het uitvoerbereik de volgende tabel: Verzamelbereik Frequentie 49 1 54 2 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 10 Meer 59 4 64 28 69 32 74 29 79 12 84 9 89 3 0 Deze tabel geeft ons dus de frequentie waarmee de waarnemingsgetallen in elke klasse voorkomen. We passen nu zelf deze tabel aan, zodat die zo goed mogelijk gelijkt op de frequentietabel uit het eerste voorbeeld. Verzamelbereik vervangen we door klassen, we voorzien ook een kolom voor het klassemidden. We brengen ook weer een kolom aan met de waarden en voor (met xi is nu telkens het klassemidden bedoeld). We kunnen nu de statistische waarden voor centrum en spreiding zowel voor de oorspronkelijke 120 getallen laten berekenen (is dus exact), als voor de gegevens in klassen ingedeeld (bevat kleine afwijkingen ten opzichte van de exacte waarden). In het rekenblad staan de eerste onder de oorspronkelijke tabel van 120 getallen (kolom K), de tweede onder de frequentietabel. Voor de berekening van deze laatste kan precies dezelfde werkwijze gevolgd worden als bij het eerste voorbeeld. Voor de berekening van de juiste statistische grootheden zijn de volgende formules gebruikt: in cel K24 =gemiddelde(A3:J14) K25 =mediaan(A3:J14) K26 =kwartiel(A3:J14;1) K27 =kwartiel(A3:J14;3) K28 =modus(A3:J14) K30 =K21-K22 K31 =K27-K26 K32 =STDEVP(A3:J14) K33 =K32/K24 (standaarddeviatie van een steekproef met de volledige populatie) Grafieken van deze verschillende frequenties Ook nu is het maken van de grafieken vrij gelijklopend met het eerste voorbeeld. Toch zijn er ook een paar belangrijke verschillen: bij gebruik van staafdiagrammen kan nu beter (ook om een onderscheid te maken met verwerking van gegevens niet in klassen) een brede staaf gebruikt worden: in het tabblad opties van gegevensreeks opmaken wordt daarvoor gekozen voor een kleine tussenruimte tussen de staven (bij de afdrukken in de voorbeelden is zelfs gekozen voor een breedte nul). Als met klassen gewerkt wordt, wordt dikwijls gebruik gemaakt van een polygoon in plaats van een staafdiagram (kan nuttig zijn om bijvoorbeeld op de grafiek een vlugge benaderende waarde van de mediaan en de kwartielen af te lezen). In dat geval is grafiektype dus niet kolom maar lijn. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 11 Bij de cumulatieve frequentiepolygonen worden beter de klassegrenzen op de X-as geplaatst dan de klassemiddens; daartoe moeten ergens die grenzen op het rekenblad vermeld worden om ze nadien bij de grafiek als waarden voor de X-as te kunnen opgeven. In de afdruk zijn die grenzen ingevuld op B17-B26. Het kan natuurlijk ook buiten de bladzijde gebeuren zodat ze niet afgedrukt worden samen met de grafieken. Nog een detail: de waarden op de X-as kunnen bij de streepjes op de X-as afgedrukt worden, of ertussen. Ook dat is van belang: bij staafdiagrammen staan de aanduidingen beter tussen, bij polygonen beter onder de streepjes. Die instelling kan gebeuren door dubbel te klikken op categorieas (X-as). Er verschijnt dan het volgend menu: 3 Correlatie en lineaire regressie Van 8 personen wordt de lengte en het gewicht genoteerd: persoon lengte (cm) gewicht (kg) A B C D E F G H 165 182 172 175 167 174 178 168 67 79 68 79 65 74 76 66 We zetten de punten met coördinaten bestaande uit de lengte en gewicht van de personen uit in een grafiek. Bij sterkere (lineaire) correlatie tussen de twee reeksen waarnemingsgetallen, liggen de punten sterker geconcentreerd rond een rechte: de regressielijn. De correlatie tussen lengte en gewicht van een persoon wordt dan uitgedrukt door de correlatiecoëfficiënt r (waarde tussen -1 en 1; 0 = geen verband, dicht bij +1 is sterke positieve correlatie, dicht bij -1 is sterke negatieve correlatie). ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 12 Zowel de regressielijn als de correlatiecoëfficiënt zijn met Excel eenvoudig te vinden: zorg er voor dat zowel de lengte van de personen als het gewicht in het rekenblad ingevuld staan (bvb in C5-C12 en D5-D12); selecteer eventueel vooraf die 2 reeksen getallen; kies voor invoegen-grafiek (of de knop wizard grafieken); kies als grafiektype spreiding (de gegevens worden dan als losse punten op de grafiek geplaatst); de rest van de stappen om te komen tot een nieuwe grafiek lijken vrij goed op de andere grafieken in de vorige voorbeelden; eventueel kan de schaal op de Y-as aangepast worden (niet beginnen bij 0, maar bijvoorbeeld beginnen bij 60); als de grafiek getekend is moet nu nog de regressielijn aangebracht worden, en de regressiecoëfficiënt berekend worden; zorg dat eerst de grafiek aangeklikt wordt; kies dan in het menu bovenaan voor grafiek en daarin voor trendlijn toevoegen; bij type kies je voor lineair en bij opties voor vergelijking in grafiek weergeven en R-kwadraat in grafiek weergeven. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek 1.8 sta 13 Soorten variabelen Variabelen zijn kenmerken die men wil nagaan in een populatie. Er zijn : Kwantitatieve variabelen Leveren getallen als gegevens : continu bij meetresultaten (R), discreet als het telresultaten zijn (Z). Ordinale variabelen Drukken een rangorde uit. (bij een beoordeling : goed – normaal – slecht ; het kan ook een waardeschaal zijn (vb. een schaal van 1 tot 5)) Nominale variabelen Hier wordt een duidelijk oordeel gegeven : goed-niet goed, politieke partij, merk frisdrank, … ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 14 Oefeningen 1 1.1 Geef voor elk van de beschreven gevallen : Beschrijf de populatie, steekproef en de onderzochte variabele Is de steekproef betrouwbaar ? 1.1.1 Een krant wenst na te gaan hoeveel boeken de Vlamingen lezen. Hiertoe interviewt een journalist in Leuven en Gent telkens 50 personen. 1.1.2 Een bedrijf wenst na te gaan zo de automatische weging en verpakking betrouwbaar is. Hiertoe worden gedurende een week 10 pakjes gewogen van de productie om 10 uur, om 13 uur en om 15 uur. Het bedrijf produceert wekelijks 10 000 pakjes 1.1.3 Een politicus wil weten hoeveel mensen zijn toespraak op de radio beluisterd hebben Hij telefoneert hierom naar 30 mensen uit zijn arrondissement. 1.1.4 Om de kijkdichtheid van zijn programma te controleren vraagt een lokale TV-zender aan 100 gezinnen om gedurende een maand een dagboek bij te houden. 1.1.5 Een firma wenst de invloed van en reclamespot op TV te onderzoeken. Hiertoe vraagt ze aan 20 winkels, verspreid over het Vlaamse land, gedurende één maand de verkoop van het product te noteren. 1.2 Bereken het gemiddelde (met het rekentoestel) 1.2.1 1.2.2 1.2.3 {4,15,2,8,6,4,10,12,7,13,9} {4,2,2,6,4,4,15,8,2,17,10,4,2,6,1} {6,-3,0,-11,7,4,-3} 1.3 Schrijf voluit. 1.3.1 xi (i=15) 1.3.2 ( 3xi + 2) (i=2 7) 1.3.3 (3.xi – 4)2 (i=2 3) ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 15 Hoofdstuk 2 : het ordenen van de gegevens 2.1 Het turven De gegevens van een statistische proef zijn binnen, het tellen en ordenen begint. Het eerste probleem van statistici is het scheppen van enige orde in die veelheid van gegevens. Tot voor enkele jaren was de eenvoudigste methode het onder elkaar plaatsen van de verschillende variabelen en een streepje te plaatsen telkens een bepaalde vaiabele voorkomt : het turven. Nu worden de gegevens ingetikt in de cellen van een rekenblad en worden de scores geteld met in het programma voorziene mogelijkheden. (zie: frequentietabellen) Voorbeeld : Om de uitslag van de komende gemeenteraadsverkiezingen te voorspellen werd in de gemeente aan 250 mensen gevraagd naar de partij van hun voorkeur. De vijf deelnemende partijen noemen we A, B, C, D en E. De gegevens zijn de volgende : CCAADBAAECBDABEACCBCDDDBAECBDACABBAEDDDDABB ACDAACBEDDACBBADADADBDECCAADECCDAAABBADCCDA B E C B A A B B D E D C C D A A A B BB C D C D B B C A A D A A A B C D E A A B A C D AACBAAADAEBBAACCDAAEABAABDDCBAAABEDDCDDAABC AABABDECCBAAADBACADABBACADAEBAACEABCCCCEABB ACACADAAABCCABACAACCCBDEDEABAACBCBAD De vraag : hoeveel procent van de stemmen mag elke partij verwachten ? De variabele (partij van de keuze) is nominaal. Resultaat van de telling : Partij A B C D E Aantal stemmen 86 50 50 45 19 250 % 34,4 20 20 18 7,6 De voorspelling spreekt nog meer aan als ze op een aanschouwelijke manier wordt voorgesteld. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek 2.2 sta 16 Frequentie van een waarnemingsgetal Voorbeeld : In een bepaalde straat tekenen we gedurende 20 weken het aantal verkeersongelukken per week op : 0 1 1 3 0 1 1 2 2 4 3 1 2 0 2 1 1 3 0 2 Om meer overzicht te krijgen, zullen we de waarnemingsgetallen rangschikken in stijgende volgorde. We hebben dan een gerangschikte tabel en kunnen zo beter de frequentie bepalen. 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 2.2.1 De absolute frequentie (AF) ni De absolute frequentie ni van de variabele (waarnemingsgetal) xi is het aantal keren dat xi voorkomt. 2.2.2 De relatieve frequentie (RF) fi De relatieve frequentie fi van de variabele xi is de verhouding van de absolute frequentie ni tot het totaal aantal gegevens. fi = ni/n 2.2.3 De cumulatieve absolute frequentie (CAF) cni De cumulatieve absolute frequentie cni van het waarnemingsgetal xi is gelijk aan het aantal variabelen (waarnemiçngsgetallen) kleiner dan of gelijk aan xi. Cn5 = n1 + n2 + n3 + n4 + n5 2.2.4 De cumulatieve relatieve frequentie (CRF) cfi De cumulatieve relatieve frequentie cfi van de variabele (waarnemingsgetal) is de som van de relatieve frequenties van de variabelen kleiner dan of gelijk aan xi. Cfi = f1 + f2 + … + fi 2.3 Frequentietabellen Een frequentietabel is een gerangschikte tabel variabelen (waarnemingsgetallen) waarin bij elke variabele de frequenties vermeld worden. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 17 Voorbeeld : Een plaatselijke fabrikant van schoenen vraagt voor de planning van de komende productie een overzicht van de schoenmaten van de laatstejaarsscholieren van onze school. We plaatsen de resultaten linksboven in een rekenblad. (beschikbaar op diskette) Voorbeeld: schoenmaten 42 44 43 41 41 41 39 45 40 40 40 41 39 42 40 43 41 41 42 41 39 42 42 43 44 41 40 40 40 45 42 42 42 39 42 43 41 41 41 42 39 40 41 40 43 42 40 42 40 39 42 44 43 41 43 41 39 43 41 40 40 38 39 41 41 40 42 38 42 44 40 42 42 41 41 41 44 42 40 42 43 41 43 40 40 Voor de verwerking van de resultaten maken we gebruik van de mogelijkheden van het rekenblad. Kleinste schoenmaat : =min(invoerbereik) Grootste schoenmaat : =max(invoerbereik) Hieronder plaatsen we nu in een verticale kolom de verschillende schoenmaten. (verzamelbereik) Met de mogelijkheden van gegevensanalyse maken we nu de eerste kolommen van onze frequentietabel. (uitvoerbereik=de plaats waar we de tabel willen plaatsen) We bekomen volgend resultaat : Voorbeeld: schoenmaten 42 44 43 41 41 41 39 45 40 40 40 41 39 42 40 43 41 41 42 41 39 42 42 43 44 41 40 40 40 45 42 42 42 39 42 43 41 41 41 42 39 40 41 40 43 42 40 42 40 39 42 44 43 41 43 41 39 43 41 40 40 38 39 41 41 40 42 38 42 44 40 42 42 41 41 41 44 42 40 42 43 41 43 40 40 xi ni 38 39 40 41 2 8 18 21 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek Kleinste: Grootste: sta 18 38 45 42 43 44 45 Meer 38 39 40 41 42 43 44 45 xi : verzamelbereik 19 10 5 2 0 ni : frequentie We bekomen volgend eindresultaat : xi ni 38 39 40 41 42 43 44 45 2.4 fi cni 2 8 18 21 19 10 5 2 0,024 0,094 0,212 0,247 0,224 0,118 0,059 0,024 85 1 2 10 28 49 68 78 83 85 cfi 0,024 0,118 0,329 0,576 0,800 0,918 0,976 1,000 Variatiebreedte van een tabel variabelen (waarnemingsgetallen) De variatiebreedte R van een tabel variabelen of van een steekproef is het verschil tussen de grootste en de kleinste variabele. R = xn – x 1 Bij het vorige voorbeeld : 2.5 R = 45 – 38 = 7 Grafische voorstelling van een frequentietabel ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 19 We gebruiken het voorbeeld omtrent het aantal verkeersongevallen (pg. 15) Frequentietabel : xi ni fi cni cfi 0 1 2 3 4 4 7 5 3 1 0,20 0,35 0,25 0,15 0,05 4 11 16 19 20 0,20 0,55 0,80 0,95 1,00 Staafdiagram : Door een frequentietabel met absolute frequentie (ni) of relatieve frequentie (fi) wordt een functie f :xi ni of f : xi fi bepaald. De grafiek ervan bestaat uit de punten met coördinaten (xi,ni) of (xi,fi) en wordt een staafdiagram genoemd. Op de X-as wordt een loodlijnstuk getekend. 2.6 Gegroepeerde frequentietabellen Voorbeeld : We bepalen de lichaamslengte in cm van 100 jonge mensen die hogere studies willen aanvangen. (Uit het rekenblad halen we de gegevens) Voorbeeld: de lichaamslengte van 100 jonge mensen 192 158 179 169 178 169 180 168 162 168 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 20 175 174 172 188 170 182 167 161 166 185 157 181 186 157 190 165 158 174 165 166 163 164 176 155 189 171 173 181 172 194 172 167 159 170 169 168 174 176 160 161 185 175 170 152 184 156 162 161 170 182 191 155 164 168 159 181 166 171 177 160 167 195 156 182 173 170 182 183 175 165 173 178 167 178 174 171 163 169 167 171 161 162 178 187 178 155 184 168 167 179 Om bij de steekproeven met heel wat waarnemingen en beter zicht te krijgen op de resultaten ordent men niet per waarnemingsgetal. Het interval der waarnemingsgetallen wordt hiertoe verdeeld in klassen. Het probleem bij een klassentabel is : hoeveel klassen en welke indeling ! Gewoonlijk kiest men tussen 10 en 20 klassen. Het interval wordt dan verdeeld in gelijke deelintervallen. We krijgen een gegroepeerde frequentietabel door : De waarnemingsgetallen xi te groeperen in klassen zodanig dat elke xi tot één en precies één klasse behoort ; Voor elke klasse een getal als vertegenwoordiger te kiezen ; Het aantal waarnemingsgetallen in een klasse als frequentie toe te kennen aan de klassevertegenwoordiger. 2.6.1 Klassen Een klasse is een verzameling van waarnemingsgetallen die tot een half-open interval ]ai,bi] behoren. (het rekenblad bepaalt steeds het aantal elementen kleiner dan de opgegeven bovengrens) 2.6.2 Aantal klassen Het interval bepaald door de laagste en de hoogste waarnemingsgetallen verdelen we over 10 à 20 klassen. Het aantal is afhankelijk van het aantal waarnemingsgetallen. Het heeft immers geen zin te veel klassen met één waarnemingsgetal te hebben. 2.6.3 Variatiebreedte Het verschil tussen het hoogste en het laagste waarnemingsgetal. 2.6.4 Klassegrenzen ai en bi zijn de klassegrenzen. Om vergissingen uit te sluiten nemen we de eerste grens 0,5 ; 50 ; … kleiner dan het laagste waarnemingsgetal. De keuze is afhankelijk van de waarnemingsgetallen. Vb. : bij waarnemingsgetallen als 8, 11, 17, 13, … nemen we ai = 7,5 bij waarnemingsgetallen als 2700, 3700, … nemen we ai = 2650 De klassegrenzen worden bepaald na deling van de variatiebreedte door het aantal gewenste klassen. 2.6.5 Klassemidden Het klassemidden van een klasse is het rekenkundig gemiddelde van de klassegrenzen. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 21 (ai + bi)/2 2.6.6 Klassefrequentie De absolute frequentie van een klasse is het aantal waarnemingsgetallen die tot de klasse be-horen. 2.6.7 Klassebreedte De klassebreedte is het verschil tussen de boven- en ondergrens van de klasse. 2.7 Voorbeelden 2.7.1 Voorbeeld 1 : lichaamslengte Frequentietabel Klasse midden AF RF CAF CRF xi ni fi cni cfi 148-152 150 1 0,01 1 0,01 152-156 154 5 0,05 6 0,06 156-160 158 8 0,08 14 0,14 160-164 162 11 0,11 25 0,25 164-168 166 17 0,17 42 0,42 168-172 170 16 0,16 58 0,58 172-176 174 12 0,12 70 0,7 176-180 178 9 0,09 79 0,79 180-184 182 10 0,1 89 0,89 184-188 186 5 0,05 94 0,94 188-192 190 4 0,04 98 0,98 192-196 194 2 0,02 100 1 Meer 0 0 100 Langste: 195 Kortste: 152 Variatiebreedte: 43 Klassenbreedte 4 : We zien hier een veel voorkomend type gegroepeeerde frequentietabel verschijnen : het symmetrische type. Hierbij vinden we de dichtst bevolkte klassen in het midden van de tabel en zijn de klassefrequenties in het begin en op het einde heel wat lager. 2.7.2 Voorbeeld 2 : gezinsinkomen In een gemeente wordt voor een steekproef van honderd gezinnen het jaarlijks gezinsinkomen gegeven in veelvouden van 1000 BEF (en afgerond tot op een veelvoud van 1000 BEF) ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 22 Gezinsinkomen van 100 gezinnen 302 365 285 319 274 338 430 348 448 300 280 335 450 423 367 356 269 587 360 398 340 537 305 493 384 708 642 249 653 481 233 347 358 267 284 390 513 385 375 333 350 392 813 328 465 471 299 459 621 328 524 381 857 925 600 554 740 492 547 409 645 705 270 787 319 344 575 412 466 454 402 593 327 462 243 368 508 296 391 314 295 275 250 581 404 323 454 336 278 335 312 505 406 346 317 258 383 400 282 298 Met de computer bekomen we de eerste basisberekeningen : laagste inkomen: Hoogste inkomen: Variatiebreedte : Klassenbreedte : 290 350 410 470 530 590 650 710 770 830 890 950 Klassengrens 290 350 410 470 530 590 650 710 770 830 890 950 Meer 233 925 692 60 ni 15 27 20 11 8 6 5 3 1 2 1 1 0 Op basis van de variatiebreedte en met de wens een tiental klassen te nemen kiezen we voor een klassebreedte van 60. De bovengrenzen van de klassen plaatsen we in de kolom links. Met gegevensanalyse bekomen we de elementaire tabel die hierboven wordt afgebeeld. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 23 We werken die verder uit tot een frequentietabel. Klasse midden Ni fi cni ]230;290] 260 15 0,15 ]290;350] 320 27 0,27 ]350;410] 380 20 0,2 ]410;470] 440 11 0,11 ]470;530] 500 8 0,08 ]530;590] 560 6 0,06 ]590;650] 620 5 0,05 ]650;710] 680 3 0,03 ]710;770] 740 1 0,01 ]770;830] 800 2 0,02 ]830;890] 860 1 0,01 ]890;950] 920 1 0,01 100 1 cfi 15 42 62 73 81 87 92 95 96 98 99 100 0,15 0,42 0,62 0,73 0,81 0,87 0,92 0,95 0,96 0,98 0,99 1 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek 2.7.3 sta 24 Voorbeeld 3 We hernemen het voorbeeld omtrent de schoenmaten (2.3, pg. 17) Het diagram van de gecumuleerde relatieve frequentie ziet er uit als volgt : schoenmaten 1,200 1,000 CRF 0,800 0,600 schoenmaten 0,400 0,200 0,000 38 39 40 41 42 43 44 45 schoenmaat Wegens zijn specifieke vorm noemt men deze lijn het ogief (een term uit de bouwkunst). Gemiddelde schoenmaat : Om te weten of de leerlingen van het laatste jaar ‘op grote voet’ leven in vergelijking met de leerlingen van andere scholen, berekenen we het gemiddelde van de schoenmaten. Steunend op de frequentietabel pg. 17 komen we tot volgende tabel : Xi 38 39 40 41 42 43 44 45 ni f i cni cfi nixi 2 0,024 2 0,024 8 0,094 10 0,118 18 0,212 28 0,329 21 0,247 49 0,576 19 0,224 68 0,800 10 0,118 78 0,918 5 0,059 83 0,976 2 0,024 85 1,000 85 1 76 312 720 861 798 430 220 90 0 3507 3 507 x = ____ = 41,3 85 De gemiddelde schoenmaat is dus 41,3 Algemeen : ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 25 Heeft een variabele x als verschillende waarden x1, x2, …xp met absolute frequentie n1, n2, … n p dan is het gemiddelde van x gelijk aan : _ p x xn i i i 1 2.7.4 n Voorbeeld 4 Bij continue variabelen met een groot aantal verschillende waarden is een gewone frequentietabel onoverzichtelijk. In dat geval groeperen we de verschillende waarden in klassen bij elkaar. Een Brussels taxibedrijf heeft van 200 afgedankte wagens nagegaan hoeveel kilometers zij gepresteerd hebben voor hun afdanking. Uit de lijst van 200 getallen halen we de twee uiterste waarden: 76 342 km en 133 800 km. Het interval daartussen is 133 800 – 76 342 = 57 458 km breed. De keuze van 5 000 km als klassenbreedte biedt het meeste voordeel. We bekomen zo volgende tabel: Afstanden klassenmidde n (in 1 000 (in 1 000 km) km) ]75,80] 77,5 ]80,85] 82,5 ]85,90] 87,5 ]90,95] 92,5 ]95,100] 97,5 ]100,105] 102,5 ]105,110] 107,5 ]110,115] 112,5 ]115,120] 117,5 ]120,125] 122,5 ]125,130] 127,5 ]130,135] 132,5 het gemiddelde: AF ni nix i 4 6 18 28 36 50 32 14 5 3 2 2 200 310 495 1575 2590 3510 5125 3440 1575 587,5 367,5 255 265 20095 (20 095/200) = 11,475 Het betekent dat een taxi van het bedrijf gemiddeld 100 475 km aflegt vooraleer bedankt te worden voor bewezen diensten. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 26 Bemerk dat bij deze berekening de gegeven getallen vervangen zijn door het midden van de klasse waartoe ze behoren. Dit geeft enerzijds een fout, die echter meestal verwaarloosbaar is, maar anderzijds een sterke vereenvoudiging in de berekening. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 27 Hoofdstuk 3 : Grafische voorstelling van een gegroepeerde frequentietabel : histogram De grafische voorstelling van een frequentietabel met klasse-indeling is het histogram of zuilendiagram. Op de X-as worden de klassen voorgesteld door lijnstukken. De klassenfrequenties worden voorgesteld door zuilen (rechthoeken) waarvan de hoogten gelijk zijn aan de frequenties die op de Yas werden afgepast. Praktische regel : Kies op de X-as een lengte-eenheid als klasselengte en breng de beeldpunten van de klassegrenzen aan of het klassemidden onder betrokken klas ; Op de Y-as brengen we de klassefrequentie aan ; De verzameling van deze rechthoeken, alle geconstrueerd aan dezelfde kant van de X-as, is het histogram van de gegeven tabel. Met het rekenblad : Selecteer de gegevens die in beeld moeten gebracht worden, vb. AF ; Druk op de knop Wizard grafieken in de werkbalk ; Kies het grafiektype (we nemen kolom) ; Met volgende krijg je een voorstel van grafiek ; Met de keuze reeks kan in het vak ‘labels categories’ ingevuld worden wat we als vermelding bij de X-as willen. We kiezen de klassemiddens. Met volgende krijgen we de kans namen te geven ; Nu moeten we kiezen waar we de grafiek gaan plaatsen ; Als de grafiek er staat kunnen we een en ander aanpassen : de grootte, door te klikken op een staaf kunnen we de kleur aanpassen of met opties de afstand tussen de kolommen aanpassen. Wiskundig kizen we voor een kolomafstand gelijk aan 0. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek 3.1 Voorbeelden 3.1.1 Voorbeeld 1 sta 28 Het voorbeeld van de lichaamslengte lichaamslengte 18 16 aantal leerlingen 14 12 10 lichaamslengte 8 6 4 2 19 0 18 2 17 4 16 6 15 8 15 0 0 lengte Ook een cirkeldiagram behoort tot de mogelijkheden : lichaamslengte 150 154 158 162 166 170 174 178 182 186 190 194 3.1.2 Voorbeeld 2 (het jaarlijks gezinsinkomen) ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 29 gezinsinkomen 30 25 aantal gezinnen 20 gezinsinkomen 15 10 5 0 260 320 380 440 500 560 620 680 740 800 860 920 gezinsinkomen 3.2 Eenvoudige frequentiepolygoon Een andere grafische voorstelling van een gegroepeerde frequentietabel kunnen we uit het histogram van de tabel afleiden. We werken als volgt : Op de bovenste zijde van de rechthoek nemen we het midden van deze zijde ; Links van de ondergrens van de laagste klasse nemen we een punt waarvan de afstand tot de ondergrens gelijk is aan de halve breedte van de klasse ; Rechts van de bovengrens van de hoogste klasse nemen we een punt op de X-as waarvan de afstand tot de bovengrens gelijk is aan de halve breedte van deze klasse. De gebroken lijn die we krijgen door de opeenvolgende punten met lijnstukken te verbinden, noemen we de (enkelvoudige) frequentiepolygoon van de gegroepeerde frequentietabel. (1) Lichaamslengte (2) Gezinsinkomen ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 30 18 16 lichaamslengte 14 aantal 12 10 8 6 4 2 0 150 154 158 162 166 170 174 178 182 186 190 194 le ngte gezinsinkomen 30 25 gezinsinkomen aantal gezinnen 20 15 10 5 0 260 320 380 440 500 560 620 680 740 800 860 920 inkomen Er is een duidelijk verschil tussen beide grafieken. De spreiding en centrummaten zullen die verschillen concreter beschrijven. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 31 Nemen we op de Y-as de gecumuleerde frequentie, dan krijgen we na het verbinden van de opeenvolgende punten met lijnstukken, de cumulatieve frequentiepolygoon. lichaamslengte, gecumuleerd relatief 1,2 procentueel 1 0,8 0,6 Reeks1 0,4 0,2 0 150 154 158 162 166 170 174 178 182 186 190 194 lichaamslengte gezinsinkomen, cumulatieve frequentiepolygoon 1,2 1 cfi 0,8 gezinsinkomen, cumulatieve frequentiepolygoon 0,6 0,4 0,2 920 860 800 740 680 620 560 500 440 380 320 260 0 klassemiddens ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 32 Oefeningen 3 3.1 Gegeven zijn een aantal statistische steekproeven. Gevraagd : De frequentietabel Het histogram (ook wel eens het ogief en de frequentiepolygoon) Bereken het gemiddelde 3.1.1 Van 60 leerlingen wordt het IQ gemeten : 119 109 113 123 116 114 124 115 128 114 122 115 127 103 118 96 112 129 102 126 119 106 104 113 116 114 120 123 125 124 110 122 109 118 122 108 120 130 104 137 107 127 105 117 111 99 117 107 134 100 98 114 113 119 113 121 135 138 108 101 3.1.2 79 90 65 80 71 82 65 78 In een verzekeringsmaatschappij wordt de leeftijd bij overlijden van 80 mannelijke verzekerden opgetekend. 64 84 76 70 30 76 89 72 68 74 66 86 77 64 73 45 85 83 37 61 55 75 92 60 50 71 58 40 78 81 57 77 80 43 94 56 49 87 55 66 57 89 77 60 72 70 76 63 74 48 68 88 58 60 68 85 82 60 78 68 69 87 62 79 70 52 75 92 73 72 81 75 3.1.3 Gemiddeld gewicht van 35 leerlingen 69 64 72 66 78 73 60 70 70 73 70 68 75 83 84 3.1.4 65 52 67 73 65 84 74 57 75 65 75 66 58 78 60 73 72 60 75 74 Van 100 klanten van een café werd nagegaan hoe lang ze bleven zitten (in minuten uitgedrukt) 29 37 63 82 45 67 45 37 28 27 34 26 19 35 54 39 41 31 44 46 23 55 38 40 62 66 27 68 41 29 24 96 22 34 51 37 22 35 15 31 45 43 31 31 56 58 73 58 34 43 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek 35 49 16 70 35 23 34 52 63 51 28 53 35 72 48 45 61 46 35 35 48 82 40 62 56 sta 33 47 45 41 28 39 41 26 56 38 54 34 35 37 61 30 47 67 51 33 92 30 73 33 49 59 Hoeveel cafébezoekers beneden het gemiddelde ? Hoeveel bezoekers minstens één uur ? Hoeveel bezoekers tussen ¾ en 1 uur ? 3.1.5 We meten de hoeveelheid bier in 50 automatisch gevulde flesjes (in centiliter). 34,8 32,7 35,4 39 34,3 36,3 37,3 33,4 36,1 35,7 34 34,9 36,5 36,2 33,9 35,2 35,6 37,5 32,8 35,5 38,5 35,1 38 36,4 34,6 33,3 37 36,4 35 36,9 33 34,6 37,8 36,2 34,7 36,6 34,2 33,7 37,6 36,9 32,1 35 36,8 37,7 34,8 36 36,6 35,8 35,7 33,7 3.1.6 In verband met fiscale problemen tekent men in een stad het belastbaar jaarinkomen op van 48 personen waarvan dit inkomen hoger ligt dan één miljoen BEF (er worden veelvouden van 105 gebruikt) 12,7 11,2 19,4 12,1 10,3 17,6 22,3 24,2 25,7 14,9 12,3 10,8 15,1 37,9 20,1 11,6 27,8 11,8 26 13,1 15,6 31,6 16,8 13,8 44,6 65,6 21,5 47,8 58,2 22,9 17,1 11,4 14,2 23 40 12,4 10,5 51,3 17,8 75 29,2 14,4 12,3 18,5 80,1 32,8 14 35 3.1.7 In een grote firma vinden we voor de nettomaandwedde van 120 personeelsleden (in veelvouden van 1 000 BEF) de volgende gegevens : 47 41 74 68 60 80 82 55 48 35 39 64 61 49 75 70 62 51 72 118 95 35 59 69 65 51 36 54 80 85 60 52 88 85 85 92 52 62 82 42 60 65 34 72 40 102 99 56 51 66 87 59 37 77 128 81 67 40 100 71 58 82 103 141 62 76 45 88 41 86 56 98 61 107 38 47 57 111 75 59 97 71 65 71 98 49 39 63 79 120 58 76 40 52 148 78 62 62 53 93 67 68 152 35 66 83 70 42 61 53 40 90 46 75 121 62 132 60 65 73 3.2.1 Wie is de schuldige ? Na een huwelijksfeest zijn veel aanwezigen ziek geworden. Er zijn twee mogelijke schuldigen : de visschotel of de slagroom op het nagerecht. Om klaarheid te brengen gaat men van de 30 aanwezigen na of ze ziek (Z) zijn, of ze al dan niet vis (V) of slagroom (S) gegeten hebben. (0=neen, 1=ja) Aanw. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek Z V S 1 1 0 1 1 0 1 0 1 0 1 0 1 0 0 0 1 1 0 1 1 1 1 1 0 1 1 1 1 0 1 0 1 0 1 1 sta 34 0 0 1 1 1 1 0 1 1 1 1 0 1 0 1 0 1 0 0 1 1 1 0 1 0 1 0 0 1 1 1 0 1 1 0 1 1 0 1 1 0 1 0 1 0 1 1 1 1 0 0 1 0 1 Zoek de schuldige op. 3.2.2 Misdadigheid in steden Van een aantal steden en gemeenten in de Verenigde Staten heeft men de midadadigheid nagegaan om een verband te bepalen tussen het aantal misdaden en de grootte van de stad. Het onderzoek werd uitgevoerd in 7 categorieën van gemeenten gaande van 2 000 tot 750 000 inwoners (zie tabel) Dank zij een nauwkeurige grafiek kan men echter ook conclusies trekken zowel voor tussenliggende categorieën (dit noemt men interpoleren) als voor grotere steden (extrapoleren) Teken een frequentiepolygoon Lees op de figuur af hoeveel misdaden per 1 000 inwoners men mag verwachten in steden van 100 000, 500 000 en 1 miljoen inwoners . Gemiddeld aantal inwoners 2 000 4 500 16 000 35 000 70 000 145 000 750 000 Aantal misdaden per 1 000 inwoners 15 33 38 44 49 62 65 3.2.3 Ruwe olie en pictogra mmen Naast de reeds geziene grafische voorstellingen maakt men in de statistiek ook soms gebruik van pictogrammen. Hierin worden figuurtjes gebruikt die te maken hebben met het behandelde onderwerp. Grotere figuren wijzen op grotere aantallen. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 35 Hoofdstuk 4 : centrummaten 4.1 Inleiding Met frequentietabellen en met grafische voorstellingen weten we al heel wat, de informatie kan evenwel nog aangevuld worden door enkele getallen die typisch zijn voor de waarnemingen. Deze getallen noemen we statistische kentallen. Voorbeeld : In een zesde jaar ASO stelt men heel wat gevallen van klierkoorts vast . Een jonge arts die heel wat van die leerlingen behandelt wil het effect van een nieuw geneesmiddel nagaan. Hij tekent hierom de hersteltijd van 20 patiënten op. Een eerste groep van 10 patiënten is op de gebruikelijke manier behandeld, een tweede groep van 10 heeft een grondig gewijzigde behandeling met nieuwe geneesmiddelen ondergaan. We vinden : Voor groep 1 : 31 28 37 34 32 29 30 36 33 35 Voor groep 2 : 27 28 32 38 31 24 26 25 34 25 (32,5) (29) We stellen de resultaten voor op een getallenas : 20 1 2 3 4 5 6 7 8 9 30 1 2 3 4 5 6 7 8 9 40 ° ° °°° °° °°° ° °°° ° °° ° ° 1 2 We merken op : * In groep 1 zijn de waarnemingsgetallen in het algemeen verder naar rechts gelegen, ze zijn verder naar rechts gecentraliseerd. * In groep 2 zijn de waarnemingsgetallen veel sterker gespreid, hun variabiliteit is groter. We zullen hierom statistische kentallen behandelen : voor de ligging van de waarnemingsgetallen , kenmerkend voor hun centrale waarde ; voor de spreiding van de waarnemingsgetallen, kenmerkend voor hun variabiliteit. 4.2 Het rekenkundig gemiddelde _ p x xn i i i 1 n ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 36 Opmerkingen : 4.2.1 In de gevallen waar de waarnemingsgetallen xi maatgetallen zijn van lengte, massa, … en dus gevolgd worden door een eenheid (cm, g, …) zal ook het rekenkundig gemiddelde gevolgd worden door dezelfde eenheid. 4.2.2 Bij het berekenen van het gemiddelde wordt het resultaat meestal met één cijfer meer dan de waarnemingsgetallen geschreven. 4.2.3 Voor- en nadelen van het rekenkundig gemiddelde Bij de berekening van het rekenkundig gemiddelde is elk waarnemingsgetal afzonderlijk betrokken. Daarom is het gemiddelde inderdaad een getal dat typisch is voor de steekproef en dat alle waarnemingsgetallen vertegenwoordigt. Hiertoegenover staat dat het gemiddelde precies daarom ernstig beïnvloed wordt door onverwacht grote of door onverwacht kleine waarnemingsgetallen. Deze uitschieters zijn misschien resultaten van verkeerde metingen, maar ze leveren niettemin hun bijdragen in de berekeningen. Als in de frequentietabel en in de enkelvoudige frequentiepolygoon symmetrie aanwezig is, dan is het gemiddelde vrij centraal gelegen en dan ligt het gemiddelde ook dicht bij een groot aantal waarnemingsgetallen en zal het de waarnemingsgetallen goed vertegenwoordigen. Maar als er geen symmetrie aanwezig is, dan kan het gemiddelde vrij ver verwijderd zijn van vele waarnemingsgetallen. Ondanks de voorkeur die men in de wiskundige statistiek aan het gemiddelde geeft, moeten we dus nog andere kentallen voor de ligging van de waarnemingsgetallen onderzoeken. 4.3 De mediaan (me) De mediaan van een gerangschikte tabel waarnemingsgetallen is : Het middelste waarnemingsgetal als het aantal oneven is ; De halve som van de twee middelste waarnemingsgetallen als n even is We hernemen het schoenmaatprobleem. De gemiddelde schoenmaat bedraagt 41,3. schoenmaten 25,00 aantal 20,00 15,00 Reeks1 10,00 5,00 4 4 2 4 0 4 3 8 0,00 mate n _ _ x x = 41,3 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 37 We zien in het diagram dat het gemiddelde centraal gelegen is. Als het schoenmaatgemiddelde van een andere klas 40,5 bedraagt, dan kunnen we daaruit afleiden dat die leerlingen ‘doorgaans’ een kleinere maat hebben (alhoewel er individuele uitschieters kunnen zijn !). Voor de 85 schoenmaten is het 43-ste getal de mediaan. Uit de frequentietabel kunnen we afleiden dat het maat 41 is. xi 38 39 40 41 42 43 44 45 ni 2 8 18 21 19 10 5 2 In een gegroepeerde frequentietabel : Het is in een dergelijke tabel onmogelijk individuele waarnemin gsgetallen terug te vinden. We kunnen wel de klassen vinden waarin de middelste waarnemingsgetallen thuishoren en we zullen deze waarnemingsgetallen door de betreffende klassemiddens. Op deze wijze krijgen we een benaderde waarde voor de mediaan. We hernemen het voorbeeld van het jaarlijks gezinsinkomen (voorbeeld 2 pg. 22), de waarnemingsgetallen met rangnummer 50 en 51 behoren beide tot de klasse met midden 380. We stellen daarom : Me = 380 4.4 De modus (Mo) De modus van een variabele x is het gegeven met de grootste absolute frequentie, m.a.w. het getal dat het meest voorkomt onder de gegevens . Bij het schoenmaatprobleem is de maat die het meest voorkomt 41. Mo = 41 Aantal modi : Heeft een frequentietabel twee x-waarden die de grootste frequentie hebben, dan zijn er twee modi en noemt men de verdeling bimodaal. 4.5 Welke centrummaat is de beste? De modus wordt weinig gebruikt omdat bij vele frequentieverdelingen de modus niet centraal ligt en bij andere niet bestaat (als alle gegevens verschillend zijn of als er meer dan twee xwaarden zijn met maximale frequentie) of niet enig is. Kiezen tussen mediaan of gemiddelde, ligt een stuk moeilijker. We vergelijken enkele speciale gevallen : Voorbeeld 1 : Een wielerploeg heeft 1 kopman en 8 ‘knechten’ in dienst. De knechten verdienen 800 000 BEF per jaar. De kopman krijgt 5 300 000 BEF. Het gemiddelde jaarloon bedraagt 1 300 000 BEF. Het gemiddelde ligt allesbehalve centraal. In dit geval is de mediaan (800 000 BEF) meer aangewezen. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 38 Voorbeeld 2 : De 10 deelnemers aan een kwiswedstrijd halen volgende scores (op 50 punten) : 23, 24, 25, 26, 27, 27, 35, 41, 45, 47. _.__.__.__.__.__________________.________________.______.___.__________________ 23 24 25 26 27 35 41 45 47 Het gemiddelde is 32 en de mediaan 27. Hier ligt de mediaan weinig centraal door een opeenvolging van lage waarden tot net voorbij de middelste getallen. De keuze tussen gemiddelde en mediaan hant, vooral bij kleine aantallen gegevens, af van de omstandigheden. Voor grote n-waarden liggen ze meestal dicht bij elkaar. Bij symmetrische verdelingen vallen ze zelfs samen. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 39 Oefeningen 4 4.1 Uurlonen In een fabriek verdienen 61 arbeiders 240 BEF per uur, 40 arbeiders verdienen 300 BEF per uur en 19 arbeiders verdienen 320 BEF per uur. Bereken het gemiddeld uurloon, de mediaan en het modale loon. Welke waarde is volgens jou meest geschikt als centrale waarde ? 4.2 Toetsresultaten De resultaten van een toets over statistiek in een klas zijn ondergebracht in volgende tabel. Bereken de drie centrummaten. Welke zou je verkiezen ? Resultaat Frequentie 4 2 5 3 6 8 7 5 8 4 9 1 4.3 Zakgeldprobleem Aan 30 leerlingen werd gevraagd hoeveel zakgeld ze per week krijgen. De antwoorden zijn samengevat in een tabel. 4.3.1 Bereken het gemiddelde, de mediaan en de modus. 4.3.2 Tijdens de vasten beslissen de leerlingen elk 30 BEF van hun zakgeld af te staan aan de actie Broederlijk Delen. Hoe groot zijn gemiddelde, mediaan en modus nu ? 4.3.3 Een van de leerlingen vindt het onbillijk dat iemand met weinig zakgeld evenveel betaalt als iemand met veel zakgeld. Hij stelt voor dat iedereen voortaan een bepaald percentage van zijn zakgeld geeft in plaats van 30 BEF. Welk percentage moeten de leerlingen geven om ervoor te zorgen dat Broederlijk Delen evenveel krijgt bij deze nieuwe regeling ? 4.3.4 Bereken na aftrek van dit percentage opnieuw het gemiddelde, de mediaan en de modus. 4.3.5 Hoeveel leerlingen moeten bij de nieuwe regeling minder betalen ? En hoeveel meer ? zakgeld aantal lln 80 90 100 110 120 130 140 150 160 170 2 1 1 3 4 8 2 1 0 1 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek 180 190 200 210 220 230 4.4 sta 40 3 0 1 1 0 2 Luciferdoosjes Een fabrikant levert lucifers in doosjes van 50. Deze doosjes zijn machinaal verpakt en zullen wel niet allemaal precies 50 lucifers bevatten. Een controle bij 100 doosjes leverde de volgende getallen op. 50 50 48 51 51 49 50 50 51 50 4.4.1 4.4.2 4.4.3 4.4.4 4.4.5 48 49 50 51 48 49 50 50 51 50 49 53 50 49 49 50 49 49 49 49 50 52 50 48 48 49 49 51 49 49 50 49 52 50 52 49 48 51 48 49 49 52 49 50 52 52 52 48 49 48 52 50 48 50 51 50 51 49 49 52 51 49 50 49 50 48 51 52 50 52 51 51 50 52 50 47 48 52 49 51 47 48 51 52 52 50 50 48 52 50 Maak een tabel, Bereken de mediaan en de modus, Zitten er gemiddeld te veel of te weinig lucifers in deze 100 doosjes, Hoeveel procent van de doosjes bevat precies 50 lucifers, In hoeveel doosjes wijkt het aantal lujcifers meer dan 5% af van 50 ? 4.5 Gemiddelde leeftijd De gemiddelde leeftijd van 5 personen in een kamer is 30 jaar. Een persoon van 36 jaar komt binnen. Wat is nu de gemiddelde leeftijd ? 4.6 Een gemiddeldenraadsel Op een zelfde toets halen de 20 leerlingen van de A-klas een gemiddelde van 7 en de 25 leerlingen van de B-klas een gemiddelde van 6. 4.6.1 Is het totale gemiddelde van de 2 klassen samen gelijk aan 6,5 of minder of meer ? 4.6.2 Hoeveel bedraagt het precies ? 4.7 Blunders De volgende tekst bevat 3 statistische blunders. Beschrijf ze kort. « Aan 9 000 oudleerlingen van onze school hebben we een brief gestuurd om te informeren naar de wenselijkheid om de echtgenoten eveneens uit te nodigen op de jaarlijkse oudleerlingendag. Tevens werd gevraagd een bijdrage te storten voor de bouw van een ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 41 nieuwe turnzaal. Van de 800 antwoorden, die wij ontvingen, waren 65% voor het uitnodigen en de echtgenoten. Samen met de 25% van het onderwijzend personeel vormen zij een meerderheid van 90% van alle oudleerlingen en personeelsleden die voor de uitbreiding van onze jaarlijkse oudleerlingendag zijn. Voor de turnzaal waren de antwoorders wel er gul : gemiddeld 1 500 BEF. Daarbij was een bijzonder mooie gift van 1 000 000 BEF vanwege notaris De Ghendt. » 4.8 Hieronder staan een aantal histogrammen. Wij welke zullen gemiddelde en mediaan samenvallen ? Bij welke zal het gemiddelde groter zijn ? En waar kleiner ? ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 42 Hoofdstuk 5 : spreidingsgetallen 5.1 De variatiebreedte De spreiding van de waarnemingsgetallen kan je zeer eenvoudig meten door het verschil te bepalen tussen het grootste en het kleinste waarnemingsgetal. R = xn – x1 5.2 De interkwartielafstand Om de spreidingsmaat niet uitsluitend te laten afhangen van het kleinste en het grootste waarnemingsgetal, zoals bij de variatiebreedte, kan je het eerste en het derde kwartiel als vergelijkingspunten nemen. Deze kwartielen bepalen een interval [q1 ,q3] dat ongeveer 50% van de middelste waarnemingsgetallen bevat. x1 q1 25% q3 50% xn 25% Het verschil tussen het derde en het eerste kwartiel noemt men de interkwartielafstand. Q = q3 – q1 Voorbeeld : Door de ziekteverzekering wordt de leeftijd van 600 moeders bij de geboorte van hun eerste kind opgetekend. We verkrijgen volgende frequentietabel : klasse xi ni fi cni cfi ]15,18] 16,5 17 0,028 17 0,028 ]18,21] 19,5 85 0,142 102 0,170 ]21,24] 22,5 126 0,210 228 0,380 ]24,27] 25,5 161 0,268 389 0,648 ]27,30] 28,5 91 0,152 480 0,800 ]30,33] 31,5 64 0,107 544 0,907 ]33,36] 34,5 31 0,052 575 0,958 ]36,39] 37,5 19 0,032 594 0,990 ]39,42] 40,5 6 0,010 600 1,000 600 1,000 De kwartielen met de frequentietabel (CAF of CRF) : CAF 150 300 450 CRF 0,25 0,50 0,75 kwartiel 1 = 22,5 kwartiel 2 = 25,5 kwartiel 3 = 28,5 de interkwartielafstand : 28,5 – 22,5 = 6 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 43 De interkwartielafstand kan je ook bij benadering aflezen van het ogief. De kwartielen met Excel : Kies formules/statistiek/kwartielen In het menu wordt de matrix gevraagd : gegevensbereik selecteren Kwartiel : tik 1 voor kwartiel 1, 2 voor kwartiel 2, 3 voor kwartiel 3 Als voorbeeld de lichaamslengte : De resultaten : Berekende waarden: gemiddelde = mediaan: modus: kwartiel 1: kwartiel 3: Interkwartielafstand: 171,0 171,0 171,0 164,8 178,0 13,3 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 44 Opgelet : Het heeft alleen maar zin om de interkwartielafstand te bepalen, als de kwartielen berekend zijn, m.a.w. als het aantal elementen van de steekproef groot genoeg is. Als de interkwartielafstand klein is, dan betekent dit dat de waarnemingsgetallen goed bij de mediaan aansluiten. 5.3 De boxplot De boxplot is een grafische voorstelling van de vijf kenmerkende getallen van een statistische verdeling : de twee uiterste waarden, kwartiel 1, kwartiel 3 en de mediaan. Hiermee kunnen meerdere statistische verdelingen vergeleken worden. We nemen het voorbeeld van de 600 moeders : 16 : laagste score 40 : hoogste score 5.4 22,5 : kwartiel 1 28,5 : kwartiel 3 25,5 : mediaan De variantie Het rekenkundig gemiddelde van de kwadraten van de afwijkingen van de waarnemingsgetallen ten opzichte van hun rekenkundig gemiddelde, noemt men de variantie. s 2 (x i _ x )² n Door het kwadrateren van de afwijkingen, zal de variantie uitgedrukt worden in een andere eenheid dan bij de waarnemingsgetallen. Hebben de waarnemingsgetallen betrekking op lengten, uitgedrukt in m, dan heeft de variantie m² als eenheid. 5.5 De standaardafwijking De positieve vierkantswortel uit de variantie noemen we de standaardafwijking. Dit is de meest gebruikte spreidingsmaat. ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 45 _ s = ( xi x)² n Correctie van Gauss De vorige formule voor s² geeft ons exact de gemiddelde kwadratische afwijking voor de n waarnemingsgetallen xi. In gevallen waar deze n getallen de volledige populatie vormen, moeten we deze formule dan ook behouden. Maar in zeer veel gevallen gaat het om een steekproef, getrokken uit een veel grotere populatie. We trachten dan de steekproefvariantie te gebruiken om de variabiliteit van de volledige populatie te typeren. In de wiskundige statistiek toont men aan dat deze typering beter is als we de factor n in de noemer vervangen door (n-1). Het vervangen van n door (n-1) in de noemer noemen we de correctie van Gauss. De formule wordt : s (x i _ x )² (n 1) Om vlot met deze formule vanuit het rekenblad te kunnen rekenen werken we ze om tot : k s k 1 *( ni xi ² (n 1) 1 ( ni xi )² 1 n ) Frequentietabel: klasse midden AF RF CAF CRF xi ni fi cni cfi nixi 148-152 150 1 0,01 1 0,01 152-156 154 5 0,05 6 0,06 156-160 158 8 0,08 14 0,14 160-164 162 11 0,11 25 0,25 164-168 166 17 0,17 42 0,42 168-172 170 16 0,16 58 0,58 172-176 174 12 0,12 70 0,7 176-180 178 9 0,09 79 0,79 180-184 182 10 0,1 89 0,89 184-188 186 5 0,05 94 0,94 188-192 190 4 0,04 98 0,98 192-196 194 2 0,02 100 1 Meer 0 0 10 0 nixi2 150 770 1264 1782 2822 2720 2088 1602 1820 930 760 388 22500 118580 199712 288684 468452 462400 363312 285156 331240 172980 144400 75272 17096 2932688 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 46 Dat geeft dan volgend resultaat : Standaardafwijking: 9,8653 De formules statistiek laat toe de formule voor rechtstreekse berekening in te voeren. Variatiecoëfficiënt 5.6 De variatiecoëfficiënt van een variabele x is het getal : Vx sx _ x De variatiecoëfficiënt laat ons toe de spreiding te vergelijken van variabelen met een verschillend gemiddelde (vb. toetsresultaten in twee verschillende klassen), maar ook van variabelen die in verschillende eenheden worden uitgedrukt (vb. de lengte en het gewicht van een zelfde reeks personen). De ervaring wijst uit dat : V < 5% een zeer kleine spreiding, 5% < V < 10% een kleine spreiding, V > 50% een zeer grote spreiding betekent. Voorbeeld : De resultaten van de proefwerken wiskunde en Nederlands van een klas worden vergeleken : Wiskunde : het gemiddelde is 60 op 90, de standaardafwijking bedraagt 11,7 Nederlands : het gemiddelde is 95 op 150, de standaardafwijking bedraagt 13,3 We berekenen de spreidingsmaat : wiskunde 11,7 0,195 60 Nederlands 13,3 0,14 95 Voor wiskunde is de spreiding groter (19,5%) dan voor Nederlands (14%). 5.7 De Z-score Als van een variabele het gemiddelde en de standaardafwijking bekend zijn, kan voor elke variabele de z-score berekend worden. _ x x zi i sx ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 47 De z-score vergelijkt de afwijking van een variabele tegenover het gemiddelde met de standaardafwijking. Standaardcodes worden vaak gebruikt in de psychologie en in onderwijssituaties. Deze scores van waarnemingsgetallen uit verschillende steekproeven zijn onderling beter vergelijkbaar dan de waarnemingsgetallen zelf. Voorbeeld 1 : Vijf examenresultaten, waarvan gemiddelde en standaardafwijking bekend zijn, worden met elkaar vergeleken. Vak Wiskunde Nederlands Geschiedenis Aardrijkskunde Frans Resultaat 76 112 32 49 62 Gemiddelde St.afwijking 60 11,7 95 13,3 38 7,2 40 6,8 53 7,6 z-score 1,37 1,28 -0,83 1,32 1,18 Enkel voor geschiedenis zit de leerling benden het klasgemiddelde, maar nog geen volledige standaardafwijking. Wiskunde is het sterkste vak. Voorbeeld 2 : Het gemiddelde van de maximumtemperaturen op 1 juli tijdens de laatste dertig jaren bedraagt 22,3°C. Wat is de z-score van de temperatuur 19,6°C die verleden jaar werd opgetekend ? 19,6 22,3 1,08 ; of het is gevoelig frisser voor de tijd van het jaar. 2,5 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 48 Oefeningen 5 5.1 In de tabel staat het aantal wedstrijden ni waarin een voetbalploeg xi goals aantekent. Bereken het gemiddeld aantal doelpunten per wedstrijd aangetekend. xi ni 0 1 2 3 4 5 6 5.2 10 17 16 11 3 2 1 De volgende tabel geeft het lichaamsgewicht van 18 atleten, allen 1,75 m lang. Bepaal het gemiddeld lichaamsgewicht. Lichaamsgewicht Aantal 63,4 1 65,8 1 69,7 2 69,8 3 69,9 4 70,0 2 70,2 3 72,1 1 83,7 1 5.3 Koffiebranderij Een koffiebranderij verkoopt koffie in verpakkingen van 500 gram. Omdat heel wat klanten klachten hebben over het gewicht, vreest men dat de automatische vulmachine in gebreke blijft. Men voert daarom een steekproef uit en bepaalt van 100 pakjes koffie het gewicht in gram. 5.3.1 Bepaal het rekenkundig gemiddelde. 5.3.2 Teken de boxplot. klasse ni ]472,5;477,5] ]477,5;482,5] ]482,5;487,5] ]487,5;492,5] ]492,5;497,5] ]497,5;502,5] ]502,5;507,5] ]507,5;512,5] ]512,5;517,5] ]517,5;522,5] 6 10 13 18 17 14 8 6 4 4 ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek sta 49 5.4 Loonsverhoging 5.4.1 Als alle werknemers van een bedrijf een loonsverhoging van 3% zouden krijgen, wat gebeurt er dan met het gemiddelde loon en met de standaardafwijking ? 5.4.2 Als alle werknemers een verhoging van 1 000 BEF per maand zouden krijgen, wat gebeurt er dan met het gemiddelde en met de standaardafwijking ? 5.4.3 Als jouw loon boven het gemiddelde lag, had je dan liever een verhoging in centen of in procen ten ? En als je loon onder het gemiddelde lag ? 5.5 Gloeilampen De gegroepeerde frequentietabel geeft de levensduur van 80 gloeilampen in uren. De lampen werden alle onderzocht in dezelfde omstandigheden. 5.5.1 Bereken gemiddelde, standaardafwijking en kwartielen 5.5.2 Teken de boxplot 5.5.3 Hoeveel lampen halen het gemiddelde niet? 5.5.4 Hoeveel lampen halen meer dan 20% boven het gemiddelde? 5.5.4 Wat is de z-score van een lamp met levensduur van 1 050 uur? klasse ]775,825] ]825,875] ]875,925] ]925,975] ]975,1025] ]1025,1075] ]1075,1125] ]1125,1175] ]1175,1225] ni 5 7 8 12 14 12 8 8 6 5.6 Vorig schooljaar haalde Greet 70% voor wiskunde, waar het klasgemiddelde 58% bedroeg met standaardafwijking 6%. In het eerste semester van dit schooljaar haalde ze 24 op 30 voor wiskunde, terwijl het klasgemiddelde 18 bedraagt en de standaardafwijking 4. Welke was de beste uitslag ? 5.7 Ziekteonderzoek Onderzoekingen over een bepaalde ziekte doen vermoeden dat de patiënten een grotere Hoeveelheid van een chemische stof in hun urine hebben dan gezonde mensen. De eerste tabel geeft de hoeveelheid xi in mg/10cc en het aantal ni van dergelijke gevallen voor een groep van 50 patiënten. De tweede tabel bevat analoge gegevens voor een controlegroep van 56 gezonde mensen. 5.7.1 Bepaal voor de twee gevallen het gemiddelde, de standaardafwijking en de kwartielen 5.7.2 Teken voor beide gevallen de boxplot 5.7.3 Vergelijk beide gevallen ___________________________________________________________________________ Herman Rabaey Beschrijvende statistiek Patiënten: xi ni 11 12 13 14 15 16 17 18 sta 50 2 3 7 12 13 8 4 1 gezonde mensen: xi ni 5 1 6 3 7 6 8 7 9 9 10 9 11 8 12 6 13 4 14 3 ___________________________________________________________________________ Herman Rabaey