Overzicht statistiek 5N4p EEB2 ©GGHM2012 Inhoud 1 Frequenties, absoluut en relatief ................................................. 3 1.1 Frequentietabel............................................................................ 3 1.2 Absolute en relatieve frequentie ................................................. 3 1.3 Cumulatieve frequentie ............................................................... 4 2 Centrum en spreiding .................................................................. 5 2.1 Het (rekenkundig) gemiddelde ................................................... 5 2.2 Mediaan ...................................................................................... 6 2.3 Modus ......................................................................................... 7 2.4 Variatiebreedte of spreidingsbreedte .......................................... 7 2.5 Kwartielafstand ........................................................................... 8 2.6 Standaarddeviatie of standaardafwijking .................................... 9 3 Grafische voorstellingen ............................................................. 10 3.1 Histogram en staafdiagram ......................................................... 10 3.2 Cirkeldiagram ............................................................................. 11 3.3 Boxplot........................................................................................ 11 3.4 Steelbladdiagram ........................................................................ 12 4 Opgaven ...................................................................................... 13 2 1 Frequenties, absoluut, relatief en cumulatief 1.1 Frequentie-tabel Voorbeeld Hieronder zie de resultaten van een proefwerk wiskunde: 9, 7, 5, 6, 8, 3, 8, 7, 5, 6, 5, 6, 4, 9, 4, 7, 6, 6, 7, 8, 5, 2, 6, 7 en 6 Om een goed overzicht te krijgen over de resultaten kan je de gegevens in een frequentie-tabel zetten. Dat wordt dan een lijstje met per cijfer het aantal keren dat het cijfer voorkomt, de frequentie. resultaat 2 frequentie 1 3 1 4 2 5 4 6 7 7 5 8 3 9 2 Vervolgens kan je deze gegevens in een staaf- of lijngrafiek weergeven, zodat je nog een beter 'beeld' krijgt van de verdeling: 1.2 Absolute en relatieve frequentie In het voorbeeld hierboven hebben de absolute frequenties gebruikt. Dat wil zeggen de 'echte' aantallen zoals deze in de populatie of steekproef voorkomen. Soms zijn we meer geïnteresseerd in de aantallen in vergelijking met het totaal aantal. We spreken dan van relatieve frequenties. Meestal zijn dit procenten... resultaat absolute frequentie relatieve frequentie 2 3 4 5 6 7 8 9 1 1 2 4 7 5 3 2 4% 4% 8% 16% 28% 20% 12% 8% 3 1.3 Cumulatieve frequentie Soms zijn we geïnteresseerd in de som van de frequenties, de zgn. cumulatieve frequenties. De betekenis van deze cumulatieve frequentie is het aantal waarnemingen 'dat je tot dan toe hebt gehad'. absoluut: resultaat absolute frequentie cumulatieve frequentie 2 3 4 5 6 7 8 9 1 1 2 4 7 5 3 2 1 2 4 8 15 20 23 25 relatief: resultaat relatieve frequentie cumulatieve relatieve frequentie 2 3 4 5 6 7 8 9 4% 4% 8% 16% 28% 20% 12% 8% 4% 8% 16% 32% 60% 80% 92% 100% 4 2 Centrum en spreiding Met centrummaten geef je het 'midden' van een verdeling aan. Bij veel verdelingen liggen de getallen 'rond' een bepaald getal. Met een centrummaat geef je aan waar de getallen zo'n beetje om heen liggen. Een spreidingsmaat geeft aan of getallen in een verdeling dicht bij elkaar liggen of juist ver uit elkaar. Met centrummaten geef je het 'centrum' van een verdeling aan. Een spreidingsmaat is een maat voor het al dan niet 'dicht of verder weg liggen' van het centrum. Het gemiddelde, de mediaan en de modus zijn cantrummaten. Spreidingsbreedte, kwartielafstand en standaardafwijking zijn spreidingsmaten. 2.1 Het (rekenkundig) gemiddelde Om het gemiddelde van een aantal getallen te berekenen tel je alle getallen op en deel je de som door het aantal. Voor het steekproefgemiddelde gebruiken we de notatie x en voor het populatiegemiddelde de notatie µ. Voorbeeld Je hebt 6 pakken koffie gewogen. De gewichten in gram zijn: 245, 255, 256, 249, 250 en 251. 245 + 255 + 256 + 249 + 250 + 251 Het gemiddelde is: = 251 6 Voorbeeld leeftijd (jaren) frequentie 12 13 14 15 16 5 12 28 16 5 Het gemiddelde is 12,5 ⋅ 5 + 13,5 ⋅12 + 14,5 ⋅ 28 + 15,5 ⋅16 + 16,5 ⋅ 5 ≈ 14,56 66 Om het gemiddelde uit te rekenen moet je bij frequentietabellen altijd de klassemiddens gebruiken (als dat kan). Je gaat er als het ware van uit dat het klassemidden van een klasse het gemiddelde van die klasse is. Hier gaat het om leeftijd! Mensen van 15 jaar oud variëren in leeftijd van 15 tot (net geen) 16 jaar oud. Dus het klassemidden is 15,5. Extra Het gemiddelde is erg gevoelig voor uitschieters. Men spreekt in dit verband wel van een niet resistente maat van het centrum. Voorbeeld: Een leerling haalt voor de toetsen 4 keer een 6 en één keer een 1. Het gemiddelde is nu 5. Dit zou kunnen leiden tot een onvoldoende op het rapport. Dat lijkt niet erg eerlijk. Deze leerling beheerst de stof voor 80% voldoende. Een andere leerling haalt 2 keer een 4 en 2 keer een 5 en één keer een 10. Gemiddeld is dat 5,6 en misschien wel een 6- op het rapport. Deze leerling beheerst slechts 20% van de stof voldoende. 5 2.2 Mediaan De mediaan is het midden van een verdeling, dat wil zeggen dat 50% van de getallen onder de mediaan ligt en 50% erboven. Je kunt ook zeggen: de mediaan is het middelste getal als je de getallen op volgorde van klein naar groot zet. Bij een oneven aantal getallen kan dat, maar bij een even aantal is het lastiger. In dat geval nemen we als mediaan het rekenkundig gemiddelde van de twee middelste getallen. Voorbeeld Wat is de mediaan van 1, 6, 4, 3, 2, 8, 7, 6, 12 en 3 ? Eerst op volgorde: 1, 2, 3, 3, 4, 6, 6, 7, 8 en 12 De middelste getallen zijn 4 en 6 4+6 =5 De mediaan is dus 2 Voor grote aantallen gegevens is deze methode niet erg handig. Een handige(re) methode is de volgende: - aantal + 1 2 Als n een geheel getal is dan is de mediaan het n-de getal in de rij. Bereken n = Als n niet een geheel getal is dan neem je de twee dichtstbijzijnde gehele getallen, deze twee getallen geven je dan de nummers van de getallen waar je het gemiddelde van uit moet rekenen. Voorbeeld Neem honderd getallen op volgorde van klein naar groot. 100 + 1 Bereken n door n = = 50,5 2 De mediaan is het gemiddelde van nummer 50 en nummer 51. Vaak maak je gebruik van het feit dat bij veel tabellen (en diagrammen) de gegevens al op volgorde staan. Voorbeeld leeftijd (jaren) frequentie 12 13 14 15 16 5 12 28 16 5 53 + 1 = 27 2 De mediaan is het 27-ste getal. Het 27 getal (leeftijd) is 14 jaar. Je hebt hier te maken met 53 getallen. n = 6 2.3 Modus De modus van een serie getallen is het getal met de hoogste frequentie. Het getal wat het meeste voorkomt. De modus in een centrummaat. Je komt de modus tegen als men het heeft over 'een modaal inkomen' of 'twee keer modaal'. Voorbeeld leeftijd 12 13 14 15 16 (jaren) frequentie 5 12 28 16 5 De modus is 14 (Omdat het hier om leeftijden gaat is eigenlijk modus = 14,5 want dit is het midden van de klasse van 14 jaar.) Soms komen twee getallen of klassen even vaak voor. Meestal zegt men dan dat de modus niet bestaat. 2.4 Variatiebreedte of spreidingsbreedte De variatiebreedte of spreidingsbreedte is een voorbeeld van een spreidingsmaat. Het is niets anders dan het verschil tussen de kleinste en de grootste waarneming. Deze spreidingsmaat is erg gevoelig voor uitschieters en wordt maar weinig gebruikt. Voorbeeld Bekijk de volgende 2 steekproeven: 11, 22, 53, 64, 85 en 96 1, 50, 51, 52, 53 en 86 De variatie- of spreidingsbreedte is in beide gevallen 85 (Ga dit na!). 7 2.5 Kwartielafstand De kwartielafstand is een spreidingsmaat. De kwartielafstand is het verschil tussen het derde en het eerste kwartiel. De mediaan verdeelt de gegevens in twee even grote stukken: 50% eronder en 50% erboven. Je kunt op deze manier een hoeveelheid gegevens ook in vieren verdelen. Dus in 4 stukken van elk 25% van de gegevens. De grenzen van deze vier gebieden worden kwartielen genoemd: Q1, Q2 en Q3. Uiteraard is Q2 hetzelfde als de mediaan. De afstand van Q1 en Q3 is een maat voor spreiding. Voor het geval je te maken hebt met een oneven aantal gegevens is de mediaan makkelijk te bepalen. Om nu Q1 te bepalen kijk je naar de ‘onderste’ helft van de getallen waarbij je de mediaan niet meerekent. Idem voor het berekenen van Q3, dan kijk je naar de ‘bovenste’ helft van de getallen waarbij de mediaan weer niet meetelt. Voorbeeld Wat is de kwartielafstand van volgende reeks gegevens: 196, 190, 196, 197, 185, 190, 192, 188, 182, 184, 195, 197, 193, 194, 195, 195, 185, 181, 182 Zet de getallen op volgorde van klein naar groot: Bepaal de mediaan (het middelste getal of het gemiddelde van de twee middelste) Bepaal Q1 (de mediaan van de onderste helft) Bepaal Q3 (de mediaan van de bovenste helft) De kwartielafstand is Q3 − Q1 = 195 – 185 = 10 8 2.6 Standaarddeviatie of standaardafwijking De spreidingsmaat die het meest gebruikt wordt is de standaarddeviatie of in goed Nederlands standaardafwijking. Om de standaardafwijking (van een populatie) te berekenen neem je de volgende stappen: - Bereken het gemiddelde. - Neem van elk getal de afstand tot het gemiddelde - Neem het kwadraat van die afstanden. - Bereken het gemiddelde van die kwadraten. - Neem de wortel van de uitkomst Hoe groter de standaarddeviatie hoe groter de verschillen tussen de verschillende waarnemingen. Voorbeeld Bereken de standaarddeviatie van de volgende rij getallen: 3, 5, 8, 9 ,10 3 + 5 + 8 + 9 + 10 =7 5 afstanden tot gemiddelde: −4, −2, 1, 2, 3 kwadraten: 16, 4, 1, 4, 9 16 + 4 + 1 + 4 + 9 gemiddelde kwadraten = ≈ 6,8 5 standaardafwijking σ = 6,8 ≈ 2, 6 - gemiddelde = - Let op! Als het gaat om leeftijden (of een indeling in klassen) dan reken je met de klassemiddens! Voorbeeld Gegeven is: leeftijd 12 13 14 15 16 (jaren) frequentie 5 12 28 16 5 gevraagd is de standaardafwijking. leeftijden 12 13 14 15 16 totaal klassemidden 12.5 13.5 14.5 15.5 16.5 frequenties 5 12 28 16 5 afstanden -2.06 -1.06 -0.06 0.94 1.94 66 kwadraten 4.2436 1.1236 0.0036 0.8836 3.7636 freq ∙ kwadr 21.22 13.48 0.10 14.14 18.82 67.76 67, 76 ≈ 1, 03 66 De standaardafwijking σ = 1, 03 ≈ 1, 01 Het gemiddelde van de kwadraten = 9 3 Grafische voorstellingen Als je veel gegevens (data) hebt kun je een grafische voorstelling maken van die gegeven zodat je een overzicht hebt van de data. Enkele grafische voorstellingen bekijken we even. 3.1 Histogram en staafdiagram Een histogram verdeelt de waarden van een variabele in intervallen. In het histogram kun je het aantal (of percentage) waarnemingen aflezen dat in elk interval terechtkomt. Meestal kiest men intervallen van gelijke breedte. Op de horizontale as heb je altijd te maken met een continue variabele en dus met een schaalverdeling. Voorbeeld: Staafdiagram Een staafdiagram lijkt op een histogram, maar er zijn toch wel een paar verschillen. Bij een staafdiagram vergelijkt men alleen de hoogte van de verschillende staafjes. De horizontale as hoeft geen schaalverdeling te hebben, maar kan ook bestaan uit losse objecten. Denk bijvoorbeeld aan kleuren of verschillende automerken. Omdat elk staafje in een staafdiagram een ander object voorstelt worden de staafjes vaak (maar niet altijd!) getekend met ruimte tussen de staafjes. Voorbeeld: 10 3.2 Cirkeldiagram In een cirkeldiagram geeft de grootte van de sectoren van een cirkel de frequenties weer. Vaak staan in de een cirkeldiagram de percentages erbij. Met een cirkeldiagram krijg je snel een overzicht van de verhoudingen. Voorbeeld In een klas kijk je naar de sport die leerlingen doen: sport voetbal hockey handbal tennis korfbal frequentie 1 3 6 12 6 anders 2 In het cirkeldiagram zijn de frequenties omgerekend naar hoeken. 3.3 Boxplot Een boxplot is een grafische voorstelling waarmee je snel een overzicht van de verdeling van een verzameling gegevens kunt krijgen. Met boxplots kun je makkelijk verschillende verdelingen vergelijken. Hiernaast staat een voorbeeld: In een boxplot kan je de kwartielen, de mediaan en de grootste en de kleinste waarde aflezen. Voorbeeld In het voorbeeld hierboven kun je aflezen: de kleinste waarde is 2 Q1 is 4,5 de mediaan is 5,4 Q3 is 6,8 de grootste waarde is 8 11 3.4 Steelbladdiagram Laten we maar eens naar een voorbeeld kijken: Hierboven zie je proefwerkcijfers van een klas. In de stam staan de cijfers en in de bladeren de decimalen. Dit laatst is niet direct in de figuur te zien, dus dat kan nog wel eens verwarrend zijn. In de figuur staan de cijfers dus op volgorde. Links staan de cijfers van de meisjes en rechts van de jongens. Het hoogste cijfer bij de meisjes is dus een 8,1. Verder kan je zien dat er bij de jongens de volgende cijers zijn gehaald: 3,7-3,8-4,8-enz. Kortom, een steelbladdiagram is een manier om de gegevens (geordend) in beeld te brengen. 12 Opgaven 1 Claudia heeft dit jaar 7 cijfers voor wiskunde behaald: 5,6 4,7 7,8 6,7 5,6 8,9 6,3 a Bereken het gemiddelde. b Bereken de mediaan. c Geef de modus. 2 In de volgende frequentietabel staan het aantal leerlingen dat een aantal opgaven goed hebben. aantal goed frequentie a b c 0 3 1 5 2 4 3 3 4 2 5 3 6 3 7 0 Bepaal het gemiddelde Bepaal de modus. Bepaal de mediaan. 3 Gegeven zijn de volgende schoenmaten: 38 , 39 , 41 , 39 , 38 , 43 , 39 , 43 , 39 , 41 , 42 , 41 , 40 , 43 , 39 , 39 a b c d Bereken de gemiddelde schoenmaat op één decimaal nauwkeurig. Geef de modus van de schoenmaten. Bereken de mediaan van de schoenmaten. Bereken de spreidingsbreedte. 4 Hieronder staan de scores die twee leerlingen voor een test behaalden: Rianne: Renate: 22 , 23 , 25 , 27 , 28 18 , 19 , 25 , 31 , 32 Bereken voor beide leerlingen a de gemiddelde score, b de standaardafwijking. 13 5 Op een snelweg is gedurende een kwartier van elke passerende auto geteld hoeveel personen erin zitten. Het resultaat is in de volgende frequentietabel verwerkt. aantal personen 1 2 3 4 5 6 frequentie 58 33 16 21 9 13 relatieve freq. cumulatieve rel. freq. a b c d e f g Bereken in twee decimalen nauwkeurig het gemiddelde aantal personen per auto In de tabel staan absolute frequenties gegeven. Vul de regel voor de relatieve frequentie in (afronden op één decimaal). Doe dit ook voor de cumulatieve relatieve frequentie Geef de modus. Bereken de mediaan. Teken een boxplot bij de tabel. Wat is de kwartielafstand? 6 Bekijk de volgende 5 getallen: 1, 2, 3, 4, 1000. a Bereken gemiddelde en mediaan b Laat nu de extreme waarde 1000 weg en bereken gemiddelde en mediaan opnieuw Verklaar de verschillen. c Teken een boxplot bij de 5 getallen. Hoe zie je dat 1000 een uitschieter is? 7 Gegeven zijn de getallen 2 , 5 , 5 , 9 , 4 , 6 , 1 , a Bereken welk getal er voor a genomen moet worden zodat het gemiddelde precies 4,75 is. 14 8 Van iemand die griep heeft verdwijnen de verschijnselen (koorts, rillingen, keelpijn, spierpijn) zo ongeveer na 2 tot 7 dagen. Voor een aantal grieppatiënten is bijgehouden hoe lang de koorts duurde. aantal dagen aantal patiënten (%) 2 15 3 43 4 22 5 12 6 of meer 10 Stel dat de laatste groep 6,5 zou zijn in plaats van 6 of meer. Bereken in dat geval de modus, de mediaan en het gemiddelde. Welk van de drie berekende getallen uit de vorige vraag zou veranderen als er in plaats van "6 of meer" ook 6, 7, 8 enz zou hebben gestaan? Welk getal moet er op de plaats van 6 of meer staan als het werkelijke gemiddelde gelijk blijkt te zijn aan 3,75? a b c 9 Een aantal mensen is gevraagd hoeveel geld ze afgelopen jaarwisseling aan vuurwerk hebben uitgegeven. Dat leverde de volgende serie bedragen op: 14 25 28 16 50 128 87 92 54 50 40 32 60 65 75 82 20 54 50 25 78 90 90 15 20 45 48 72 81 32 34 10 10 15 46 156 145 65 Zet de bedragen in een spreadsheet in de grafische rekenmachine en bereken gemiddelde, modus en mediaan. Maak van de bedragen een boxplot op de grafische rekenmachine. Geef commentaar bij de boxplot. a b c 10 In de tabel hieronder zie je de frequentieverdeling van het aantal uren van de docenten van het Hogeland College. klasse (uren) frequentie a b 10-14 18 15-19 8 20-24 41 25-29 9 Wat is het grootst mogelijke gemiddelde bij deze frequentieverdeling? En wat is het kleinst mogelijke gemiddelde? De conciërge Tjasse kent van alle docenten de precieze aantallen uren. Hij beweert dat de modus 18 is. Waarom kan dat niet kloppen? 15 34 11 Als training voor de Coopertest houdt de gymleraar elk jaar een bosloop. Hieronder zie je twee boxplots waarin de tijden staan die leerlingen nodig hadden voor deze bosloop. Er is een aparte boxplot voor de meisjes en eentje voor de jongens. In totaal liepen er 32 jongens en 28 meisjes mee, dus 60 leerlingen. a Op welke plaats eindigde het snelste meisje? b Rond welk tijdstip kam er een grote groep tegelijk binnen? c Welke tijd liep degene die als 38ste eindigde ongeveer? d Wat kun je zeggen over de plaats waarop de langzaamste jongen eindigde? 12 Hieronder staan vijf histogrammen (A tm E) met daaronder vijf boxplots (P tm S). Leg uit welk histogram bij welke boxplot hoort. Doe dat zonder bij elk histogram daadwerkelijk een boxplot te gaan tekenen. 13 Een klas krijgt de resultaten van een proefwerk wiskunde terug. De meisjes scoorden gemiddeld 8,5. De jongens scoorden gemiddeld 7,6. Het gemiddelde van de hele klas is 8,0. Er zitten 12 meisjes in de klas. Hoeveel leerlingen zitten er in totaal in de klas? 16 14 Joris, Michel en Koen doen mee aan een hardloopwedstrijd. Joris eindigt als eerste van de drie, en hij is precies de middelste van alle deelnemers. Michel eindigt als 10e, en Koen als 16e. Hoeveel deelnemers waren er? 15 Bereken van de volgende serie getallen de spreidingsbreedte, de kwartielafstand en de standaarddeviatie. Probeer het eerst zonder de statistiek opties van de grafische rekenmachine te gebruiken. 35, 35, 35, 38, 42, 42, 42, 42, 56, 67, 67, 68, 70 16 Bereken van de volgende frequentieverdeling meting frequentie a b [5, 17 12 [17, 29 35 [29, 41 58 [41, 53 123 [53, 67 88 [67, 79 73 Het gemiddelde en de mediaan (mag met GRM). De spreidingsbreedte, de kwartielafstand en de standaardafwijking (mag met GRM). 17 Het staafdiagram hiernaast geeft de rapportcijfers van een klas weer. a Hoeveel leerlingen zaten er naar aanleiding van deze gegevens in de klas? b Geef et gemiddelde en de standaardafwijking van de cijfers van deze klas. De leraar is echter vergeten de zessen erbij te zetten. Hij beweert dat het gemiddelde een 6,3 was. c Hoeveel zessen zijn er geweest als het gemiddelde werkelijk 6,3 geweest is? 18 Hiernaast staat een cumulatief frequentiepolygoon dat gemaakt is naar aanleiding van de gegevens van klanten van een supermarkt. Er staat aangegeven voor hoeveel euro men boodschappen deed. Lees uit de figuur af: a) de mediaan, b) de kwartielafstand, c) de spreidingsbreedte. 17 [79, 91 22