Staaf- en cirkeldiagram Beschrijvende statistiek : het verzamelen van gegevens het overzichtelijk weergeven van de gegevens in tabellen en grafieken : 1.turftabel 2.frequentietabel 3.staafdiagram 4.cirkeldiagram 4.1 12 : 28 x 100 = 10 : 28 x 100 = Voorbeeld 1a 2 : 28 x 100 = 4 : 28 x 100 = bloedgroep turven frequentie rel.frequentie O llll llll ll 12 42,9% A llll llll 10 35,7% B ll 2 7,1% AB llll 4 14,3% totale freq. = 28 relatieve frequentie is de frequentie in procenten rel.freq. = Freq. Totale freq. x 100% rond relatieve frequenties af op één decimaal 6 : 28 x 360 = 11 : 28 x 360 = Voorbeeld 1b 6 : 28 x 360 = 5 : 28 x 360 = profiel turven frequentie sectorhoek C&M llll l 6 77° E&M llll llll l 11 141° N&G llll l 6 77° N&T llll 5 64° totale freq. = 28 profiel sectorhoek = Freq. Totale freq. x 360° rond sectorhoeken af op hele getallen C&M E&M N&G N&T bij een cirkeldiagram hoort een legenda Voorbeeld 1c er zijn 12 jongens 12 × 100% ≈ 42,9% 28 er zijn 16 meisjes 16 × 100% ≈ 57,1% 28 jongen/meisje 60 50 40 relatieve frequentie 30 20 10 0 j m - bij een staafdiagram hoort een opschrift en informatie bij de assen teken de staven even breed en los van elkaar 4.1 Histogram en frequentiepolygoon een histogram of Kolommendiagram bij een freqentietabel met kwantitatieve gegevens (waarnemingsgetallen) op de horizontale as de kolommen liggen tegen elkaar aan een freqentiepolygoon is een lijndiagram waarin de frequenties zijn uitgezet tegen de waarnemingsgetallen als je de relatieve frequenties uitzet tegen de waarnemingsgetallen krijg je een relatieve-frequentiepolygoon 4.1 Voorbeeld 2 a omvang gezin frequentie 2 3 3 7 4 9 5 5 6 3 7 1 b omvang gezin frequentie 10 9 8 7 6 5 4 3 2 1 0 ᅵ 2 ᅵ 3 ᅵ 4 ᅵ 5 ᅵ 6 aantal personen gezin - in het midden van ieder staafje staat het waarnemingsgetal - de staven liggen in een histogram tegen elkaar ᅵ 7 opgave 3 c 3 : 28 x 100 = omvang gezin rel. freq. 2 10,7% omvang gezin frequentie 7 : 28 x 100 = 35 9 : 28 x 100 = 30 3 25% 4 32,1% 5 : 2825 x 100 = 5 17,9% 3 : 28 20 x 100 = 6 10,7% 1 : 2815 x 100 = 7 3,6% 10 d minder dan 4 personen 3 + 7 = 10 leerlingen 10 × 100% ≈ 35,7% 28 minstens 4 personen 9 + 5 + 3 + 1 = 18 personen 18 × 100% ≈ 64,3% 28 5 0 1 2 3 4 5 6 aantal personen gezin 7 8 Voorbeeld 3 - zijn er bij een statistisch onderzoek veel verschillende aarnemingsgetallen, dan maak je een indeling in klassen - geef elke klasse dezelfde breedte - zorg voor 5 a 10 klassen zakgeld turven frequentie 5-<10 llll 5 10-<15 llll l 6 15-<20 llll l 6 20-<25 llll ll 7 25-<30 lll 3 30-<35 l 1 4.2 Zakgeld van 4 Havo leerlingen per maand Voorbeeld 3 zakgeld freq. 5-<10 5 10-<15 6 15-<20 6 20-<25 7 25-<30 3 30-<35 1 f r e q u e n t i e de staven in een histogram tegen elkaar tekenen 7 6 5 4 3 2 1 0 5 10 15 20 25 30 35 zakgeld in euro’s Zakgeld van 4 Havo leerlingen de per maand klassenmiddens zijn de punten in een frequentiepolygoon Voorbeeld 3 zakgeld freq. 5-<10 5 10-<15 6 15-<20 6 20-<25 7 25-<30 3 30-<35 1 f r e q u e n t i e ∙ 7 ∙ 6 ∙ ∙ 5 4 ∙ 3 2 ∙ 1 0 5 10 15 20 25 30 35 zakgeld in euro’s Voorbeeld 4 steel-bladdiagram ZAKGELD IN EURO 06 = 6 0 6 7 8 8 8 1 0 0 2 2 2 4 5 5 6 7 8 8 2 0 0 0 0 2 3 4 5 6 8 3 2 tientallen eenheden steel a b c d blad 15 komt 2 keer voor kleinste bedrag is €6,het bedrag €20,- komt het vaakst voor de klassen zijn 0-<10 ; 10-<20 ; 20-<30 ; 30-<40 Cumulatieve frequenties de cumulatieve frequentie krijg je door de frequentie van die klasse en de frequenties van de voorgaande klassen bij elkaar opgeteld bij een cumulatieve frequentiepolygoon teken je de cumulatieve frequenties boven de rechtergrenzen van de klassen begin op de horizontale as bij de linkergrens van de eerste klasse verbind de opeenvolgende punten door lijnstukken 4.2 0 + 538 = 538 : 4572 x 100 = 1673 : 4572 x 100 = 2891 : 4572 x 100 = 538 + 1135 = 1673 + 1218 = 3832 : 4572 x 100 = 2891 + 941 = opgave 12a 4489 : 4572 x 100 = 3832 + 657 = lengte 4489 + 83 = frequentie 4572 : 4572 x 100 = cum. freq. rel. cum. freq. 155-<160 538 538 11,8% 160-<165 1135 1673 36,6% 165-<170 1218 2891 63,2% 170-<175 941 3832 83,3% 175-<180 657 4489 98,2% 170-<175 83 4572 100% cumulatieve frequentie is de frequentie van deze klasse en de voorgaande klassen bij elkaar opgeteld relatieve cumulatieve frequentie is de cumulatieve frequentie in procenten cum. freq. cum.rel.freq. = totale freq. x 100% rond cum.rel.freq. af op één decimaal je eindigt altijd bij 100% opgave 12b lengte rel.cum. freq 155-<160 11,8% 160-<165 36,6% 165-<170 63,2% 170-<175 83,3% 175-<180 98,2% 180-<185 100% r 100 e l. c 80 u m. f 60 r e q 40 ∙ zet de rel.cum.freq. boven de rechtergrenzen uit, begin bij de linkergrens ∙ ∙ ∙ 20 0 ∙ ∙ 155 ∙ 160 165 170 175 180 185 lengte in cm. Diagrammen histogram (zie par.2) frequentiepolygoon (zie par.2) steel-bladdiagram (zie par.2) staafdiagram met een staafdiagram kon je in één oogopslag onderzoeksresultaten onderling vergelijken de staven zijn even breed en staan los van elkaar lijndiagram een lijndiagram laat zien hoe een verschijnsel zich in de loop van de tijd heeft ontwikkeld in een lijndiagram zijn de gegevens als punten uitgezet en daarna verbonden door lijnstukjes, tussenliggende punten hebben geen betekenis cirkeldiagram (sectordiagram) brengt de procentuele (relatieve) verdeling in beeld beelddiagram hoeveelheden worden aangegeven met figuurtjes 4.3 opgave 22 a is niet zo nauwkeurig b 15% is lid van de vakbond totale beroepsbevolking was 100 : 15 × 16,5 miljoen = 110 miljoen c in de VS zijn relatief weinig werknemers lid van een vakbond, men komt schijnbaar als individu op voor het eigen belang 5 x 3% = 15% Misleiding bij grafische weergave Let bij grafieken op de volgende punten: 1 staat er bij de grafiek een duidelijk opschrift? 2 staat er voldoende informatie bij de assen? 3 begint de verticale as bij 0? is er een scheurlijn gebruikt? 4.3 opgave 25 a de lengte en breedte van het biljet bij 2006 is 4 keer zo groot als bij het biljet van 2005 b de oppervlakte van het biljet bij 2006 is 42 = 16 keer zo groot als bij het biljet van 2005 daardoor lijkt het of de winst 16 keer zo groot is Centrummaten gemiddelde het gemiddelde van een serie waarnemingsgetallen is de som van die getallen gedeeld door het aantal getallen mediaan eerst de waarnemingsgetallen naar grootte rangschikken bij oneven aantal getallen is de mediaan het middelste getal bij even aantal getallen is de mediaan het gemiddelde van de middelste twee getallen modus de modus is het waarnemingsgetal met de grootste frequentie 4.4 Voorbeeld 5 (zonder GR) a gemiddelde = (3×2 + 4×4 + 5×6 + 6×5 + 7×4 + 8×4 + 9×3 + 10×2) : 30 gemiddelde = 6,3 30 getallen 15e en 16e getal 15e getal = 6 en 16e getal = 6 mediaan = ( 6 + 6 ) : 2 mediaan = 6 het cijfer 5 komt 6 keer voor modus = 5 b modus, mediaan, gemiddelde c totaal was 189 en het aantal ll. was 30 30 + 4 = 34 leerlingen 34 × 6,5 = 221 221 – 189 = 32 de vierde leerling 32 – (3 × 9) = 5 het cijfer 3 komt 2 keer voor cijfer frequentie 3 2 4 4 5 6 6 5 7 4 8 4 9 3 10 2 Voorbeeld 5 (met GR) a voer in lijst 1 = { 3, 4, 5, 6, 7, 8, 9, 10 } en lijst 2 = { 2, 4, 6, 5, 4, 4, 3, 2 } optie 1-Var Stats L1,L2 (TI) of 1VAR (casio) gemiddelde = 6,3 mediaan = 6 modus = 5 b modus, mediaan, gemiddelde c totaal was 189 en het aantal ll. was 30 30 + 4 = 34 leerlingen 34 × 6,5 = 221 221 – 189 = 32 de vierde leerling 32 – (3 × 9) = 5 Voordelen en nadelen centrummaten voordeel nadeel modus • snel op te schrijven, weinig rekenwerk • de enige centrummaat die bij kwalitatieve gegevens te gebruiken is • geeft weinig informatie • is niet altijd aanwezig • een kleine verandering kan een geheel andere modus opleveren mediaan • niet gevoelig voor uitschieters • weinig rekenwerk • alleen de volgorde van de waarnemingsgetallen is van belang, niet de grootte van de waarnemingsgetallen gemiddelde • alle gegevens worden gebruikt • gevoelig voor uitschieters • iedereen kent deze centrummaat 4.4 om het gemiddelde te berekenen moet je eerst de klassenmiddens berekenen Voorbeeld 6 de klasse met de grootste frequentie is de modale klasse a klassenmiddens zijn aantal 1800, 2200, 2600, 3000 en 3400 branduren voer in lijst1 { 1800,2200,2600,3000,3400 } en lijst2 { 85,75,63,58,19 } 1600-<2000 optie 1 Var-Stats L1,L2 of 1VAR 2000-<2400 gemiddelde ≈ 2401 uur 2400-<2800 b GR mediaan = 2200 2800-<3200 dus de mediaan ligt in de klasse 2000-< 2400 c de modale klasse is 1600-< 2000 3200-<3600 d 300 waarnemingsgetallen 150e en 151e getal 150 – 85 = 65e getal en 151 – 85 = 66e getal in klasse 2000-< 2400 er zitten 75 getallen in deze klasse 2000 + (65,5 : 75) × 400 ≈ 2349, dat is dus meer dan 2200 frequentie 85 75 63 58 19 Hoe teken je een boxplot? 1 bepaal de mediaan 2 bepaal het eerste kwartiel (mediaan van de “1e” helft) en het derde kwartiel (mediaan van de “2e” helft) 3 teken een getallenlijn en zet het kleinste en grootste waarnemingsgetal, de mediaan en de beide kwartielen boven de getallenlijn 4 teken de boxplot 4.4 voorbeeld de volgende score’s zijn gehaald bij een test 23 – 43 – 24 - 34 - 13 - 32 - 44 - 53 - 17 - 28 – 30 – 22 – 19 schrijf de getallen van klein naar groot op 13 – 17 – 19 – 22 – 23 – 24 – 28 – 30 – 32 – 34 – 43 – 44 – 53 teken een getallenlijn kleinste waarnemingsgetal = 13 grootste waarnemingsgetal = 53 mediaan = 28 1e kwartiel (Q1) = (19 + 22) : 2 = 20,5 3e kwartiel (Q3) = (34 + 43) : 2 = 37,5 10 15 tussen 2 verticale streepjes altijd 25% van de waarnemingsgetallen 20 25 30 35 40 45 50 55 in de box 50% 4.4 Boxplot mbv de grafische rekenmachine 1 frequentie tabel maken stat edit 1 L1 (waarnemingsgetallen) L2 (frequentie’s) invullen 2 boxplot berekenen stat calc 1 1 var stats L1,L2 (L1,+2 2nd 1,2) 3 boxplot tekenen 2nd stat plot 1 on type ‘5e’ graph 4.4 relatieve cumulatieve frequentie ∙ 100 De relatieve cumulatieve frequentiepolygoon kun je goed gebruiken om een boxplot te tekenen. ∙ 75 ∙ 50 0% kleinste getal = 3 25% 1e kwartiel (Q1) = 10 50% mediaan = 13 75% 3e kwartiel (Q3) = 20 100% grootste getal = 24 ∙ 25 ∙3 0 5 10 10 1315 20 5 10 20 25 24 boxplot 0 15 25 4.4 Spreidingsmaten vaak wordt naast een centrummaat een zogenaamde spreidingsmaat berekend om aan te geven hoever de data in een verdeling uitelkaar liggen spreidingsbreedte : verschil tussen het grootste en kleinste getal kwartielafstand : verschil tussen het 1e en 3e kwartiel (Q3 – Q1) 4.4 opgave 42 a bij elke klas is de mediaan 3 km. b nee, de mediaan is bij elke klas hetzelfde c in klas 4A zit 50% tussen 1 en 5 km in klas 4B zit 50% tussen 2 en 4 km d in klas 4A is de spreiding het grootst in klas 4C is de spreiding het kleinst De standaardafwijking de meest gebruikte spreidingsmaat is de standaardafwijking om de standaardafwijking te berekenen moet je eerst van elk waarnemingsgetal berekenen hoe ver het van het gemiddelde afligt zo krijg je bij elk waarnemingsgetal x de deviatie d d = x – x ( de afwijking van het gemiddelde ) standaardafwijking σ = √gemiddelde van (x – x)2 het berekenen van σ doe je met (TI) 1-Var Stats L1,L2 σx of (Casio) 1VAR xσn 4.4 opgave 49 gewicht freq. 4,8 4,9 5,0 5,1 5,2 5,3 5,4 2 4 10 18 12 3 1 a voer in lijst 1 = {4.8,4.9,5.0,5.1,5.2,5.3,5.4} en lijst 2 = {2,4,10,18,12,3,1} optie 1-Var Stats L1,L2 of 1VAR geeft minX = 4,8 ; Q1 = 5 ; Med = 5,1 ; Q3 = 5,2 ; maxX = 5,4 mediaan = 5,1 kwartielafstand = Q3 – Q1 = 5,2 – 5 = 0,2 spreidingsbreedte = maxX – minX = 5,4 – 4,8 = 0,6 b schatting σ = 0,3 2σ = 0,6 2σ = spreidingsbreedte = 0,6 dat kan niet c GR x ≈ 5,09 en σ ≈ 0,12 gemiddelde ≈ 5,09 kg en de standaardafwijking ≈ 0,12 kg Notaties op de GR x σ σx xσn n minX maxX Q1 Q3 Med : het gemiddelde : de standaardafwijking : de standaardafwijking (TI) : de standaardafwijking (Casio) : het totale aantal waarnemingen : het kleinste waarnemingsgetal : het grootste waarnemingsgetal : het eerste kwartiel : het derde kwartiel : de mediaan (het tweede kwartiel) 4.4 De populatie is de totale groep waarop het onderzoek betrekking heeft. Een steekproef is representatief als zij een juiste afspiegeling is van de gehele populatie - de steekproef moet voldoende groot zijn - de steekproef is aselect In een gelote steekproef heeft elk element van de populatie dezelfde kans om in de steekproef te komen. In een gelaagde steekproef komen duidelijk te onderscheiden groepen in dezelfde verhouding voor als in de gehele populatie. Bij een systematische steekproef genereer je één toevalsgetal. de andere steekproefelementen volgen hieruit door met vaste stappen door de gehele populatie te lopen. voor de stapgrootte deel je de populatieomvang door de steekproefomvang. 4.5 opgave 60 totaal = 50 + 70 + 25 + 40 + 75 + 45 = 305 patiënten leeftijd man vrouw 0-< 18 50 × 50 = 8,20 305 dus 8 70 × 50 = 11,48 305 dus 11 18-< 48 25 × 50 = 4,10 305 dus 4 40 × 50 = 6,56 305 dus 7 48 en ouder 75 × 50 = 12,30 305 dus 12 45 × 50 = 7,38 305 dus 7 het aantal is 8 + 11 + 4 + 7 + 12 + 7 = 49 om aan een steekproeflengte van 50 te komen kiezen we een extra man van 18-< 48 Oefen opgave1 Lengte van gereserveerde ski's Maak een frequentieverdeling van deze gegevens. ( eerste klasse 110 -< 115) 134 135 124 120 116 124 127 129 Bereken de drie centrummaten op twee manieren. 111 122 128 115 119 123 125 116 Teken het bijbehorend histogram. 130 121 121 127 Maak m.b.v. de relatieve gecumuleerde frequentie grafiek de boxplot. 119 123 112 131 124 133 128 137 127 115 129 121 126 132 116 120 130 119 113 114 Wat is de spreidingsbreedte, de kwartielsafstand en de standaardafwijking? Lengte maat ( in cm 110 -< 115 f 4 115 -< 120 8 120 -< 125 11 125 -< 130 130 -< 135 9 6 135 -< 140 2 m 112,5 117,5 122,5 127,5 132,5 137,5 40 gemiddelde 123,88 modus 122,5 nr v/d mediaan 20,5 mediaan 121,14 f*m 450 940 1348 1148 795 275 4955 Lengte van gereserveerde ski’s f r e q u e n t i e 12 10 8 6 4 2 0 110 115 120 125 130 135 140 Skilengte in cm Gecum. freq.verdeling klassegrens abs. rel. -< 110 0 0,0 -< 115 4 10,0 -< 120 12 30,0 -< 125 23 57,5 -< 130 32 80,0 -< 135 38 95,0 -< 140 40 100,0 Gecumuleerde relatieve verdeling ski lengtes. Standaardafwijking=6,71 % 100,0 minX=110 Q1=117,5 80,0 Med=122,5 60,0 Q3=127,5 maxX=140 40,0 20,0 Kwartielsafstand = 10 0,0 100 110 120 130 140 skilengte in cm 110 119 124 128 140 150