Hfstk 1

advertisement
Staaf- en cirkeldiagram
Beschrijvende statistiek :
het verzamelen van gegevens
het overzichtelijk weergeven van de gegevens in tabellen en grafieken :
1.turftabel
2.frequentietabel
3.staafdiagram
4.cirkeldiagram
4.1
12 : 28 x 100 =
10 : 28 x 100 =
Voorbeeld 1a
2 : 28 x 100 =
4 : 28 x 100 =
bloedgroep
turven
frequentie
rel.frequentie
O
llll llll ll
12
42,9%
A
llll llll
10
35,7%
B
ll
2
7,1%
AB
llll
4
14,3%
totale freq. = 28
relatieve frequentie is de frequentie in procenten
rel.freq. =
Freq.
Totale freq.
x 100%
rond relatieve frequenties af op één decimaal
6 : 28 x 360 =
11 : 28 x 360 =
Voorbeeld 1b
6 : 28 x 360 =
5 : 28 x 360 =
profiel
turven
frequentie
sectorhoek
C&M
llll l
6
77°
E&M
llll llll l
11
141°
N&G
llll l
6
77°
N&T
llll
5
64°
totale freq. = 28
profiel
sectorhoek =
Freq.
Totale freq.
x 360°
rond sectorhoeken af op hele getallen
C&M
E&M
N&G
N&T
bij een cirkeldiagram
hoort een legenda
Voorbeeld 1c
er zijn 12 jongens
12
× 100% ≈ 42,9%
28
er zijn 16 meisjes
16 × 100% ≈ 57,1%
28
jongen/meisje
60
50
40
relatieve
frequentie
30
20
10
0
j
m
- bij een staafdiagram hoort een
opschrift en informatie bij de assen teken de staven even breed en los
van elkaar
4.1
Histogram en frequentiepolygoon
een histogram of Kolommendiagram bij een freqentietabel met kwantitatieve
gegevens (waarnemingsgetallen) op de horizontale as de kolommen liggen
tegen elkaar aan
een freqentiepolygoon is een lijndiagram waarin de frequenties zijn uitgezet
tegen de waarnemingsgetallen
als je de relatieve frequenties uitzet tegen de waarnemingsgetallen krijg je
een relatieve-frequentiepolygoon
4.1
Voorbeeld 2
a
omvang
gezin
frequentie
2
3
3
7
4
9
5
5
6
3
7
1
b omvang gezin
frequentie
10
9
8
7
6
5
4
3
2
1
0
ᅵ
2
ᅵ
3
ᅵ
4
ᅵ
5
ᅵ
6
aantal personen gezin
- in het midden van ieder staafje staat het waarnemingsgetal
- de staven liggen in een histogram tegen elkaar
ᅵ
7
opgave 3
c
3 : 28 x 100 =
omvang gezin
rel. freq.
2
10,7%
omvang gezin
frequentie
7 : 28 x 100
=
35
9 : 28 x 100 =
30
3
25%
4
32,1%
5 : 2825
x 100 =
5
17,9%
3 : 28 20
x 100 =
6
10,7%
1 : 2815
x 100 =
7
3,6%
10
d minder dan 4 personen
3 + 7 = 10 leerlingen
10
× 100% ≈ 35,7%
28
minstens 4 personen
9 + 5 + 3 + 1 = 18 personen
18 × 100% ≈ 64,3%
28
5
0
1
2
3
4
5
6
aantal personen gezin
7
8
Voorbeeld 3
- zijn er bij een statistisch onderzoek
veel verschillende aarnemingsgetallen,
dan maak je een indeling in klassen
- geef elke klasse dezelfde breedte
- zorg voor 5 a 10 klassen
zakgeld
turven
frequentie
5-<10
llll
5
10-<15
llll l
6
15-<20
llll l
6
20-<25
llll ll
7
25-<30
lll
3
30-<35
l
1
4.2
Zakgeld van 4 Havo leerlingen per maand
Voorbeeld 3
zakgeld
freq.
5-<10
5
10-<15
6
15-<20
6
20-<25
7
25-<30
3
30-<35
1
f
r
e
q
u
e
n
t
i
e
de staven in een
histogram tegen elkaar
tekenen
7
6
5
4
3
2
1
0
5
10
15
20
25
30
35
zakgeld in euro’s
Zakgeld van 4 Havo leerlingen de
per
maand
klassenmiddens zijn de punten
in een frequentiepolygoon
Voorbeeld 3
zakgeld
freq.
5-<10
5
10-<15
6
15-<20
6
20-<25
7
25-<30
3
30-<35
1
f
r
e
q
u
e
n
t
i
e
∙
7
∙
6
∙
∙
5
4
∙
3
2
∙
1
0
5
10
15
20
25
30
35
zakgeld in euro’s
Voorbeeld 4
steel-bladdiagram
ZAKGELD IN EURO
06 = 6
0
6 7 8 8 8
1
0 0 2 2 2 4 5 5 6 7 8 8
2
0 0 0 0 2 3 4 5 6 8
3
2
tientallen
eenheden
steel
a
b
c
d
blad
15 komt 2 keer voor
kleinste bedrag is €6,het bedrag €20,- komt het vaakst voor
de klassen zijn 0-<10 ; 10-<20 ; 20-<30 ; 30-<40
Cumulatieve frequenties
de cumulatieve frequentie krijg je door de frequentie van die klasse en de
frequenties van de voorgaande klassen bij elkaar opgeteld
bij een cumulatieve frequentiepolygoon teken je de cumulatieve frequenties
boven de rechtergrenzen van de klassen
begin op de horizontale as bij de linkergrens van de eerste klasse
verbind de opeenvolgende punten door lijnstukken
4.2
0 + 538 =
538 : 4572 x 100 =
1673 : 4572 x 100 =
2891 : 4572 x 100 =
538 + 1135 =
1673 + 1218 =
3832 : 4572 x 100 =
2891 + 941 =
opgave 12a
4489 : 4572 x 100 =
3832 + 657 =
lengte
4489 + 83 =
frequentie
4572 : 4572 x 100 =
cum. freq.
rel. cum. freq.
155-<160
538
538
11,8%
160-<165
1135
1673
36,6%
165-<170
1218
2891
63,2%
170-<175
941
3832
83,3%
175-<180
657
4489
98,2%
170-<175
83
4572
100%
cumulatieve frequentie is de
frequentie van deze klasse en
de voorgaande klassen bij elkaar
opgeteld
relatieve cumulatieve frequentie is de
cumulatieve frequentie in procenten
cum. freq.
cum.rel.freq. = totale freq. x 100%
rond cum.rel.freq. af op één decimaal
je eindigt altijd
bij 100%
opgave 12b
lengte
rel.cum.
freq
155-<160
11,8%
160-<165
36,6%
165-<170
63,2%
170-<175
83,3%
175-<180
98,2%
180-<185
100%
r 100
e
l.
c 80
u
m.
f 60
r
e
q 40
∙
zet de rel.cum.freq. boven
de rechtergrenzen uit,
begin bij de linkergrens
∙
∙
∙
20
0
∙
∙
155
∙
160
165
170
175
180
185
lengte in cm.
Diagrammen
histogram (zie par.2)
frequentiepolygoon (zie par.2)
steel-bladdiagram (zie par.2)
staafdiagram
met een staafdiagram kon je in één oogopslag onderzoeksresultaten onderling
vergelijken
de staven zijn even breed en staan los van elkaar
lijndiagram
een lijndiagram laat zien hoe een verschijnsel zich in de loop van de tijd heeft
ontwikkeld
in een lijndiagram zijn de gegevens als punten uitgezet en daarna verbonden
door lijnstukjes, tussenliggende punten hebben geen betekenis
cirkeldiagram (sectordiagram)
brengt de procentuele (relatieve) verdeling in beeld
beelddiagram
hoeveelheden worden aangegeven met figuurtjes
4.3
opgave 22
a is niet zo nauwkeurig
b 15% is lid van de vakbond
totale beroepsbevolking was
100 : 15 × 16,5 miljoen = 110 miljoen
c in de VS zijn relatief weinig werknemers
lid van een vakbond, men komt schijnbaar
als individu op voor het eigen belang
5 x 3% = 15%
Misleiding bij grafische weergave
Let bij grafieken op de volgende punten:
1 staat er bij de grafiek een duidelijk opschrift?
2 staat er voldoende informatie bij de assen?
3 begint de verticale as bij 0? is er een scheurlijn gebruikt?
4.3
opgave 25
a de lengte en breedte van het biljet bij 2006 is 4 keer zo groot
als bij het biljet van 2005
b de oppervlakte van het biljet bij 2006 is 42 = 16 keer zo groot
als bij het biljet van 2005
daardoor lijkt het of de winst 16 keer zo groot is
Centrummaten
gemiddelde
het gemiddelde van een serie waarnemingsgetallen is de som van die getallen
gedeeld door het aantal getallen
mediaan
eerst de waarnemingsgetallen naar grootte rangschikken
bij oneven aantal getallen is de mediaan het middelste getal
bij even aantal getallen is de mediaan het gemiddelde van de middelste twee
getallen
modus
de modus is het waarnemingsgetal met de grootste frequentie
4.4
Voorbeeld 5 (zonder GR)
a gemiddelde = (3×2 + 4×4 + 5×6 + 6×5 + 7×4 +
8×4 + 9×3 + 10×2) : 30
gemiddelde = 6,3
30 getallen  15e en 16e getal
15e getal = 6 en 16e getal = 6
mediaan = ( 6 + 6 ) : 2
mediaan = 6
het cijfer 5 komt 6 keer voor
modus = 5
b modus, mediaan, gemiddelde
c totaal was 189 en het aantal ll. was 30
30 + 4 = 34 leerlingen
34 × 6,5 = 221
221 – 189 = 32
de vierde leerling  32 – (3 × 9) = 5
het cijfer 3 komt 2 keer voor
cijfer
frequentie
3
2
4
4
5
6
6
5
7
4
8
4
9
3
10
2
Voorbeeld 5 (met GR)
a voer in lijst 1 = { 3, 4, 5, 6, 7, 8, 9, 10 }
en lijst 2 = { 2, 4, 6, 5, 4, 4, 3, 2 }
optie 1-Var Stats L1,L2 (TI)
of 1VAR (casio)
gemiddelde = 6,3
mediaan = 6
modus = 5
b modus, mediaan, gemiddelde
c totaal was 189 en het aantal ll. was 30
30 + 4 = 34 leerlingen
34 × 6,5 = 221
221 – 189 = 32
de vierde leerling  32 – (3 × 9) = 5
Voordelen en nadelen centrummaten
voordeel
nadeel
modus
• snel op te schrijven, weinig
rekenwerk
• de enige centrummaat die bij
kwalitatieve gegevens te
gebruiken is
• geeft weinig informatie
• is niet altijd aanwezig
• een kleine verandering kan
een geheel andere modus
opleveren
mediaan
• niet gevoelig voor uitschieters
• weinig rekenwerk
• alleen de volgorde van de
waarnemingsgetallen is van
belang, niet de grootte van de
waarnemingsgetallen
gemiddelde
• alle gegevens worden gebruikt • gevoelig voor uitschieters
• iedereen kent deze
centrummaat
4.4
om het gemiddelde te berekenen
moet je eerst de klassenmiddens
berekenen
Voorbeeld 6
de klasse met de grootste
frequentie is de modale klasse
a klassenmiddens zijn
aantal
1800, 2200, 2600, 3000 en 3400
branduren
voer in lijst1 { 1800,2200,2600,3000,3400 }
en lijst2 { 85,75,63,58,19 }
1600-<2000
optie 1 Var-Stats L1,L2 of 1VAR
2000-<2400
gemiddelde ≈ 2401 uur
2400-<2800
b GR  mediaan = 2200
2800-<3200
dus de mediaan ligt in de klasse 2000-< 2400
c de modale klasse is 1600-< 2000
3200-<3600
d 300 waarnemingsgetallen  150e en 151e getal
150 – 85 = 65e getal en 151 – 85 = 66e getal in klasse 2000-< 2400
er zitten 75 getallen in deze klasse
2000 + (65,5 : 75) × 400 ≈ 2349, dat is dus meer dan 2200
frequentie
85
75
63
58
19
Hoe teken je een boxplot?
1 bepaal de mediaan
2 bepaal het eerste kwartiel (mediaan van de “1e” helft) en het derde kwartiel
(mediaan van de “2e” helft)
3 teken een getallenlijn en zet het kleinste en grootste waarnemingsgetal,
de mediaan en de beide kwartielen boven de getallenlijn
4 teken de boxplot
4.4
voorbeeld
de volgende score’s zijn gehaald bij een test
23 – 43 – 24 - 34 - 13 - 32 - 44 - 53 - 17 - 28 – 30 – 22 – 19
schrijf de getallen van klein naar groot op
13 – 17 – 19 – 22 – 23 – 24 – 28 – 30 – 32 – 34 – 43 – 44 – 53
teken een getallenlijn
kleinste waarnemingsgetal = 13
grootste waarnemingsgetal = 53
mediaan = 28
1e kwartiel (Q1) = (19 + 22) : 2 = 20,5
3e kwartiel (Q3) = (34 + 43) : 2 = 37,5
10
15
tussen 2 verticale streepjes
altijd 25% van de
waarnemingsgetallen
20
25
30
35
40
45
50
55
in de box 50%
4.4
Boxplot mbv de grafische rekenmachine
1 frequentie tabel maken
stat  edit  1  L1 (waarnemingsgetallen)
L2 (frequentie’s) invullen
2 boxplot berekenen
stat  calc  1  1 var stats L1,L2
(L1,+2  2nd  1,2)
3 boxplot tekenen
2nd  stat plot  1  on  type ‘5e’  graph
4.4
relatieve cumulatieve frequentie
∙
100
De relatieve cumulatieve
frequentiepolygoon kun je goed
gebruiken om een boxplot te
tekenen.
∙
75
∙
50
0%  kleinste getal = 3
25%  1e kwartiel (Q1) = 10
50%  mediaan = 13
75%  3e kwartiel (Q3) = 20
100%  grootste getal = 24
∙
25
∙3
0
5
10
10 1315
20
5
10
20
25
24
boxplot
0
15
25
4.4
Spreidingsmaten
vaak wordt naast een centrummaat een zogenaamde spreidingsmaat
berekend om aan te geven hoever de data in een verdeling uitelkaar
liggen
spreidingsbreedte : verschil tussen het grootste en kleinste getal
kwartielafstand : verschil tussen het 1e en 3e kwartiel (Q3 – Q1)
4.4
opgave 42
a bij elke klas is de mediaan 3 km.
b nee, de mediaan is bij elke klas hetzelfde
c in klas 4A zit 50% tussen 1 en 5 km
in klas 4B zit 50% tussen 2 en 4 km
d in klas 4A is de spreiding het grootst
in klas 4C is de spreiding het kleinst
De standaardafwijking
de meest gebruikte spreidingsmaat is de standaardafwijking
om de standaardafwijking te berekenen moet je eerst van elk
waarnemingsgetal berekenen hoe ver het van het gemiddelde afligt
zo krijg je bij elk waarnemingsgetal x de deviatie d
d = x – x ( de afwijking van het gemiddelde )
standaardafwijking σ = √gemiddelde van (x – x)2
het berekenen van σ doe je met (TI) 1-Var Stats L1,L2  σx
of (Casio) 1VAR  xσn
4.4
opgave 49
gewicht
freq.
4,8
4,9
5,0
5,1
5,2
5,3
5,4
2
4
10
18
12
3
1
a voer in lijst 1 = {4.8,4.9,5.0,5.1,5.2,5.3,5.4}
en lijst 2 = {2,4,10,18,12,3,1}
optie 1-Var Stats L1,L2 of 1VAR geeft
minX = 4,8 ; Q1 = 5 ; Med = 5,1 ; Q3 = 5,2 ; maxX = 5,4
mediaan = 5,1
kwartielafstand = Q3 – Q1 = 5,2 – 5 = 0,2
spreidingsbreedte = maxX – minX = 5,4 – 4,8 = 0,6
b schatting σ = 0,3  2σ = 0,6
2σ = spreidingsbreedte = 0,6  dat kan niet
c GR  x ≈ 5,09 en σ ≈ 0,12
gemiddelde ≈ 5,09 kg en de standaardafwijking ≈ 0,12 kg
Notaties op de GR
x
σ
σx
xσn
n
minX
maxX
Q1
Q3
Med
: het gemiddelde
: de standaardafwijking
: de standaardafwijking (TI)
: de standaardafwijking (Casio)
: het totale aantal waarnemingen
: het kleinste waarnemingsgetal
: het grootste waarnemingsgetal
: het eerste kwartiel
: het derde kwartiel
: de mediaan (het tweede kwartiel)
4.4
De populatie is de totale groep waarop het onderzoek betrekking heeft.
Een steekproef is representatief als zij een juiste afspiegeling is van de gehele
populatie
- de steekproef moet voldoende groot zijn
- de steekproef is aselect
In een gelote steekproef heeft elk element van de populatie dezelfde kans om
in de steekproef te komen.
In een gelaagde steekproef komen duidelijk te onderscheiden groepen in
dezelfde verhouding voor als in de gehele populatie.
Bij een systematische steekproef genereer je één toevalsgetal. de andere
steekproefelementen volgen hieruit door met vaste stappen door de gehele
populatie te lopen. voor de stapgrootte deel je de populatieomvang door de
steekproefomvang.
4.5
opgave 60
totaal = 50 + 70 + 25 + 40 + 75 + 45 = 305 patiënten
leeftijd
man
vrouw
0-< 18
50 × 50 = 8,20
305
dus 8
70 × 50 = 11,48
305
dus 11
18-< 48
25 × 50 = 4,10
305
dus 4
40 × 50 = 6,56
305
dus 7
48 en ouder
75 × 50 = 12,30
305
dus 12
45 × 50 = 7,38
305
dus 7
het aantal is 8 + 11 + 4 + 7 + 12 + 7 = 49
om aan een steekproeflengte van 50 te komen kiezen we
een extra man van 18-< 48
Oefen opgave1
Lengte van gereserveerde ski's
Maak een frequentieverdeling van deze
gegevens. ( eerste klasse 110 -< 115)
134
135
124
120
116
124
127
129
Bereken de drie centrummaten op twee
manieren.
111
122
128
115
119
123
125
116
Teken het bijbehorend histogram.
130
121
121
127
Maak m.b.v. de relatieve gecumuleerde
frequentie grafiek de boxplot.
119
123
112
131
124
133
128
137
127
115
129
121
126
132
116
120
130
119
113
114
Wat is de spreidingsbreedte, de
kwartielsafstand en de
standaardafwijking?
Lengte maat
( in cm
110 -< 115
f
4
115 -< 120
8
120 -< 125
11
125 -< 130
130 -< 135
9
6
135 -< 140
2
m
112,5
117,5
122,5
127,5
132,5
137,5
40
gemiddelde
123,88
modus
122,5
nr v/d mediaan
20,5
mediaan
121,14
f*m
450
940
1348
1148
795
275
4955
Lengte van gereserveerde ski’s
f
r
e
q
u
e
n
t
i
e
12
10
8
6
4
2
0
110
115
120
125
130
135
140
Skilengte in cm
Gecum. freq.verdeling
klassegrens
abs.
rel.
-<
110
0
0,0
-<
115
4
10,0
-<
120
12
30,0
-<
125
23
57,5
-<
130
32
80,0
-<
135
38
95,0
-<
140
40
100,0
Gecumuleerde relatieve verdeling ski lengtes.
Standaardafwijking=6,71
% 100,0
minX=110
Q1=117,5
80,0
Med=122,5
60,0
Q3=127,5
maxX=140
40,0
20,0
Kwartielsafstand = 10
0,0
100
110
120
130
140
skilengte in cm
110
119 124 128
140
150
Download