Oefeningen 4

advertisement
Beschrijvende statistiek
sta 1
Inleiding:
De cursus bevat vijf hoofdstukken en heeft als doel om zoveel als mogelijk de computer te gebruiken
bij het verwerken van statistische gegevens.
Voor het verwerken van de gegevens werd gekozen voor MS-EXCEL
Het gebruik van Excel wordt in het begin van deze notities beschreven, hiertoe werden de notities
genomen die op de website.wiskunde ter beschikking zijn. Ze werden opgesteld door Paul De
Cuypere in voorbereiding van de ‘Dag van de Wiskunde’ 1998.
De notities zijn ter beschikking van iedereen.
(dpb.sip.be/secundair/wiskunde/ICT in de wiskundeles)
Hst 1:
Hst 2:
Hst 3:
Hst 4:
Hst 5:
Statistische gegevens
Het ordenen van gegevens
Grafische voorstelling van een gegroepeerde frequentietabel
Centrummaten
Spreidingsmaten
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 2
Hoofdstuk 1: statistische gegevens
1.1
Inleiding
We zoeken voorbeelden omtrent het gebruik van statistiek in onze maatschappij.
(het vergelijken van het gezinsinkomen in meerdere landen, bedrijfsinkomsten, de resulaten van de
leerlingen,…)
1.2
Begrippen
1.2.1
De populatie
Het betreft de verzameling van personen of objecten die bestudeerd worden. Als voorbeelden nemen
we: de Belgische bevolking, de waspoedergebruikers, …
1.2.2
Een steekproef
Is een verzameling van elementen van de populatie waarvoor de waarnemingen worden uitgevoerd.
b.v.: de krantenlezers in Leuven, de waspoedergebruikers in Gent, de luisteraars naar een regionaal
radiostation, …
1.2.3
Een variabele
Is een kenmerk van de populatie-elementen dat men wil nagaan of meten.
b.v.: het stemgedrag, het gewicht van een product in de verpakking, de lichaamslengte, het
gezinsinkomen, …
1.2.4
Wat doet de statistiek?
Het is de wetenschap die de eigenschappen van de elementen van een verzameling bestudeert door
tellingen, metingen of waarnemingen.
Hiertoe gebeurt het volgende:



het samenstellen van de steekproef en het verzamelen van de gegevens;
het ordenen van de gegevens, het maken van een voorstelling en het berekenen van een aantal
typerende waarden;
het nagaan van de betrouwbaarheid van de resultaten.
De beschrijvende statistiek, ons leeronderwerp, leert ons ordenen en typerende waarden berekenen.
1.3
Het bepalen van de steekproef
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 3
Het samenstellen van de steekproef is een moeilijke opdracht, wie kiest men als persoon, waar halen
we de producten die we willen onderzoeken, …
 De steekproef moet representatief zijn voor de ganse populatie.
 De steekproef moet een voldoende omvang hebben.
 De vraagstelling moet gebeuren over meetbare onderwerpen en met een zeer duidelijke
vraagstelling.
1.4
Het sigmateken ()
4
 xi = x1 + x2 + x3 + x4
i=1
5
 (2xi) = 2x3 + 2x4 + 2x5
i=3
Eigenschappen :
E1 :  (xi + yi) =  xi +  yi
E2 :  (a.xi) = a. xi
E3 :  (a) = n.a
1.5
Het rekenkundig gemiddelde
V = { x1, x2, …xn}
m = ( xi) / n
1.6
statistiek en excel
Het rekenblad Excel biedt heel wat mogelijkheden voor de verwerking van gegevens in de
beschrijvende statistiek. In het geheel van de voorliggende notities worden heel wat voorbeelden
uitgewerkt.
De meeste functies die we gebruiken, zijn ook in andere rekenbladen mogelijk, zij het in een ietwat
aangepaste vorm. Zelfs in een eenvoudig rekenblad zoals dat van het pakket MS-Works zitten
voldoende mogelijkheden om uit te werken wat in deze notities voor Excel beschreven wordt.
Na de ervaringen met het rekenblad die de leerlingen hebben verworven tijdens de lessen informatica
in de tweede graad, is het in principe mogelijk alle oefeningen met de computer te maken (ook de
grafische rekentoestellen bieden heel wat mogelijkheden).
Het kan in Excel nuttig zijn om vooraf een aanvulling in de menu’s aan te brengen. Kies in het menu
extra voor invoegtoepassingen. Bij de mogelijkheden die nu verschijnen, vink je het vakje analysis
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 4
toolpak aan. Door deze keuze wordt in het vervolg in datzelfde menu extra onderaan een keuze
bijgeplaatst : gegevensanalyse.
1.7
Enkele voorbeelden uitgewerkt met Excel
Gebruik deze bladzijden (samen met de voorbeelden in bijlage) om vlot statistiek te verwerken met
Excel.
beschrijvende statistiek
en excel
Het rekenblad Excel biedt heel wat mogelijkheden voor de verwerking van gegevens in de
beschrijvende statistiek. We werken hieronder enkele typische voorbeelden uit.
De meeste functies die hierbij gebruikt worden, zijn ook in andere rekenbladen mogelijk, zij
het in een ietwat aangepaste vorm. Zelfs in een eenvoudig rekenblad zoals dat van het
pakket MS-Works zitten voldoende mogelijkheden om uit te werken wat hieronder in Excel
gebeurt.
Omdat de leerlingen in de tweede graad normaal gezien in de lessen informatica allemaal
wat kennis van een rekenblad hebben opgedaan, is het in principe mogelijk om de
leerlingen de oefeningen te laten maken op de computer (in plaats van met een
rekentoestel). De ervaring leert mij dat zoiets wel de nodige tijd (1 à 2 lessen) vraagt om aan
te leren. Positief is dan wel dat de leerlingen gewoonlijk enthousiast zijn om op die manier te
werken. Een praktisch probleem is natuurlijk dat de computerklas moet kunnen gebruikt
worden. Is dat niet het geval, maar is er wel één computer beschikbaar (met beeldprojectie)
in bijvoorbeeld een wiskundelokaal, dan kan Excel natuurlijk gebruikt worden ter illustratie
van de gemaakte oefeningen. Vooral de grafieken uit de beschrijvende statistiek geven dan
veel tijdwinst.
Het kan in Excel nuttig zijn om vooraf een aanvulling in de menu's aan te brengen. Kies in
het menu extra voor invoegtoepassingen. Bij de mogelijkheden die nu verschijnen, vink je
het vakje analysis toolpak aan. Door deze keuze wordt in het vervolg in datzelfde menu
extra onderaan een keuze bij geplaatst: gegevensanalyse.
1 Eerste voorbeeld: statistische verwerking van een steekproef
met een beperkt aantal verschillende waarnemingsgetallen
Van 1000 gezinnen werd genoteerd hoeveel kinderen in het gezin voorkomen. Het resultaat
van die waarnemingen wordt in een frequentietabel weergegeven. Voor het opstellen van
die tabel zijn 5 kolommen opgenomen:
xi : waarnemingsgetallen
ni : frequentie van de waarnemingsgetallen
fi : relatieve frequentie (procentueel t.o.v. het totaal)
cni : cumulatieve frequentie
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 5
cfi : relatieve cumulatieve frequentie
Van deze grootheden worden achteraf grafieken gemaakt.
De titels boven de kolommen en de opmaak moeten zelf ingetypt en ingesteld worden.
Ook de getallen uit de eerste twee kolommen moeten natuurlijk ingetypt worden. De laatste
drie kunnen we laten berekenen door Excel:
in cel C9 =B9/B$18 en omlaag doorvoeren
D9 =B9 en in D10 =D9+B10 en omlaag doorvoeren
E9 =D9/B$18 en omlaag doorvoeren
B18 =som(B9:B17) en in C18 =som(C9:C17)
De cellen van relatieve frequentie en cumulatieve relatieve frequentie hebben getalopmaak
percentage (in te stellen via opmaak - celeigenschappen - getal).
Voor de berekening van het gemiddelde en de standaardafwijking worden nog twee
kolommen bij gemaakt: een kolom voor
en voor
:
in cel G9 =A9*B9 en omlaag doorvoeren
H9 =A9^2*B9 en omlaag doorvoeren
G18 =som(G9:G17) en in H18 =som(H9:H17)
Onder de frequentietabel (maar de plaats is natuurlijk vrij te kiezen), zijn de centrummaten
en de spreidingsmaten berekend. Eerste en derde kwartiel, mediaan modus en
variatiebreedte, zijn niet door Excel berekend (dat kan wel als alle waarnemingsgetallen
ingetypt worden vóór de frequentietabel: zie tweede voorbeeld). Voor de andere zijn de
volgende formules ingegeven:
in cel E24 =G18/B18 E31 =E26-E25
E32 =wortel(H18/B18-E24^2) E33 =E32/E24
Gemiddelde en standaardafwijking zijn hier dus berekend met de volgende formules:
Bemerk dat Excel ook rechtstreeks het gemiddelde en de standaardafwijking kan
berekenen, weer op voorwaarde dat alle waarnemingsgetallen afzonderlijk ingegeven zijn.
Grafieken van deze verschillende frequenties
Van zowel de frequentie, de relatieve frequentie, de cumulatieve frequentie en de relatieve
cumulatieve frequentie is een grafiek gemaakt. Voor de 4 grootheden is dat op precies
dezelfde manier gebeurd. Bij de uitleg beperken we ons dan ook tot één grafiek,
bijvoorbeeld die van de cumulatieve frequentie.

selecteer de getallen waarvan de grafiek moet getekend worden; hier dus de cellen
D9 tot en met D17
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek

sta 6
Druk op de knop Wizard grafieken bovenaan in de werkbalk (of kies invoegengrafiek…). Er zijn nu 4 stappen nodig om de grafiek te voltooien:
- eerste stap: kies het grafiektype; voor onze oefening: kies het eerste (kolom):
- tweede stap: (je ziet nu overigens al een voorlopig voorbeeld van de grafiek)
In het vakje gegevensbereik moet normaal niets gewijzigd worden (de selectie vooraf
van de cellen D9-D17 zorgt ervoor dat dit vakje al ingevuld is); is het vakje toch leeg
of verkeerd, dan klik je in dat vakje, maak het eventueel leeg, en selecteer nu in het
rekenblad de cellen D9-D17;
in het tabblad reeks staat alles meteen ook goed ingevuld, behalve het vakje labels
categorieas (X); dat vakje is bedoeld om de cellen aan te geven van de waarden die
bij de X-as horen; klik dus in het vakje en selecteer de cellen A9-A17. In sommige
gevallen is dit invullen niet nodig, namelijk als Excel zelf ontdekt waar die gegevens
staan.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 7
- derde stap: de meeste zaken die hier kunnen ingevuld worden, spreken voor zich:
titel bovenaan de grafiek, bij de assen, weergeven van assen en rasterlijnen enz. We
kiezen hier om géén labels af te drukken, ook geen gegevenslabels (getallen
bovenaan de staven van de grafiek, de eigenlijke waarden van de grafiek dus).
- vierde stap: kies de plaats waar de grafiek moet komen: in een nieuw (reken)blad,
of als een object in het actuele rekenblad; kies voor de tweede mogelijkheid:
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 8

De grafiek komt nu als object in het rekenblad; sleep die grafiek eerst naar een plaats
waar ze goed thuis hoort, pas eventueel al de afmetingen aan.

Het wijzigen van de onderdelen van de grafiek gebeurt nu bijvoorbeeld door dubbel
te klikken op dat item. Wil je bijvoorbeeld het lettertype van de titel veranderen of de
grootte ervan wijzigen, klik dan dubbel op die titel. Wil je bijvoorbeeld de kleur van de
staaf wijzigen, klik dan dubbel op één van de staven, en kies voor het tabblad
patronen. In hetzelfde venster, tabblad opties, kun je de breedte van de ruimte tussen
de staven aanpassen. Daardoor worden de staven smaller of breder.
2 Tweede voorbeeld: statistische verwerking van een steekproef met veel
verschillende waarnemingsgetallen (indeling in klassen)
We werken het voorbeeld uit waarbij van 120 leerlingen het resultaat van een proefwerk
wiskunde opgetekend is (in procenten uitgedrukt, afgerond op de eenheid).
Zoals gebruikelijk bij veel verschillende waarnemingsgetallen, worden de getallen in klassen
verdeeld. Alle waarnemingsgetallen binnen één klasse krijgen dan dezelfde waarde: die van
het klassemidden. Daardoor krijgen we in de berekeningen (overigens aanvaardbare) kleine
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 9
afwijkingen tussen bijvoorbeeld het precieze gemiddelde en het gemiddelde berekend
volgens de klassen. (In Excel kunnen we nu overigens gemakkelijk deze afwijking nagaan.)
Er is natuurlijk veel gelijkenis tussen het statistisch verwerken van deze gegevens in
klassen en het vorige voorbeeld, maar ook wat verschil. Met name het indelen in klassen is
een bijkomende berekening die moet gebeuren. Maar ook hier kan Excel ons helpen.
We typen eerst alle 120 waarnemingsgetallen in, bijvoorbeeld in de cellen A3-J14. Om de
klassen te definiëren zoeken we eerst het grootste en het kleinste waarnemingsgetal (zie
K21 (=MAX(A3:J14)) en L21 (=MIN(A3:J14))). We kunnen er uit afleiden dat 9 klassen een
goede verdeling zullen geven: [45;49] [50;54] [55;59] … [80;84] [85;89].
Om Excel nu de frequentie te laten zoeken die in elke klasse voorkomt, voeren we de
volgende stappen uit:

typ ergens in het rekenblad (desnoods buiten de af te drukken bladzijde; hier is
gekozen voor A17-A25) de waarden 49 54 59 … 84 89 in. Excel gaat namelijk op
zoek naar het aantal waarnemingsgetallen (voor de eerste klasse) kleiner dan of
gelijk aan 49, voor de tweede klasse groter dan 49 en kleiner dan of gelijk aan 54
enz.

kies nu voor extra - gegevensanalyse - histogram en vul de volgende gegevens in:
(invoerbereik = plaats waar de te verwerken gegevens staan, dus A3-J14;
verzamelbereik = grenzen waarmee de klassen gemaakt worden, dus A17-A25;
uitvoerbereik = plaats vanaf waar de frequentietabel (indeling in klassen) zal ingevuld
worden)

Door op OK te klikken verschijnt op de plaats van het uitvoerbereik de volgende
tabel:
Verzamelbereik
Frequentie
49
1
54
2
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 10
Meer
59
4
64
28
69
32
74
29
79
12
84
9
89
3
0
Deze tabel geeft ons dus de frequentie waarmee de waarnemingsgetallen in elke klasse
voorkomen. We passen nu zelf deze tabel aan, zodat die zo goed mogelijk gelijkt op de
frequentietabel uit het eerste voorbeeld. Verzamelbereik vervangen we door klassen, we
voorzien ook een kolom voor het klassemidden.
We brengen ook weer een kolom aan met de waarden
en voor
(met xi is nu
telkens het klassemidden bedoeld).
We kunnen nu de statistische waarden voor centrum en spreiding zowel voor de
oorspronkelijke 120 getallen laten berekenen (is dus exact), als voor de gegevens in
klassen ingedeeld (bevat kleine afwijkingen ten opzichte van de exacte waarden). In het
rekenblad staan de eerste onder de oorspronkelijke tabel van 120 getallen (kolom K), de
tweede onder de frequentietabel. Voor de berekening van deze laatste kan precies dezelfde
werkwijze gevolgd worden als bij het eerste voorbeeld.
Voor de berekening van de juiste statistische grootheden zijn de volgende formules
gebruikt:
in cel K24 =gemiddelde(A3:J14) K25 =mediaan(A3:J14)
K26 =kwartiel(A3:J14;1) K27 =kwartiel(A3:J14;3)
K28 =modus(A3:J14) K30 =K21-K22
K31 =K27-K26 K32 =STDEVP(A3:J14) K33 =K32/K24 (standaarddeviatie van een
steekproef met de volledige populatie)
Grafieken van deze verschillende frequenties
Ook nu is het maken van de grafieken vrij gelijklopend met het eerste voorbeeld. Toch zijn
er ook een paar belangrijke verschillen:

bij gebruik van staafdiagrammen kan nu beter (ook om een onderscheid te maken
met verwerking van gegevens niet in klassen) een brede staaf gebruikt worden: in het
tabblad opties van gegevensreeks opmaken wordt daarvoor gekozen voor een kleine
tussenruimte tussen de staven (bij de afdrukken in de voorbeelden is zelfs gekozen
voor een breedte nul).

Als met klassen gewerkt wordt, wordt dikwijls gebruik gemaakt van een polygoon in
plaats van een staafdiagram (kan nuttig zijn om bijvoorbeeld op de grafiek een vlugge
benaderende waarde van de mediaan en de kwartielen af te lezen). In dat geval is
grafiektype dus niet kolom maar lijn.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 11

Bij de cumulatieve frequentiepolygonen worden beter de klassegrenzen op de X-as
geplaatst dan de klassemiddens; daartoe moeten ergens die grenzen op het
rekenblad vermeld worden om ze nadien bij de grafiek als waarden voor de X-as te
kunnen opgeven. In de afdruk zijn die grenzen ingevuld op B17-B26. Het kan
natuurlijk ook buiten de bladzijde gebeuren zodat ze niet afgedrukt worden samen
met de grafieken.

Nog een detail: de waarden op de X-as kunnen bij de streepjes op de X-as afgedrukt
worden, of ertussen. Ook dat is van belang: bij staafdiagrammen staan de
aanduidingen beter tussen, bij polygonen beter onder de streepjes. Die instelling kan
gebeuren door dubbel te klikken op categorieas (X-as). Er verschijnt dan het volgend
menu:
3 Correlatie en lineaire regressie
Van 8 personen wordt de lengte en het gewicht genoteerd:
persoon
lengte
(cm)
gewicht
(kg)
A
B
C
D
E
F
G
H
165
182
172
175
167
174
178
168
67
79
68
79
65
74
76
66
We zetten de punten met coördinaten bestaande uit de lengte en gewicht van de personen
uit in een grafiek. Bij sterkere (lineaire) correlatie tussen de twee reeksen
waarnemingsgetallen, liggen de punten sterker geconcentreerd rond een rechte: de
regressielijn.
De correlatie tussen lengte en gewicht van een persoon wordt dan uitgedrukt door de
correlatiecoëfficiënt r (waarde tussen -1 en 1; 0 = geen verband, dicht bij +1 is sterke
positieve correlatie, dicht bij -1 is sterke negatieve correlatie).
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 12
Zowel de regressielijn als de correlatiecoëfficiënt zijn met Excel eenvoudig te vinden:

zorg er voor dat zowel de lengte van de personen als het gewicht in het rekenblad
ingevuld staan
(bvb in C5-C12 en D5-D12);
selecteer eventueel vooraf die 2 reeksen getallen;

kies voor invoegen-grafiek (of de knop wizard grafieken);
kies als grafiektype spreiding (de gegevens worden dan als losse punten op de
grafiek geplaatst);
de rest van de stappen om te komen tot een nieuwe grafiek lijken vrij goed op de
andere grafieken in de vorige voorbeelden; eventueel kan de schaal op de Y-as
aangepast worden (niet beginnen bij 0, maar bijvoorbeeld beginnen bij 60);

als de grafiek getekend is moet nu nog de regressielijn aangebracht worden, en de
regressiecoëfficiënt berekend worden; zorg dat eerst de grafiek aangeklikt wordt; kies
dan in het menu bovenaan voor grafiek en daarin voor trendlijn toevoegen; bij type
kies je voor lineair en bij opties voor vergelijking in grafiek weergeven en R-kwadraat
in grafiek weergeven.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
1.8
sta 13
Soorten variabelen
Variabelen zijn kenmerken die men wil nagaan in een populatie.
Er zijn :

Kwantitatieve variabelen
Leveren getallen als gegevens : continu bij meetresultaten (R), discreet als het telresultaten
zijn (Z).

Ordinale variabelen
Drukken een rangorde uit. (bij een beoordeling : goed – normaal – slecht ; het kan ook een
waardeschaal zijn (vb. een schaal van 1 tot 5))

Nominale variabelen
Hier wordt een duidelijk oordeel gegeven : goed-niet goed, politieke partij, merk frisdrank, …
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 14
Oefeningen 1
1.1


Geef voor elk van de beschreven gevallen :
Beschrijf de populatie, steekproef en de onderzochte variabele
Is de steekproef betrouwbaar ?
1.1.1
Een krant wenst na te gaan hoeveel boeken de Vlamingen lezen. Hiertoe interviewt een
journalist in Leuven en Gent telkens 50 personen.
1.1.2
Een bedrijf wenst na te gaan zo de automatische weging en verpakking betrouwbaar is.
Hiertoe worden gedurende een week 10 pakjes gewogen van de productie om 10 uur, om 13
uur en om 15 uur. Het bedrijf produceert wekelijks 10 000 pakjes
1.1.3
Een politicus wil weten hoeveel mensen zijn toespraak op de radio beluisterd hebben Hij
telefoneert hierom naar 30 mensen uit zijn arrondissement.
1.1.4
Om de kijkdichtheid van zijn programma te controleren vraagt een lokale TV-zender aan 100
gezinnen om gedurende een maand een dagboek bij te houden.
1.1.5
Een firma wenst de invloed van en reclamespot op TV te onderzoeken. Hiertoe vraagt ze aan
20 winkels, verspreid over het Vlaamse land, gedurende één maand de verkoop van het
product te noteren.
1.2
Bereken het gemiddelde (met het rekentoestel)
1.2.1
1.2.2
1.2.3
{4,15,2,8,6,4,10,12,7,13,9}
{4,2,2,6,4,4,15,8,2,17,10,4,2,6,1}
{6,-3,0,-11,7,4,-3}
1.3
Schrijf voluit.
1.3.1
 xi
(i=15)
1.3.2
 ( 3xi + 2)
(i=2  7)
1.3.3
 (3.xi – 4)2
(i=2  3)
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 15
Hoofdstuk 2 : het ordenen van de gegevens
2.1
Het turven
De gegevens van een statistische proef zijn binnen, het tellen en ordenen begint. Het eerste probleem
van statistici is het scheppen van enige orde in die veelheid van gegevens.
Tot voor enkele jaren was de eenvoudigste methode het onder elkaar plaatsen van de verschillende
variabelen en een streepje te plaatsen telkens een bepaalde vaiabele voorkomt : het turven.
Nu worden de gegevens ingetikt in de cellen van een rekenblad en worden de scores geteld met in het
programma voorziene mogelijkheden. (zie: frequentietabellen)
Voorbeeld :
Om de uitslag van de komende gemeenteraadsverkiezingen te voorspellen werd in de gemeente aan
250 mensen gevraagd naar de partij van hun voorkeur. De vijf deelnemende partijen noemen we A,
B, C, D en E.
De gegevens zijn de volgende :
CCAADBAAECBDABEACCBCDDDBAECBDACABBAEDDDDABB
ACDAACBEDDACBBADADADBDECCAADECCDAAABBADCCDA
B E C B A A B B D E D C C D A A A B BB C D C D B B C A A D A A A B C D E A A B A C D
AACBAAADAEBBAACCDAAEABAABDDCBAAABEDDCDDAABC
AABABDECCBAAADBACADABBACADAEBAACEABCCCCEABB
ACACADAAABCCABACAACCCBDEDEABAACBCBAD
De vraag : hoeveel procent van de stemmen mag elke partij verwachten ?
De variabele (partij van de keuze) is nominaal.
Resultaat van de telling :
Partij
A
B
C
D
E
Aantal stemmen
86
50
50
45
19
250
%
34,4
20
20
18
7,6
De voorspelling spreekt nog meer aan als ze op een aanschouwelijke manier wordt voorgesteld.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
2.2
sta 16
Frequentie van een waarnemingsgetal
Voorbeeld :
In een bepaalde straat tekenen we gedurende 20 weken het aantal verkeersongelukken per week op :
0 1 1 3 0 1 1 2 2 4 3 1 2 0 2 1 1 3 0 2
Om meer overzicht te krijgen, zullen we de waarnemingsgetallen rangschikken in stijgende volgorde.
We hebben dan een gerangschikte tabel en kunnen zo beter de frequentie bepalen.
0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4
2.2.1 De absolute frequentie (AF) ni
De absolute frequentie ni van de variabele (waarnemingsgetal) xi is het aantal keren dat xi voorkomt.
2.2.2
De relatieve frequentie (RF) fi
De relatieve frequentie fi van de variabele xi is de verhouding van de absolute frequentie ni tot het
totaal aantal gegevens. fi = ni/n
2.2.3
De cumulatieve absolute frequentie (CAF) cni
De cumulatieve absolute frequentie cni van het waarnemingsgetal xi is gelijk aan het aantal variabelen
(waarnemiçngsgetallen) kleiner dan of gelijk aan xi.
Cn5 = n1 + n2 + n3 + n4 + n5
2.2.4
De cumulatieve relatieve frequentie (CRF) cfi
De cumulatieve relatieve frequentie cfi van de variabele (waarnemingsgetal) is de som van de
relatieve frequenties van de variabelen kleiner dan of gelijk aan xi.
Cfi = f1 + f2 + … + fi
2.3
Frequentietabellen
Een frequentietabel is een gerangschikte tabel variabelen (waarnemingsgetallen) waarin bij elke
variabele de frequenties vermeld worden.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 17
Voorbeeld :
Een plaatselijke fabrikant van schoenen vraagt voor de planning van de komende productie een
overzicht van de schoenmaten van de laatstejaarsscholieren van onze school.
We plaatsen de resultaten linksboven in een rekenblad. (beschikbaar op diskette)
Voorbeeld:
schoenmaten
42
44
43
41
41
41
39
45
40
40
40
41
39
42
40
43
41
41
42
41
39
42
42
43
44
41
40
40
40
45
42
42
42
39
42
43
41
41
41
42
39
40
41
40
43
42
40
42
40
39
42
44
43
41
43
41
39
43
41
40
40
38
39
41
41
40
42
38
42
44
40
42
42
41
41
41
44
42
40
42
43
41
43
40
40
Voor de verwerking van de resultaten maken we gebruik van de mogelijkheden van het rekenblad.
Kleinste schoenmaat : =min(invoerbereik)
Grootste schoenmaat : =max(invoerbereik)
Hieronder plaatsen we nu in een verticale kolom de verschillende schoenmaten. (verzamelbereik)
Met de mogelijkheden van gegevensanalyse maken we nu de eerste kolommen van onze
frequentietabel. (uitvoerbereik=de plaats waar we de tabel willen plaatsen)
We bekomen volgend resultaat :
Voorbeeld: schoenmaten
42
44
43
41
41
41
39
45
40
40
40
41
39
42
40
43
41
41
42
41
39
42
42
43
44
41
40
40
40
45
42
42
42
39
42
43
41
41
41
42
39
40
41
40
43
42
40
42
40
39
42
44
43
41
43
41
39
43
41
40
40
38
39
41
41
40
42
38
42
44
40
42
42
41
41
41
44
42
40
42
43
41
43
40
40
xi
ni
38
39
40
41
2
8
18
21
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
Kleinste:
Grootste:
sta 18
38
45
42
43
44
45
Meer
38
39
40
41
42
43
44
45
xi : verzamelbereik
19
10
5
2
0
ni : frequentie
We bekomen volgend eindresultaat :
xi
ni
38
39
40
41
42
43
44
45
2.4
fi
cni
2
8
18
21
19
10
5
2
0,024
0,094
0,212
0,247
0,224
0,118
0,059
0,024
85
1
2
10
28
49
68
78
83
85
cfi
0,024
0,118
0,329
0,576
0,800
0,918
0,976
1,000
Variatiebreedte van een tabel variabelen (waarnemingsgetallen)
De variatiebreedte R van een tabel variabelen of van een steekproef is het verschil tussen de grootste
en de kleinste variabele.
R = xn – x 1
Bij het vorige voorbeeld :
2.5
R = 45 – 38 = 7
Grafische voorstelling van een frequentietabel
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 19
We gebruiken het voorbeeld omtrent het aantal verkeersongevallen (pg. 15)
Frequentietabel :
xi
ni
fi
cni
cfi
0
1
2
3
4
4
7
5
3
1
0,20
0,35
0,25
0,15
0,05
4
11
16
19
20
0,20
0,55
0,80
0,95
1,00
Staafdiagram :
Door een frequentietabel met absolute frequentie (ni) of relatieve frequentie (fi) wordt een functie f :xi
ni of f : xi  fi bepaald.
De grafiek ervan bestaat uit de punten met coördinaten (xi,ni) of (xi,fi) en wordt een staafdiagram
genoemd. Op de X-as wordt een loodlijnstuk getekend.
2.6
Gegroepeerde frequentietabellen
Voorbeeld :
We bepalen de lichaamslengte in cm van 100 jonge mensen die hogere studies willen aanvangen.
(Uit het rekenblad halen we de gegevens)
Voorbeeld: de lichaamslengte van 100 jonge
mensen
192 158 179 169 178 169 180 168 162 168
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 20
175 174 172 188 170 182 167 161 166 185
157 181 186 157 190 165 158 174 165 166
163 164 176 155 189 171 173 181 172 194
172 167 159 170 169 168 174 176 160 161
185 175 170 152 184 156 162 161 170 182
191 155 164 168 159 181 166 171 177 160
167 195 156 182 173 170 182 183 175 165
173 178 167 178 174 171 163 169 167 171
161 162 178 187 178 155 184 168 167 179
Om bij de steekproeven met heel wat waarnemingen en beter zicht te krijgen op de resultaten ordent
men niet per waarnemingsgetal. Het interval der waarnemingsgetallen wordt hiertoe verdeeld in
klassen.
Het probleem bij een klassentabel is : hoeveel klassen en welke indeling !
Gewoonlijk kiest men tussen 10 en 20 klassen. Het interval wordt dan verdeeld in gelijke
deelintervallen.
We krijgen een gegroepeerde frequentietabel door :
 De waarnemingsgetallen xi te groeperen in klassen zodanig dat elke xi tot één en precies één
klasse behoort ;
 Voor elke klasse een getal als vertegenwoordiger te kiezen ;
 Het aantal waarnemingsgetallen in een klasse als frequentie toe te kennen aan de
klassevertegenwoordiger.
2.6.1
Klassen
Een klasse is een verzameling van waarnemingsgetallen die tot een half-open interval ]ai,bi] behoren.
(het rekenblad bepaalt steeds het aantal elementen kleiner dan de opgegeven bovengrens)
2.6.2
Aantal klassen
Het interval bepaald door de laagste en de hoogste waarnemingsgetallen verdelen we over 10 à 20
klassen. Het aantal is afhankelijk van het aantal waarnemingsgetallen. Het heeft immers geen zin te
veel klassen met één waarnemingsgetal te hebben.
2.6.3 Variatiebreedte
Het verschil tussen het hoogste en het laagste waarnemingsgetal.
2.6.4
Klassegrenzen
ai en bi zijn de klassegrenzen.
Om vergissingen uit te sluiten nemen we de eerste grens 0,5 ; 50 ; … kleiner dan het laagste
waarnemingsgetal. De keuze is afhankelijk van de waarnemingsgetallen.
Vb. : bij waarnemingsgetallen als 8, 11, 17, 13, … nemen we ai = 7,5
bij waarnemingsgetallen als 2700, 3700, … nemen we ai = 2650
De klassegrenzen worden bepaald na deling van de variatiebreedte door het aantal gewenste klassen.
2.6.5
Klassemidden
Het klassemidden van een klasse is het rekenkundig gemiddelde van de klassegrenzen.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 21
(ai + bi)/2
2.6.6
Klassefrequentie
De absolute frequentie van een klasse is het aantal waarnemingsgetallen die tot de klasse be-horen.
2.6.7
Klassebreedte
De klassebreedte is het verschil tussen de boven- en ondergrens van de klasse.
2.7
Voorbeelden
2.7.1
Voorbeeld 1 : lichaamslengte
Frequentietabel
Klasse midden AF RF CAF CRF
xi
ni fi
cni
cfi
148-152
150
1 0,01
1 0,01
152-156
154
5 0,05
6 0,06
156-160
158
8 0,08
14 0,14
160-164
162 11 0,11
25 0,25
164-168
166 17 0,17
42 0,42
168-172
170 16 0,16
58 0,58
172-176
174 12 0,12
70
0,7
176-180
178
9 0,09
79 0,79
180-184
182 10 0,1
89 0,89
184-188
186
5 0,05
94 0,94
188-192
190
4 0,04
98 0,98
192-196
194
2 0,02 100
1
Meer
0
0
100
Langste:
195
Kortste:
152
Variatiebreedte: 43
Klassenbreedte
4
:
We zien hier een veel voorkomend type gegroepeeerde frequentietabel verschijnen : het
symmetrische type. Hierbij vinden we de dichtst bevolkte klassen in het midden van de tabel en zijn
de klassefrequenties in het begin en op het einde heel wat lager.
2.7.2
Voorbeeld 2 : gezinsinkomen
In een gemeente wordt voor een steekproef van honderd gezinnen het jaarlijks gezinsinkomen
gegeven in veelvouden van 1000 BEF (en afgerond tot op een veelvoud van 1000 BEF)
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 22
Gezinsinkomen van 100
gezinnen
302
365
285
319
274
338
430
348
448
300
280
335
450
423
367
356
269
587
360
398
340
537
305
493
384
708
642
249
653
481
233
347
358
267
284
390
513
385
375
333
350
392
813
328
465
471
299
459
621
328
524
381
857
925
600
554
740
492
547
409
645
705
270
787
319
344
575
412
466
454
402
593
327
462
243
368
508
296
391
314
295
275
250
581
404
323
454
336
278
335
312
505
406
346
317
258
383
400
282
298
Met de computer bekomen we de eerste basisberekeningen :
laagste inkomen:
Hoogste
inkomen:
Variatiebreedte
:
Klassenbreedte
:
290
350
410
470
530
590
650
710
770
830
890
950
Klassengrens
290
350
410
470
530
590
650
710
770
830
890
950
Meer
233
925
692
60
ni
15
27
20
11
8
6
5
3
1
2
1
1
0
Op basis van de variatiebreedte en met de wens een tiental klassen te nemen kiezen we voor een
klassebreedte van 60.
De bovengrenzen van de klassen plaatsen we in de kolom links. Met gegevensanalyse bekomen we
de elementaire tabel die hierboven wordt afgebeeld.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 23
We werken die verder uit tot een frequentietabel.
Klasse
midden Ni fi
cni
]230;290]
260 15 0,15
]290;350]
320 27 0,27
]350;410]
380 20 0,2
]410;470]
440 11 0,11
]470;530]
500
8 0,08
]530;590]
560
6 0,06
]590;650]
620
5 0,05
]650;710]
680
3 0,03
]710;770]
740
1 0,01
]770;830]
800
2 0,02
]830;890]
860
1 0,01
]890;950]
920
1 0,01
100
1
cfi
15
42
62
73
81
87
92
95
96
98
99
100
0,15
0,42
0,62
0,73
0,81
0,87
0,92
0,95
0,96
0,98
0,99
1
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
2.7.3
sta 24
Voorbeeld 3
We hernemen het voorbeeld omtrent de schoenmaten (2.3, pg. 17)
Het diagram van de gecumuleerde relatieve frequentie ziet er uit als volgt :
schoenmaten
1,200
1,000
CRF
0,800
0,600
schoenmaten
0,400
0,200
0,000
38
39
40
41
42
43
44
45
schoenmaat
Wegens zijn specifieke vorm noemt men deze lijn het ogief (een term uit de bouwkunst).
Gemiddelde schoenmaat :
Om te weten of de leerlingen van het laatste jaar ‘op grote voet’ leven in vergelijking met de
leerlingen van andere scholen, berekenen we het gemiddelde van de schoenmaten.
Steunend op de frequentietabel pg. 17 komen we tot volgende tabel :
Xi
38
39
40
41
42
43
44
45
ni f i
cni cfi
nixi
2 0,024
2 0,024
8 0,094 10 0,118
18 0,212 28 0,329
21 0,247 49 0,576
19 0,224 68 0,800
10 0,118 78 0,918
5 0,059 83 0,976
2 0,024 85 1,000
85
1
76
312
720
861
798
430
220
90
0
3507
3 507
x = ____ = 41,3
85
De gemiddelde schoenmaat is dus 41,3
Algemeen :
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 25
Heeft een variabele x als verschillende waarden x1, x2, …xp met absolute frequentie n1, n2, … n p dan
is het gemiddelde van x gelijk aan :
_
p
x
xn
i i
i 1
2.7.4
n
Voorbeeld 4
Bij continue variabelen met een groot aantal verschillende waarden is een gewone frequentietabel
onoverzichtelijk. In dat geval groeperen we de verschillende waarden in klassen bij elkaar.
Een Brussels taxibedrijf heeft van 200 afgedankte wagens nagegaan hoeveel kilometers zij
gepresteerd hebben voor hun afdanking.
Uit de lijst van 200 getallen halen we de twee uiterste waarden: 76 342 km en 133 800 km. Het
interval daartussen is 133 800 – 76 342 = 57 458 km breed. De keuze van 5 000 km als
klassenbreedte biedt het meeste voordeel.
We bekomen zo volgende tabel:
Afstanden klassenmidde
n
(in 1 000 (in 1 000 km)
km)
]75,80]
77,5
]80,85]
82,5
]85,90]
87,5
]90,95]
92,5
]95,100]
97,5
]100,105]
102,5
]105,110]
107,5
]110,115]
112,5
]115,120]
117,5
]120,125]
122,5
]125,130]
127,5
]130,135]
132,5
het gemiddelde:
AF
ni
nix i
4
6
18
28
36
50
32
14
5
3
2
2
200
310
495
1575
2590
3510
5125
3440
1575
587,5
367,5
255
265
20095
(20 095/200) =
11,475
Het betekent dat een taxi van het bedrijf gemiddeld 100 475 km aflegt vooraleer bedankt te worden
voor bewezen diensten.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 26
Bemerk dat bij deze berekening de gegeven getallen vervangen zijn door het midden van de klasse
waartoe ze behoren. Dit geeft enerzijds een fout, die echter meestal verwaarloosbaar is, maar
anderzijds een sterke vereenvoudiging in de berekening.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 27
Hoofdstuk 3 : Grafische voorstelling van een gegroepeerde
frequentietabel : histogram
De grafische voorstelling van een frequentietabel met klasse-indeling is het histogram of
zuilendiagram.
Op de X-as worden de klassen voorgesteld door lijnstukken. De klassenfrequenties worden
voorgesteld door zuilen (rechthoeken) waarvan de hoogten gelijk zijn aan de frequenties die op de Yas werden afgepast.
Praktische regel :



Kies op de X-as een lengte-eenheid als klasselengte en breng de beeldpunten van de
klassegrenzen aan of het klassemidden onder betrokken klas ;
Op de Y-as brengen we de klassefrequentie aan ;
De verzameling van deze rechthoeken, alle geconstrueerd aan dezelfde kant van de X-as, is het
histogram van de gegeven tabel.
Met het rekenblad :





Selecteer de gegevens die in beeld moeten gebracht worden, vb. AF ;
Druk op de knop Wizard grafieken in de werkbalk ;
Kies het grafiektype (we nemen kolom) ;
Met volgende krijg je een voorstel van grafiek ;
Met de keuze reeks kan in het vak ‘labels categories’ ingevuld worden wat we als vermelding bij
de X-as willen. We kiezen de klassemiddens.
 Met volgende krijgen we de kans namen te geven ;
 Nu moeten we kiezen waar we de grafiek gaan plaatsen ;
 Als de grafiek er staat kunnen we een en ander aanpassen : de grootte, door te klikken op een
staaf kunnen we de kleur aanpassen of met opties de afstand tussen de kolommen aanpassen.
Wiskundig kizen we voor een kolomafstand gelijk aan 0.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
3.1
Voorbeelden
3.1.1
Voorbeeld 1
sta 28
Het voorbeeld van de lichaamslengte
lichaamslengte
18
16
aantal leerlingen
14
12
10
lichaamslengte
8
6
4
2
19
0
18
2
17
4
16
6
15
8
15
0
0
lengte
Ook een cirkeldiagram behoort tot de mogelijkheden :
lichaamslengte
150
154
158
162
166
170
174
178
182
186
190
194
3.1.2
Voorbeeld 2 (het jaarlijks gezinsinkomen)
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 29
gezinsinkomen
30
25
aantal gezinnen
20
gezinsinkomen
15
10
5
0
260
320
380
440
500
560
620
680
740
800
860
920
gezinsinkomen
3.2
Eenvoudige frequentiepolygoon
Een andere grafische voorstelling van een gegroepeerde frequentietabel kunnen we uit het histogram
van de tabel afleiden.
We werken als volgt :
 Op de bovenste zijde van de rechthoek nemen we het midden van deze zijde ;
 Links van de ondergrens van de laagste klasse nemen we een punt waarvan de afstand tot de
ondergrens gelijk is aan de halve breedte van de klasse ;
 Rechts van de bovengrens van de hoogste klasse nemen we een punt op de X-as waarvan de
afstand tot de bovengrens gelijk is aan de halve breedte van deze klasse.
De gebroken lijn die we krijgen door de opeenvolgende punten met lijnstukken te verbinden, noemen
we de (enkelvoudige) frequentiepolygoon van de gegroepeerde frequentietabel.
(1)
Lichaamslengte
(2)
Gezinsinkomen
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 30
18
16
lichaamslengte
14
aantal
12
10
8
6
4
2
0
150
154
158
162
166
170
174
178
182
186
190
194
le ngte
gezinsinkomen
30
25
gezinsinkomen
aantal gezinnen
20
15
10
5
0
260
320
380
440
500
560
620
680
740
800
860
920
inkomen
Er is een duidelijk verschil tussen beide grafieken. De spreiding en centrummaten zullen die
verschillen concreter beschrijven.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 31
Nemen we op de Y-as de gecumuleerde frequentie, dan krijgen we na het verbinden van de
opeenvolgende punten met lijnstukken, de cumulatieve frequentiepolygoon.
lichaamslengte, gecumuleerd relatief
1,2
procentueel
1
0,8
0,6
Reeks1
0,4
0,2
0
150 154 158 162 166 170 174 178 182 186 190 194
lichaamslengte
gezinsinkomen, cumulatieve frequentiepolygoon
1,2
1
cfi
0,8
gezinsinkomen,
cumulatieve
frequentiepolygoon
0,6
0,4
0,2
920
860
800
740
680
620
560
500
440
380
320
260
0
klassemiddens
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 32
Oefeningen 3
3.1
Gegeven zijn een aantal statistische steekproeven.
Gevraagd :
 De frequentietabel
 Het histogram (ook wel eens het ogief en de frequentiepolygoon)
 Bereken het gemiddelde
3.1.1
Van 60 leerlingen wordt het IQ gemeten :
119 109 113 123 116 114 124 115 128 114
122 115 127 103 118 96 112 129 102 126
119 106 104 113 116 114 120 123 125 124
110 122 109 118 122 108 120 130 104 137
107 127 105 117 111 99 117 107 134 100
98 114 113 119 113 121 135 138 108 101
3.1.2
79
90
65
80
71
82
65
78
In een verzekeringsmaatschappij wordt de leeftijd bij overlijden van 80 mannelijke
verzekerden opgetekend.
64
84
76
70
30
76
89
72
68
74
66
86
77
64
73
45
85
83
37
61
55
75
92
60
50
71
58
40
78
81
57
77
80
43
94
56
49
87
55
66
57
89
77
60
72
70
76
63
74
48
68
88
58
60
68
85
82
60
78
68
69
87
62
79
70
52
75
92
73
72
81
75
3.1.3
Gemiddeld gewicht van 35 leerlingen
69
64
72
66
78
73
60
70
70
73
70
68
75
83
84
3.1.4
65
52
67
73
65
84
74
57
75
65
75
66
58
78
60
73
72
60
75
74
Van 100 klanten van een café werd nagegaan hoe lang ze bleven zitten (in minuten
uitgedrukt)
29
37
63
82
45
67
45
37
28
27
34
26
19
35
54
39
41
31
44
46
23
55
38
40
62
66
27
68
41
29
24
96
22
34
51
37
22
35
15
31
45
43
31
31
56
58
73
58
34
43
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
35
49
16
70
35
23
34
52
63
51
28
53
35
72
48
45
61
46
35
35
48
82
40
62
56
sta 33
47
45
41
28
39
41
26
56
38
54
34
35
37
61
30
47
67
51
33
92
30
73
33
49
59
 Hoeveel cafébezoekers beneden het gemiddelde ?
 Hoeveel bezoekers minstens één uur ?
 Hoeveel bezoekers tussen ¾ en 1 uur ?
3.1.5 We meten de hoeveelheid bier in 50 automatisch gevulde flesjes (in centiliter).
34,8
32,7
35,4
39
34,3
36,3
37,3
33,4
36,1
35,7
34
34,9
36,5
36,2
33,9
35,2
35,6
37,5
32,8
35,5
38,5
35,1
38
36,4
34,6
33,3 37 36,4 35
36,9 33 34,6 37,8
36,2 34,7 36,6 34,2
33,7 37,6 36,9 32,1
35 36,8 37,7 34,8
36
36,6
35,8
35,7
33,7
3.1.6 In verband met fiscale problemen tekent men in een stad het belastbaar jaarinkomen
op van 48 personen waarvan dit inkomen hoger ligt dan één miljoen BEF (er worden
veelvouden van 105 gebruikt)
12,7
11,2
19,4
12,1
10,3
17,6
22,3
24,2
25,7
14,9
12,3
10,8
15,1 37,9 20,1 11,6 27,8
11,8 26 13,1 15,6 31,6
16,8 13,8 44,6 65,6 21,5
47,8 58,2 22,9 17,1 11,4
14,2 23 40 12,4
10,5 51,3 17,8 75
29,2 14,4 12,3 18,5
80,1 32,8 14 35
3.1.7 In een grote firma vinden we voor de nettomaandwedde van 120 personeelsleden (in
veelvouden van 1 000 BEF) de volgende gegevens :
47
41
74
68
60
80
82
55
48
35
39
64
61
49
75
70
62
51
72
118
95
35
59
69
65
51
36
54
80
85
60
52
88
85
85
92 52 62 82 42 60 65 34 72 40 102
99 56 51 66 87 59 37 77 128 81 67
40 100 71 58 82 103 141 62 76 45 88
41 86 56 98 61 107 38 47 57 111 75
59 97 71 65 71 98 49 39 63 79 120
58 76 40 52 148 78 62 62 53 93 67
68 152 35 66 83 70 42
61
53
40
90
46
75
121
62
132
60
65
73
3.2.1 Wie is de schuldige ?
Na een huwelijksfeest zijn veel aanwezigen ziek geworden. Er zijn twee mogelijke
schuldigen : de visschotel of de slagroom op het nagerecht. Om klaarheid te brengen gaat men
van de 30 aanwezigen na of ze ziek (Z) zijn, of ze al dan niet vis (V) of slagroom (S) gegeten
hebben. (0=neen, 1=ja)
Aanw. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
Z
V
S
1 1 0 1 1 0 1 0 1 0 1 0
1 0 0 0 1 1 0 1 1 1 1 1
0 1 1 1 1 0 1 0 1 0 1 1
sta 34
0
0
1
1 1 1 0 1 1 1
1 0 1 0 1 0 1
0 0 1 1 1 0 1
0 1 0 0 1 1 1 0 1
1 0 1 1 0 1 1 0 1
0 1 0 1 1 1 1 0 0
1
0
1
Zoek de schuldige op.
3.2.2 Misdadigheid in steden
Van een aantal steden en gemeenten in de Verenigde Staten heeft men de midadadigheid
nagegaan om een verband te bepalen tussen het aantal misdaden en de grootte van de stad.
Het onderzoek werd uitgevoerd in 7 categorieën van gemeenten gaande van 2 000 tot 750 000
inwoners (zie tabel)
Dank zij een nauwkeurige grafiek kan men echter ook conclusies trekken zowel voor
tussenliggende categorieën (dit noemt men interpoleren) als voor grotere steden
(extrapoleren)
 Teken een frequentiepolygoon
 Lees op de figuur af hoeveel misdaden per 1 000 inwoners men mag verwachten in steden
van 100 000, 500 000 en 1 miljoen inwoners .
Gemiddeld aantal inwoners
2 000
4 500
16 000
35 000
70 000
145 000
750 000
Aantal misdaden per 1 000 inwoners
15
33
38
44
49
62
65
3.2.3 Ruwe olie en pictogra mmen
Naast de reeds geziene grafische voorstellingen maakt men in de statistiek ook soms gebruik
van pictogrammen. Hierin worden figuurtjes gebruikt die te maken hebben met het
behandelde onderwerp. Grotere figuren wijzen op grotere aantallen.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 35
Hoofdstuk 4 : centrummaten
4.1
Inleiding
Met frequentietabellen en met grafische voorstellingen weten we al heel wat, de informatie
kan evenwel nog aangevuld worden door enkele getallen die typisch zijn voor de
waarnemingen. Deze getallen noemen we statistische kentallen.
Voorbeeld :
In een zesde jaar ASO stelt men heel wat gevallen van klierkoorts vast . Een jonge arts die
heel wat van die leerlingen behandelt wil het effect van een nieuw geneesmiddel nagaan. Hij
tekent hierom de hersteltijd van 20 patiënten op. Een eerste groep van 10 patiënten is op de
gebruikelijke manier behandeld, een tweede groep van 10 heeft een grondig gewijzigde
behandeling met nieuwe geneesmiddelen ondergaan. We vinden :
Voor groep 1 : 31 28 37 34 32 29 30 36 33 35
Voor groep 2 : 27 28 32 38 31 24 26 25 34 25
(32,5)
(29)
We stellen de resultaten voor op een getallenas :
20 1 2 3 4 5 6 7 8 9 30 1 2 3 4 5 6 7 8 9 40
° ° °°° °° °°°
° °°° °
°° °
°
1
2
We merken op :
*
In groep 1 zijn de waarnemingsgetallen in het algemeen verder naar rechts gelegen,
ze zijn verder naar rechts gecentraliseerd.
*
In groep 2 zijn de waarnemingsgetallen veel sterker gespreid, hun variabiliteit is groter.
We zullen hierom statistische kentallen behandelen :

voor de ligging van de waarnemingsgetallen , kenmerkend voor hun centrale
waarde ;

voor de spreiding van de waarnemingsgetallen, kenmerkend voor hun variabiliteit.
4.2
Het rekenkundig gemiddelde
_
p
x
xn
i i
i 1
n
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 36
Opmerkingen :
4.2.1 In de gevallen waar de waarnemingsgetallen xi maatgetallen zijn van lengte, massa, …
en dus gevolgd worden door een eenheid (cm, g, …) zal ook het rekenkundig
gemiddelde gevolgd worden door dezelfde eenheid.
4.2.2 Bij het berekenen van het gemiddelde wordt het resultaat meestal met één cijfer meer
dan de waarnemingsgetallen geschreven.
4.2.3 Voor- en nadelen van het rekenkundig gemiddelde
Bij de berekening van het rekenkundig gemiddelde is elk waarnemingsgetal
afzonderlijk betrokken. Daarom is het gemiddelde inderdaad een getal dat typisch is
voor de steekproef en dat alle waarnemingsgetallen vertegenwoordigt. Hiertoegenover
staat dat het gemiddelde precies daarom ernstig beïnvloed wordt door onverwacht
grote of door onverwacht kleine waarnemingsgetallen. Deze uitschieters zijn
misschien resultaten van verkeerde metingen, maar ze leveren niettemin hun bijdragen
in de berekeningen.
Als in de frequentietabel en in de enkelvoudige frequentiepolygoon symmetrie
aanwezig is, dan is het gemiddelde vrij centraal gelegen en dan ligt het gemiddelde
ook dicht bij een groot aantal waarnemingsgetallen en zal het de waarnemingsgetallen
goed vertegenwoordigen. Maar als er geen symmetrie aanwezig is, dan kan het
gemiddelde vrij ver verwijderd zijn van vele waarnemingsgetallen.
Ondanks de voorkeur die men in de wiskundige statistiek aan het gemiddelde geeft,
moeten we dus nog andere kentallen voor de ligging van de waarnemingsgetallen
onderzoeken.
4.3
De mediaan (me)
De mediaan van een gerangschikte tabel waarnemingsgetallen is :
 Het middelste waarnemingsgetal als het aantal oneven is ;
 De halve som van de twee middelste waarnemingsgetallen als n even is
We hernemen het schoenmaatprobleem. De gemiddelde schoenmaat bedraagt 41,3.
schoenmaten
25,00
aantal
20,00
15,00
Reeks1
10,00
5,00
4
4
2
4
0
4
3
8
0,00
mate n
_ _
x x = 41,3
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 37
We zien in het diagram dat het gemiddelde centraal gelegen is. Als het
schoenmaatgemiddelde van een andere klas 40,5 bedraagt, dan kunnen we daaruit afleiden dat
die leerlingen ‘doorgaans’ een kleinere maat hebben (alhoewel er individuele uitschieters
kunnen zijn !).
Voor de 85 schoenmaten is het 43-ste getal de mediaan. Uit de frequentietabel kunnen we
afleiden dat het maat 41 is.
xi
38 39 40 41 42 43 44 45
ni
2
8 18 21 19 10
5
2
In een gegroepeerde frequentietabel :
Het is in een dergelijke tabel onmogelijk individuele waarnemin gsgetallen terug te vinden.
We kunnen wel de klassen vinden waarin de middelste waarnemingsgetallen thuishoren en we
zullen deze waarnemingsgetallen door de betreffende klassemiddens. Op deze wijze krijgen
we een benaderde waarde voor de mediaan.
We hernemen het voorbeeld van het jaarlijks gezinsinkomen (voorbeeld 2 pg. 22), de
waarnemingsgetallen met rangnummer 50 en 51 behoren beide tot de klasse met midden 380.
We stellen daarom : Me = 380
4.4
De modus (Mo)
De modus van een variabele x is het gegeven met de grootste absolute frequentie, m.a.w. het
getal dat het meest voorkomt onder de gegevens .
Bij het schoenmaatprobleem is de maat die het meest voorkomt 41. Mo = 41
Aantal modi :
Heeft een frequentietabel twee x-waarden die de grootste frequentie hebben, dan zijn er twee
modi en noemt men de verdeling bimodaal.
4.5
Welke centrummaat is de beste?
De modus wordt weinig gebruikt omdat bij vele frequentieverdelingen de modus niet centraal
ligt en bij andere niet bestaat (als alle gegevens verschillend zijn of als er meer dan twee xwaarden zijn met maximale frequentie) of niet enig is.
Kiezen tussen mediaan of gemiddelde, ligt een stuk moeilijker. We vergelijken enkele
speciale gevallen :
Voorbeeld 1 :
Een wielerploeg heeft 1 kopman en 8 ‘knechten’ in dienst. De knechten verdienen 800 000
BEF per jaar. De kopman krijgt 5 300 000 BEF.
Het gemiddelde jaarloon bedraagt 1 300 000 BEF. Het gemiddelde ligt allesbehalve centraal.
In dit geval is de mediaan (800 000 BEF) meer aangewezen.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 38
Voorbeeld 2 :
De 10 deelnemers aan een kwiswedstrijd halen volgende scores (op 50 punten) :
23, 24, 25, 26, 27, 27, 35, 41, 45, 47.
_.__.__.__.__.__________________.________________.______.___.__________________
23 24 25 26 27
35
41
45 47
Het gemiddelde is 32 en de mediaan 27. Hier ligt de mediaan weinig centraal door een
opeenvolging van lage waarden tot net voorbij de middelste getallen.
De keuze tussen gemiddelde en mediaan hant, vooral bij kleine aantallen gegevens, af van de
omstandigheden. Voor grote n-waarden liggen ze meestal dicht bij elkaar.
Bij symmetrische verdelingen vallen ze zelfs samen.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 39
Oefeningen 4
4.1
Uurlonen
In een fabriek verdienen 61 arbeiders 240 BEF per uur, 40 arbeiders verdienen 300 BEF per
uur en 19 arbeiders verdienen 320 BEF per uur. Bereken het gemiddeld uurloon, de mediaan
en het modale loon.
Welke waarde is volgens jou meest geschikt als centrale waarde ?
4.2
Toetsresultaten
De resultaten van een toets over statistiek in een klas zijn ondergebracht in volgende tabel.
Bereken de drie centrummaten. Welke zou je verkiezen ?
Resultaat Frequentie
4
2
5
3
6
8
7
5
8
4
9
1
4.3
Zakgeldprobleem
Aan 30 leerlingen werd gevraagd hoeveel zakgeld ze per week krijgen. De antwoorden zijn
samengevat in een tabel.
4.3.1 Bereken het gemiddelde, de mediaan en de modus.
4.3.2 Tijdens de vasten beslissen de leerlingen elk 30 BEF van hun zakgeld af te staan aan
de actie Broederlijk Delen. Hoe groot zijn gemiddelde, mediaan en modus nu ?
4.3.3 Een van de leerlingen vindt het onbillijk dat iemand met weinig zakgeld evenveel
betaalt als iemand met veel zakgeld. Hij stelt voor dat iedereen voortaan een bepaald
percentage van zijn zakgeld geeft in plaats van 30 BEF. Welk percentage moeten de
leerlingen geven om ervoor te zorgen dat Broederlijk Delen evenveel krijgt bij deze
nieuwe regeling ?
4.3.4 Bereken na aftrek van dit percentage opnieuw het gemiddelde, de mediaan en de
modus.
4.3.5 Hoeveel leerlingen moeten bij de nieuwe regeling minder betalen ? En hoeveel meer ?
zakgeld aantal
lln
80
90
100
110
120
130
140
150
160
170
2
1
1
3
4
8
2
1
0
1
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
180
190
200
210
220
230
4.4
sta 40
3
0
1
1
0
2
Luciferdoosjes
Een fabrikant levert lucifers in doosjes van 50. Deze doosjes zijn
machinaal
verpakt en zullen wel niet allemaal precies 50 lucifers bevatten. Een
controle
bij 100 doosjes leverde de volgende
getallen op.
50
50
48
51
51
49
50
50
51
50
4.4.1
4.4.2
4.4.3
4.4.4
4.4.5
48
49
50
51
48
49
50
50
51
50
49
53
50
49
49
50
49
49
49
49
50
52
50
48
48
49
49
51
49
49
50
49
52
50
52
49
48
51
48
49
49
52
49
50
52
52
52
48
49
48
52
50
48
50
51
50
51
49
49
52
51
49
50
49
50
48
51
52
50
52
51
51
50
52
50
47
48
52
49
51
47
48
51
52
52
50
50
48
52
50
Maak een tabel,
Bereken de mediaan en de modus,
Zitten er gemiddeld te veel of te weinig lucifers in deze 100 doosjes,
Hoeveel procent van de doosjes bevat precies 50 lucifers,
In hoeveel doosjes wijkt het aantal lujcifers meer dan 5% af van 50 ?
4.5
Gemiddelde leeftijd
De gemiddelde leeftijd van 5 personen in een kamer is 30 jaar. Een persoon van 36 jaar komt
binnen. Wat is nu de gemiddelde leeftijd ?
4.6
Een gemiddeldenraadsel
Op een zelfde toets halen de 20 leerlingen van de A-klas een gemiddelde van 7 en de 25
leerlingen van de B-klas een gemiddelde van 6.
4.6.1 Is het totale gemiddelde van de 2 klassen samen gelijk aan 6,5 of minder of meer ?
4.6.2 Hoeveel bedraagt het precies ?
4.7
Blunders
De volgende tekst bevat 3 statistische blunders. Beschrijf ze kort.
« Aan 9 000 oudleerlingen van onze school hebben we een brief gestuurd om te informeren
naar de wenselijkheid om de echtgenoten eveneens uit te nodigen op de jaarlijkse
oudleerlingendag. Tevens werd gevraagd een bijdrage te storten voor de bouw van een
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 41
nieuwe turnzaal. Van de 800 antwoorden, die wij ontvingen, waren 65% voor het uitnodigen
en de echtgenoten. Samen met de 25% van het onderwijzend personeel vormen zij een
meerderheid van 90% van alle oudleerlingen en personeelsleden die voor de uitbreiding van
onze jaarlijkse oudleerlingendag zijn. Voor de turnzaal waren de antwoorders wel er gul :
gemiddeld 1 500 BEF. Daarbij was een bijzonder mooie gift van 1 000 000 BEF vanwege
notaris De Ghendt. »
4.8
Hieronder staan een aantal histogrammen. Wij welke zullen gemiddelde en mediaan
samenvallen ? Bij welke zal het gemiddelde groter zijn ? En waar kleiner ?
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 42
Hoofdstuk 5 : spreidingsgetallen
5.1
De variatiebreedte
De spreiding van de waarnemingsgetallen kan je zeer eenvoudig meten door het verschil te
bepalen tussen het grootste en het kleinste waarnemingsgetal.
R = xn – x1
5.2
De interkwartielafstand
Om de spreidingsmaat niet uitsluitend te laten afhangen van het kleinste en het grootste
waarnemingsgetal, zoals bij de variatiebreedte, kan je het eerste en het derde kwartiel als
vergelijkingspunten nemen. Deze kwartielen bepalen een interval [q1 ,q3] dat ongeveer 50%
van de middelste waarnemingsgetallen bevat.
x1
q1
25%
q3
50%
xn
25%
Het verschil tussen het derde en het eerste kwartiel noemt men de interkwartielafstand.
Q = q3 – q1
Voorbeeld :
Door de ziekteverzekering wordt de leeftijd van 600 moeders bij de geboorte van hun eerste
kind opgetekend.
We verkrijgen volgende frequentietabel :
klasse xi
ni
fi
cni
cfi
]15,18] 16,5
17 0,028
17 0,028
]18,21] 19,5
85 0,142 102 0,170
]21,24] 22,5 126 0,210 228 0,380
]24,27] 25,5 161 0,268 389 0,648
]27,30] 28,5
91 0,152 480 0,800
]30,33] 31,5
64 0,107 544 0,907
]33,36] 34,5
31 0,052 575 0,958
]36,39] 37,5
19 0,032 594 0,990
]39,42] 40,5
6 0,010 600 1,000
600 1,000
De kwartielen met de frequentietabel (CAF of CRF) :
CAF
150
300
450
CRF
0,25
0,50
0,75
kwartiel 1 = 22,5
kwartiel 2 = 25,5
kwartiel 3 = 28,5
de interkwartielafstand : 28,5 – 22,5 = 6
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 43
De interkwartielafstand kan je ook bij benadering aflezen van het ogief.
De kwartielen met Excel :
Kies formules/statistiek/kwartielen
In het menu wordt de matrix gevraagd : gegevensbereik selecteren
Kwartiel : tik 1 voor kwartiel 1, 2 voor kwartiel 2, 3 voor kwartiel 3
Als voorbeeld de lichaamslengte :
De resultaten :
Berekende waarden:
gemiddelde =
mediaan:
modus:
kwartiel 1:
kwartiel 3:
Interkwartielafstand:
171,0
171,0
171,0
164,8
178,0
13,3
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 44
Opgelet :
 Het heeft alleen maar zin om de interkwartielafstand te bepalen, als de kwartielen
berekend zijn, m.a.w. als het aantal elementen van de steekproef groot genoeg is.
 Als de interkwartielafstand klein is, dan betekent dit dat de waarnemingsgetallen goed bij
de mediaan aansluiten.
5.3
De boxplot
De boxplot is een grafische voorstelling van de vijf kenmerkende getallen van een statistische
verdeling : de twee uiterste waarden, kwartiel 1, kwartiel 3 en de mediaan.
Hiermee kunnen meerdere statistische verdelingen vergeleken worden.
We nemen het voorbeeld van de 600 moeders :
16 : laagste score
40 : hoogste score
5.4
22,5 : kwartiel 1
28,5 : kwartiel 3
25,5 : mediaan
De variantie
Het rekenkundig gemiddelde van de kwadraten van de afwijkingen van de waarnemingsgetallen ten opzichte van hun rekenkundig gemiddelde, noemt men de variantie.
s
2
 (x

i
_
 x )²
n
Door het kwadrateren van de afwijkingen, zal de variantie uitgedrukt worden in een andere
eenheid dan bij de waarnemingsgetallen.
Hebben de waarnemingsgetallen betrekking op lengten, uitgedrukt in m, dan heeft de
variantie m² als eenheid.
5.5
De standaardafwijking
De positieve vierkantswortel uit de variantie noemen we de standaardafwijking. Dit is de
meest gebruikte spreidingsmaat.
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 45
_
s =
 ( xi  x)²
n
Correctie van Gauss
De vorige formule voor s² geeft ons exact de gemiddelde kwadratische afwijking voor de n
waarnemingsgetallen xi. In gevallen waar deze n getallen de volledige populatie vormen,
moeten we deze formule dan ook behouden.
Maar in zeer veel gevallen gaat het om een steekproef, getrokken uit een veel grotere
populatie. We trachten dan de steekproefvariantie te gebruiken om de variabiliteit van de
volledige populatie te typeren. In de wiskundige statistiek toont men aan dat deze typering
beter is als we de factor n in de noemer vervangen door (n-1).
Het vervangen van n door (n-1) in de noemer noemen we de correctie van Gauss.
De formule wordt :
s
 (x
i
_
 x )²
(n  1)
Om vlot met deze formule vanuit het rekenblad te kunnen rekenen werken we ze om tot :
k
s
k
1
*(  ni xi ² 
(n  1)
1
(  ni xi )²
1
n
)
Frequentietabel:
klasse
midden AF RF
CAF CRF
xi
ni fi
cni cfi
nixi
148-152
150 1 0,01
1 0,01
152-156
154 5 0,05
6 0,06
156-160
158 8 0,08 14 0,14
160-164
162 11 0,11 25 0,25
164-168
166 17 0,17 42 0,42
168-172
170 16 0,16 58 0,58
172-176
174 12 0,12 70 0,7
176-180
178 9 0,09 79 0,79
180-184
182 10
0,1 89 0,89
184-188
186 5 0,05 94 0,94
188-192
190 4 0,04 98 0,98
192-196
194 2 0,02 100
1
Meer
0
0
10
0
nixi2
150
770
1264
1782
2822
2720
2088
1602
1820
930
760
388
22500
118580
199712
288684
468452
462400
363312
285156
331240
172980
144400
75272
17096
2932688
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 46
Dat geeft dan volgend resultaat :
Standaardafwijking:
9,8653
De formules statistiek laat toe de formule voor rechtstreekse berekening in te voeren.
Variatiecoëfficiënt
5.6
De variatiecoëfficiënt van een variabele x is het getal :
Vx 
sx
_
x
De variatiecoëfficiënt laat ons toe de spreiding te vergelijken van variabelen met een
verschillend gemiddelde (vb. toetsresultaten in twee verschillende klassen), maar ook van
variabelen die in verschillende eenheden worden uitgedrukt (vb. de lengte en het gewicht van
een zelfde reeks personen).
De ervaring wijst uit dat :
V < 5% een zeer kleine spreiding,
5% < V < 10% een kleine spreiding,
V > 50% een zeer grote spreiding betekent.
Voorbeeld :
De resultaten van de proefwerken wiskunde en Nederlands van een klas worden vergeleken :
Wiskunde : het gemiddelde is 60 op 90, de standaardafwijking bedraagt 11,7
Nederlands : het gemiddelde is 95 op 150, de standaardafwijking bedraagt 13,3
We berekenen de spreidingsmaat :
wiskunde 
11,7
 0,195
60
Nederlands 
13,3
 0,14
95
Voor wiskunde is de spreiding groter (19,5%) dan voor Nederlands (14%).
5.7
De Z-score
Als van een variabele het gemiddelde en de standaardafwijking bekend zijn, kan voor elke
variabele de z-score berekend worden.
_
x x
zi  i
sx
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 47
De z-score vergelijkt de afwijking van een variabele tegenover het gemiddelde met de
standaardafwijking.
Standaardcodes worden vaak gebruikt in de psychologie en in onderwijssituaties. Deze scores
van waarnemingsgetallen uit verschillende steekproeven zijn onderling beter vergelijkbaar
dan de waarnemingsgetallen zelf.
Voorbeeld 1 :
Vijf examenresultaten, waarvan gemiddelde en standaardafwijking bekend zijn, worden met
elkaar vergeleken.
Vak
Wiskunde
Nederlands
Geschiedenis
Aardrijkskunde
Frans
Resultaat
76
112
32
49
62
Gemiddelde St.afwijking
60
11,7
95
13,3
38
7,2
40
6,8
53
7,6
z-score
1,37
1,28
-0,83
1,32
1,18
Enkel voor geschiedenis zit de leerling benden het klasgemiddelde, maar nog geen volledige
standaardafwijking. Wiskunde is het sterkste vak.
Voorbeeld 2 :
Het gemiddelde van de maximumtemperaturen op 1 juli tijdens de laatste dertig jaren
bedraagt 22,3°C. Wat is de z-score van de temperatuur 19,6°C die verleden jaar werd
opgetekend ?
19,6  22,3
 1,08 ; of het is gevoelig frisser voor de tijd van het jaar.
2,5
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 48
Oefeningen 5
5.1
In de tabel staat het aantal wedstrijden ni waarin een voetbalploeg xi goals
aantekent.
Bereken het gemiddeld aantal doelpunten per wedstrijd
aangetekend.
xi
ni
0
1
2
3
4
5
6
5.2
10
17
16
11
3
2
1
De volgende tabel geeft het lichaamsgewicht van 18 atleten, allen 1,75 m lang. Bepaal
het gemiddeld lichaamsgewicht.
Lichaamsgewicht
Aantal
63,4
1
65,8
1
69,7
2
69,8
3
69,9
4
70,0
2
70,2
3
72,1
1
83,7
1
5.3
Koffiebranderij
Een koffiebranderij verkoopt koffie in verpakkingen van 500 gram. Omdat heel wat klanten
klachten hebben over het gewicht, vreest men dat de automatische vulmachine in gebreke
blijft.
Men voert daarom een steekproef uit en bepaalt van 100 pakjes koffie het gewicht in
gram.
5.3.1
Bepaal het rekenkundig gemiddelde.
5.3.2
Teken de boxplot.
klasse
ni
]472,5;477,5]
]477,5;482,5]
]482,5;487,5]
]487,5;492,5]
]492,5;497,5]
]497,5;502,5]
]502,5;507,5]
]507,5;512,5]
]512,5;517,5]
]517,5;522,5]
6
10
13
18
17
14
8
6
4
4
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
sta 49
5.4
Loonsverhoging
5.4.1 Als alle werknemers van een bedrijf een loonsverhoging van 3% zouden krijgen, wat
gebeurt er dan met het gemiddelde loon en met de standaardafwijking ?
5.4.2 Als alle werknemers een verhoging van 1 000 BEF per maand zouden krijgen, wat
gebeurt er dan met het gemiddelde en met de standaardafwijking ?
5.4.3 Als jouw loon boven het gemiddelde lag, had je dan liever een verhoging in centen of
in procen ten ? En als je loon onder het gemiddelde lag ?
5.5
Gloeilampen
De gegroepeerde frequentietabel geeft de levensduur van 80 gloeilampen in uren.
De lampen werden alle onderzocht in dezelfde omstandigheden.
5.5.1
Bereken gemiddelde, standaardafwijking en kwartielen
5.5.2
Teken de boxplot
5.5.3
Hoeveel lampen halen het gemiddelde niet?
5.5.4
Hoeveel lampen halen meer dan 20% boven het gemiddelde?
5.5.4
Wat is de z-score van een lamp met levensduur van 1 050 uur?
klasse
]775,825]
]825,875]
]875,925]
]925,975]
]975,1025]
]1025,1075]
]1075,1125]
]1125,1175]
]1175,1225]
ni
5
7
8
12
14
12
8
8
6
5.6
Vorig schooljaar haalde Greet 70% voor wiskunde, waar het klasgemiddelde 58%
bedroeg met standaardafwijking 6%. In het eerste semester van dit schooljaar haalde
ze 24 op 30 voor wiskunde, terwijl het klasgemiddelde 18 bedraagt en de
standaardafwijking 4. Welke was de beste uitslag ?
5.7
Ziekteonderzoek
Onderzoekingen over een bepaalde ziekte doen vermoeden dat de patiënten een
grotere
Hoeveelheid van een chemische stof in hun urine hebben dan gezonde mensen.
De eerste tabel geeft de hoeveelheid xi in mg/10cc en het aantal ni van dergelijke
gevallen voor een groep van 50 patiënten.
De tweede tabel bevat analoge gegevens voor een controlegroep van 56 gezonde
mensen.
5.7.1
Bepaal voor de twee gevallen het gemiddelde, de standaardafwijking en de
kwartielen
5.7.2
Teken voor beide gevallen de boxplot
5.7.3
Vergelijk beide gevallen
___________________________________________________________________________
Herman Rabaey
Beschrijvende statistiek
Patiënten:
xi
ni
11
12
13
14
15
16
17
18
sta 50
2
3
7
12
13
8
4
1
gezonde mensen:
xi
ni
5
1
6
3
7
6
8
7
9
9
10
9
11
8
12
6
13
4
14
3
___________________________________________________________________________
Herman Rabaey
Download