Wat is statistiek

advertisement
1 Wat is statistiek ?
1.1. Algemene omschrijving
 Voorbeelden :
 Conclusie :
De statistiek is de wetenschap die de eigenschappen of kenmerken van een grote groep
mensen, dieren of voorwerpen bestudeert. Ze doet dat door gegevens te verzamelen, te
ordenen en te interpreteren.
1.2. Kwalitatieve en kwantitatieve kenmerken
Sommige kenmerken kunnen weergegeven worden door getallen, eventueel gevolgd
door een eenheid, dan spreken we van een kwantitatief kenmerk.
Een kwantitatief kenmerk kan discreet of continu zijn.
Discreet: als voor twee verschillende waarnemingsgetallen xi , x j de absolute waarde
xi  x j niet kleiner kan worden dan een zekere grenswaarde, bvb. aantal schoolgaande
kinderen per gezin, schoenmaat, aantal haren op een veegborstel, …
Continu: als voor de waarnemingsgetallen in principe alle getallen van een interval
mogelijk zijn, bvb. gewicht (de maateenheid kan namelijk steeds verfijnd worden),
lengte, etc…
Afrondingen: als waarnemingsgetallen continu veranderen, dan worden toch vaak, door
de beperktheid van de meetinstrumenten, de resultaten afgerond.
Indien het kenmerk niet door een getal kan worden uitgedrukt, spreken we van een
kwalitatief kenmerk.
H1 Wat is statistiek?
1
1.3. Steekproef en populatie
 De groep individuen of objecten waarvan we het kenmerk willen onderzoeken, noemen
we de populatie. Meestal is het ondoenbaar of onmogelijk om de gehele populatie te
onderwerpen aan een onderzoek. Vaak nemen we daarom een klein gedeelte van de
populatie, een steekproef. Een kok eet immers ook niet de hele pan soep leeg om
uitspraken te doen over de kwaliteit. Wel belangrijk is dat voor het proeven goed wordt
geroerd. De eetlepel soep die beoordeeld wordt, moet overeenkomen met (oftewel: moet
representatief zijn voor) het geheel.
 Kenmerken van een steekproef
De steekproef moet representatief zijn.
Dat wil zeggen dat de steekproef een correct beeld moet geven van de verscheidenheid
binnen de populatie, dat in de steekproef alle deelverzamelingen van de populatie
evenredig vertegenwoordigd moeten zijn.
Vb :
De steekproef moet aselect zijn.
Dat betekent dat elk element van de populatie dezelfde kans hebben om opgenomen te
worden in de steekproef.
Vb :
Alle TV-polls op basis van SMS-en, alle internet-polls zijn daarom compleet
onbetrouwbaar.
1.4. Onderverdelingen binnen de statistiek
1.4.1. Verzamelende statistiek
Het verzamelen van de gegevens voor het onderzoek wordt gedaan via waarnemingen,
tellingen of enquêtes bij de elementen van de steekproef.
Het is belangrijk dat het vergaren van gegevens op een correcte manier gebeurt.
Enerzijds moeten we erop letten dat de steekproef op een goede manier is tot stand
gekomen en anderzijds moet het onderzoek zelf typische valkuilen vermijden. Zo is de
vraagstelling bij enquêtes die peilen naar een mening van mensen een bijzonder delicate
H1 Wat is statistiek?
2
materie. Vragen als: “U vindt toch ook dat dit wasmiddel witter wast?” zijn immers
suggestief.
1.4.2. Beschrijvende statistiek
De beschrijvende statistiek verzamelt gegevens en beschrijft de toestand door die
gegevens te ordenen in tabellen, te verwerken, samen te vatten en grafisch voor te
stellen. Ook worden gemiddelden, standaardafwijkingen, vormcoëfficiënten en
eventuele correlaties (statistische verbanden) berekend. De gegevens worden dus
letterlijk "beschreven" a.d.h.v. een beperkt aantal typerende parameters. Dit maakt het
onderwerp uit van de hoofdstukken 2 en 3.
1.4.3. Verklarende statistiek
De verklarende statistiek steunt op de resultaten uit de beschrijvende statistiek en op de
kanstheorie om uitspraken te doen over de ganse populatie.
H1 Wat is statistiek?
3
2 Ordenen en grafisch voorstellen van
statistische gegevens
2.1. Het sigma-teken
In de beschrijvende statistiek worden sommen van reële getallen dikwijls kort
voorgesteld m.b.v. van een sigma-teken.
4
3
bv. x1  x2  x3  x4   xi
y12  y22  y32   yi2
i 1
i 1
Eigenschappen van het sigma-teken :
n
n
n
i 1
i 1
 ( xi  yi )   xi   yi
i 1
n
 a.x
i 1
i
n
 a. xi
i 1
n
 a  n.a
i 1
2.2. Niet-gegroepeerde frequentietabellen
2.2.1. Frequentie van een waarnemingsgetal
Voorbeeld : We tellen bij 25 gezinnen het aantal kinderen en we verkrijgen volgende
data (gegevens):
0
1
2
1
2
2
2
0
2
1
2
0
1
4
3
3
0
3
4
5
2
1
1
0
5
1
4
2
5
Om meer overzicht te krijgen, kunnen we de waarnemingsgetallen ordenen:
0
2
5
0
2
H2 Statistische gegevens
0
2
0
2
0
2
1
2
1
3
1
3
1
3
1
4
4
Vervolgens voeren we de volgende begrippen in:
De enkelvoudige absolute frequentie ni is het aantal keren dat een waarnemingsgetal xi
in de tabel voorkomt.
De cumulatieve absolute frequentie cni is het aantal waarnemingsgetallen kleiner of
gelijk aan xi.
De relatieve frequenties geven de verhouding van de absolute frequenties tot de
omvang van de tabel weer. Dus:
en
n
fi  i
n
cf i 
cni
n
De procentuele frequenties geven deze verhoudingen in % weer, i.p.v. door een
decimaal getal.
2.2.2. Frequentietabel
waarnemings
-getallen
enkelvoudige frequenties
cumulatieve frequenties
relatieve
frequentie
fi
procentuele
frequentie
absolute
frequentie
cni
relatieve
frequentie
cfi
procentuele
frequentie
xi
absolute
frequentie
ni
0
1
2
3
4
5
5
6
7
3
2
2
0.200
0.240
0.280
0.120
0.080
0.080
20.0%
24.0%
28.0%
12.0%
8.0%
8.0%
5
11
18
21
23
25
0.200
0.440
0.720
0.840
0.920
1.000
20.0%
44.0%
72.0%
84.0%
92.0%
100.0%
2.2.3. Grafische voorstelling
De enkelvoudige frequenties kunnen worden voorgesteld door een staaf- of
schijfdiagram.
H2 Statistische gegevens
5
staafdiagram
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
aantal kinderen
In Excel maken we gebruik van onderstaande functies voor het maken van een
frequentietabel:
AANTAL(geg): telt het aantal gegevens binnen een bereik met naam ‘geg’
MIN(geg): zoekt het minimum in een bereik met naam ‘geg’
MAX(geg): zoekt het maximum in een bereik met naam ‘geg’
INTERVAL(geg;…): berekent de enkelvoudige absolute frequentie van de
waarnemingsgetallen in … die voorkomen in ‘geg’
We maken gebruik van de Wizard grafieken voor het tekenen van een staafdiagram (type
kolom) en van een schijfdiagram (type cirkel).
H2 Statistische gegevens
6
Oefening
Open het bestand ‘H1 oef1’.
In het werkblad ‘gegevens’ vind je de schoenmaten van 100 proefpersonen. Deze
gegevens dragen de naam ‘geg’.
Maak in het werkblad ‘tabel’ een niet-gegroepeerde frequentietabel. Teken daarna een
bijbehorend staaf- en schijfdiagram.
2.3. Gegroepeerde frequentietabellen
2.3.1. Voorbeeld
We bepalen de lichaamslengte in cm van 100 16-jarige jongens, afgerond op de
eenheid:
175
173
155
161
170
183
189
165
171
159
160
165
158
168
172
179
162
165
173
153
193
176
169
164
165
163
177
170
184
174
157
168
162
154
165
176
163
166
169
167
186
155
159
168
150
166
180
176
185
170
183
177
176
168
188
162
167
182
157
171
172
176
158
164
167
180
163
169
166
154
179
168
169
164
168
167
172
165
156
171
172
160
164
180
161
169
175
159
166
159
172
179
174
159
169
181
167
166
173
180
Door de omvang van deze gegevens zou een niet-gegroepeerde frequentietabel zeer
onoverzichtelijk zijn. Daarom kiezen we er hier voor om de gegevens te groeperen,
zodanig dat:
-
elk waarnemingsgetal tot precies één klasse behoort;
-
elke klasse vertegenwoordigd wordt door het klassenmidden;
-
aan de hand van het aantal waarnemingsgetallen in een klasse de
klassenfrequenties berekend worden.
H2 Statistische gegevens
7
Voor het bepalen van de klassenbreedte, berekenen we de variatiebreedte van de
tabel:
max – min =
Deel de variatiebreedte door het gewenste aantal klassen (bvb. 10 à 15):
Bepaal de eerste klasse:
Met behulp van de gekozen klassenbreedte, kunnen nu alle klassen bepaald worden en
de bijbehorende klassenfrequenties berekend worden:
aantal
100
kiezen:
min
150
OGKL1
150
max
193
KLBR
4
bereik
43
KLASSENGRENZEN
[
[
[
[
[
[
[
[
[
[
[
150
154
158
162
166
170
174
178
182
186
190
154
158
162
166
170
174
178
182
186
190
194
[
[
[
[
[
[
[
[
[
[
[
MIDDEN xi
ni
cni
fi
cfi
152
156
160
164
168
172
176
180
184
188
192
2
7
11
16
22
14
11
8
5
3
1
2
9
20
36
58
72
83
91
96
99
100
2%
7%
11%
16%
22%
14%
11%
8%
5%
3%
1%
2%
9%
20%
36%
58%
72%
83%
91%
96%
99%
100%
2.3.2. Praktische werkwijze en definities
-
bereken de variatiebreedte
-
bepaal de klassenbreedte: deel de variatiebreedte door het aantal gewenste klassen
-
kies een ondergrens voor de eerste klasse en bepaal vervolgens de andere
klassengrenzen m.b.v. de klassenbreedte
-
bereken klassenmidden en – frequenties:
klassenmidden = halve som van de klassengrenzen
H2 Statistische gegevens
8
enkelvoudige absolute frequentie van een klasse = aantal gegevens dat tot die
klasse behoort
cumulatieve absolute frequentie van een klasse = aantal gegevens dat tot die
klasse en de lagere klassen behoort
relatieve frequenties = verhouding van de absolute frequenties tot de omvang van
de steekproef
2.3.2. Grafische voorstelling van een gegroepeerde frequentietabel
Histogram
De enkelvoudige klassenfrequenties worden voorgesteld door rechthoeken, waarvan
de oppervlakte evenredig is met de bijbehorende frequentie.
Voorbeeld:
Histogram
25
20
ni
15
10
5
0
152
156
160
164
168
172
176
180
184
188
192
klassenmiddens
H2 Statistische gegevens
9
Enkelvoudige frequentiepolygoon
is een lijngrafiek die de enkelvoudige frequentie weergeeft.
Voorbeeld:
enkelvoudige frequentiepolygoon
25
20
ni
15
10
5
0
148
152
156
160
164
168
172
176
180
184
188
192
196
klassenmiddens
Cumulatieve frequentiepolygoon
is een lijngrafiek die de cumulatieve frequentie weergeeft.
Voorbeeld:
cumulatieve frequentiepolygoon
120
100
80
60
40
20
0
150
154
158
162
166
170
174
178
182
186
190
194
klassengrenzen
H2 Statistische gegevens
10
Oefeningen
1. Open het bestand ‘H2 oef2’.
In het werkblad ‘gegevens’ vind je de hoeveelheid bier in 50 automatisch gevulde
flesjes (in cl). Deze gegevens dragen de naam ‘geg’.
Maak in het werkblad ‘tabel’ een gegroepeerde frequentietabel. Stel daarna deze
gegevens grafisch voor door een histogram, een enkelvoudige en een cumulatieve
frequentiepolygoon.
2. Open het bestand ‘H2 oef 3’.
In het werkblad ‘gegevens’ vind je het IQ van 60 leerlingen. Deze gegevens dragen
de naam ‘geg’.
Maak in het werkblad ‘tabel’ een gegroepeerde frequentietabel. Stel daarna deze
gegevens grafisch voor door een histogram, een enkelvoudige en een cumulatieve
frequentiepolygoon.
H2 Statistische gegevens
11
3 Statistische kengetallen
3.1. Centrumgetallen
Centrumgetallen zijn kenmerkend voor de centrale ligging van de waarnemingsgetallen.
Rekenkundig gemiddelde, mediaan en modus zijn centrumgetallen.
3.1.1. Rekenkundig gemiddelde
Definitie:
rekenkundig gemiddelde =
p
n
In formulevorm:
x
som van de waarnemingsgetallen
aantal waarnemingsgetallen
 x n x
i 1
n
i

i i
i 1
n
(als er n gegevens zijn, waarvan p
verschillende)
In Excel gebruiken we hiervoor de functie gemiddelde(…:…).
Voordeel van het gebruik van het rekenkundig gemiddelde: alle gegevens zijn betrokken
bij de berekening en hebben dus invloed op de grootte van het rekenkundig gemiddelde.
Nadeel hiervan is dat uitschieters (extreem lage of hoge waarde van waarnemingsgetallen)
het rekenkundig gemiddelde beïnvloeden. Deze extremen hebben minder invloed op de
mediaan.
3.1.2. Mediaan
Definitie:
De mediaan (Me) is het middelste waarnemingsgetal als het aantal gegevens oneven is en
de halve som van de twee middelste waarnemingsgetallen als het aantal gegevens even is.
In Excel klikken we hiervoor op het symbool fx in de werkbalk. Klik bij functiecategorie
op Statistisch, bij functienaam op Mediaan, vervolgens op OK. Vul het bereik van de
gegevensmatrix in.
H3 Statistische kengetallen
12
2.1.3. Modus
Definitie:
De modus (Mo) is het waarnemingsgetal met de grootste enkelvoudige frequentie of het
klassenmidden van de klasse met de grootste enkelvoudige frequentie.
In Excel gebruiken we de functie ‘modus(…:…)’.
2.2. Spreidingsgetallen
Statistische gegevens met dezelfde centrumgetallen kunnen toch nog van elkaar
verschillen door de spreiding van de gegevens t.o.v. het centrumgetal.
2.2.1. Kwartielen
Zoals de mediaan de gerangschikte gegevens in twee even dicht bevolkte delen verdeelt,
verdelen de kwartielen de gerangschikte gegevens in vier even dicht bevolkte delen.
We spreken van het eerste kwartiel (Q1), het tweede kwartiel (Q2) (= de mediaan) en
het derde kwartiel (Q3).
D.w.z. dat 25% van de gegevens kleiner of gelijk zijn dan Q1, 50% kleiner of gelijk dan
Q2 en 75% kleiner of gelijk dan Q3.
Werkwijze in Excel: zie berekening mediaan.
Interkwartielafstand is het verschil tussen het derde en het eerste kwartiel.
Grafische voorstelling: boxplot. Voorbeeld: (lichaamslengtes)
H3 Statistische kengetallen
13
2.2.2. Variantie en standaardafwijking
Definitie:
De variantie is de gemiddelde kwadratische afwijking van de gegevens t.o.v. het
rekenkundig gemiddelde. De standaardafwijking is de positieve vierkantswortel hieruit.
 x  x
n
In formulevorm:
var( x)  s 2 
i 1
i
n
 n  x  x
p
2

i 1
i
2
i
n
s  var( x)
In Excel gebruiken we de formule STDEVP(…:…).
Oefening
Bereken bij alle gemaakte voorbeelden en oefeningen het rekenkundig gemiddelde, de
mediaan, de modus, het eerste en derde kwartiel, de variantie en standaardafwijking.
Teken bij de laatste twee oefeningen een boxplot.
H3 Statistische kengetallen
14
Download