Uittreksel Basisboek Statistiek

advertisement
Uittreksel Basisboek Statistiek
Inhoudsopgave
Voorwoord ................................................................................................................. 2
1. Inleiding ................................................................................................................. 3
1.1 De drie deelgebieden van de statistiek............................................................. 3
1.2 Statistiek in de praktijk, enkele voorbeelden .................................................... 3
1.3 Populatie en steekproef ................................................................................... 3
1.4 Waarnemen en meten ..................................................................................... 4
1.5 De data-matrix ................................................................................................. 4
2. Tabellen en grafieken ............................................................................................ 5
2.1 Frequentietabel en het histogram ................................................................... 5
2.2 Indelen in klassen ........................................................................................... 5
2.3 Andere voorstellingen voor een reeks waarnemingen ..................................... 6
2.4 Lijn- en staafdigrammen ................................................................................. 6
2.5 Verhoudingsdiagrammen ................................................................................ 7
2.6 Enkele valstrikken ........................................................................................... 7
2.7 Samenvatting.................................................................................................. 7
3. Maten voor ligging en spreiding ............................................................................. 8
3.1 Het rekenkundig gemiddelde ........................................................................... 8
3.2 Meridiaan en modus ........................................................................................ 8
3.3 Gemiddelde, mediaan en modus berekenen bij een klassenindeling ............... 9
3.4 Gemiddelde, mediaan of modus? .................................................................. 10
3.5 De standaardafwijking.................................................................................... 10
3.6 De standaardafwijking bij een klassenindeling ............................................... 11
3.7 Het twee-sigma-interval ................................................................................. 11
3.8 De kwartielen ................................................................................................. 12
3.9 Andere maten voor ligging ............................................................................. 12
3.10 Andere maten voor spreiding ....................................................................... 13
3.11 Berekeningen met de TI-83 Plus .................................................................. 13
3.12 De regelkaart ............................................................................................... 13
4. Twee variabelen .................................................................................................. 14
4.1 De kruistabel .................................................................................................. 14
4.2 De data-matrix ............................................................................................... 14
4.3 Het spreidingsdiagram ................................................................................... 14
4.4 De regressielijn en 4.5 De correlatiecoëfficiënt .............................................. 15
4.6 Berekeningen met de TI-83............................................................................ 16
5. Verhoudingscijfers ............................................................................................... 17
5.1 Enkelvoudige indexcijfers............................................................................... 17
5.2 Samengestelde indexcijfers ........................................................................... 17
5.3 De indexcijfers van Laspeyres en Paasche .................................................... 18
5.4 Twee berekeningswijzen ................................................................................ 19
5.5 Indexcijfers bij het CBS .................................................................................. 19
7 Elementaire kansrekening .................................................................................... 20
7.1 Het begrip kans.............................................................................................. 20
7.2 Rekenregels voor kansen .............................................................................. 21
7.3 Voorwaardelijke kansen ................................................................................. 21
7.4 Combinatoriek................................................................................................ 22
8 Kansvariabelen .................................................................................................... 23
8.1 Discrete verdelingen ...................................................................................... 23
8.2 Verwachtingen en standaardafwijking ............................................................ 23
8.3 Combinaties van discrete kansvariabelen ...................................................... 24
8.3.1 Som van twee kansvariabelen .................................................................... 24
8.3.2 Steekproefgemiddelde ................................................................................ 24
8.4 Continue verdelingen ..................................................................................... 25
Uittreksel Statistiek
9 Discrete verdelingen............................................................................................. 26
9.1 De binomiale verdeling .................................................................................. 26
9.2 De Poisson-verdeling ..................................................................................... 26
9.3 Enkele andere verdelingen ............................................................................ 27
9.4 Voorspellingsgebieden................................................................................... 27
10 De normale verdeling ......................................................................................... 28
10.1 De vorm van de normale verdeling .............................................................. 28
10.2 Combinaties van normale kansvariabelen .................................................... 28
10.3 Benaderingen met de normale verdeling...................................................... 29
11 Schatten ............................................................................................................. 30
11.1 Schattingen zijn niet exact ........................................................................... 30
11.2 Enkele veelgebruikte schatters .................................................................... 30
11.3 Betrouwbaarheidsintervallen voor  van een normale verdeling .................. 31
11.4 Betrouwbaarheidsintervallen voor p van een binomiale verdeling ................ 31
11.5 Betrouwbaarheidsintervallen voor  van een Poisson-verdeling .................. 32
11.6 De keuze van een steekproefomvang .......................................................... 32
11.7 Steekproefmethoden.................................................................................... 32
12 Toetsen .............................................................................................................. 33
12.1 De beginselen van een toets........................................................................ 33
12.2 De  2 toets voor de klassenindeling ............................................................ 34
12.3 De  2 toets op onafhankelijkheid................................................................. 35
12.4 De tekentoets............................................................................................... 35
12.5 De rangtekentoets........................................................................................ 35
12.6 Toetsen omtrent  van een normale verdeling ............................................. 36
12.7 Toetsen omtrent p van een binomiale verdeling ........................................... 38
12.8 Toetsen omtrent  van een Poisson-verdeling ............................................ 39
12.9 Procedures en begrippen ............................................................................. 40
Gebruik van de TI-89 bij Statistiek ........................................................................... 41
Voorwoord
Dit is een uitgebreid uittreksel van het Basisboek Statistiek (1e druk 1996). Het bevat
alle begrippen en formules, in de volgorde zoals die in het boek aan bod komen.
Bij de formules heb ik zoveel mogelijk verwijzingen opgenomen naar formules in het
tabellenboek (1e druk 1993). De verwijzingen naar formules in het boek staan met
[blokhaken] aangegeven, de verwijzingen naar formules in het tabellenboek staan
tussen (booghaakjes). Op deze manier heb ik geprobeerd een brug te slaan tussen
de volgorde waarin de theorie in het boek wordt behandeld en de indeling van het
tabellenboek.
Ik heb deze module doorgewerkt met een TI-83. In een bijlage heb ik enkele
aanwijzingen opgenomen voor het werken met en TI-89.
Succes met de module Statistiek!
Bert Kraai
Versie 2.0
Blz. 2 van 41
Uittreksel Statistiek
1. Inleiding
1.1 De drie deelgebieden van de statistiek
Deel 1: Beschrijvende statistiek =
verzameling technieken voor het vastleggen van gegevens met het doel
overzicht te verschaffen.
Deel 2: Kansrekening =
theorie van berekeningen betreffende de uitkomsten bij experimenten waarbij
het toeval een rol speelt.
Deel 3: Verklarende statistiek = wetenschap die tot doel heeft:
 het trekken van conclusies omtrent populaties op basis van steekproeven
 het doen van voorspellingen die tenminste een bepaalde kans hebben om
uit te komen.
1.2 Statistiek in de praktijk, enkele voorbeelden
Enquête =
1. Formulier met vele vragen die alle door vele mensen moeten worden beantwoord
2. Een experiment waarbij vele mensen allen dezelfde vragen moeten
beantwoorden
Steekproef = Deelverzameling van de populatie, gewoonlijk gebruikt voor het doen
van metingen.
Populatie = Verzameling van 'objecten' of 'elementen' waarop het onderzoek is
gericht. Totale doelgroep van het onderzoek.
Aselect = Willekeurig gekozen, 'eerlijk', door loting.
Panel = Vaste groep 'objecten' of 'elementen' die gedurende enige tijd gevolgd
worden.
Tijdreeks = Rij getallen met de tijd als variabele.
Extrapoleren = Doortrekken van een bepaalde lijn, trend.
Voorwaarde: omstandigheden moeten gelijk blijven (is echter bijna nooit het geval!).
1.3 Populatie en steekproef
Elementen = Objecten in een populatie.
Variabele = Grootheid waarvan de waarde tijdens een experiment of bij een enquête
kan worden vastgesteld.
Waarde van een variabele = Gemeten waarde, uitgedrukt in de eenheid van de bij
de variabele horende grootheid.
Versie 2.0
Blz. 3 van 41
Uittreksel Statistiek
1.4 Waarnemen en meten
Meetniveau = Aanduiding van de aard van waarnemingen: nominaal, ordinaal of
metrisch.
Kwantitatieve variabele = Uitkomst is een getal = numeriek = metrisch.
Voorbeelden: proefwerkcijfers, schoenmaat
Kwalitatieve variabele = Uitkomst is geen getal.
Voorbeelden: diersoort, haarkleur, geloof, automerk
Nominale variabele = Uitkomst is een soort, een indeling in een bepaalde categorie.
Voorbeelden: zie kwalitatieve variabele. NB: soorten zijn wel numeriek te coderen!
Schaal = Verzameling mogelijke waarden van een variabele, het domein.
Ordinale variabele = Uitkomst is net als bij een nominale variabele een soort, die
ingedeeld kan worden in een bepaalde categorie. Nu echter hebben deze
categorieën een bepaalde logische volgorde  uitkomsten zijn rangschikbaar.
Voorbeelden: opleidingsniveau
Discrete variabele = Uitkomst is een geheel getal.
Voorbeelden: aantal kinderen
Continue variabele = Uitkomst is een reëel getal.
Voorbeelden: gewicht
Ratioschaal = Continue variabele met natuurlijk nulpunt
Voorbeelden: gewicht, lengte
Intervalschaal = Continue variabele zonder natuurlijk nulpunt
Voorbeelden: temperatuur in oC, tijd, bouwjaar
Experiment = Reeks van handelingen gericht op het verkrijgen van uitkomsten van
één of meer grootheden waarvan de waarde tijdens een experiment of bij een
enquête kan worden vastgesteld.
Deterministisch = Toeval heeft geen invloed op de uitkomst, bv. natuurkundige
experimenten.
Stochastisch = Uitkomst is afhankelijk van het toeval.
1.5 De data-matrix
Data-matrix = Tabel waarin de resultaten van een reeks ondervragingen of
experimenten is gerangschikt.
In de rijen staan de objecten opgesomd, in de kolommen de resultaten.
Meestal worden de resultaten gecodeerd.
Coderen = Uitkomsten omzetten in getallen, met behulp van een sleutel.
Voorbeelden: IQ, EQ.
Versie 2.0
Blz. 4 van 41
Uittreksel Statistiek
2. Tabellen en grafieken
2.1 Frequentietabel en het histogram
Klasse = interval van getallen waarin waarnemingen kunnen liggen.
Frequentie = aantal malen dat een bepaalde waarde (of: een waarde in een
bepaalde klasse) voorkomt.
Turfstaat = tabel van de waarden (of klassen) met daarachter turfstreepjes om de
frequentie aan te geven.
Cumulatieve frequentie = gesommeerde frequentie van de betreffende
waarde/klasse PLUS alle voorgaande waarden/klassen.
Relatieve frequentie = percentage van de betreffende frequentie ten opzichte van
de totale frequentie.
Histogram = tabel waarbij op de ene as de waarden/klassen staan aangegeven en
op de andere as de frequentie.
2.2 Indelen in klassen
Klassenindeling = de wijze waarop de waarden worden ingedeeld in klassen.
Klassebreedte = interval tussen hoogste en laagste waarde van een klasse.
Klassegrenzen = waarden waarbij de ene klasse ophoudt en de volgende klasse
begint.
Frequentiepolygoon = grafiek bestaande uit lijntjes, die de middens van de
bovenzijde van de naast elkaar liggende rechthoeken van het histogram verbinden.
Frequentiedichtheid = frequentie gedeeld door standaardklassebreedte.
Modus = waarde/klasse die het meeste voorkomt = de hoogste staaf.
Modale klasse = klasse die het meeste voorkomt (bv. modaal inkomen).
Deze klasse heeft de hoogste frequentiedichtheid.
Eentoppig = unimodaal = histogram heeft 1 top.
Tweetoppig = bimodaal = histogram heeft 2 toppen.
Symetrisch = links en rechts van de modus zijn elkaars spiegelbeeld.
Asymetrisch = links en rechts van de modus zijn niet elkaars spiegelbeeld.
Scheef naar rechts = histogram is eentoppig en de staart naar de rechterkant loopt
verder door dan naar de linkerkant.
Versie 2.0
Blz. 5 van 41
Uittreksel Statistiek
Normaal = histogram is ééntoppig en symetrisch en de vorm voldoet aan een
speciale formule uit hoofdstuk 10 (deze formule is geen toetsstof).
Stamdiagram = gekanteld histogram, waarbij op de ene as de klassen staan
aangegeven en op de andere as alle gevonden waarden binnen de betreffende
klasse worden vermeld.
Variant 1: gevonden waarden worden geordend.
Variant 2: de as met klassen wordt in het midden geplaatst, waarbij zowel links als
rechts de waarden van 2 steekproeven worden genoteerd. Waardevol bij het
vergelijken van 2 soortgelijke steekproeven.
De frequentie is te berekenen door het tellen van de gevonden waarden per klasse.
2.3 Andere voorstellingen voor een reeks waarnemingen
Cumulatieve-frequentiepolygoon = grafiek waarin de rechter klassegrenzen
uitgezet zijn tegen de cumulatieve frequentie.
De frequentiedichtheid is te berekenen uit de richtingscoëfficient van elk lijnstuk.
Met deze frequentiedichtheden is het histogram te tekenen.
Eendimensionale spreidingsdiagram = diagram waarbij op de horizontale as de
klassegrenzen staan aangegeven met daarboven alle gemeten waarden met een
punt/ster/kruisje/streepje.
Voordeel: bij kleine reeksen waarnemingen zijn in één oogopslag de ligging en
spreiding van de getallen vast te stellen.
Box-plot = lijn waarin de volgende 5 kengetallen worden aangegeven:
 kleinste
 middelste van de kleinste helft
 middelste
 middelste van de grootste helft
 grootste.
Lorentz-curve = cumulatieve frequentie afgezet tegen de cumulatieve waarde.
Concentratie-coëfficient = kan afgeleid worden uit de oppervlakte rechtsonder de
Lorentz-curve. Hoe kleiner deze oppervlakte, hoe hoger de concentratie-coëfficient.
2.4 Lijn- en staafdigrammen
Lijndiagram = Grafiek waarin de ontwikkeling van een variabele in de tijd (=
tijdstippen) wordt gevolgd met behulp van een aaneenschakeling van rechte
lijnstukjes. Wordt vooral gebruikt om de onderlinge verschillen aan te geven.
Staafdiagram = Grafiek om de waarden van een variabele in bepaalde tijdvakken
weer te geven. Hierbij ligt de nadruk meer op het weergeven van de absolute grootte.
NB. De staven staan los van elkaar (in tegenstelling tot het stamdiagram)!
Tijdgrafiek = Lijndiagram, eventueel in de vorm van een kromme.
Scheurlijn = onderbreking van de as. NIET toegestaan bij een staafdiagram.
Versie 2.0
Blz. 6 van 41
Uittreksel Statistiek
2.5 Verhoudingsdiagrammen
Samengestelde staafdiagram = figuur waarin verschillende waarden gegroepeerd
zijn weergegeven (gegevens in groepen tegen elkaar aan, groepen los van elkaar).
Vooral bruikbaar om verhoudingen binnen groepen EN de trend van ieder
staafdiagram weer te geven.
Stapeldiagram = samengesteld staafdiagram waarbij de staven gestapeld zijn i.p.v.
naast elkaar weergegeven.
Vooral bruikbaar om cumulatieven EN samenstelling van groepen weer te geven.
Relatief stapeldiagram = stapeldiagram waarin de verhoudingen van de staven ten
opzichte van elkaar zijn weergegeven in percentages.
Vooral bruikbaar om de onderlinge verhouding binnen groepen aan te geven.
Cirkeldiagram = cirkel waarin de relatieve frequenties zijn weergegeven.
Vooral bruikbaar om de onderlinge verhoudingen weer te geven.
Stroomdiagram = Schema waarin de dikte van de pijlen hoeveelheden aangeven.
Beelddiagram = Staafdiagram waarbij de hoeveelheden zijn uitgedrukt in de grootte
(oppervlakte) van symbolen of met behulp van het aantal symbolen.
2.6 Enkele valstrikken
Gezichtsbedrog = de weergave van het diagram geeft een misleidende afspiegeling
van de werkelijkheid. Voorbeeld:
 oppervlakte symbool beelddiagram neemt bij verdubbeling van lengte en
breedte toe met een factor 4.
Relatieve stijging/daling. Voorbeelden:
 Dalende lijn in een groeipercentage is nog steeds groei.
 Stijgende lijn in verliespercentage betekent meer verlies.
Percentages van verhoudingscijfers. Voorbeelden:
 Verhoudingscijfers/percentages onderling vergelijkingen.
2.7 Samenvatting
Vereisten in een grafiek
Opschrift, eventueel bronvermelding
Schaalverdeling
Bijschriften bij de assen
Eenheden vermelden bij schaal of
bijschrift
Scheurlijn (indien schaal verknipt)
Versie 2.0
Vereisten in een tabel
Opschrift, eventueel bronvermelding
Handige klassegrenzen indien indeling
moet worden gemaakt
Eenheden vermelden
Blz. 7 van 41
Uittreksel Statistiek
3. Maten voor ligging en spreiding
3.1 Het rekenkundig gemiddelde
(ongewogen) Rekenkundig gemiddelde = som van de getallen gedeeld door het
aantal getallen.

x
n
i 1
xi

x
i
x

[3.1 blz. 79]
(1.1 blz. 12)
n
n
n
waarbij x = steekproefgemiddelde en n = totale aantal waarden (steekproefgrootte).
Als rekening gehouden wordt met frequentie waarmee waarden voorkomen:

x

k
i 1
k
xi f i

f
i 1 i
x f
f
i

i
i
 xf   xf
n
f
[3.2 blz. 79]
(1.11 blz. 14)
waarbij x = steekproefgemiddelde, k = waarden/klassen, f = frequentie en
n = totale aantal waarden (steekproefgrootte) = som van de frequenties.
Wegingsfactor = wegingscoëfficient = getal waarmee waarnemingen worden
gewogen bij het bepalen van een gemiddelde.
Gewogen (rekenkundig) gemiddelde = som van de (getallen maal bijbehorende
wegingsfactor) gedeeld door de som van de wegingsfactoren.

x

n
i 1
n
xi wi
w
i 1 i

x w
w
i
i
i

 xw
w
[3.3 blz. 81]
(1.3 blz. 12)
waarbij x = steekproefgemiddelde, w = wegingsfactor en n = totale aantal metingen =
steekproefgrootte.
Kengetal voor de ligging = maat voor ligging = locatiemaat = plaatsbepalende
parameter
3.2 Meridiaan en modus
Centrummaten: gemiddelde, mediaan en modus.
Worden ook wel lokatiematen of plaatsbepalende parameter genoemd.
Modus = waarde die het meest voorkomt.
Bruikbaar bij alle schaalsoorten. Veel toegepast bij nominale schaal (bv. diersoorten).
NB: is als centrummaat alleen geschikt als het om zeer grote hoeveelheden
waarnemingen gaat.
Mediaan = middelste waarneming.
Bruikbaar bij ordinale schaal (bv. leeftijd), intervalschaal en ratioschaal.
NB: bij een even aantal waarnemingen wordt het gemiddelde van de middelste 2
genomen.
Gemiddelde -> zie § 3.3
Bruikbaar bij intervalschaal en ratioschaal.
Versie 2.0
Blz. 8 van 41
Uittreksel Statistiek
3.3 Gemiddelde, mediaan en modus berekenen bij een klassenindeling
Modale klasse
Bepaling: de klasse met de grootste frequentiedichtheid.
NB: de uitkomst is afhankelijk van de gekozen klassenindeling!
Gemiddelde berekenen bij klassenindeling
Aanname: alle waarden in een klasse worden gesteld op het midden van die klasse.
NB: dit levert een benadering op van het oorspronkelijk rekenkundige gemiddelde
van de afzonderlijke waarnemingen.
Mediaan berekenen bij klassenindeling
Methode: uitrekenen bij welke waarde de oppervlakte van het histogram in tweeën
gedeeld wordt.
NB 1: ook dit levert een benadering op van de oorspronkelijke mediaan op basis van
de afzonderlijke waarnemingen.
NB 2: er zijn verschillende rekenmethoden. In het boek wordt de volgende gegeven.
NB 3: deze rekenmethode kan ook toegepast worden bij relatieve frequenties.
NB 4: de mediaan is ook te schatten uit de cumulatieve-frequentiepolygoon, nl. daar
waar de polygoon de hoogte van 50% bereikt.
Formule in woorden:
 ondergrens klasse meridiaan + (percentage klassebreedte tot aan de meridiaan *
klassebreedte)
x me  g 
h
gk  rh
b
hk
hk
[3.4 blz. 84]
g = linkergrens van de klasse waarin de meridiaan ligt
r = rechtergrens van deze klasse
h = aantal getallen links van de mediaan in deze klasse
k = aantal getallen rechts van de mediaan in deze klasse
b = breedte van de klasse (= r-g).
Alternatieve berekening in woorden:
 (ondergrens klasse meridaan * aantal getallen links van meridiaan in deze klasse +
bovengrens klasse meridiaan * aantal getallen rechts van meridiaan in deze klasse)
/ totaal aantal getallen in deze klasse.
xme  ai 
1 / 2n  Fi 1
a ( F  1 / 2n)  bi (1 / 2n  Fi 1 )
(bi  ai )  i i
fi
fi
(1.12 blz. 14)
ai = ondergrens klasse waar meridiaan in ligt
bi = bovengrens klasse waar meridiaan in ligt
Fi-1 = cumulatieve frequentie t/m klasse i-1
fi = frequentie van de klasse I
n = steekproefgrootte = totale aantal waarnemingen.
Versie 2.0
Blz. 9 van 41
Uittreksel Statistiek
3.4 Gemiddelde, mediaan of modus?
De centrummaat die gebruikt mag worden is afhankelijk van het type variabele
(bron: studiewijzer):
Type variabele
Nominaalschaal
Ordinaalschaal
Intervalschaal en
Ratioschaal
Centrummaat
Modus
Modus, mediaan
Modus, mediaan, gemiddelde,
spreidingsmidden
Daarnaast bepaald het doel welke centrummaat gekozen dient te worden.
Enkele voorbeelden:
Gemiddelde: bij doorberekenen kosten voor ophalen huisvuil per huishouden.
Mediaan: bij het achteraf bepalen van de cesuur voor een toets.
Modus: bepaling modale inkomen.
3.5 De standaardafwijking
Spreidingsmaat = maat voor spreiding van de getallen.
Spreidingsmaten: variantie, standaardafwijking (=standaarddeviatie),
spreidingsmidden
Variantie = spreidingsmaat berekend uit de som van de kwadratische afstanden tot
het rekenkundig gemiddelde.
Symbool: 2
Formule: de som van de kwadratische afstanden tot het rekenkundig gemiddelde
gedeeld door het aantal getallen.

2


n
i 1
( xi  x ) 2 f i
n
 (x

i
 x) 2 f i
n
x

2
i
n
fi
x
2
[3.5 blz. 85 en 3.9 blz. 89]
(1.14 blz. 15)
Standaardafwijking = standaarddeviatie = wortel uit de variantie.
Symbool: 
Reden worteltrekken: uitkomst is uitgedrukt in de oorspronkelijke eenheid.
  2
Steekproefvariantie
Symbool: s2
Bij steekproeven worden variantie en standaardafwijking iets anders berekend.
Hierbij wordt niet gedeeld door n (aantal waarnemingen), maar door n-1.
Reden: schatten variantie populatie.
Formule: de som van de kwadratische afstanden tot het rekenkundig gemiddelde
gedeeld door (het aantal getallen - 1)
Versie 2.0
Blz. 10 van 41
Uittreksel Statistiek


n
s
2
i 1
( xi  x ) 2 f i
n 1
 (x

i
 x) 2 f i
n 1
x

2
i
fi  nx
2
n 1
[3.6 blz. 87] (1.16 blz. 15)
Steekproefstandaardafwijking = wortel uit steekproefvariantie
Symbool: s
s  s2
Standaardfout = standaardafwijking gedeeld door de wortel uit de steekproefomvang.
Doel: indicatie verkrijgen tussen het steekproefgemiddelde en het populatiegemiddelde.
Vuistregel: het werkelijke verschil tussen het steekproefgemiddelde en het
populatiegemiddelde is meestal niet groter dan 2 x de standaardfout.

[3.10 blz. 89]
n
Variatiecoëfficient = standaardafwijking gedeeld door gemiddelde.
Relateert de mate van spreiding aan de gemiddelde grootte van een variabele.

x
[blz. 90]
3.6 De standaardafwijking bij een klassenindeling
Hierbij gaan we uit van het klassenmidden (xi) en houden we rekening met de
frequentieverdeling.
De uitkomsten van variantie en standaardafwijking op basis van een klassenindeling
kunnen sterk afwijken van de uitkomsten gevonden op basis van de oorspronkelijke
waarnemingen!
3.7 Het twee-sigma-interval
Vuistregel: 90 à 95% van de getallen bevinden zich tussen de grenzen die zich links
en rechts op een afstand van tweemaal de standaardafwijking van het gemiddelde
bevinden.
Dit interval wordt het twee-sigma-interval genoemd, ookwel het 2- interval.
( x  2 ; x  2 )
Versie 2.0
[3.11 blz. 92]
Blz. 11 van 41
Uittreksel Statistiek
3.8 De kwartielen
Eerste kwartiel: meridiaan van het linkerdeel naast de meridiaan.
Derde kwartiel: meridiaan van het rechterdeel naast de meridiaan.
Halve kwartielafstand = (eerste kwartiel + derde kwartiel) / 2.
Box-plot geeft in grafiekvorm de volgende 5 kengetallen weer:
 kleinste
 eerste kwartiel
 mediaan
 derde kwartiel
 grootste.
3.9 Andere maten voor ligging
Harmonisch gemiddelde = omgekeerde (reciproke) van het rekenkundig
gemiddelde van de omgekeerden.
Toepassing: gemiddelde snelheid berekenen over een bepaald traject, dat bestaat uit
deels snelweg, deels provinciale weg.
n
1
x
i
[blz. 94] (1.4 blz. 12)
Meetkundig gemiddelde = n-de machtswortel van het product van de n getallen.
Toepassing: berekening gemiddelde groeifactor.
n x x ...x
[blz. 95] (1.6 blz. 13)
1 2
n
Spreidingsmidden = gemiddelde van de kleinste + grootste waarneming.
Toepassing: het midden schatten bij een min of meer symmetrische verdeling.
kleinste+grootste
[blz. 95]
2
Percentielen = vergelijkbaar met meridiaan en kwartielen, echter nu met vrij
gekozen percentages.
Voorbeeld: het eentwintigste percentiel = waarde waarbij ten hoogste 5% van de
waarnemingen links van dit percentiel ligt.
x p  ai 
Versie 2.0
pn  Fi 1
a ( F  pn)  bi ( pn  Fi 1 )
(bi  ai )  i i
fi
fi
(1.13 blz. 14)
Blz. 12 van 41
Uittreksel Statistiek
3.10 Andere maten voor spreiding
Spreidingsbreedte = variatiebreedte = hoogste - laagste waarde.
Opmerking: hangt sterk af van de waarnemingen die geselecteerd worden.
Bij het vergelijken van de spreidingsbreedte van verschillende rijen waarnemingen is
het noodzakelijk dat deze rijen evenveel getallen bevatten.
grootste-kleinste
[blz. 96]
Gemiddelde absolute afwijking = gemiddelde over de absolute afwijking ten
opzichte van het rekenkundig gemiddelde.
Beperking van deze formule: variantie en standaardafwijking zijn te berekenen uit het
aantal getallen, hun som en de som van hun kwadraten. Bij de gemiddelde absolute
afwijking zijn alle individuele getallen nodig om opnieuw het gemiddelde uit te
rekenen zodra een getal wordt toegevoegd.

n
i 1
| xi  x | f i
n

| x
i
 x |fi
n
[blz. 97]
3.11 Berekeningen met de TI-83 Plus
Uit te voeren stappen voor berekenen gemiddelde, variantie en standaarddeviatie:
1. Lijst invoeren. Kies STAT, Edit. Lijst leegmaken door op het lijstnummer te gaan
staan en op CLEAR te drukken. Verlaat met 2nd, QUIT.
2. Berekeningen uitvoeren. Kies 2nd, LIST, MATH.
3. Grafiek tekenen. Kies 2nd, STAT PLOT en stel grafiek in. Tonen met GRAPH of
ZOOM optie 9 (ZoomStat).
Let op! Deze rekenmachine ondersteunt alleen het berekenen van de
steekproefvariantie en steekproefstandaarddeviatie!
3.12 De regelkaart
Regelkaart = een tijdlijn waarop de berekende gemiddelden uit steekproeven
worden uitgezet. Soms aangevuld met spreidingsbreedte.
Toepassing: bij serieproductie in de discrete industrie (dikte) of procesindustrie
(warmte).
Uit studiewijzer
Net als bij de centrummaat zijn de toegestande spreidingsmaten afhankelijk van het
type variabele:
Type variabele
Nominaalschaal
Ordinaalschaal
Intervalschaal en
Ratioschaal
Versie 2.0
Spreidingsmaat
- (geen)
kwartielen, percentielen, halve
kwartielafstand, spreidingsbreedte
als bij ordinaalschaal + variantie,
standaardafwijking, gemiddelde absolute
afwijking
Blz. 13 van 41
Uittreksel Statistiek
4. Twee variabelen
4.1 De kruistabel
Kruistabel = tweedimensionale kruistabel
Cel = 'ondeelbaar elemen' (vak) in een kruistabel
Kolomtotaal = som van de aantallen (of percentages) in de cellen van een kolom
van een kruistabel
Regeltotaal = som van de aantallen (of percentages) in de cellen van een rij uit een
kruistabel
Randtotaal = regel- of kolomtotaal in een kruistabel
Onafhankelijke variabelen = de waarde van de ene variabele beïnvloedt niet de
voorspelbaarheid van de andere variabele.
4.2 De data-matrix
Data-matrix = rechthoekig schema waarin alle uitkomsten van de variabelen in
kolommen zijn weergegeven (bijvoorbeeld in relatie tot de tijd).
Record = regel in een datamatrix = groep gegevens behorend bij 1
onderzoekseenheid (bv. tijdstip).
Onderzoekseenheid = object, individu of tijdstip waaraan (waarop) een groep van
metingen is verricht.
4.3 Het spreidingsdiagram
Waarnemingspaar = tweetal waarnemingen van twee verschillende variabelen van
dezelfde onderzoekseenheid.
Spreidingsdiagram = diagram waarmee de meetwaarden van twee variabelen en
hun mogelijke samenhang zichtbaar worden gemaakt.
Puntenwolk = verzameling van punten die ontstaat als men de meetwaarden van
twee variabelen in een assenstelsel tegen elkaar uitzet.
Versie 2.0
Blz. 14 van 41
Uittreksel Statistiek
4.4 De regressielijn en 4.5 De correlatiecoëfficiënt
Regressielijn = lijn waarmee de ligging van een puntenwolk kan worden aangeduid
Regressievergelijking = vergelijking van de regressielijn
Er zijn twee methoden om de regressievergelijking te berekenen:
1. via het bepalen van de richtingscoëfficient en y-as afsnijding (kleinste kwadraten
schatting)
2. via de normaalvergelijkingen
Methode 1: bepalen richtingscoëfficient en y-as afsnijding (kleinste kwadraten schatting)
^
y  a  bx
[4.1 blz. 126] (1.19 blz. 15)
waarin:
b
 ( x  x)( y  y)   x y  n x y
 ( x  x)
 x  nx
i
i
i
2
i
2
i
i
[4.2 en 4.6 blz. 126, 128] (1.20 blz. 15)
2
a  y  bx
[4.3 blz. 126] (1.21 blz. 15)
Methode 2: via de normaalvergelijkingen
na  ( x)b   y
[4.4 blz. 128] (1.19 blz. 15)
( x)a  ( x )b   xy
2
Hieruit kunnen a en b volgens bovenstaande formules worden berekend.
Lineair verband = de ene variabele is middels een lineaire functie af te leiden uit de
andere. De puntenwolk ligt op 1 rechte lijn.
Positief verband = hogere waarden van de ene variabele corresponderen met
hogere waarden van de andere waarden
Negatief verband = hogere waarden van de ene variabele corresponderen met
lagere waarden van de andere waarden
Correlatiecoëffiënt = getal (tussen -1 en +1) dat de strerkte van het verband tussen
twee variabelen aangeeft.
NB. heeft alleen betekenis bij rechtlijnige verbanden.
r
 ( x  x)( y
 ( x  x) ( y
i
i
 y)
i
 y) 2
2
i

x y
i
i
 nx y
( xi2  n x )(  y i2  n y )
2
2
[4.6 blz. 128] (1.22 blz. 16)
Kleinste-kwadraten-methode = methode voor het berekenen van de
regressievergelijking. Uitgangspunt is dat de som van de kwadratische afstanden van
de punten tot deze lijn zo klein mogelijk moet zijn.
Zwaartepunt van de puntenwolk = het snijpunt van de gemiddelden van beide
variabelen. Dit punt ligt altijd op de regressielijn
Regressiecoëfficiënt = relatiecoëfficiënt = richtingscoëfficiënt van de regressielijn.
Helling van een lijn uitgedrukt in verticale verplaatsing gedeeld door verplaatsing
naar rechts.
Versie 2.0
Blz. 15 van 41
Uittreksel Statistiek
Predictor = voorspellende variabele = onafhankelijke variabele = instelbare variabele
De variabele die door de onderzoeker kan worden ingesteld dan wel als verklarend
kan worden gezien voor de uitkomst van de andere variabele.
NB: de variabele is niet onafhankelijk van de andere variabele. In deze zin is het
synoniem "onafhankelijke variabele" misleidend.
Respons = voorspelde variabele = afhankelijke variabele = voorspelde variabele
De variabele waarvan de uitkomst (in zekere mate) afhangt van een variabele
waarvan de waarde door de onderzoeker kan worden ingesteld of die hij als
instelbaar beschouwd
NB: de keuze welke variabele de predictor is en welke de respons is soms discutabel
Normaalvergelijkingen = vergelijkingen waarmee de regressievergelijking volgens
het kleinste-kwadraten-principe kan worden bepaald
4.6 Berekeningen met de TI-83
Voer 2 lijsten in: L1 en L2 (zie hoofdstuk 3.11).
Bereken de regressievergelijking met STAT CALC. Kies optie 4: LinReg(ax + b).
Vul eventueel de lijstnamen in gescheiden door een komma (default worden lijsten
L1 en L2 genomen).
Let op: in de vergelijking worden variabelen a en b zijn omgewisseld t.o.v. het boek!
Versie 2.0
Blz. 16 van 41
Uittreksel Statistiek
5. Verhoudingscijfers
5.1 Enkelvoudige indexcijfers
Enkelvoudig indexcijfer = getal dat de warde van 1 variabele uitdrukt ten opzichte
van de waarde van die variabele in de basis
Basis = eenheid (periode, land of bedrijf) waarvoor het indexcijfer 100 is
Basisperiode = periode (kwartaal, jaar) waarvoor het indexcijfer gelijk is aan 100
Basis verleggen = andere periode kiezen die als basis wordt gebruikt.
Berekening: delen door het oude indexcijfer van de nieuwe basis en
vermenigvuldigen met 100.
Verslagperiode = objectperiode = periode (kwartaal, jaar) waarop het indexcijfer
betrekking heeft
NB: berekeningen uitvoeren met zoveel mogelijk decimalen, uitkomsten bij
presentatie afronden op 1 decimaal.
5.2 Samengestelde indexcijfers
Samengesteld indexcijfer = getal dat de waarde van een combinatie van meer dan
1 variabele uitdrukt ten opzichte van de waarde van zo'n combinatie in de
basisperiode
Prijsindexcijfer = getal waarmee de prijs of prijzen in een bepaalde periode kunnen
worden vergeleken met de prijs of prijzen in de basisperiode
Prijsindexcijfer van Carli = gewone rekenkundig gemiddelde van de indexcijfers
van de afzonderlijke bestanddelen
Een gewogen gemiddelde zou nauwkeuriger zijn, maar dit maakt de berekening van
het prijsindexcijfer (onnodig) ingewikkeld
Waarde-indexcijfer = de waarde (omzet) in een bepaalde periode vergeleken met
de waarde (omzet) in de basisperiode
Iw 
pq
p q
1 1
0
Versie 2.0
0
*100 
w
w
1
*100
[5.1 blz. 144] (2.8 blz. 20)
0
Blz. 17 van 41
Uittreksel Statistiek
5.3 De indexcijfers van Laspeyres en Paasche
Directe methode = berekening uitgaande van oude en nieuwe prijzen en
hoeveelheden
Indexcijfers Laspeyres en Paasche
1. prijsindexcijfer
2. hoeveelheidsindexcijfer
NB: het verschil is dat Laspeyres bij het prijsindexcijfer de hoeveelheid uit het oude
jaar als basis neemt, terwijl Paasche de hoeveelheid van het nieuwe jaar als
uitgangspunt neemt.
Andersom neemt Laspeyres bij het hoeveelheidsindexcijfer de prijs uit het oude jaar
als basis, terwijl Paasche de prijs van het nieuwe jaar als uitgangspunt neemt.
Indexcijfers Fischer = meetkundige gemiddelde van de indexcijfers van Laspeyres
en Paasche
Prijs Laspeyres
pq
p q
pq

p q
I pL 
1 0
0
Prijs Paasche
I pP
1 1
0
Prijs Fischer
0
1
 w I *100
w
 w *100
*100 
w / I
*100 
0
1
1
p q
p q
pq

pq
I qL 
0 1
0
I qP
0
1 1
1
Hoeveelheid Fischer
p
p
I pF  I pL I pP
Hoeveelheid Laspeyres
Hoeveelheid Paasche
0
0
 w I *100
w
 w *100
*100 
w / I
*100 
0 q
0
1
1
q
I qF  I qL I qP
[5.2 t/m 5.7 blz. 146-150] (2.2 t/m 2.7 blz 19)
Factortest = test of met het product van een prijsindexcijfer en een
hoeveelheidsindexcijfer het waarde-indexcijfer kan worden bepaald.
NB: de indexcijfers van Laspeyres voldoen NIET aan de factortest!
Hetzelfde geldt voor de indexcijfers van Paasche.
Wel aan de factortest voldoen: I w 
Versie 2.0
I pL I qP
100

I pP I qL
100

I pF I qF
100
[5.6 blz. 148] (2.8 blz. 20)
Blz. 18 van 41
Uittreksel Statistiek
5.4 Twee berekeningswijzen
Directe methode = berekening uitgaande van oude en nieuwe prijzen en
hoeveelheden
Indirecte methode = berekening gewogen gemiddelde met behulp van indexcijfers.
Hierbij wordt i.p.v. de nieuwe prijs cq. nieuwe hoeveelheid alleen gerekend met de
oude waarde vermenigvuldigd met het enkelvoudige (!) indexcijfer voor de stijging
van resp. prijs of hoeveelheid.
5.5 Indexcijfers bij het CBS
Geen toetsstof
Versie 2.0
Blz. 19 van 41
Uittreksel Statistiek
7 Elementaire kansrekening
Kansrekening houdt zich bezig met experimenten of metingen waarbij de gevolgen
(gebeurtenissen of meetresultaten) van tevoren niet vastliggen.
7.1 Het begrip kans
Kans (Lapache) = het aantal 'gunstige' mogelijkheden gedeeld door het totale aantal
mogelijkheden, mits deze gelijkelijk mogelijk zijn
Uitkomst = elementaire gebeurtenis = meetresultaat
Voorbeeld: 6 gooien met een dobbelsteen
Gebeurtenis = (verzameling van) uitkomst(en)
Voorbeeld: even aantal ogen gooien met een dobbelsteen = {2, 4, 6}
Zuivere dobbelsteen = kans op iedere uitkomst is 1/6
Aselecte trekking = elk lot heeft een gelijke kans om getrokken te worden
Relatieve frequentie = fractie = percentage dat een bepaalde uitkomst wordt
verkregen bij een experiment.
Empirische wet van de grote aantallen = bij een groot aantal herhalingen van een
experiment zal de relatieve frequentie de kans naderen.
Absolute frequentie = aantal maal (in aantal) dat een bepaalde uitkomst wordt
verkregen bij een experiment.
NB. Bij een groot aantal herhalingen van een experiment zal het absolute verschil
tussen het theoretische aantal op basis van de berekende kans en het werkelijk
gevonden aantal toenemen.
Versie 2.0
Blz. 20 van 41
Uittreksel Statistiek
7.2 Rekenregels voor kansen
Meerdimensionale kansverdeling = kansverdeling van twee of meer
kansvariabelen.
Simultane kans = kans op het gelijktijdig optreden van meer dan 1 kansvariabele.
Kruistabel = rechthoekig schema van simulane kansen bij meerdimensionale
kansverdeling.
Complement = verzameling mogelijke uitkomsten waarbij een gebeurtenis G NIET
optreedt = NIET G = ontkenning
NB. Hier geldt dat G + NIET G samen gelijk zijn aan 1.
Voorbeeld: kans op 6 gooien EN kans op niet 6 gooien = 1.
Disjuncte gebeurtenissen = gebeurtenissen die niet gelijktijdig op kunnen treden =
sluiten elkaar uit.
De kans op het optreden van 1 of beide disjuncte gebeurtenissen vindt men door
beide afzonderlijke kansen op te tellen:
P(A of B) = P(A) + P(B).
(speciale optelregel voor disjuncte gebeurtenissen)
Voorbeeld: man of zwanger
De kans op het optreden van zowel A als B vindt men door de doorsnede te bepalen:
P(A en B).
Voorbeeld: vrouw EN zwanger
Bij niet-disjuncte gebeurtenissen vindt men de kans op het optreden van A of B met:
P(A of B) = P(A) + P(B) - P(A en B). (algemene optelregel)
Voorbeeld: (vrouw tussen de 30 en 40) OF zwanger.
Onafhankelijke gebeurtenissen = 2 gebeurtenissen beïnvloeden elkaar niet.
Hier geldt de speciale productregel voor onafhankelijke gebeurtenissen:
P(A en B) = P(A) * P(B)
(speciale productregel voor onafhankelijke gebeurtenissen)
Met behulp van deze regel kan men vaststellen:
 uit uitkomsten bepalen of 2 gebeurtenissen A en B onafhankelijk zijn
 als men weet dat A en B onafhankelijk zijn de kans berekenen dat zowel A als B
zullen voorkomen.
7.3 Voorwaardelijke kansen
Voorwaardelijke kans = de kans op het optreden van de 2e gebeurtenis is
afhankelijk van de uitkomst van de eerste trekking.
N(A) = het aantal mogelijke uitkomsten waarbij gebeurtenis A hoort.
P(B|V) = P(B en V)
(definitie voorwaardelijke kans)
P(V)
Lees: de kans dat B en V optreden onder de voorwaarde dat V is getrokken.
Kruiselings vermenigvuldigen levert de algemene productregel:
P(B en V) = P(V) * P(B|V)
(algemene productregel)
Versie 2.0
Blz. 21 van 41
Uittreksel Statistiek
Bij een aslecte trekking van 1 element uit een populatie is de kans op een kenmerk K
gelijk aan de fractie elementen met dat kenmerk.
Voorbeeld: kans op 1 gooien met een dobbelsteen = 1/6 (fractie van het totaal)
De voorwaardelijke kans op een kenmerk K in deelverzameling van de populatie is
gelijk aan de fractie met kenmerk K in die deelverzameling.
Voorbeeld: kans op het aantreffen van een zwangere vrouw binnen een populatie
van vrouwen tussen de 30 en 40 jaar oud.
Lastig is dat het Nederlands taalgebruik vaak voor meerderlij uitleg vatbaar is,
afhankelijk van waar de klemtoon wordt gelegd.
Voorbeelden:
 het percentage vrouwen dat B studeert
= P(V|B)
 het percentage vrouwen dat B studeert
= P(V en B)
 het percentage vrouwen dat B studeert
= P(B|V)
Categorisch systeem = indeling in disjuncte klassen die samen de gehele populatie
bestrijken.
Marginale kans = kolomtotaal of regeltotaal in een kruistabel van de simultane
kansen. Deze staan in de "marge".
NB. In een categorisch systeem is de marginale kans van een rij gelijk aan:
de som van (de kans van elke cel) =
de som van (voorwaardelijke kans elke cel * marginale kans bijbehorende kolom).
7.4 Combinatoriek
Permutatie = mogelijke volgorde van een trekking.
Het totaal aantal mogelijke volgorden (permutaties) is te berekenen met
n! n * (n  1) * (n  2)...3 * 2 *1
[7.12 blz. 212] (3.9 blz. 23)
Combinatie = mogelijkheid om een deelverzameling uit een populatie te trekken. De
volgorde van de elementen is hierbij niet van belang.
Te berekenen met de binomiaalcoëfficient n boven k:
n!
n
 
 k  k!(n  k )!
[7.13 blz. 214] (3.11 blz. 23)
Afspraak: 0! = 1, want er is 1 mogelijkheid om 0 elementen uit een populatie te
trekken: de lege verzameling.
Evenzo is er 1 mogelijkheid om alle n elementen uit een populatie te trekken.
n n
     1
0 n
Rekenmachine: <getal> MATH PRB nCr <getal>.
Variatie = de volgorde in de deelverzameling is van belang, maar in de overblijvende
populatie niet. Te berekenen door het aantal mogelijke deelverzamelingen te
vermenigvulden met het aantal mogelijke volgorden binnen een deelverzameling:
(n over k) * k!
n! * k! =
n!
[7.14 blz. 216] (3.10 blz. 23)
k! (n-k)!
(n-k)!
Rekenmachine: <getal> MATH PRB nPr <getal>.
Versie 2.0
Blz. 22 van 41
Uittreksel Statistiek
8 Kansvariabelen
8.1 Discrete verdelingen
Kansvariabele = Stochast = grootheid waarbij meer dan één uitkomst mogelijk is en
waarbij de optredende uitkomst van het toeval afhangt.
Voorbeelden: aantal ogen, temperatuur
Kansvariabelen worden onderstreept.
Bijvoorbeeld: k
Eén mogelijke uitkomst wordt met een gewone letter aangegeven. Bijvoorbeeld: k.
Kenmerken discrete kansvariabele:
 uitkomsten zijn getallen
 uitkomsten hangen van het toeval af
 bij elke mogelijke uitkomst van de kansvariabele hoort een positieve kans
 de som van de kansen op alle mogelijke uitkomsten is 1.
Kansverdeling = verzameling van mogelijke uitkomsten van een kansvariabele en
de bijbehorende kansen (of in een continu geval: de dichtheid).
Kansfunctie = (functie)voorschrift waarmee (bij een discrete kansvariabele) aan elke
mogelijke uitkomst de kans op die uitkomst wordt gekoppeld
Overschrijdingskans = als k een kansvariabele is, is de rechteroverschrijdingskans
van het getal k gelijk aan de kans P(k > k). De linkeroverschrijdingskans is gelijk aan
P(k < x).
Verdelingsfunctie F(x) van een kansvariabele k is de linkeroverschrijdingskans
P(k < x) gezien als functie van x.
De verdelingsfunctie is niet-dalend: als x groter wordt, kan F(x) niet kleiner worden.
Model = (sterk vereenvoudigde) weergave van de werkelijkheid. Toepasbaar als het
aantal waarnemingen uit het verleden te klein is om betrouwbare uitspraken te doen
over de relatieve frequenties van de kansen.
NB. Een kansverdeling kan een model zijn.
8.2 Verwachtingen en standaardafwijking
Verwachting = verwachte waarde = expected value = analogon van gemiddelde =
de som van (mogelijke uitkomst * zijn kans).
E(x) =
xi pi   )

Hierin is pi de kans op uitkomst xi.
Lineaire transformatie = Als x een kansvariabele is, heet ax + b (voor vaste getallen
a en b) een lineaire transformatie van x.
E(ax + b) = a E(x) + b
Rekenregel voor de variantie
Var(ax + b) = a2 Var(x)
Lineaire verschuiving heeft geen invloed op de variantie, schaalvergroting wel.
Versie 2.0
Blz. 23 van 41
Uittreksel Statistiek
Rekenmachine: 2nd STAT, MATH, mean(lijst met uitkomsten, lijst met relatieve
kansen)
NB. Variantie en Standaarddeviatie zijn niet met de rekenmachine te berekenen,
omdat de rekenmachine alleen de steekproefvariantie en -standaarddeviatie
ondersteunt. Hierbij wordt gedeeld door n-1 = 0.
Herhaling vuistregel: 95% van de uitkomsten bij een steekproef uit een populatie
bevindt zich in het 2 -interval: (   2 ,   2 )
8.3 Combinaties van discrete kansvariabelen
8.3.1 Som van twee kansvariabelen
Bij verwachtingen van 2 kansvariabelen x en y met dezelfde grootheid geldt de
algemene regel:
E = (x + y) = E(x) + E(y).
Voorbeeld: opbrengst van bloemen + opbrengst van bollen per vierkante meter land.
Alleen als x en y onafhankelijk zijn geldt de speciale optelregel ook voor de varianties
Var = (x + y) = Var(x) + Var(y).
Voorbeeld: worpen met 2 dobbelstenen
NB: standaarddeviaties kunnen nooit opgeteld worden!
8.3.2 Steekproefgemiddelde
Als we een steekproef nemen uit een bekende kansverdeling kunnen we het
volgende zeggen over het gevonden steekproefgemiddelde:
1. Verwachting van dit steekproefgemiddelde = het populatiegemiddelde  .
2. Variantie van het steekproefgemiddelde =
variantie populatie gedeeld door steekproefgrootte =
2
n
3. Standaardafwijking van het steekproefgemiddelde =
standaadafwijking populatie gedeeld door wortel uit steekproefgroote =

n
Versie 2.0
Blz. 24 van 41
Uittreksel Statistiek
8.4 Continue verdelingen
Homogene = rechthoekige = uniforme verdeling = kansverdeling is een histogram
in een rechthoekige vorm.
Discreet = kansvariabele waarvan elke uitkomst een opvolger en/of een voorganger
heeft.
Continue = kansvariabele heeft reële getallen als waarde. Tussen twee mogelijke
uitkomsten, hoe weinig verschillend ook, liggen nog oneindig veel andere mogelijke
uitkomsten.
NB. Hierdoor heeft het alleen zin om intervallen te beschouwen cq. de
kansvariabelen in klassen (intervallen) in te delen).
Exponentiële verdeling = kansverdeling loopt in een kromme.
Voorbeeld: kans op een aardbeving.
Functie die de dichtheid van de exponentiële verdeling met verwachting  vastlegt:
f ( x) 
1


e
x

[8.17 blz. 249]
Formule voor de rechteroverschrijdingskans:
P (t  x)  e
Versie 2.0

x

[8.18 blz. 249]
Blz. 25 van 41
Uittreksel Statistiek
9 Discrete verdelingen
9.1 De binomiale verdeling
Binomiale verdeling = verdeling die ontstaat uit het aantal successen in een reeks
onafhankelijke experimenten met een constante kans op succes.
Dit is bijvoorbeeld van toepassing bij een aselecte steekproef met teruglegging.
NB. Als de populatie zeer groot is, is het verschil tussen een steekproef met of
zonder teruglegging verwaarloosbaar.
Parameters van de kansverdeling
n = aantal experimenten
p = kans op succes
Notatie: k heeft een Bin(n;p)-verdeling.
Zie tabellen in tabellenboekje.
De kans op k successen kan berekend worden met:
n
P(k  k )    p k (1  p ) n  k
k
[9.1 blz. 262] (blz. 41)
De verwachting van de binomiale verdeling:
E(k )  np
[9.2 blz. 263] (blz. 41)
De variantie van de binomiale verdeling:
Var(k )  np(1  p)  npq waarbij q = 1-p
[9.3 blz. 263] (blz. 41)
9.2 De Poisson-verdeling
Poisson-verdeling = binomiale verdeling bij een zeer lange rij experimenten, waarbij
elke mogelijke uitkomst een zeer kleine kans op succes heeft
= binomiale verdeling met grote n en kleine p. (Vuistregel: n > 100 en p < 0,02)
P(k  k ) 
E(k )  
Var(k )  
k
k!
e 
[9.4 blz. 266] (blz. 54)
[9.5 blz. 267] (blz. 54)
[9.6 blz. 267] (blz. 54)
De binomiale verdeling wordt beter benaderd naarmate de steekproef groter en de
kans op succes kleiner is.
Als k en m twee onafhankelijke Poisson-grootheden zijn met verwachtingen
u1 en u2 dan heeft ook de som k + m een Poisson-verdeling.
De verwachting van deze cumulatieve verdeling is u1 + u2.
Versie 2.0
Blz. 26 van 41
Uittreksel Statistiek
9.3 Enkele andere verdelingen
Hypergeometrische verdeling = trekking zonder teruglegging.
 r  s 
 

k nk
P (k  k )   
N
 
n
[9.7 blz. 271] (blz 48)
Geometrische verdeling = kans dat pas succes optreedt bij een bepaalde trekking.
[9.10 blz. 272] (blz. 49)
P(k  k )  (1  p) k p
waarbij k het aantal mislukkingen is dat aan het eerste succes voorafgaat!
Multinomiale verdeling = precies r verschillende uitkomsten mogelijk die alle een
constante kans op succes hebben. Men telt in een rij van deze experimenten de
aantallen malen dat elk van deze uitkomsten optreedt.
Voorbeeld: na een verkiezing alle mensen die gestemd hebben vragen op wie zij hun
stem hebben uitgebracht.
9.4 Voorspellingsgebieden
Voorspellingsgebied = het interval waarin kansvariabele k met een kans van ten
minste p% terecht zal komen.
Vuistregel: bij de meeste kansvariabelen komt 95% van de uitkomsten terecht in het
interval (   2 ,   2 )
Bij het bepalen van de intervalgrenzen m.b.v. de tabel gaan we uit van 0,5 * het
toegestane onbetrouwbaarheidspercentage. Bijvoorbeeld 0,5 * 5 = 2,5%.
In de tabel zoeken we de eerste waarde van k waarbij de cumulatieve kans groter
wordt dan 0,025. De bijbehorende waarde is de ondergrens.
De bovengrens is de eerste waarde van k waarbij de cumulieve kans groter wordt
dan 0,975. De bijbehorende waarde is de bovengrens.
Versie 2.0
Blz. 27 van 41
Uittreksel Statistiek
10 De normale verdeling
10.1 De vorm van de normale verdeling
Standaardnormale verdeling heeft de volgende kenmerken:
Modus ligt bij 0, buigpunten liggen bij -1 en +1.
De dichtheid van deze verdeling is gegeven met de functie:
1
2
e
1
 x2
2
[10.1 blz. 285] (blz. 56)
In de tabel voor de standaardnormale verdeling (tabel 3.1 op blz. 57) worden alleen
de rechteroverschrijdingskansen weergegeven. Hieruit zijn alle andere kansen af te
leiden: de kromme is immers symmetrisch.
Normale verdeling = verdeling van Gau  = N (  ,  2 )
Uit deze standaardnormale verdeling kunnen alle andere normale verdelingen
worden afgeleid. Kansberekeningen lopen dan ook meestal via de standaardnormale
verdeling N (0,1)
Omrekening vindt plaats met de formule z 
x

Hieruit is een x-waarde te berekenen als: x    z
[10.2 blz 290] (blz. 57)
Het voorspellingsgebied = (   z , u  z )
[10.4 blz. 291]
z = z-waarde waarbij de rechteroverschrijdingskans is 
(blz. 58)
De z uit de formule heet de excentriciteit of z-score.
10.2 Combinaties van normale kansvariabelen
Hiervoor gelden de formules uit hoofdstuk 8. Samengevat:
De verwachting van de som van 2 normale kansvariabelen = som van de
verwachtingen:
E(ax + by) = aE(x) + bE(y)
E(ax - by) = aE(x) - bE(y).
De variantie van deze som is alléén gelijk aan de som van de varianties ALS x en y
onafhankelijk zijn:
Var(ax + by) = a2Var(x) + b2Var(y)
Var(ax - by) = a2Var(x) + b2Var(y).
De standaardafwijking van de som is uit de variantie te berekenen (dus niet
rechtstreeks).
Versie 2.0
Blz. 28 van 41
Uittreksel Statistiek
10.2.3: steekproef:
Uit het gegeven dat bij een steekproef de verwachting van het steekproefgemiddelde
gelijk is aan het gemiddelde van de populatie en de variantie van het
steekproefgemiddelde gelijk is aan de variantie van de populatie gedeeld door de
wortel uit de steekproefgrootte, is de volgende formule af te leiden voor het
voorspellingsgebied (= betrouwbaarheidsinterval normale verdeling, zie 11.3)
Uit E (x)   en Var ( x) 
2
n
en  ( x) 
volgt bij een bekende  : (   z

n
,  z

n

n
)
[10.5 blz. 294] (af te leiden uit 4.2 blz. 25)
met ( z  z 1 ) de z-waarde met rechteroverschrijdingskans
2

1
a
2
10.3 Benaderingen met de normale verdeling
Centrale limietstelling = de som van een 'groot' aantal kansvariabelen zijn onder
bepaalde voorwaarden bij benadering normaal verdeeld. Dit geldt ook voor het
gemiddelde.
NB. Deze stelling is van groot belang voor berekeningen betreffende het
steekproefgemiddelde.
Alternatieve verdeling = binomiale verdeling, waarbij iedere ai wordt weergegeven
met een 0 (niet-succesvol) of 1 (succesvol). Hiermee zijn de formules voor
verwachting en variantie van de binomiale verdeling eenvoudig te bewijzen.
Normale benadering = de normale verdeling toepassen voor binomiale, Poisson- en
hypergeometrische verdelingen.
Voorspellingsgebieden
Het voorspellingsgebied voor een binomiale verdeling is bij benadering:
[10.6 blz. 299] (af te leiden uit 5.9 blz. 34)
(np  z npq ; np  z npq )
Voorwaarde: npq > 10.
Het voorspellingsgebied voor een Poissonverdeling is bij benadering:
[10.7 blz. 299] (af te leiden uit 5.13 blz. 35)
(  z  ;   z  )
Voorwaarde:   10
Benaderen discrete verdelingen
Een binomiale verdeling benadert de normale verdeling beter naarmate n groter is,
p dichter ligt bij 0.5 en de verdeling symmetrisch is.
Vuistregel: discrete verdelingen zijn redelijk betrouwbaar te benaderen via de
normale verdeling als de variantie groter is dan 10.
Continuïteitscorrectie = correctie voor het toepassen van een continue verdeling op
de berekening van kansen uit een discrete verdeling =
Versie 2.0
1
x de klassebreedte.
2
Blz. 29 van 41
Uittreksel Statistiek
11 Schatten
11.1 Schattingen zijn niet exact
Parameter = kengetal van een populatie of verdeling.
Een populatie heeft een onbekende parameter, bijvoorbeeld N (aantal).
Doel van schatten is een getal te produceren dat zo dicht mogelijk ligt bij deze
onbekende parameter.
Schatter voor  = kansvariabele waarmee men de parameter  wil gaan schatten
Feitelijk een formule.
Schatting voor  = uitkomst van een schatter voor 
(1   ) Betrouwbaarheidsinterval voor  = intervalschatting = interval verkregen
met een methode, waarbij de kans dat de parameter  in het interval voorkomt ten
minste gelijk is aan (1   ) .
Aselecte steekproef = steekproef waarbij elk element dezelfde kans heeft om in de
steekproef terecht te komen en waarbij ook elk tweetal elementen dezelfdekans heeft
om in de steekproef terecht te komen (geen afhankelijkheden tussen de trekking van
elementen).
Enkelvoudige aselecte steekproef = één enkele steekproef uit de gehele populatie.
11.2 Enkele veelgebruikte schatters
Penetratiegraad = fractie (percentage) van de populatie dat de betreffende
eigenschap bezit = aantal successen k gedeeld door steekproefomvang n.
f 
k
n
Hier is f een schatter voor de kans p.
Zuivere schatter = verwachting van de schatter is gelijk aan de parameter die hij
schat:
k
E (k ) np
E( f )  E( ) 

p
n
n
n
E (x)  
Var ( x) 
 ( x) 
(voor binomiale verdelingen).
(verwachting van het steekproefgemiddelde)
2

n
(variantie van het steekproefgemiddelde)
(std.afw. van het steekproefgemiddelde)
n
Conclusie: naarmate de steekproefgrootte toeneemt, zal het steekproefgemiddelde
dichter in de buurt komen van het populatiegemiddelde. Dit komt doordat de variantie
(en daarmee de standaardafwijking) van het steekproefgemiddelde naar 0 nadert.
Versie 2.0
Blz. 30 van 41
Uittreksel Statistiek
De nauwkeurigheid van de schatter hangt dus af van de steekproefgrootte en de
populatievariantie.
De steekproefvariantie is gedefinieerd door:
s2 
2
1
1
n
n
( xi  x ) 2 
(i 1 ( xi ) 2  n x )

i 1
n 1
n 1
[11.6 blz. 319] (1.9 blz 13)
Ook andere kengetallen als bv. de mediaan is te schatten.
Niet alle kengetallen zijn te schatten, bv. grootste en kleinste kunnen niet op een
betrouwbare wijze m.b.v. een steekproef worden bepaald.
11.3 Betrouwbaarheidsintervallen voor  van een normale verdeling
Voorspellingsinterval normale verdeling: (   z , u  z ) [10.4 blz. 291]
De formule voor het bepalen van betrouwbaarheidsintervallen hangen af van het feit
of de populatievariantie wel of niet bekend is.
Voor de toets hoeft alleen de eerste situatie gekend te worden: waarbij de
populatievariantie bekend is of berekend kan worden.
Betrouwbaarheidsinterval voor het gemiddelde van de populatie op basis van
steekproefgrootte, steekproefgemiddelde, en standaardafwijking van het
steekproefgemiddelde: ( x  z

n
,x z

n
)
[11.7 blz 322] (4.2 blz 25)
Deze twee grenzen heten de betrouwbaarheidsgrenzen voor  .
11.4 Betrouwbaarheidsintervallen voor p van een binomiale verdeling
Voorspellingsinterval binomiale verdeling:
(np  z npq ; np  z npq ) [10.6 blz. 299] (af te leiden uit 5.9 blz. 34)
De variantie van een fractie is echter:
k
Var (k ) np(1  p) p(1  p) pq
Var ( f )  Var ( ) 



n
n
n
n2
n2
[11.10 blz. 326]
De benaderingsformule voor een betrouwbaarheidsinterval voor een onbekende
parameter (bv. kans p) wordt dan:
(f z
f (1  f )
f (1  f )
;f z
)
n
n
[11.12 blz. 329] (4.12 blz. 30)
Voorwaarden: n en/of f niet te klein.
Eis aan een 95% betrouwbaarheidsinterval is, dat de onbekende parameter met een
betrouwbaarheid van 95% in het interval ligt.
Aangezien de normale benadering van een binomiale verdeling niet betrouwbaar is
voor kleine waarden van n en/of p, is ook het interval niet betrouwbaar bij kleine
Versie 2.0
Blz. 31 van 41
Uittreksel Statistiek
waarden van n en/of f. Bij zeer kleine waarden van f dient men de Poissonbenadering te kiezen.
11.5 Betrouwbaarheidsintervallen voor  van een Poisson-verdeling
Voorspellingsgebied Poissonverdeling:
[10.7 blz. 299] (af te leiden uit 5.13 blz. 35)
(  z  ;   z  )
Benaderingsformule voor de betrouwbaarheidsgrenzen van het populatiegemiddelde
van de verdeling op basis van steekproefgemiddelde k:
1 2
z en
4
1
r  k  1  z k  1  z 2
4
l  k  z k 
[11.14 blz. 331] (af te leiden uit 4.15 blz. 31)
Soms zijn van meerdere (m) steekproefcijfers beschikbaar. Als de verdeling een
Poisson-verdeling heeft, kan de verwachting van de som berekend worden: m * E(x).
Het betrouwbaarheidsinterval van de "som van de steekproefcijfers" kan berekend
worden met bovenstaande formule. Delen door het aantal steekproefcijfers levert
tenslotte het betrouwbaarheidsinterval voor het verwachte gemiddelde.
Zie voorbeeld op blz. 334.
11.6 De keuze van een steekproefomvang
Als we de minimale steekproefomvang willen berekenen voor een maximaal
toegestane afwijking bij een bepaald betrouwbaarheidspercentage, gaat dit als volgt:
afwijking d  z

n

z
[11.15 blz. 335] (af te leiden uit 4.2 blz. 25)
n
z 2
)
daaruit volgt dat n  (
d
Dit gaat ook op voor binomiale verdelingen. Uit de formule voor de grenswaarden
volgt: afwijking d  z
daaruit volgt dat n  (
f (1  f )
n
[blz. 340] (af te leiden uit 4.12 blz. 30)
z ( f (1  f ) 2
)
d
Indien de fractie f niet bekend is, kan men ook 0.5 invullen (de maximale waarde).
11.7 Steekproefmethoden
Is geen toetsstof.
Versie 2.0
Blz. 32 van 41
Uittreksel Statistiek
12 Toetsen
Nulhypothese = beschrijving oude toestand
Aternatieve hypothese = bewering die men aan wil tonen over de nieuwe toestand
Antonen alternatieve hypothese via de volgende stappen:
1. bedenken proefopzet
2. verrichten waarnemingen
3. toets = berekenen en interpreteren van de uitkomsten
In dit hoofdstuk komen alleen de toetsen aan de orde waarmee veranderingen of
verschillen van gemiddelden (of verwachtingen) en in percentages (of kansen)
worden opgespoord.
12.1 De beginselen van een toets
Men toetst de nulhypothese. Wordt deze verworpen, dan neemt men de alternatieve
hypothese aan.
Nulhypothese H0 = veronderstelling die moet worden getoetst (en die men meestal
wil weerleggen)
Alternatieve hypothese H1= vermoeden dat men aan wil tonen.
De steekproefomvang is van grote invloed op de kwaliteit van de toets. Deze kwaliteit
is uit te drukken in het onderscheidingsvermogen.
Onderscheidingsvermogen = kans dat de nulhypothese terecht wordt verworpen.
Om dit te kunnen bepalen moet de werkelijke waarde bekend zijn.
Toetsingsgrootheid = kansvariabele (grootheid) die uit de steekproefuitkomsten
wordt berekend en waarmee een hypothese wordt getoetst.
Kritieke gebied = verzameling van uitkomsten van de toetsingsgroootheid waarbij
de getoetste nulhypothese zal worden verworpen = verzameling waarden die buiten
het voorspellingsgebied vallen.
Kritieke waarde = grens van het kritieke gebied die het dichtst ligt bij de verwachting
van de toetsingsgrootheid.
Fout van de eerste soort = het verwerpen van de nulhypothese terwijl deze juist is.
De kans op een fout van de eerste soort = onbetrouwbaarheid.
Fout van de tweede soort = het niet verwerpen van de nulhypothese terwijl deze
onjuist is. Vaak aangeduid met  .
Onbetrouwbaarheid = kans op fout van de eerste soort.
Onbetrouwbaarheidsdrempel = maximale waarde voor de kans op een fout van de
drempel eerste soort (moet worden vastgesteld vóór uitvoering van de toets). Wordt
vaak aangeduid met  .
Versie 2.0
Blz. 33 van 41
Uittreksel Statistiek
Beslissingsregel:
De hypothese H0 wordt verworpen als de uitkomst van de toetsingsgrootheid in het
kritieke gebied valt. De alternatieve hypothese wordt dan bewezen verklaard.
Anders gezegd: de uitkomsten (verschillen) zijn significant.
Significant = de uitkomst van een toetsingsgrootheid heet significant als hiermee de
nulhypothese kan worden verworpen.
Significantieniveau = 1 - onbetrouwbaarheidsdrempel  .
12.2 De  2 toets voor de klassenindeling
 2 -grootheid = chi-kwadraat grootheid
2  
(Oi  Ei ) 2
Ei
[12.2 blz. 366] (5.15 blz. 36)
waarbij Oi het waargenomen aantal en Ei het verwachte aantal waarnemingen is in
klasse i.
Vrijheidsgraden = aantal termen in de som - 1.
Het recept voor klassenreeks k
Gegeven is dat een klassenindeling k klassen heeft. De percentages behorende bij
deze klasen zijn doel van het onderzoek. Voer de volgende stappen uit:
1. Stel een tabel op met:
 de k percentages pi (of kansen) uit de nulhypothese;
 de k verwachte frequenties Ei bij de gegeven steekproefomvang;
 de k waargenomen frequenties Oi in de steekproef.
2. Bepaal de kritieke waarde xr uit tabel 4.2 op basis van de gekozen
onbetrouwbaarheidsdrempel  , bij k-1 vrijheidsgraden.
3. Bereken de uitkomst van  2 .
4. Vergelijk de uitkomst van  2 met de kritieke waarde xr. Is  2 groter dan xr, dan
wordt de hypothese dat pi de juiste percentages (kansen) zijn verworpen. Lage
waarden van  2 zijn dus niet significant.
Opmerking: de nauwkeurigheid van de  2 -verdeling komt in het geding als de
verwachte frequenties Ei erg klein zijn. Frequenties lager dan 1 mogen niet
voorkomen. Een enkele frequentie lager dan 3 is toegestaan. Mocht dit het geval zijn,
dan verdient het aanbeveling om klassen samen te voegen.
Versie 2.0
Blz. 34 van 41
Uittreksel Statistiek
12.3 De  2 toets op onafhankelijkheid
Een kruistabel van 2 kansvariabelen (kolom, rij) is heeft (k-1)*(r-1) vrijheidsgraden.
Het recept voor 2 gerelateerde kansvariabelen k x r
Gegeven is dat een klassenindeling k resp. r klassen heeft. De percentages
behorende bij deze klasen zijn doel van het onderzoek. Voer de volgende stappen
uit:
1. Stel een k x r -tabel op met de k waargenomen frequenties Oij in de steekproef.
Bereken hieruit de regel- en kolomtotalen. Bereken op basis hiervan de
verwachte frequenties Eij 
kolomtotaal * regeltotaal
steekproefomvang
2. Bepaal de kritieke waarde xr uit tabel 4.2 op basis van de gekozen
onbetrouwbaarheidsdrempel  , bij (k-1)(r-1) vrijheidsgraden.
3. Bereken de uitkomst van  2 over alle cellen van de kruistabel.
4. Vergelijk de uitkomst van  2 met de kritieke waarde xr. Is  2 groter dan xr, dan
wordt de hypothese dat pi de juiste percentages (kansen) zijn verworpen. Lage
waarden van  2 zijn dus niet significant.
12.4 De tekentoets
Geen toetsstof
12.5 De rangtekentoets
Geen toetsstof
Versie 2.0
Blz. 35 van 41
Uittreksel Statistiek
12.6 Toetsen omtrent  van een normale verdeling
Kritiek gebied is éénzijdig, als de toets slechts éénzijdig toetst (rechts of links)
Recept 1 (rechtseenzijdige toets):
Een normale verdeling heeft een bekende standaardafwijking  en een onbekende
verwachting  . Men beschikt over een steekproef van n waarnemingen uit deze
verdeling. Het gemiddelde van deze steekproef is x . Men wil aantonen dat de
verwachting groter is dan een bepaalde waarde  0 .

De hypothese H0 is:    0 .
 De alternatieve hypothese H1 is:    0 .
Voorbeeld: potten met jam met 95% zekerheid gevuld met minimaal 450 gram jam?
1. Bepaal de kritieke waarde xr voor het steekproefgemiddelde bij
onbetrouwbaarheidsdrempel  :
xr   0 
z
[blz. 382]
n
2. Vergelijk het steekproefgemiddelde x met de kritieke waarde xr.
Is x groter of gelijk aan xr, dan wordt de hypothese H0 verworpen.
Lage waarden (negatieve en lage positieve) van x zijn dus niet significant.
Bij de alternatieven wordt het steekproefgemiddelde eerst gestandaardiseerd.
Vervolgens wordt de uitkomst vergeleken met kritieke waarden uit de
standaardnormaalverdeling.
Recept 1a (rechtseenzijdige toets):
z-toets = toets voor de hypothese    0 bij een steekproef uit een normale
verdeling met bekende standaardafwijking.
1. Bereken het gestandaardiseerde steekproefgemiddelde met:
x  0

=
x  0

* n
[12.4 blz. 383]
n
Dit levert een bepaalde z-score op (vandaar de naam z-toets).
2. Als de uitkomst groter of gelijk is aan z dan wordt de hypothese H0 verworpen.
Lagere waarden (negatieve en laag positieve) zijn dus niet significant.
Recept 1b (linkseenzijdige toets):
Situatie als bij recept 1, alleen wil men nu aantonen dat de verwachting kleiner is dan
een bepaalde waarde voor  0 .

De hypothese H0 is:    0 .
 De alternatieve hypothese H1 is:    0 .
1. Bereken het gestandaardiseerde steekproefgemiddelde.
2. Als de uitkomst kleiner is dan - z dan wordt de hypothese H0 verworpen. Hogere
waarden zijn dus niet significant.
Versie 2.0
Blz. 36 van 41
Uittreksel Statistiek
Recept 1c (tweezijdige toets):
Situatie als bij recept 1, alleen wil men nu aantonen dat de verwachting ongelijk is
aan een bepaalde waarde voor  0 .

De hypothese H0 is:    0 .
 De alternatieve hypothese H1 is:    0 .
1. Bereken het gestandaardiseerde steekproefgemiddelde.
2. Vergelijk de uitkomst met de kritieke waarden - z1 / 2 en z1 / 2

Is de uitkomst kleiner dan of gelijk aan - z1 / 2 , dan wordt de hypothese H0
verworpen ten gunste van    0

Is de uitkomst groter dan of gelijk aan z1 / 2 , dan wordt de hypothese H0
verworpen ten gunste van    0

Ligt het gestandaardiseerde steekproefgemiddelde tussen - z1 / 2 en z1 / 2 ,
dan wordt de hypothese niet verworpen.
Onderscheidingsvermogen = kans dat de nulhypothese terecht wordt verworpen =
kwaliteitscriterium voor de toets.
Fout van de tweede soort = kans dat de nulhypothese ten onrechte wordt
verworpen = 1 = onderscheidingsvermogen.
Recept voor het berekenen van het onderscheidingsvermogen en de fout van
de tweede soort
1. Gegeven zijn de steekproefgrootte, de standaardafwijking, een
steekproefgemiddelde en een onbetrouwbaarheidsdrempel.
2. Bereken het kritieke gebied met 1 van bovenstaande recepten.
3. Bereken de kans dat het populatiegemiddelde  in dit kritieke gebied terecht komt
= onderscheidingsvermogen. Te berekenen met: P( x  x )= P(z >
x  0

* n ),
waarbij x de kritieke grenswaarde is.
4. De fout van de tweede soort = 1 - onderscheidingsvermogen.
Versie 2.0
Blz. 37 van 41
Uittreksel Statistiek
12.7 Toetsen omtrent p van een binomiale verdeling
Triangeltoets = onderzoek waarbij proefpersonen het afwijkende monster uit een
drietal monsters moeten aanwijzen.
p = kans dat een aselect gekozen proefpersoon het afwijkende product correct
aanwijst.
H0: p = 1/3
H1: p > 1/3.
Recept voor het berekenen van het onderscheidingsvermogen en de fout van
de tweede soort
1. Gegeven zijn de steekproefgrootte n, de werkelijke kans p, een mogelijke waarde
van de kans uit de steekproef p0 en een onbetrouwbaarheidsdrempel  .
2. Bereken het kritieke gebied (links, rechts of beide zijden) met één van
bovenstaande recepten.
3. Bereken de kans dat het steekproefgemiddelde bij een gegeven werkelijke kans
pw in dit kritieke gebied terecht komt = onderscheidingsvermogen. Bv. rechts:
P( k  k )= P(z >
k  0,5  np w
np w (1  p w )
), waarbij k de kritieke waarde is. Raadpleeg zo
mogelijk een tabel ter controle.
4. De fout van de tweede soort = 1 - onderscheidingsvermogen.
Recept tweezijdige toets:
Een experiment heeft een kans p op succes. Bij n herhalingen van dit experiment
worden k successen vastgesteld.
 De hypothese H0 is: p = p0.
 De alternatieve hypothese H1 is: p <> p0.
1. Bereken met de normale benadering de grenzen van het voorspellingsgebied
met: np 0  z np 0 (1  p 0 )
2. Bepaal het kritieke gebied door het complement te nemen van het
voorspellingsgebied. Verifieer de kritieke waarden zo mogelijk met behulp van
een tabel voor de binomiale verdeling.
3. Ligt de uitkomst van k:
 In het linker kritieke gebied, dan wordt de hypothese H0 verworpen ten
gunste van p < p0.
 In het rechter kritieke gebied, dan wordt de hypothese H0 verworpen ten
gunste van p > p0.
 In het voorspellingsgebied, dan wordt de hypothese niet verworpen. In dat
geval zou p0 de werkelijke waarde van p kunnen zijn.
Versie 2.0
Blz. 38 van 41
Uittreksel Statistiek
12.8 Toetsen omtrent  van een Poisson-verdeling
Recept tweezijdige toets:
De kansvariabele k heeft een Poisson-verdeling met verwachting  .

De hypothese H0 is:    0 .
 De alternatieve hypothese H1 is:    0 .
1. Bereken met de normale benadering de grenzen van het voorspellingsgebied
met:   z  met z = z1/2a
2. Bepaal het kritieke gebied door het complement te nemen van het
voorspellingsgebied. Verifieer de kritieke waarden zo mogelijk met behulp van
een tabel voor de Poisson-verdeling.
3. Ligt de uitkomst van k:
 In het linker kritieke gebied, dan wordt de hypothese H0 verworpen ten
gunste van    0 .

In het rechter kritieke gebied, dan wordt de hypothese H0 verworpen ten
gunste van    0 .

In het voorspellingsgebied, dan wordt de hypothese niet verworpen. In dat
geval zou  0 de werkelijke waarde van  kunnen zijn.
Recept voor het berekenen van het onderscheidingsvermogen en de fout van
de tweede soort
1. Gegeven zijn een hypothese  0 , een onbetrouwbaarheidsdrempel  en een
werkelijke waarde van  .
2. Bereken het kritieke gebied (links, rechts of beide zijden) met één van
bovenstaande recepten.
3. Bereken de kans dat de werkelijke waarde van  in dit kritieke gebied terecht
komt = onderscheidingsvermogen liefst met behulp van de tabellen voor de
Poisson(  )-verdelingen. Alternatief
P( k  k )= P(z >
k  0,5  

), waarbij k de kritieke waarde is.
4. De fout van de tweede soort = 1 - onderscheidingsvermogen.
Versie 2.0
Blz. 39 van 41
Uittreksel Statistiek
12.9 Procedures en begrippen
Een volledige toetsingsprocedure bevat de volgende onderdelen:
Voorbereiding
1. Beschrijving van de situatie
2. Definities van de gebruikte symbolen
3. Formulering van de nulhypothese
4. Formulering van de alternatieve hypothese, inclusief de keuze één- of tweezijdige
toetsing.
5. Definitie van de toetsingsgrootheid
6. Noemen van de verdeling van de toetsingsgrootheid (normaal, binomiaal,
Poisson)
7. Kiezen van de onbetrouwbaarheidsdrempel 
Uitvoering (methode 1)
1. Bepaling van het kritieke gebied bij de gekozen  , zodanig dat in het geval H0
juist is, de kans dat de toetsingsgrootheid in het kritieke gebied komt ten hoogste
gelijk is aan  .
(Eerst via de normale benadering, daarna verificatie m.b.v. tabellen)
2. Berekening van de toetsingsgrootheid (= soms alleen tellen)
3. Vaststellen of de uitkomst van de toetsingsgrootheid in het kritieke gebied ligt
4. Trekken en formuleren van de conclusie.
Uitvoering (methode 2)
1. Bepaling van de linker- of rechteroverschrijdingskans, via de normale benadering
of m.b.v. tabellen.
(NB. Als de uitkomst van k groter is dan de bij H0 verwachte waarde, berekenen
we de rechteroverschrijdingskans, ander de linker).
2. Vaststellen of de overschrijdingskans kleiner is dan of gelijk aan  .
3. Trekken en formuleren van de conclusie.
Hoewel methode 2 eenvoudiger lijkt, heeft het bij herhaaldeijk uitvoeren van toetsen
wel zin om de kritieke waarden te bepalen. Bijvoorbeeld bij regelprocessen.
Bovendien geeft het kritieke gebied ons de mogelijkheid om de kwaliteit van de toets
te bepalen = onderscheidingsvermogen.
Versie 2.0
Blz. 40 van 41
Uittreksel Statistiek
Gebruik van de TI-89 bij Statistiek
Raadpleeg de handleiding van de TI-89:
 hoofdstuk 15 over de Data/Matrix editor voor het aanmaken van lijsten
met gegevens
 hoofdstuk 16 over statistieken en grafieken van gegevens.
Definiëren van een lijst
Met de Data/Matrix editor is het eenvoudig om een lijst met gegevens aan te maken,
waar je berekeningen mee uit kunt voeren.
Kies APPS, Data/Matrix Editor, New, LIST, <naam lijstvariabele, bijvoorbeeld L1>
Voer de meetgegevens in in kolom C1.
Sluit af met Quit.
Berekeningen maken met een lijst
Op een bestaande lijstvariabele kun je de volgende functies loslaten:
 mean(L1)
gemiddelde
 sum(L1)
som
 stddev(L1)
populatiestandaardafwijking 
 min(L1)
minimum
 median(L1)
mediaan
 max(L1)
maximum.
Aanmaken van een dataset
Kies APPS, Data/Matrix Editor, New, Data, <naam datavariabele, bijvoorbeeld D1>
Voer de meetgegevens in in kolom C1.
Voer eventuele frequenties in in kolom C2.
Sluit af met Quit.
Berekenen statistische variabelen
Open de datamatrix in de Data/Matrix Editor met Current (of Open, Data, D1).
Druk op F5: Match.
Kies bij Calculation Type: Onevar.
Vul de kolomnaam in waar de gegevens staan: C1.
Als je een tweede kolom met frequenties hebt, zet Use Freq and Categories? op Yes
en ul bij Freq de kolomnaam met frequenties in: C2.
Druk 2x op Enter.
Nu verschijnen de volgende bruikbare gegevens:
 x
gemiddelde

som
x


Sx
meestal






Versie 2.0
nStat
minX
q1
medstat
q3
maxX
steekproefstandaardafwijking (Let op: in opgaven wordt
de populatiestandaardafwijking  gevraagd!)
aantal gegevens
minimum
eerste kwartiel
mediaan
derde kwartiel
maximum.
Blz. 41 van 41
Download