Anderson:

advertisement
Anderson:
~ Statistiek ~
Hfst 1: Data & Statistics:
Statistiek in beroepen:
Statistiek is van belang voor verschillende beroepen, bijvoorbeeld in de accounting, in de
financiën, bij marketing, productie en economie.
Data:
Bij statistiek staan data centraal: verzamelde en verwerkte feiten. De naam waarvan de data
is, noem je het element. (Bijvoorbeeld: AEX-index of dollarwaarde). Wat de data precies
voorstellen noem je de variabele (Bijvoorbeeld: wisselkoers of aantal verkopen per maand).
Één meting van een variabele van een element, noem je observation. Wanneer je alle
observations van verschillende variabele van verschillende elementen bij elkaar in een
schema verwerkt spreek je pas van data.
Schaal:
Bij metingen kun je verschillende schalen gebruiken:
- Nominal scale: een naam of label (Bijvoorbeeld: Amsterdam, Athene, etc.). Let
op! Ook getallen kunnen hiertoe behoren, wanneer ze geen
echte betekenis hebben van een aantal of een rangorde.
- Ordinal scale:
geeft een rangorde aan. Dit kan in getallen maar ook in
woorden (Zoals: 1, 2, 3, excellent, good, poor).
- Interval:
geeft een waarde aan die geen algemeen nulpunt heeft en
waarmee je niet kunt rekenen. Hiermee wordt bedoelt: als je
de waarde verdubbelt, is deze nog niet twee keer zo veel waard
(Bijvoorbeeld bij temperatuur: 4 graden Celcius is twee keer zo
warm als 8 graden Celcius). Als iets geen algemeen nulpunt
heeft, worden er vaak verschillende termen gebruikt. Zo kun je
temperatuur aangeven in graden Celcius, Kelvin en Fahrenheit.
Het NAP bij hoogteligging heeft een ander nulpunt dan in
andere landen.
- Ratio:
getallen met een nulpunt en waar je mee kunt rekenen
(Bijvoorbeeld: aantal kamers, kamerprijzen, etc.)
Kwalitatief & Kwantitatief:
Data kun je onderverdelen in:
- Kwalitatieve data:
-
Kwantitatieve data:
geven een identiteit van iets weer. Het gaat om de
nominale of ordinale schaal.
geven een hoeveelheid of een waarde van iets weer,
zoals bij de schalen: interval en ratio.
1 Samenvatting: Anderson - Statistics
Rick Hendriks
Cross-sectional & times series data:
Er is ook een ander onderscheid te maken bij data, namelijk:
- Cross-sectional data:
een aantal gegevens dat op hetzelfde moment is
verzameld, zoals alle beursstanden op 1 dag.
- Time series data:
een aantal gegevens gedurende een periode, zoals de
veranderingen van dollarwaarde in 2009.
Nieuwe & Oude gegevens:
Een derde onderscheid tussen data is:
 Existing sources: Als je gebruik maakt van al bestaande gegevens.
 In andere gevallen moeten de gegevens zelf worden onderzocht. Dat kan op twee
manieren gebeuren:
o Experimental studies: onderzoeken van een verwachting die je hebt
door de situatie na te bootsen en kijken of je
verwachtingen waar zijn.
o Observational studies: onderzoeken door observatie, zoals een enquête
houden.
Onderzoeksgroep:
Voor een onderzoek is het meestal goed om alle mensen die er betrekking bij hebben te
ondervragen. Als alle mensen onderzocht worden, spreek je van population. In veel gevallen
is het echter gemakkelijker om een steekproef op een kleinere groep mensen uit te voeren.
Dan spreek je van de sample.
Onderzoek dat je uitvoert bij een gehele populatie, noem je een census. Een onderzoek door
middel van een steekproef noem je een sample survey. Wanneer je de gegevens uit een
steekproef toe gaat passen voor een hypothese voor de gehele populatie, spreek je van
statistical inference.
2 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 2: Discriptive Statistics:
Tabular and Graphical Presentations
Frequency distrubtion – Frequentieverdeling:
Een frequentieverdeling is een tabel met verschillende classes van metingen. Van elke klasse
wordt aangegeven hoe vaak deze voorkomt in de gegevens. Deze aantallen kun je ook
uitdrukken in percentages: de relatieve frequentie, met behulp van de formule:
aantal van de klasse / totaal aantal metingen = relatieve frequentie
Soms is het nuttig om de klassen te cumuleren. Dan tel je bij het percentage van de huidige
klasse ook de waarde van alle eerdere klassen op. Zo loopt het percentage per klasse steeds
op, tot 100% bij de laatste klasse.
Meestal wordt een frequentieverdeling met aantallen gepresenteerd in een staafdiagram.
De relatieve frequentieverdeling is meer geschikt voor een cirkeldiagram.
Meestal gebruik je, afhankelijk van het aantal metingen, 5 tot 20 klassen. De klassebreedte
kun je vervolgend berekenen:
(grootste meting – kleinste meting) / aantal klassen = klassenbreedte
De grenzen van een klasse zijn erg belangrijk. Om te zorgen dat er geen waarde is die bij
geen enkele klasse hoort, kun je open-ended classes maken. Dit betekent dat de laagste
klasse geen ondergrens heeft, maar is dan alle waarden kleiner dan … Voor de hoogste
klasse geldt dan: alle waarden groter dan …
Metingen presenteren:
Metingen kun je op een aantal verschillende manieren presenteren:
 Dot plot: Dit is een horizontale lijn die loopt van de laagste tot de hoogste
waarde. Voor elke gemeten waarde komt er een stip op de lijn te staan.

Histogram: Een staafdiagram waarvan elke kolom voor één klasse staat. Op de
verticale as is te zien hoe hoog de frequentie van elke klasse is. De vorm vertelt
veel over de gegevens:
o Als de frequentie afloopt, zijn er veel lage metingen met enkele
uitschieters naar boven. (linker figuur)
o Als de frequentie oploopt, zijn er veel hoge metingen met enkele
uitschieters naar beneden. (middelste figuur)
o Als de frequentie als een berg op en af loopt, liggen veel metingen in het
midden bij elkaar. (rechter figuur)
3 Samenvatting: Anderson - Statistics
Rick Hendriks

Ogive: Een lijndiagram van de cumulatieve relatieve frequentieverdeling.

Stem-and-leaf display / steel-bladdiagram: In de linkerkolom staan alle tientallen
van de metingen en rechts de eenheid van iedere meting per tiental:
Een aantal metingen uit dit diagram zijn: 68, 69, 72, 73, 73, … 132, 134, 141.
Meerdere gegevens:
Er zijn ook tabellen met daarin meerdere
gegevens. Zo kun je uit de tabel hiernaast
afleiden hoeveel restaurants er in welke
prijsklasse vallen, maar ook de beoordeling
van de restaurants, maar ook de
gemiddelde beoordeling per prijsklasse.
Een tabel met meerdere variabelen heet
een cross tabulation.
Trendlijnen:
Aan de hand van een grafiek kun je ook de relatie tussen twee variabelen zien. Je kunt
bijvoorbeeld hoe hoog de omzet van een bedrijf is in relatie tot het aantal tv-commercials
van het bedrijf op tv. Elke as van de grafiek stelt een variabele voor. Vervolgens zet je voor
elke waarde een puntje in de grafiek. Als er een patroon in de puntjes ontstaat kun je daar
een rechte lijn tussendoor trekken. Dan kun je één van de 3 soorten relaties tussen de
variabelen herkennen:
Een stijgende lijn geeft een positief verband aan. In dat geval betekent dat meer reclame ook
werkelijk meer omzet oplevert.
§2.6: Tabular and Graphical presentations using EXCEL  ZELF BESTUDEREN
4 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 3: Discriptive Statistics:
Numerical Measures:
Gemiddelde:
Het belangrijkste gegeven dat de ligging weergeeft is het rekenkundig gemiddelde (mean).
Bij een steekproef is het symbool hiervoor 𝑥 en bij een populatie µ. Dit bereken je door alle
waarnemingen op te tellen en dan te delen door het aantal metingen.
gewogen gemiddelde = som van de waarde van alle metingen
Aantal metingen
We kennen ook een gewogen gemiddelde (weighted mean). Hierbij tellen niet alle waarden
even zwaar mee in het gemiddelde.
gewogen gemiddelde = som van alle metingen: (waarde * weging)
Som van alle wegingen
Mediaan:
Een ander gegeven dat een ligging aangeeft is de mediaan (median) dat de middelste
waarneming weergeeft. Bij een even aantal metingen is er geen middelste waarneming, dan
neem je het gemiddelde van de twee middelste waarnemingen.
Modus:
De modus (mode) geeft aan welk waarde het meeste voorkomt. Het kan zijn dat er
meerdere waarden het meest voorkomen. Als dat twee waarden zijn spreek je van een
bimodal onderzoek, bij meer dan twee spreek je van multimodal onderzoek.
Percentiel:
Het percentiel (percentile) geeft aan welke waarneming er bij een percentage van het aantal
waarnemingen hoort. Als je bijvoorbeeld het 85ste percentiel wilt berekenen, deel je 85 door
100 en vermenigvuldig je met het aantal waarden dat je hebt. Bij de 12 metingen krijg je:
85 / 100 * 12 = 10,2. De volgende waarneming na 10,2, dat is dus de 11 de waarneming (van
klein naar groot), hoort dus bij het 85ste percentiel. Wanneer er een geheel getal uit de
rekensom komt, bijvoorbeeld 10, dan neem je het gemiddelde van de 10 de en de 11de
meting.
Kwartiel:
Een andere belangrijke term is het Kwartiel (Quartile). Van een serie metingen is het eerste
kwartiel de waarde die op 25% van de metingen ligt. Het eerste kwartiel is gelijk aan het
25ste percentiel. Het tweede kwartiel is gelijk aan het 50ste percentiel en de mediian. Het
derde kwartiel is gelijk aan het 75ste percentiel.
Spreiding:
De spreiding geeft aan hoe ver de waarnemingen van elkaar liggen. De spreiding, of range
bereken je met de simpele formule:
range = grootste waarde – kleinste waarde
Een variant hierop is de IQR: Interquartile range. Hierbij bereken je de spreiding tussen het
eerste en het derde kwartiel.
5 Samenvatting: Anderson - Statistics
Rick Hendriks
Afwijking:
De afwijking (variance) is een getal het verschil tussen een waarde en het gemiddelde van
de metingen. De simpele formule daarvoor is:
̅)
afwijking (σ) = meting (xi) – gemiddelde (𝒙
Van elke meting kun je de afwijking berekenen, maar je kunt ook het gemiddelde van al die
afwijkingen geven: de population variance of de sample variance. De berekening hangt af
van of je een steekproef of een gehele populatie onderzoekt:
Afwijking (σ2 of s2) = de som van bij elke meting: (x – gemiddelde) 2
Aantal metingen
(bij steekproef, aantal – 1)
De population variance en de sample variance kun je gebruiken om vervolgens de
standaardafwijking te bereken: s2
standaardafwijking (s) = √𝒔𝟐
standaardafwijking (σ) = √𝝈𝟐
De coëfficiënt van de variabele (coefficient of variation) geeft aan hoe ver de
standaardafwijking van het gemiddelde afligt. De formule hiervoor is:
coefficient of variation =
𝒔𝒕𝒂𝒏𝒅𝒂𝒂𝒓𝒅𝒂𝒇𝒘𝒊𝒋𝒌𝒊𝒏𝒈
𝒈𝒆𝒎𝒊𝒅𝒅𝒆𝒍𝒅𝒆
x 100%
Skewness:
De vorm (shape) geeft aan hoe de gegevens verspreid liggen. Een voorbeeld hiervan is de
scheefheid (skewness). Een negatieve scheefheid (linker grafiek) geeft aan dat de grafiek
oplopend zou zijn. Hierbij ligt het gemiddelde boven de mediaan.
Bij een positieve scheefheid (rechter grafiek) loopt de grafiek af en ligt het gemiddelde onder
de mediaan. Ook geldt dat een hoge scheefheid aangeeft dat de mediaan een betere
maatstaf is dan het gemiddelde.
6 Samenvatting: Anderson - Statistics
Rick Hendriks
Z-score:
Een ander getal dat wat over de vorm zegt, is de z-score, of standardized value. Dit getal
geeft aan hoe ver een meting van het centrum af ligt. Een z-score van 1,2 zou bijvoorbeeld
betekenen dat de waarde 1,2 keer de waarde van de standaardafwijking boven het
gemiddelde ligt.
Z-score :
z-score = (x – gemiddelde) / standaardafwijking
De theorie van Chebyshev is ook gebaseerd op de z-score:
Tenminste (1 – 1/z2) x 100% van de gegevens valt binnen ‘z’
standaardafwijkingen van het gemiddelde, wanneer z groter is dan 1.
Bij een examen van 100 studenten, gemiddeld 70 punten worden behaald, met een
standaardafwijking van 5, zou dat betekenen dat:
(1 – 1 / 22) x 100% = (1 – ¼) x 100% = 75%
Dan zouden 75% van de studenten binnen twee standaardafwijkingen van het gemiddelde
scoren, dus tussen de 60 en 80 punten.
In het geval van een standaard verdeling (normal probability distribution) gelden dan de
empirical rules:
 68% van de gegevens valt binnen 1 standaardafwijking van het gemiddelde
 95% van de gegevens valt binnen 2 standaardafwijkingen van het gemiddelde
 Bijna alle gegevens vallen binnen 3 standaardafwijkingen van het gemiddelde
Niet altijd vallen alle gegevens binnen deze 3 standaardafwijkingen. Je kunt te maken
hebben met enkele extreme waarde (outliers). Men zegt dat wanneer de z-score groter is
dan +3, of kleiner dan -3, er sprake is van een extreme waarde.
Box plot:
Bij het maken van een box plot ga je uit van de 5-getallen samenvatting (five-number
summary). Deze gaat uit van de 5 volgende gegevens:
1) Kleinste waarde / smallest value
2) Eerste kwartiel / First quartile (Q1)
3) Mediaan / median (Q2)
4) Derde kwartiel / Third quartile (Q3)
5) Grootste waarde / largest value
Een box plot teken je boven een getallenlijn. Je begint met het tekenen van de box, die loopt
van Q1 tot aan Q3. Je trekt een verticale streep bij de mediaan. Vervolgens zet je twee
verticale strepen op 1,5 IQR van Q1 en Q3 af, dit zijn de lower en upper limit. Je trekt een
stippellijn van de kleinste waarde binnen de limits tot aan de grootste waarde binnen de
limits. Ten slotte geef je met een sterretje aan of er nog waarden buiten de limits liggen.
7 Samenvatting: Anderson - Statistics
Rick Hendriks
Covariantie:
De covariance (covariantie) geeft de relatie tussen 2 verschillende variabelen aan.
Covariantie = som van alle alle waarden: (x – gemiddelde x) * (y – gemiddelde y)
Aantal metingen – 1
(bij populatie, niet -1)
De uitkomst kan twee dingen aangeven:
 Een positieve uitkomst geeft een positief verband aan: wanneer de ene
variabele toeneemt, neemt ook de andere variabele toe.
 Een negatieve uitkomst geeft een negatief verband aan: wanneer de ene
variabele toeneemt, daalt de andere variabele.
Een nadeel van het gebruik van de covariantie is dat je niet kunt aflezen sterk het verband is.
Een covariantie van 5 kan in sommige gevallen een heel constant verband weergeven, terwijl
het in een ander geval een hele grote afwijking kan weergeven.
Correlatie:
De correlatie coëfficiënt (correlation coefficient) geeft het verband tussen twee variabelen
aan, maar ook hoe sterk dat verband is. De formule voor de correlatie coëfficiënt is:
rxy = correlatie coefficient (steekproef)
sxy = covariantie (steekproef)
sx = standaardafwijking X (steekproef)
sy = standaardafwijking Y (steekproef)
ρsy = correlatie coefficient (populatie)
σxy = covariantie (populatie)
σy = standaardafwijking X (populatie)
σy = standaardafwijking Y (populatie)
Net als bij de covariantie, kun je zien of het een positief of negatief verband is. Ook kan het
natuurlijk zijn dat de correlatie 0 is, dan is er helemaal geen verband.
Naast dat je kunt zien of het verband positief of negatief is, kun je ook zien hoe sterk het
verband is tussen de twee variabelen. Hierbij geldt dat als de uitkomst 1 of -1 is, alle
metingen precies in 1 rechte lijn liggen. Hoe dichter de correlatie bij 0 ligt, hoe meer
afwijkingen er van het verband zijn.
Gegroepeerde gegevens:
De formules voor het gemiddelde en de afwijking die hier boven staan, kun je alleen
gebruiken wanneer je elke meting apart weet. Maar in sommige gevallen zijn de gegevens
gegroepeerd, bijvoorbeeld wanneer je met klassen werkt. Dan krijg je te maken me de
volgende formules:
Steekproef:
Populatie:
Gemiddelde:
Afwijking
§3.8: Tabular Descriptive statistics using EXCEL  ZELF BESTUDEREN
8 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 4: Introductie op kansberekening:
Kansen (probability) zijn getallen die aangeven hoe waarschijnlijk het is dat iets gebeurd. Die
getallen liggen tussen de 0 en de 1, waarbij 0 betekent dat iets nooit kan gebeuren en bij 1
dat iets zeker gaat gebeuren. Kansen worden ook beschreven met het symbool P.
§4.1: Experimenten, telregels en kansen toekennen:
Bij kansberekening gaat het vaak over gebeurtenissen (ook wel experimenten genoemd). De
mogelijke gevolgen van een experiment zijn de uitkomsten (sample points). Alle mogelijke
uitkomsten samen vormen de sample space, aangegeven met het symbool S.
In de kansberekening kennen we 3 belangrijke telregels:
1) Multiple-step experiments: Dit zijn gebeurtenissen die uit meerdere delen
bestaan. Het aantal mogelijke uitkomsten kun je berekenen door de het
aantal mogelijke uitkomsten van iedereen onderdeel met elkaar te
vermenigvuldigen.
Vaak is het ook makkelijk om een boomdiagram (tree diagram) te maken,
waarbij je alle mogelijke uitkomsten opschrijft.
Voorbeeld:
Stel, je wilt het aantal mogelijke uitkomsten weten van
het experiment dat je een munt opgooit en een
dobbelsteen werpt.
Een munt opgooien kent 2 mogelijke uitkomsten, kop
of munt. Een dobbelsteen werpen kent er 6. Het totale
mogelijke aantal uitkomsten is dus: 2 x 6 = 12.
Het boomdiagram hiervan is hiernaast weergegeven.
De kans op kop en een 3 werpen schrijf je als volgt:
P (kop, 3)
De sample space beschrijf je zo: S = { (kop, 1), (kop, 2) … (munt, 6), (munt, 5)}
2) Combinaties: Hierbij heb je een groot aantal objecten, waarvan je er enkele
neemt. Het is niet mogelijk om een object meerdere malen te kiezen. Hierbij
maken we gebruik van faculteit, het symbool !. Faculteit betekent dat een
getal wordt vermenigvuldigd met alle lagere waarden. Bij combinaties kennen
we de volgende formule:
N = totale aantal objecten
n = aantal objecten dat je neemt
𝑵!
𝑵
NC ( ) ==
n
𝒏!(𝑵−𝒏)!
𝒏
Op je rekenmachine kun je dit ook eenvoudig de eerste formule invoeren.
5
( ) voer je bijvoorbeeld zo in: 5 nCr 2
2
Voorbeeld:
Bij een loterij zitten er 49 getallen in de machine, waarvan er 6 getrokken
worden. Bereken het aantal mogelijke uitkomsten.
49!
49!
49 𝑥 48 𝑥 47 𝑥 46 𝑥 45 𝑥 44
49
( ) = 6!(49−6)! = 6!43! = 6 𝑥 5 𝑥 4 𝑥 3 𝑥 2 𝑥 1 = 13.983.816
6
Of als je het direct op je rekenmachine intypt: 49 nCr 6 = 13.983.816
9 Samenvatting: Anderson - Statistics
Rick Hendriks
3) Permutaties: Permutaties werken ongeveer gelijk als combinaties. Het
verschil is dat bij permutaties de volgorde belangrijk is. De formule wordt:
N = totale aantal objecten
n = aantal objecten dat je neemt
𝑵!
𝑵
NP = n! ( ) =
n
(𝑵−𝒏)!
𝒏
Op je rekenmachine doe je dat met de functie nPr: 2nd nCr
Voorbeeld:
Een bedrijf heeft 5 machines (A, B, C, D en E), waarvan er 2 willekeurig na
elkaar gecontroleerd worden. Hoeveel mogelijkheden zijn er?
5!
5!
5 𝑥 4 𝑥 3 𝑥 2 𝑥 1 120
5P = 2! (5) =
= 3! =
= 6 = 20
2
(5 −2)!
3𝑥2𝑥1
2
Of op je rekenmachine meteen invoeren: 5 2nd nCr 2 = 20
Er zijn een aantal mogelijkheden om een kansberekening te benaderen:
 Klassieke methode: hierbij is kans voor het gebeuren van elke uitkomst even groot.
Zo is de kans op munt net zo groot als de kans op kop als je een munt opgooit. Hierbij
is de kans: 1 / het totale aantal mogelijkheden, dus in dit geval: P = 1 / 2 = 0,500
 Relatieve frequentie methode: hierbij worden er meerdere metingen gedaan, om te
kijken welke uitkomst een grotere waarschijnlijk heeft dan de anderen. De kans
bereken je hierbij door de frequentie te delen door het totale aantal metingen.
Voorbeeld:
Er wordt onderzoek gedaan in een wachtkamer naar
hoeveel mensen er wachten. Dit wordt 20 dagen om
9.00 uur gemeten. De resultaten zijn hiernaast
weergegeven.
De kans dat er 2 wachtende zijn in de wachtkamer, is:
P = 6 / 20 = 0,300
Wachtende
0
1
2
3
4
Frequentie
2
5
6
4
3

Subjectieve methode: hierbij gaat de kansberekening over de mate van geloof in een
uitkomst, vaak gebaseerd op intuïtie of ervaring. Zo valt bijvoorbeeld de kans dat een
bod op een huis wordt geaccepteerd niet te berekenen, slechts te voorspellen op
basis van een gevoel dat iemand bij de situatie heeft.
In alle situaties is het belangrijk om te checken dat de kansen dat iets gebeurd tussen de
0 en de 1 zit en dat alle mogelijke uitkomsten samen weer precies 1 moeten vormen.
§4.2: Events en hun kansen:
Een experiment waarbij meerdere uitkomsten (sample points) samen worden onderzocht,
heet een event. De kans van een event is even groot als de optelsom van alle sample points.
Voorbeeld:
We gaan uit van het onderzoek in de wachtkamer van eerder.
We willen uitzoeken hoe groot de kans is dat er meer dan 2
wachtende zijn in de wachtkamer. Hiervoor berekenen we
eerst de kans op 3 en daarna op 4 wachtende.
P (3) = 4 / 20 = 0,200
P (4) = 3 / 20 = 0,150
Dus de kans op deze event is: 0,200 + 0,150 = 0,350
10 Samenvatting: Anderson - Statistics
Wachtende
0
1
2
3
4
Frequentie
2
5
6
4
3
Rick Hendriks
§4.3: Relaties in kansberekening:
Events worden vaak aangeduid met een letter, zoals A. We kennen ook complementaire
events, dit zijn events die bestaan uit alle sample points die niet tot A behoren, geschreven
als Ā. Daarmee kunnen we een nieuwe formule maken om de kans op A te berekenen:
P(A) = 1 – P(Ā)
Dit betekent: de kans op event A is gelijk aan 1 – de kans dat A niet plaats vind.
Wanneer er meerdere events plaats vinden, kan het zijn dat een deel van de uitkomsten
zowel bij event A als bij event B hoort. Hierbij moet je rekening houden dat je de groep die
bij beide events hoort, niet dubbel telt, dat is de addition law. Hierbij rekenen we met:
 Union of events (A ∪ B): die staat voor alle mogelijke uitkomsten die horen bij
A, of bij B, of bij beide events.
 Intersection of events (A ∩ B): dit staat voor alle mogelijke uitkomsten die
horen bij A, of bij B, maar niet bij beide events.
Daarmee kunnen we de formule opstellen voor kansberekening bij twee events:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Voorbeeld:
We gaan een groep medewerkers onderzoeken. We willen weten hoe groot de kans is dat
iemand te veel tijd nodig heeft om een product te maken (event A) of het product dat ze
maken niet goed is (event B). Het is natuurlijk mogelijk dat het te lang duurt en een slecht
product oplevert.
Uit metingen blijkt dat van 50 onderzochte medewerkers er 5 te langzaam zijn, 6 slechte
producten leveren. 2 Personen behoren tot beide groepen.
P(A) = 5 / 50 = 0,100
P(B) = 6 / 50 = 0,120
P(A ∩ B) = 2 / 50 = 0,040
P(A ∪ B) = P(A) + P(B) - P(A ∩ B) = 0,100 + 0,120 – 0,040 = 0,180
Het is natuurlijk ook mogelijk dat het niet mogelijk is dat een uitkomst bij twee events hoort,
dan spreken we van een mutually exclusive event. Dit is bijvoorbeeld het geval wanneer je
onderzoekt hoe groot de kans is dat een willekeurig iemand 20 of 21 jaar is. Iemand kan niet
20 en 21 jaar zijn, dus dan gaan we van de eenvoudigere formule uit:
P(A ∪ B) = P(A) + P(B)
§4.4: Kansberekening onder voorwaarden:
Voorwaardelijke kansberekening (conditional probability) is het kansberekening waarbij de
ene gebeurtenis wordt berekend op voorwaarde van de andere gebeurtenis. Deze kansen
worden geschreven als P (𝐴|𝐵): dit is de kans op A, op voorwaarde van B:
Afhankelijk:
P(𝑨|𝑩) =
𝑷(𝑨 ∩ 𝑩)
𝑷 (𝑩)
Wanneer de twee gebeurtenissen onafhankelijk zijn, hebben ze geen invloed op elkaar. De
kans op A wanneer B gebeurt is dus net zo groot als wanneer B niet zou gebeuren of B
helemaal niet werd meegenomen in het onderzoek. De formule is dan dus:
Onafhankelijk:
11 Samenvatting: Anderson - Statistics
P(𝑨|𝑩) = P(A)
Rick Hendriks
Voorbeeld:
Er wordt onderzoek gedaan naar de relatie
tussen promoties en geslacht. Er zijn 1200
mensen onderzocht, waaruit de tabel hiernaast
is voortgekomen.
PROMOTIE Mannen Vrouwen Totaal
wel (A)
288
36
324
geen (Ā)
672
204
876
Totaal
960
240
1200
Om te zien of er een verband is gaan we P (𝐴|𝑀) berekenen en P (𝐴|𝑉):
𝑷(𝑨 ∩ 𝑴) 𝟐𝟖𝟖 / 𝟏𝟐𝟎𝟎 𝟎,𝟐𝟒
P (𝑨|𝑴) =
=
=
= 0,300
(𝑴)
P (𝑨|𝑽) =
𝑷
𝑷(𝑨 ∩ 𝑽)
𝑷 (𝑽)
𝟗𝟔𝟎 / 𝟏𝟐𝟎𝟎 𝟎,𝟖𝟎
𝟑𝟔 / 𝟏𝟐𝟎𝟎
𝟎,𝟎𝟑
= 𝟐𝟒𝟎 / 𝟏𝟐𝟎𝟎 = 𝟎,𝟐𝟎 = 0,150
De kans dat een man promotie maakt is niet gelijk aan de kans dat een vrouw promotie
maakt, dus de twee gebeurtenissen zijn afhankelijk van elkaar.
Optie 2: Het is ook mogelijk om eerst de tabel om te
zetten in kansen. De kans dat een willekeurig
iemand een man is, is 960 / 1200 = 0,800. De kans
dat iemand man is en promotie maakt
“P (M ∩ A)” is: 288 / 1200 = 0,240, etc. Dat geeft
de tweede tabel.
De formules zijn dan gemakkelijker in te vullen:
𝑷(𝑨 ∩ 𝑴)
𝟎,𝟐𝟒
P (𝑨|𝑴) =
=
= 0,300
en
(𝑴)
𝑷
𝟎,𝟖𝟎
PROMOTIE
wel (A)
geen (Ā)
Totaal
P (𝑨|𝑽) =
M
0,240
0,560
0,800
V
0,030
0,170
0,200
𝑷(𝑨 ∩ 𝑽)
𝑷 (𝑽)
Totaal
0,27
0,73
1,00
𝟎,𝟎𝟑
= 𝟎,𝟐𝟎 = 0,150
De conclusie blijft natuurlijk dezelfde.
Uiteraard zijn de formules ook om te draaien, zodat je er de kans van een onderdeel van de
voorwaarde mee kunt berekenen:
Afhankelijk:
Onafhankelijk:
P (A ∩ B) = P(A) P(𝑩|𝑨)
P (A ∩ B) = P(A) P(B)
of
P (A ∩ B) = P(B) P(𝑨|𝑩)
§4.5: De theorie van Bayes:
Een belangrijke theorie in de kansberekening is de theorie van Bayes over meerdere events.
Hij heeft de volgende formule opgesteld:
Theorie van Bayes:
𝑃 (𝐴𝑖)𝑃(𝐵 |𝐴𝑖 )
P(Ai B) = 𝑃(𝐴1)𝑃(𝐵 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐵 |𝐴2)+ ……+ 𝑃(𝐴𝑛)𝑃(𝐵|𝐴𝑛)
Deze formule is het beste te gebruiken met een boomdiagram of een tabel:
 Boomdiagram: Alle mogelijke wegen worden in het boomdiagram uitgewerkt
en vervolgens de formule invullen.
 Tabel: De volgende tabel invullen en de formule toepassen:
(1)
(2)
(3)
(4)
(5)
Events Prior
Conditional Joint probability
Posterior probabilities
(A)
probability probability
P(Ai ∩ B)
P(𝑨𝒊|𝑩)
P(Ai)
P(𝑩|𝑨𝒊)
A1
…
…
Kolom 2 * kolom 3
Kolom4 * P(B)
A2
…
…
TOTAAL Totaal = P(B)
Totaal = 1.000
12 Samenvatting: Anderson - Statistics
Rick Hendriks
Voorbeeld:
Een fabriek krijgt van 2 leveranciers producten, leverancier A1 en A2. Deze producten kunnen
goed (G) of fout (F) zijn. De manager wil weten hoe groot de kans is dat een fout product
wordt gemaakt door een foute levering door leverancier A1 of A2.
Uit metingen komt naar voren dat leverancier A 1 65% van de voorraad levert en de andere
leverancier de overige 35%. Van leverancier A1 zijn de producten in 98% goed, bij leverancier
A2 gaat het om 95% van de goederen.
Methode 1 – Boomdiagram:
Met behulp van de gegevens kun je dit boomdiagram opstellen:
= P(A1 ∩ G) = P(A1) P(𝐺|𝐴1)
= P(A1 ∩ F) = P(A1) P(𝐹|𝐴1)
= P(A2 ∩ G) = P(A2) P(𝐺|𝐴2)
= P(A2 ∩ F) = P(A2) P(𝐹|𝐴2)
De theorie van Bayes zegt:
P(𝐴1|𝐹) =
𝑃 (𝐴𝑖)𝑃(𝐵 |𝐴𝑖 )
P(Ai B) = 𝑃(𝐴1)𝑃(𝐵 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐵 |𝐴2)+ ……+ 𝑃(𝐴𝑛)𝑃(𝐵|𝐴𝑛)
𝑃 (𝐴1)𝑃(𝐹 |𝐴1)
𝑃(𝐴1)𝑃(𝐹 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐹 |𝐴2)
𝑃 (𝐴2)𝑃(𝐹 |𝐴2)
=
0,0130
0,0130+0,0175
0,0175
=
0,0130
0,0305
= 0,426
0,0175
P(𝐴2|𝐹) = 𝑃(𝐴1)𝑃(𝐹 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐹 |𝐴2) = 0,0130+0,0175 = 0,0305 = 0,574
Dit geeft aan dat wanneer er een fout product wordt gemaakt, de grootste kans is dat dit
wordt veroorzaakt door leverancier A2.
Methode 2 – Tabel:
1) Er zijn 2 events, leverancier A1 kan leveren en leverancier A2.
2) Uit de gegevens kunnen we halen dat de kans dat iets van leverancier A1 komt,
65% is, dus 0,65. A2 is dan 0,35
3) Kolom 3 weten we ook: de kans dat een product van leverancier A1, fout is, is 2%.
Bij leverancier A2 is 5% van de producten fout.
4) Voor kolom 4 vermenigvuldigen we kolom 2 en 3:
A1: 0,65 * 0,02 = 0,0130
A2: 0,35 * 0,05 = 0,0175
Het totaal van deze kolom vormt P(B) = 0,0130 + 0,0175 = 0,0305
5) Kolom 5 is kolom 4 gedeeld door P(B):
A1: 0,0130 / 0,0305 = 0,426
A2: 0,0175 / 0,0305 = 0,574
Events Prior
Conditional Joint probability
Posterior probabilities
(A)
probability probability
P(Ai ∩ B)
P(𝑨𝒊|𝑩)
P(Ai)
P(𝑩|𝑨𝒊)
A1
0,65
0,02
0,0130
0,426
A2
0,35
0,05
0,0175
0,574
TOTAAL Totaal = P(B) = 0,0305 Totaal = 1.000
13 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 5: Binomiale Verdeling:
§5.1: Variabelen:
Een variabele (random variable) is een omschrijving in getallen van de uitkomst van een
experiment. We maken een onderscheid naar:
 Discrete variabelen: gehele exacte getallen. Het kan ook zijn dat een getal
een betekenis heeft. Zo kan het gaan om 5 auto’s in een onderzoek, maar kan
een getal 1 ook staan voor een positief resultaat en 0 voor een negatief of
voor mannen / vrouwen, of iets dergelijks.
 Continue variabelen: een interval of een serie intervallen. Zo kun je metingen
maken naar temperaturen en deze in delen in 20 tot 30 graden, 30 tot 40
graden, 40 tot 50 graden, etc.
§5.2: Discrete kansverdeling:
De meest eenvoudige vorm van kansberekening is de discrete uniforme kansberekening.
Hierbij is de kans op een uitkomst net zo groot als elke andere mogelijke uitkomst, zoals bij
het dobbelen met een dobbelsteen. De formule is dan:
n = het aantal mogelijke uitkomsten
p(x) = 1 / n
§5.3: Verwachtingswaarde en standaardafwijking:
Het gemiddelde wordt in de kansberekening vaak verwachtingswaarde genoemd, kenbaar
aan de symbolen µ en E(x). Dit wordt berekend door elke mogelijke uitkomst te
vermenigvuldigen met de kans op deze uitkomst en deze allemaal op te tellen:
E(x) = µ = ∑ 𝐱 ∗ 𝐩(𝐱)
-
Ook in de kansberekening kunnen we de afwijking op het gemiddelde berekenen, de variatie
(σ2 of Var(x)). De formule hiervoor is:
Var(x) = σ2 = ∑(𝒙 − µ) 𝟐 * p(x)
De standaardafwijking is de wortel van de variatie:
σ = √𝝈𝟐 = √∑(𝒙 − µ) 𝟐 ∗ 𝒑(𝒙)
Voorbeeld:
Een autodealer is 300 dagen per jaar geopend. Er is bijgehouden hoeveel auto’s er per dag
verkocht zijn: 18% van de dagen 0 auto’s, 39% van de dagen 1 auto, 24% van de dagen 2
auto’s, 14% van de dagen 3 auto’s, 4% van de dagen 4 auto’s, 1% van de dagen 5 auto’s.
Hiermee gaan we de verwachtingswaarde en standaardafwijking berekenen:
E(x) = µ = ∑ 𝑥 ∗ 𝑝(𝑥) =
0,18 * 0 + 0,39 * 1 + 0,24 * 2 + 0,14 * 3 + 0,04 * 4 + 0,01 * 5 =
0 + 0,39 + 0,48 + 0,42 + 0,16 + 0,05 = 1,50.
(0 − 1,50) 2 ∗ 0,18
2,25 ∗ 0,18
0,405 +
(1 − 1,50) 2 ∗ 0,39
0,25 ∗ 0,39
0,0975 +
2 ∗ 0,24
(2
−
1,50)
0,25
∗
0,24
0,060 +
σ = √∑(𝑥 − µ) 2 ∗ 𝑝(𝑥) =
=
=
= √1,25 = 1,12
2
(3 − 1,50) ∗ 0,14
2,25 ∗ 0,14
0,315 +
6,25 ∗ 0,04
0,250 +
(4 − 1,50) 2 ∗ 0,04
√(5 − 1,50) 2 ∗ 0,01 √12,25 ∗ 0,01 √ 0,1225
14 Samenvatting: Anderson - Statistics
Rick Hendriks
§5.4: Binomiale Verdeling:
Een bijzondere situatie in de kansberekening is de binomiale kansverdeling. Hiervan is
sprake wanneer een kans 2 mogelijkheden heeft: succes of falen. De kans op succes wordt
uitgedrukt in het symbool π, falen in (1 – π). De kans is telkens even groot. De formule
hiervoor is:
P = de kans
n = aantal testen
π = kans op succes
r = aantal gewenst succes
P (X = r) = (𝒏𝒓) * πr * (1 – π) (n – r)
Gemiddelde = µ = n * π
Standaardafwijking = σ = √(𝒏 ∗ 𝝅 (𝟏 − 𝝅))
Voorbeeld:
Je hebt een bak met 9 witte ballen en 5 rode ballen. Je pakt uit de bak 5 ballen. Nadat je een
bal hebt genomen leg je deze weer terug, zodat er weer 14 zijn. Je hebt succes wanneer je
precies 3 witte ballen pakt. Bereken hoe groot de kans op succes is en hoe vaak je gemiddeld
succes hebt als je 5 ballen neemt.
π = 1 witte bal = 9/14
(1 – π) = 5/14
P (X = 3 witte ballen en 2 rode) = (53) * (9/14)3 * (5/14) (2)
Kans = 0,3389
Het gemiddelde aantal witte ballen bij 5 ballen is: µ = 5 * (9/14) = 3,21 witte ballen
15 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 6: Normale Verdeling:
§6.2: Normale verdeling:
De normale kansverdeling komt in de praktijk het meeste voor. Gemiddelde van
steekproeven hebben bijvoorbeeld altijd een normale verdeling. Om met de normale
verdeling te rekenen, kun je het beste de z-score gebruiken en de tabel voor kansen bij
normale verdeling (blz. 824)
Z-score = (x - µ) / σ
Wanneer je een kans berekend voor iets dat tussen 2 waarden in ligt, moet je de z-score van
deze twee waarden berekenen.
Wanneer de twee waarden aan verschillende zijden van het gemiddelde liggen, moet je
kansen bij elkaar optellen. Wanneer ze aan dezelfde zijde van het gemiddelde liggen, trek je
ze van elkaar af.
Voorbeeld:
Je hebt een normale verdeling waarbij het gemiddelde 9 is en er een standaardafwijking
geldt van 2. Bereken de kans dat X tussen de 7 en de 12 ligt.
a=7
b = 12
Za = (7 – 9) / 2 = -1
Zb = (12 – 9) / 2 = 1,5
7 ligt onder het gemiddelde, 12 ligt erboven, dus de kansen moeten worden opgeteld
De kansen: P(0 < Z < 1) + P (0 < Z < 1,5)
Tabel geeft: (minteken is niet van belang):
0,3413 + 0,4332 = 0,7745
16 Samenvatting: Anderson - Statistics
Rick Hendriks
§6.3: Binomiale verdeling benaderen door een normale benadering:
Je kunt ook een binomiale kansverdeling (zie §5.4) berekenen door de methode van de
normale verdeling toe te passen. Hiervoor moet er wel aan 3 eisen worden voldaan:
 n*π>5
 n * (1 – π) > 5
 n > 20
Wanneer je een kans berekent, is er nu wel een continuïteitscorrectie nodig. Dit betekent
dat je het gebied gaat onderzoeken dat een halve onder en een halve waarde boven je kans
gaat onderzoeken.
Gemiddelde = µ = n * π
Standaardafwijking = σ = √(𝒏 ∗ 𝝅 (𝟏 − 𝝅))
Continuiteitscorrectie uitvoeren
Z-score = (x - µ) / σ
Verder de normale verdeling toepassen
Voorbeeld:
Je hebt een pot met 10 knikkers, waarvan er 9 rood zijn en 1 wit. Er worden in totaal 100
trekkingen uit de pot gedaan, na iedere trekking gaat de getrokken bal terug in de bak.
Bereken de kans door normale benadering dat er 12 witte ballen worden getrokken.
Kan de normale benadering?:
- n * π = 100 * 0,1 = 10 > 5  klopt
- n * (π – 1) = 100 * 0,9 = 90 > 5  klopt
- n = 100 > 20  klopt
µ= n * π = 100 * 0,1 = 10
σ = √(100 ∗ 0,1 (0,9)) = 3
Continuiteitscorrectie:
P (X = 12), dat wordt: P (11,5 < X < 12,5)
a = 11,5
b = 12,5
Za = (11,5 – 10) / 3 = 0,5
Zb = (12,5 – 10) / 3 = 0,8333
De grenzen van het gebied zijn beiden groter dan het gemiddelde, dus de kansen moeten van
elkaar worden afgehaald:
P (0 < Z < 0,8333) – P (0 < Z < 0,5)
0,2967 – 0,1915 = 0,1052
De kans op 12 witte ballen is dus: 0,1052
17 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 7: Steekproeven:
§7.2: Simple random sampling:
In de voorgaande hoofdstukken werd er ingegaan op kansberekening bij populaties. In dit
een verdere hoofdstukken gaan we in op steekproeven: onderzoek naar een deel van de
gehele populatie.
§7.3: Point estimation:
Een aantal formules die je nodig hebt als je steekproef gemiddelden gaat analyseren:
̅=
Gemiddelde = 𝒙
∑𝒙
𝒏
= som van alle waarden / aantal waarden
2
Standaardafwijking = s =
∑(𝒙−𝒈𝒆𝒎. 𝒙)
𝒏−𝟏
Aantal uitslagen = n
Aantal gewenste uitslagen = m
Kans op succes (voorheen π) = p = m / n
Voorbeeld:
Je hebt een grote groep mensen, waarvan je er 10 onderzoekt of ze een opleiding hebben en
wat hun jaarsalaris is.
Gegevens:
X1= opgeleid, €50.000,X6 = opgeleid, €52.000,X2= opgeleid, €55.000,X7 = niet opgeleid, €48.000,X3 = opgeleid, €48.000,X8 = opgeleid, €56.000,X4 = niet opgeleid, €40.000,X9 = opgeleid, €45.000,X5 = niet opgeleid, €26.000,X10 = opgeleid, €61.000,𝑥̅ =
(€50.000,- + €55.000,- + €48.000,- + €40.000,- + €26.000,- + €52.000,- + €48.000,- +
€56.000,- + €45.000,- + €61.000,-) / 10 = €48.100,-
n = 10
m = opgeleid = 7
p = 7 / 10 = 0,7
§7.4: Introductie tot steekproef verdelingen:
Het is natuurlijk mogelijk om uit dezelfde populatie
meerdere steekproeven te nemen. De uitkomsten
hiervan zullen verschillen. De uitslagen die dichtbij
het werkelijke gemiddelde liggen, komen vaker
voor dan uitkomsten die daar ver van afwijken. Als
je dit uitwerkt in een frequentietabel, krijgt de
grafiek de vorm die hiernaast is weergegeven.
18 Samenvatting: Anderson - Statistics
Rick Hendriks
§7.5: Steekproefverdeling van het gemiddelde:
Als je bij elke steekproef het gemiddelde neemt, en dan al die gemiddelden weer een
gemiddelde neemt, moet dat gelijk zijn aan het gemiddelde van de gehele populatie.
De standaardafwijking van de steekproef (σx) moet berekend worden met een formule:
σx = standaardafwijking van de steekproef
σ = standaardafwijking van de gehele populatie
n = steekproefomvang
N = populatieomvang
σx =
𝝈
√𝒏
met een eindige-populatiecorrectie: σx = √
𝑵−𝒏
𝝈
𝑵−𝟏 √𝒏
De eindigheidcorrectie moet je alleen toepassen wanneer de omvang van de populatie vast
staat en bij de steekproef meer dan 5% van de populatie is onderzocht. In andere gevallen
volstaat de eerste kortere formule.
Je mag er van uit gaan dat wanneer je meer dan 30 steekproeven neemt en er niets anders
vermeld is, dat de resultaten van de steekproeven normaal verdeeld zijn.
Wat vaak nog belangrijk is om te weten, is de kans dat de uitkomst van de steekproef erg
afwijkt van de werkelijkheid. Hoeveel er mag worden afgeweken wordt vaak gegeven. Met
behulp van de z-score kan de kans hierop vervolgens worden berekend:
Voorbeeld:
Van een groep mensen is het salaris gemiddeld €51.800,-. De directie laat toe dat een
steekproef een afwijking van maximaal €500,- hierop mag vertonen. De standaardafwijking
is €730,30.
Z-score:
(€51.300 - €51.800) / €730,30 = - 0,68
De Z-score-tabel geeft hierbij een kans van 0,2518. Omdat de uitslag er ook €500,- boven
mag zitten, is de kans dat het binnen de normen ligt 2 * 0,2518 = 0,5036. De kans dat dit niet
gebeurt is dus bijna net zo groot (1 – 0,5036 = 0,4964). In dit geval is het verstandig om een
nieuwe onderzoek met meer steekproeven te doen.
19 Samenvatting: Anderson - Statistics
Rick Hendriks
§7.6: Steekproefverdeling van p:
Tot nu toe zijn we uitgegaan van gehele getallen. Maar er kan ook worden gerekend met
proporties. Hierbij zijn de aantallen niet gegeven in gehele getallen, maar in delen of
procenten. De formules en tekens wijken af:
p / π = proportieomvang
n = steekproefomvang
E (p) = Verwachtingswaarde
m = aantal ‘positieve’ resultaten
N = populatieomvang
π = proportie
σp = standaardafwijking
p=
𝒎
𝒏
E(p) = π
𝝅 (𝟏−𝝅)
σp = √
𝑵−𝒏
𝝅 (𝟏−𝝅)
met een eindige-populatiecorrectie: σp = √𝑵−𝟏 √
𝒏
𝒏
de eindige-populatiecorrectie wordt toegepast wanneer: n / N > 0,05.
(wanneer de steekproefomvang kleiner of gelijk is aan 5% van de populatieomvang)
Voorbeeld:
In een winkel komen dagelijks 1.000 klanten. Er wordt onderzocht hoeveel klanten werkelijk
iets kopen. Er worden 10 klanten onderzocht, waarvan er 3 iets kopen. Bereken de
verwachtingswaarde en de standaardafwijking met behulp van proporties:
De omvang van de proportie is: = π = m / n = 3 / 10 = 0,3
De verwachtingswaarde is gelijk aan de proportie, dus: E(p) = π = 0,3
Om te kijken of de eindige-populatiecorrectie moet worden toegepast wordt berekend:
n / N = 10 / 1.000 = 0,01. Dit is kleiner dan 0,05, dus de correctie moet worden toegepast.
𝟏𝟎𝟎𝟎 − 𝟏𝟎
𝟎,𝟑 (𝟏−𝟎,𝟑)
σp = √ 𝟏𝟎𝟎𝟎 − 𝟏 √
𝟏𝟎
990
0,21
= √999 √ 10 = √0,991 √0,021 = 0,995 * 0,145 = 0,144
20 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 8: Schattingsintervallen:
In het vorige hoofdstuk zijn we al bezig geweest met schattingspunten (point estimators). Zo
is het steekproef gemiddelde een schattingspunt om het gemiddelde van de hele populatie
te bepalen. Tot nu toe hebben we gezegd dat de uitkomst van de steekproef precies gelijk is
aan de gehele populatie. Er is echter vaak een klein onderscheid tussen, dit verschil noemen
we de foutmarge (margin of error). De waarde voor de gehele populatie bevindt zich tussen
(schattingswaarde – foutmarge) en (schattingswaarde + foutmarge). Dit noemen we de
intervalschatting (interval estimate).
§8.1: populatiegemiddelde, σ bekend:
Wanneer we van een steekproef naar een resultaat voor de hele populatie gaan rekenen,
maken we gebruik van de confidentie coefficiënt. Dit getal geeft weer hoe zeker men wil zijn
dat de omzetting klopt. Hoe dichter het getal bij 0 ligt, hoe zekerder men wil zijn. Als je dit
getal omzet in een percentage, spreek je van de confidentie level.
Om het populatiegemiddelde te gaan berekenen, gebruik je de formule:
(1 – α) = confidentie coëfficiënt
𝜎
𝑥̅ = 𝑍𝛼 / 2 ∗
√𝑛
Hiervoor ga je als volgt te werk:
1) Bereken de populatie standaardafwijking:
σx = σ / √𝑛
2) Vindt de gewenste z-score in de tabel die hoort bij (1 - confidentie coëfficiënt) / 2
3) Bereken de foutmarge:
foutmarge = σx * z-score
4) Bereken het interval:
(µ - foutmarge) en (µ + foutmarge)
Voorbeeld:
Een bedrijf doet een tevredenheidonderzoek bij 100 klanten (n). Uit eerdere testen blijkt dat
de standaardafwijking (σ) 12 is. Deze maand is het gemiddelde (µ) van het onderzoek van 72.
Bereken het populatiegemiddelde als het confidentie level 95% is.
Stap voor stap:
Populatie standaardafwijking σx = σ / √𝑛 = 12 / √100 = 12 / 10 = 1,2
Confidentie level = 5%, dus Confidentie coëfficiënt = 0,95.
Afwijking zowel links als rechts, dus: 0,95 / 2 = 0,4750
Tabel (blz. 824) geeft 0,4750 bij Za/2 =1,960.
Foutmarge = σx * Za/2 = 1,2 * 1,960 = 2,35
Confidentie interval = (72 – 2,35) < 𝑥̅ < (72 + 2,35) = 69,65 < 𝑥̅ < 74,35
Formule:
Als je de formule invult, ziet er dat als volgt uit:
𝑥̅ ± 𝑍𝛼 / 2 ∗
𝜎
√𝑛

72 ± 1,960 ∗
1,2
√100
21 Samenvatting: Anderson - Statistics

72 ±2,35

69,95 < 𝑥̅ < 74,35
Rick Hendriks
§8.2: populatiegemiddelde, σ onbekend:
De t-verdeling is een groep kansverdelingen waarvan de verdeling afhangt van het aantal
vrijheidsgraden (degrees of freedom). Des te hoger het aantal vrijheidsgraden, hoe meer de
verdeling lijkt op de normale verdeling. Net als bij de z-score, ligt bij het gemiddelde van de
verdeling t = 0.
Het is vaak zo dat de standaardafwijking van de populatie niet bekend is. Hierbij zijn er 2
verschillen in de berekening ten opzichte van de vorige paragraaf:
 In plaats van de populatie standaardafwijking (σ) gebruik je de steekproef
standaardafwijking (s).
 In plaats van de z-score, gebruiken we de t-score.
De nieuwe formule wordt dan:
𝒔
̅ = 𝒕𝜶 / 𝟐 ∗
𝒙
√𝒏
Wanneer de t-verdeling wordt gebruikt, moet er ook een andere tabel in het boek worden
gebruikt: tabel 2 (blz. 825, 826 en 827). Hierbij moet je het aantal vrijheidsgraden weten:
Df (vrijheidsgraden) = n - 1
Hierbij is α (‘area upper tail’ in grafiek): (1 – confidentie coëfficiënt) / 2
Voorbeeld:
Het gemiddelde loon is €5.900,- per maand. De standaardafwijking van deze steekproef (s) is
€3.058,-. Er zijn 85 mensen ondervraagd. Confidentie coëfficiënt is 0,95
Sx = s / √𝑛 = 3.058 / √85 = 331,69
α = (1 – confidentie coëfficiënt) / 2 = (1 – 0,95) / 2 = 0,05 / 2 = 0,025
Df = n – 1 = 85 – 1 = 84
t0,025 = 1,989
𝑠
𝑓𝑜𝑢𝑡𝑚𝑎𝑟𝑔𝑒 = 𝑡𝛼 / 2 ∗
= 1,989 ∗ 331,69 = 660
√𝑛
Intervalschatting = (5900 – 660) < 𝑥̅ < (5900 + 660) = 5240 < 𝑥̅ < 6560
Bij een kleine steekproef (n < 30) geeft het gebruik van de z-score of t-score geen goed
beeld. Daarvoor moet worden gekeken of de steekproefuitslagen lijken op een normale
verdeling. Dit doe je door een frequentiegrafiek van de gegevens te maken en kijken of de
vorm lijkt op een normale verdeling en of er geen grote uitschieters zijn.
§8.3: de steekproefomvang vaststellen:
Behalve dat je kunt berekenen waar het gemiddelde ligt, kun je berekenen hoe groot de
omvang van een steekproef moet zijn om een bepaalde zekerheid te hebben dat het
onderzoek overeen komt met de werkelijkheid. Hiervoor ga je rekenen met de gewenste
foutmarge (desired margin of error), met het symbool E.
Wanneer je in de formule voor 𝑥̅ verdraait, kun je de formule voor E en n krijgen:
𝐄 = Zα/2
𝝈
√𝒏
en
𝒏=
(𝒁𝜶/𝟐 )𝟐 ∗ 𝝈𝟐
𝑬𝟐
De uitkomst voor n moet altijd worden afgerond naar boven.
22 Samenvatting: Anderson - Statistics
Rick Hendriks
Voorbeeld:
Autohuur bedraagt gemiddeld ongeveer €80,- per dag. Men wil een nieuw onderzoek doen
om te kijken of dit klopt, waarbij een foutmarge van €2,- wordt toegestaan en het gewenste
confidentie leven 95% is. σ = €9,65. Hoe groot moet de steekproef minimaal zijn?
(𝒁
)𝟐 ∗ 𝝈𝟐
𝟏,𝟗𝟔𝟐 ∗ 𝟗,𝟔𝟓𝟐
𝟑,𝟖𝟒𝟏 ∗ 𝟗𝟑,𝟏𝟐𝟑
𝟑𝟓𝟕,𝟔𝟖
𝒏 = 𝜶/𝟐𝑬𝟐
=
=
= 𝟒 = 𝟖𝟗, 𝟒𝟐
𝟐𝟐
𝟒
Er moet worden afgerond naar boven, dus de minimale grootte van de steekproef is 90.
§8.4: Populatieproporties:
23 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 9: Hypothese testen:
§9.1: Hypothesen opstellen:
Wanneer je een onderzoek doet waarbij je ergens van uit gaat, gebruik je hypothesen.
Hierbij is de nulhypothese (H0), datgene waar je niet van uit gaat. De alternatieve hypothese
is de andere mogelijkheid, waar je vanuit gaat het klopt (H1).
Vervolgens ga je de hypothese testen (claimen). Waneer je denkt dat er gemiddeld in een
fles cola meer dan 1,5 liter zit, worden je hypothesen:
 H0: µ ≤ 1,5 liter
 H1: µ > 1,5 liter
Er zijn 3 soorten toetsen mogelijk:
 Eenzijdige toets:
o Linkszijdige toets / lower tail:
H0: µ ≥ µ0
//
H1: µ < µ0
o Rechtszijdige toets / upper tail:
H0: µ ≤ µ0
//
H1: µ > µ0
 Tweezijdige toets:
H0: µ = µ0
//
H1: µ ≠ µ0
§9.2: Type I en II errors:
Wanneer je een hypothese test, is er altijd nog de kans dat de uitslag van de test niet
overeen komt met de werkelijkheid. Dat kan met 2 typen fouten te maken hebben:
Werkelijkheid
H0 = waar
H1 = waar
Testen Conclusie
H0 accepteren
correct
Type II fout
H0 verwerpen
Type I fout
correct
De redenen van deze fouten zijn:
 Type I fout: heeft te maken met het significantieniveau α. Dit betekent dat het
antwoord erg dicht bij de grens ligt. Er wordt meestal een gebied genomen van
1%, 5% of 10%.
 Type II fout: Heeft te maken met het onderscheidend vermogen β (uitleg §9.7)
Voorbeeld Type I fout:
Je onderzoekt of er in een pak rijst werkelijk 1kg zit.:
H0: µ ≤ 1000 gram
H1: µ > 1000 gram.
Er is een standaardafwijking σ van 2,5 gram. Significantieniveau α = 0,01.
Uit α = 0,01, volgt Z = 2,33.
Z * σ = 2,33 * 2,5 = 5,825
Nieuwe grens = 1000 gram – 5,825 gram = 994,2
Voor een duidelijk antwoord zal dus de uitkomst niet benen 1000 gram, maar beneden de
994,2 gram moeten liggen.
24 Samenvatting: Anderson - Statistics
Rick Hendriks
§9.3: Populatie gemiddeld, σ bekend:
Eenzijdige testen:
Omdat je bij een hypothese vaak meerdere testen uitvoert, moet je een standaardafwijking
voor het gehele onderzoek (σx) berekenen:
σx = σ / √𝒏
Om te weten of je een hypothese gaat
verwerpen, kun je met de Z-score gaan rekenen.
In de grafiek hiernaast zijn 3 zones getekend:
 De rechter grijze zone blijft buiten
beschouwing
 De linker grijze zone is α. Wanneer je
99% zeker wilt zijn van je onderzoek, wordt α 0,01.
 Het gele gebied heeft dan een grote van 0,5 – α, in dit geval 0,49. Hiermee kun je
in de Z-score-tabel opzoeken waar de grens ligt, Za ongeveer 2,33. Dit is je richtlijn
om te bepalen of de hypothese wel of niet wordt verworpen.
Vervolgens bereken je ook de Z-score van de gegevens:
Gemiddelde onderzoek - µ0 (dit is je onderzoeksgemiddelde)
Z=
σx
De regel is: Bij linkszijdige toetsen:
H0 verwerpen als Z ≤ -Za
Bij rechtszijdige toetsen:
H0 verwerpen als Z ≥ Za
Voorbeeld eenzijdige linkszijdige toets:
We gaan onderzoeken of in flessen cola minimaal 3 liter cola zit. Dat geeft:
H0: µ ≥ 3
//
H1: µ < 3
We gaan 36 flessen coca cola onderzoeken, waarbij er een standaardafwijking (σ) is van 0,18.
Dit geeft de standaardafwijking van de gehele proef (σx) = 0,18 / √36 = 0,03
Er van uitgaan dat er bij 36 flessen gemiddeld een inhoud van 2,97 liter wordt gemeten, kun
je op basis hiervan de Z-score berekenen:
2,97 - 3
Z = 0,03 = - 1,0
Met α = 0,01, kom je uit op Zα = 2,33.
H0 wordt verworpen, want -1,0 < -2,33
Tweezijdige toetsen:
Hierbij ga je als volgt te werk
 De 2 grijze zones samen vormen α = 0,01,
dus per zone α = 0,005.
 Dit betekent dat 1 gele zone 0,495 betekent.
Hierop baseer je je Za/2 uit de tabel.
De regel is: H0 verwerpen als Z ≤ -Za/2 of Z ≥ Za/2.
25 Samenvatting: Anderson - Statistics
Rick Hendriks
Voorbeeld tweezijdige toets:
We gaan onderzoek doen naar golfballen. Deze moeten gemiddeld 295 meter ver kunnen
vliegen. Minder is niet goed, maar meer ook niet:
H0: µ = 295
//
H1: µ ≠ 295
We gaan 50 golfballen onderzoeken, waarbij er een standaardafwijking (σ) is van 12 meter.
Dit geeft de standaardafwijking van de gehele proef (σx) = 12 / √50 = 1,7
Er van uitgaan dat er bij 50 golfballen gemiddeld 297,6 meter wordt gemeten:
297,6 - 295
Z=
1,7
= - 1,53
Met α = 0,05, kom je uit op Zα/2 = 1,96.
H0 wordt verworpen, want -1,53 < -1,96
Rekenen met p-waarden:
In plaats van de z-score, kun je ook de p-waarden gebruiken om hypothesen te testen. De pwaarde geeft aan hoe groot de kans is dat de uitslag buiten de gewenste zone valt. Hiervoor
bereken je eerste de Z-score, en vervolgens geldt de formule: p-value = 0.500 – z-score.
Of vervolgens de hypothese wordt verworpen, wordt bepaald aan de hand van de regel:
H0 wordt afgewezen wanneer p-value 𝛼
Voorbeeld p-waarden éénzijdige toets:
We gaan weer uit van de situatie met de cola-flessen: n = 36, σ = 0.18, en het gemeten
gemiddelde is dit maal 2,92 liter.
2.92 – 3 .
z-score = 0.18 / √36 = - 2,67
De z-score-tabel geeft hierbij de waarde 0,4962.
P-waarde = 0,5000 – 0,4962 = 0,0038.
De toegestane afwijking 𝛼 = 0,01.
0,0038 < 0,01, dus wordt H0 verworpen.
§9.4: Populatie gemiddeld, σ onbekend:
Het kan zo zijn dat de standaardafwijking van de populatie (σ) niet bekend is, maar wel de
standaardafwijking van de steekrpoef (s). Het verschil is dat je niet gaat werken met de zscore, maar met de t-score. De formule is bijna gelijk:
x - µ0
t = s / √𝒏
Ook bij de t-score kun je de kans opzoeken in een tabel. Hierbij gebruik je de degrees of
freedom, dit is het aantal – 1 (N – 1). Deze tabellen zijn een stuk minder exact. Daarom zul je
geen exacte waarde krijgen, maar een gebied waarin de kans ligt.
De uiteindelijke beslissing of H0 wordt verworpen wordt bepaald door de volgende regels:
 Eenzijdige testen:
o Linkszijdige test:
H0 verwerpen wanneer t - ta
o Rechtszijdige test:
H0 verwerpen wanneer t ta
 Tweezijdige test:
H0 verwerpen wanneer t - ta/2 of t ta/2
Met p-waarden rekenen is hierbij moeilijker en kan eigenlijk alleen worden gedaan met
speciale programma’s. De regel blijft H0 wordt afgewezen als p 𝛼.
26 Samenvatting: Anderson - Statistics
Rick Hendriks
Voorbeeld wanneer σ niet bekend is, eenzijdige linkszijdige toets:
We gaan onderzoek doen naar de kwaliteit van vliegvelden die met een score van 0 tot 10
gewaardeerd worden. 60 reizigers wordt gevraagd een cijfer te geven. Wanneer het
vliegveld gemiddeld boven de 7,0 scoort, krijgt het een speciale status.
Van alle vliegveldbezoekers heb je geen gegevens, alleen van de 60 die onderzocht zijn: x =
7,25 en s = 1,052.
H0: µ 7,0
//
H1: µ > 7,0
7,25 – 7 .
t = 1,052 / √60 = 1,84
Degrees of freedom = 60 – 1 = 59
Deze t-score ligt tussen het gebied 0,050 en 0,025.
Er wordt een significantieafwijking 𝛼 van 0,050 afgesproken, hierbij hoort t = 1,671.
1,84 > 1,671, dus H0 wordt afgewezen en het vliegveld krijg een speciale status.
§9.5: Populatie proportie:
27 Samenvatting: Anderson - Statistics
Rick Hendriks
Download