Anderson:

advertisement
Anderson:
~ Statistiek ~
Hfst 1: Data & Statistics:
Statistiek in beroepen:
Statistiek is van belang voor verschillende beroepen, bijvoorbeeld in de accounting, in de
financiën, bij marketing, productie en economie.
Data:
Bij statistiek staan data centraal: verzamelde en verwerkte feiten. De naam waarvan de data
is, noem je het element. (Bijvoorbeeld: AEX-index of dollarwaarde). Wat de data precies
voorstellen noem je de variabele (Bijvoorbeeld: wisselkoers of aantal verkopen per maand).
Één meting van een variabele van een element, noem je observation. Wanneer je alle
observations van verschillende variabele van verschillende elementen bij elkaar in een
schema verwerkt spreek je pas van data.
Schaal:
Bij metingen kun je verschillende schalen gebruiken:
- Nominal scale: een naam of label (Bijvoorbeeld: Amsterdam, Athene, etc.). Let
op! Ook getallen kunnen hiertoe behoren, wanneer ze geen
echte betekenis hebben van een aantal of een rangorde.
- Ordinal scale:
geeft een rangorde aan. Dit kan in getallen maar ook in
woorden (Zoals: 1, 2, 3, excellent, good, poor).
- Interval:
geeft een waarde aan die geen algemeen nulpunt heeft en
waarmee je niet kunt rekenen. Hiermee wordt bedoelt: als je
de waarde verdubbelt, is deze nog niet twee keer zo veel waard
(Bijvoorbeeld bij temperatuur: 4 graden Celcius is twee keer zo
warm als 8 graden Celcius). Als iets geen algemeen nulpunt
heeft, worden er vaak verschillende termen gebruikt. Zo kun je
temperatuur aangeven in graden Celcius, Kelvin en Fahrenheit.
Het NAP bij hoogteligging heeft een ander nulpunt dan in
andere landen.
- Ratio:
getallen met een nulpunt en waar je mee kunt rekenen
(Bijvoorbeeld: aantal kamers, kamerprijzen, etc.)
Kwalitatief & Kwantitatief:
Data kun je onderverdelen in:
- Kwalitatieve data:
-
Kwantitatieve data:
geven een identiteit van iets weer. Het gaat om de
nominale of ordinale schaal.
geven een hoeveelheid of een waarde van iets weer,
zoals bij de schalen: interval en ratio.
1 Samenvatting: Anderson - Statistics
Rick Hendriks
Cross-sectional & times series data:
Er is ook een ander onderscheid te maken bij data, namelijk:
- Cross-sectional data:
een aantal gegevens dat op hetzelfde moment is
verzameld, zoals alle beursstanden op 1 dag.
- Time series data:
een aantal gegevens gedurende een periode, zoals de
veranderingen van dollarwaarde in 2009.
Nieuwe & Oude gegevens:
Een derde onderscheid tussen data is:
 Existing sources: Als je gebruik maakt van al bestaande gegevens.
 In andere gevallen moeten de gegevens zelf worden onderzocht. Dat kan op twee
manieren gebeuren:
o Experimental studies: onderzoeken van een verwachting die je hebt
door de situatie na te bootsen en kijken of je
verwachtingen waar zijn.
o Observational studies: onderzoeken door observatie, zoals een enquête
houden.
Onderzoeksgroep:
Voor een onderzoek is het meestal goed om alle mensen die er betrekking bij hebben te
ondervragen. Als alle mensen onderzocht worden, spreek je van population. In veel gevallen
is het echter gemakkelijker om een steekproef op een kleinere groep mensen uit te voeren.
Dan spreek je van de sample.
Onderzoek dat je uitvoert bij een gehele populatie, noem je een census. Een onderzoek door
middel van een steekproef noem je een sample survey. Wanneer je de gegevens uit een
steekproef toe gaat passen voor een hypothese voor de gehele populatie, spreek je van
statistical inference.
2 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 2: Discriptive Statistics:
Tabular and Graphical Presentations
Frequency distrubtion – Frequentieverdeling:
Een frequentieverdeling is een tabel met verschillende classes van metingen. Van elke klasse
wordt aangegeven hoe vaak deze voorkomt in de gegevens. Deze aantallen kun je ook
uitdrukken in percentages: de relatieve frequentie, met behulp van de formule:
aantal van de klasse / totaal aantal metingen = relatieve frequentie
Soms is het nuttig om de klassen te cumuleren. Dan tel je bij het percentage van de huidige
klasse ook de waarde van alle eerdere klassen op. Zo loopt het percentage per klasse steeds
op, tot 100% bij de laatste klasse.
Meestal wordt een frequentieverdeling met aantallen gepresenteerd in een staafdiagram.
De relatieve frequentieverdeling is meer geschikt voor een cirkeldiagram.
Meestal gebruik je, afhankelijk van het aantal metingen, 5 tot 20 klassen. De klassebreedte
kun je vervolgend berekenen:
(grootste meting – kleinste meting) / aantal klassen = klassenbreedte
De grenzen van een klasse zijn erg belangrijk. Om te zorgen dat er geen waarde is die bij
geen enkele klasse hoort, kun je open-ended classes maken. Dit betekent dat de laagste
klasse geen ondergrens heeft, maar is dan alle waarden kleiner dan … Voor de hoogste
klasse geldt dan: alle waarden groter dan …
Metingen presenteren:
Metingen kun je op een aantal verschillende manieren presenteren:
 Dot plot: Dit is een horizontale lijn die loopt van de laagste tot de hoogste
waarde. Voor elke gemeten waarde komt er een stip op de lijn te staan.

Histogram: Een staafdiagram waarvan elke kolom voor één klasse staat. Op de
verticale as is te zien hoe hoog de frequentie van elke klasse is. De vorm vertelt
veel over de gegevens:
o Als de frequentie afloopt, zijn er veel lage metingen met enkele
uitschieters naar boven. (linker figuur)
o Als de frequentie oploopt, zijn er veel hoge metingen met enkele
uitschieters naar beneden. (middelste figuur)
o Als de frequentie als een berg op en af loopt, liggen veel metingen in het
midden bij elkaar. (rechter figuur)
3 Samenvatting: Anderson - Statistics
Rick Hendriks

Ogive: Een lijndiagram van de cumulatieve relatieve frequentieverdeling.

Stem-and-leaf display / steel-bladdiagram: In de linkerkolom staan alle tientallen
van de metingen en rechts de eenheid van iedere meting per tiental:
Een aantal metingen uit dit diagram zijn: 68, 69, 72, 73, 73, … 132, 134, 141.
Meerdere gegevens:
Er zijn ook tabellen met daarin meerdere
gegevens. Zo kun je uit de tabel hiernaast
afleiden hoeveel restaurants er in welke
prijsklasse vallen, maar ook de beoordeling
van de restaurants, maar ook de
gemiddelde beoordeling per prijsklasse.
Een tabel met meerdere variabelen heet
een cross tabulation.
Trendlijnen:
Aan de hand van een grafiek kun je ook de relatie tussen twee variabelen zien. Je kunt
bijvoorbeeld hoe hoog de omzet van een bedrijf is in relatie tot het aantal tv-commercials
van het bedrijf op tv. Elke as van de grafiek stelt een variabele voor. Vervolgens zet je voor
elke waarde een puntje in de grafiek. Als er een patroon in de puntjes ontstaat kun je daar
een rechte lijn tussendoor trekken. Dan kun je één van de 3 soorten relaties tussen de
variabelen herkennen:
Een stijgende lijn geeft een positief verband aan. In dat geval betekent dat meer reclame ook
werkelijk meer omzet oplevert.
§2.6: Tabular and Graphical presentations using EXCEL  ZELF BESTUDEREN
4 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 3: Discriptive Statistics:
Numerical Measures:
Gemiddelde:
Het belangrijkste gegeven dat de ligging weergeeft is het rekenkundig gemiddelde (mean).
Bij een steekproef is het symbool hiervoor 𝑥 en bij een populatie µ. Dit bereken je door alle
waarnemingen op te tellen en dan te delen door het aantal metingen.
gewogen gemiddelde = som van de waarde van alle metingen
Aantal metingen
We kennen ook een gewogen gemiddelde (weighted mean). Hierbij tellen niet alle waarden
even zwaar mee in het gemiddelde.
gewogen gemiddelde = som van alle metingen: (waarde * weging)
Som van alle wegingen
Mediaan:
Een ander gegeven dat een ligging aangeeft is de mediaan (median) dat de middelste
waarneming weergeeft. Bij een even aantal metingen is er geen middelste waarneming, dan
neem je het gemiddelde van de twee middelste waarnemingen.
Modus:
De modus (mode) geeft aan welk waarde het meeste voorkomt. Het kan zijn dat er
meerdere waarden het meest voorkomen. Als dat twee waarden zijn spreek je van een
bimodal onderzoek, bij meer dan twee spreek je van multimodal onderzoek.
Percentiel:
Het percentiel (percentile) geeft aan welke waarneming er bij een percentage van het aantal
waarnemingen hoort. Als je bijvoorbeeld het 85ste percentiel wilt berekenen, deel je 85 door
100 en vermenigvuldig je met het aantal waarden dat je hebt. Bij de 12 metingen krijg je:
85 / 100 * 12 = 10,2. De volgende waarneming na 10,2, dat is dus de 11 de waarneming (van
klein naar groot), hoort dus bij het 85ste percentiel. Wanneer er een geheel getal uit de
rekensom komt, bijvoorbeeld 10, dan neem je het gemiddelde van de 10 de en de 11de
meting.
Kwartiel:
Een andere belangrijke term is het Kwartiel (Quartile). Van een serie metingen is het eerste
kwartiel de waarde die op 25% van de metingen ligt. Het eerste kwartiel is gelijk aan het
25ste percentiel. Het tweede kwartiel is gelijk aan het 50ste percentiel en de mediian. Het
derde kwartiel is gelijk aan het 75ste percentiel.
Spreiding:
De spreiding geeft aan hoe ver de waarnemingen van elkaar liggen. De spreiding, of range
bereken je met de simpele formule:
range = grootste waarde – kleinste waarde
Een variant hierop is de IQR: Interquartile range. Hierbij bereken je de spreiding tussen het
eerste en het derde kwartiel.
5 Samenvatting: Anderson - Statistics
Rick Hendriks
Afwijking:
De afwijking (variance) is een getal het verschil tussen een waarde en het gemiddelde van
de metingen. De simpele formule daarvoor is:
̅)
afwijking (σ) = meting (xi) – gemiddelde (𝒙
Van elke meting kun je de afwijking berekenen, maar je kunt ook het gemiddelde van al die
afwijkingen geven: de population variance of de sample variance. De berekening hangt af
van of je een steekproef of een gehele populatie onderzoekt:
Afwijking (σ2 of s2) = de som van bij elke meting: (x – gemiddelde) 2
Aantal metingen
(bij steekproef, aantal – 1)
De population variance en de sample variance kun je gebruiken om vervolgens de
standaardafwijking te bereken: s2
standaardafwijking (s) = √𝒔𝟐
standaardafwijking (σ) = √𝝈𝟐
De coëfficiënt van de variabele (coefficient of variation) geeft aan hoe ver de
standaardafwijking van het gemiddelde afligt. De formule hiervoor is:
coefficient of variation =
𝒔𝒕𝒂𝒏𝒅𝒂𝒂𝒓𝒅𝒂𝒇𝒘𝒊𝒋𝒌𝒊𝒏𝒈
𝒈𝒆𝒎𝒊𝒅𝒅𝒆𝒍𝒅𝒆
x 100%
Skewness:
De vorm (shape) geeft aan hoe de gegevens verspreid liggen. Een voorbeeld hiervan is de
scheefheid (skewness). Een negatieve scheefheid (linker grafiek) geeft aan dat de grafiek
oplopend zou zijn. Hierbij ligt het gemiddelde boven de mediaan.
Bij een positieve scheefheid (rechter grafiek) loopt de grafiek af en ligt het gemiddelde onder
de mediaan. Ook geldt dat een hoge scheefheid aangeeft dat de mediaan een betere
maatstaf is dan het gemiddelde.
6 Samenvatting: Anderson - Statistics
Rick Hendriks
Z-score:
Een ander getal dat wat over de vorm zegt, is de z-score, of standardized value. Dit getal
geeft aan hoe ver een meting van het centrum af ligt. Een z-score van 1,2 zou bijvoorbeeld
betekenen dat de waarde 1,2 keer de waarde van de standaardafwijking boven het
gemiddelde ligt.
Z-score :
z-score = (x – gemiddelde) / standaardafwijking
De theorie van Chebyshev is ook gebaseerd op de z-score:
Tenminste (1 – 1/z2) x 100% van de gegevens valt binnen ‘z’
standaardafwijkingen van het gemiddelde, wanneer z groter is dan 1.
Bij een examen van 100 studenten, gemiddeld 70 punten worden behaald, met een
standaardafwijking van 5, zou dat betekenen dat:
(1 – 1 / 22) x 100% = (1 – ¼) x 100% = 75%
Dan zouden 75% van de studenten binnen twee standaardafwijkingen van het gemiddelde
scoren, dus tussen de 60 en 80 punten.
In het geval van een standaard verdeling (normal probability distribution) gelden dan de
empirical rules:
 68% van de gegevens valt binnen 1 standaardafwijking van het gemiddelde
 95% van de gegevens valt binnen 2 standaardafwijkingen van het gemiddelde
 Bijna alle gegevens vallen binnen 3 standaardafwijkingen van het gemiddelde
Niet altijd vallen alle gegevens binnen deze 3 standaardafwijkingen. Je kunt te maken
hebben met enkele extreme waarde (outliers). Men zegt dat wanneer de z-score groter is
dan +3, of kleiner dan -3, er sprake is van een extreme waarde.
Box plot:
Bij het maken van een box plot ga je uit van de 5-getallen samenvatting (five-number
summary). Deze gaat uit van de 5 volgende gegevens:
1) Kleinste waarde / smallest value
2) Eerste kwartiel / First quartile (Q1)
3) Mediaan / median (Q2)
4) Derde kwartiel / Third quartile (Q3)
5) Grootste waarde / largest value
Een box plot teken je boven een getallenlijn. Je begint met het tekenen van de box, die loopt
van Q1 tot aan Q3. Je trekt een verticale streep bij de mediaan. Vervolgens zet je twee
verticale strepen op 1,5 IQR van Q1 en Q3 af, dit zijn de lower en upper limit. Je trekt een
stippellijn van de kleinste waarde binnen de limits tot aan de grootste waarde binnen de
limits. Ten slotte geef je met een sterretje aan of er nog waarden buiten de limits liggen.
7 Samenvatting: Anderson - Statistics
Rick Hendriks
Covariantie:
De covariance (covariantie) geeft de relatie tussen 2 verschillende variabelen aan.
Covariantie = som van alle alle waarden: (x – gemiddelde x) * (y – gemiddelde y)
Aantal metingen – 1
(bij populatie, niet -1)
De uitkomst kan twee dingen aangeven:
 Een positieve uitkomst geeft een positief verband aan: wanneer de ene
variabele toeneemt, neemt ook de andere variabele toe.
 Een negatieve uitkomst geeft een negatief verband aan: wanneer de ene
variabele toeneemt, daalt de andere variabele.
Een nadeel van het gebruik van de covariantie is dat je niet kunt aflezen sterk het verband is.
Een covariantie van 5 kan in sommige gevallen een heel constant verband weergeven, terwijl
het in een ander geval een hele grote afwijking kan weergeven.
Correlatie:
De correlatie coëfficiënt (correlation coefficient) geeft het verband tussen twee variabelen
aan, maar ook hoe sterk dat verband is. De formule voor de correlatie coëfficiënt is:
rxy = correlatie coefficient (steekproef)
sxy = covariantie (steekproef)
sx = standaardafwijking X (steekproef)
sy = standaardafwijking Y (steekproef)
ρsy = correlatie coefficient (populatie)
σxy = covariantie (populatie)
σy = standaardafwijking X (populatie)
σy = standaardafwijking Y (populatie)
Net als bij de covariantie, kun je zien of het een positief of negatief verband is. Ook kan het
natuurlijk zijn dat de correlatie 0 is, dan is er helemaal geen verband.
Naast dat je kunt zien of het verband positief of negatief is, kun je ook zien hoe sterk het
verband is tussen de twee variabelen. Hierbij geldt dat als de uitkomst 1 of -1 is, alle
metingen precies in 1 rechte lijn liggen. Hoe dichter de correlatie bij 0 ligt, hoe meer
afwijkingen er van het verband zijn.
Gegroepeerde gegevens:
De formules voor het gemiddelde en de afwijking die hier boven staan, kun je alleen
gebruiken wanneer je elke meting apart weet. Maar in sommige gevallen zijn de gegevens
gegroepeerd, bijvoorbeeld wanneer je met klassen werkt. Dan krijg je te maken me de
volgende formules:
Steekproef:
Populatie:
Gemiddelde:
Afwijking
§3.8: Tabular Descriptive statistics using EXCEL  ZELF BESTUDEREN
8 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 4: Introductie op kansberekening:
Kansen (probability) zijn getallen die aangeven hoe waarschijnlijk het is dat iets gebeurd. Die
getallen liggen tussen de 0 en de 1, waarbij 0 betekent dat iets nooit kan gebeuren en bij 1
dat iets zeker gaat gebeuren. Kansen worden ook beschreven met het symbool P.
§4.1: Experimenten, telregels en kansen toekennen:
Bij kansberekening gaat het vaak over gebeurtenissen (ook wel experimenten genoemd). De
mogelijke gevolgen van een experiment zijn de uitkomsten (sample points). Alle mogelijke
uitkomsten samen vormen de sample space, aangegeven met het symbool S.
In de kansberekening kennen we 3 belangrijke telregels:
1) Multiple-step experiments: Dit zijn gebeurtenissen die uit meerdere delen
bestaan. Het aantal mogelijke uitkomsten kun je berekenen door de het
aantal mogelijke uitkomsten van iedereen onderdeel met elkaar te
vermenigvuldigen.
Vaak is het ook makkelijk om een boomdiagram (tree diagram) te maken,
waarbij je alle mogelijke uitkomsten opschrijft.
Voorbeeld:
Stel, je wilt het aantal mogelijke uitkomsten weten van
het experiment dat je een munt opgooit en een
dobbelsteen werpt.
Een munt opgooien kent 2 mogelijke uitkomsten, kop
of munt. Een dobbelsteen werpen kent er 6. Het totale
mogelijke aantal uitkomsten is dus: 2 x 6 = 12.
Het boomdiagram hiervan is hiernaast weergegeven.
De kans op kop en een 3 werpen schrijf je als volgt:
P (kop, 3)
De sample space beschrijf je zo: S = { (kop, 1), (kop, 2) … (munt, 6), (munt, 5)}
2) Combinaties: Hierbij heb je een groot aantal objecten, waarvan je er enkele
neemt. Het is niet mogelijk om een object meerdere malen te kiezen. Hierbij
maken we gebruik van faculteit, het symbool !. Faculteit betekent dat een
getal wordt vermenigvuldigd met alle lagere waarden. Bij combinaties kennen
we de volgende formule:
N = totale aantal objecten
n = aantal objecten dat je neemt
𝑵!
𝑵
NC ( ) ==
n
𝒏!(𝑵−𝒏)!
𝒏
Op je rekenmachine kun je dit ook eenvoudig de eerste formule invoeren.
5
( ) voer je bijvoorbeeld zo in: 5 nCr 2
2
Voorbeeld:
Bij een loterij zitten er 49 getallen in de machine, waarvan er 6 getrokken
worden. Bereken het aantal mogelijke uitkomsten.
49!
49!
49 𝑥 48 𝑥 47 𝑥 46 𝑥 45 𝑥 44
49
( ) = 6!(49−6)! = 6!43! = 6 𝑥 5 𝑥 4 𝑥 3 𝑥 2 𝑥 1 = 13.983.816
6
Of als je het direct op je rekenmachine intypt: 49 nCr 6 = 13.983.816
9 Samenvatting: Anderson - Statistics
Rick Hendriks
3) Permutaties: Permutaties werken ongeveer gelijk als combinaties. Het
verschil is dat bij permutaties de volgorde belangrijk is. De formule wordt:
N = totale aantal objecten
n = aantal objecten dat je neemt
𝑵!
𝑵
NP = n! ( ) =
n
(𝑵−𝒏)!
𝒏
Op je rekenmachine doe je dat met de functie nPr: 2nd nCr
Voorbeeld:
Een bedrijf heeft 5 machines (A, B, C, D en E), waarvan er 2 willekeurig na
elkaar gecontroleerd worden. Hoeveel mogelijkheden zijn er?
5!
5!
5 𝑥 4 𝑥 3 𝑥 2 𝑥 1 120
5P = 2! (5) =
= 3! =
= 6 = 20
2
(5 −2)!
3𝑥2𝑥1
2
Of op je rekenmachine meteen invoeren: 5 2nd nCr 2 = 20
Er zijn een aantal mogelijkheden om een kansberekening te benaderen:
 Klassieke methode: hierbij is kans voor het gebeuren van elke uitkomst even groot.
Zo is de kans op munt net zo groot als de kans op kop als je een munt opgooit. Hierbij
is de kans: 1 / het totale aantal mogelijkheden, dus in dit geval: P = 1 / 2 = 0,500
 Relatieve frequentie methode: hierbij worden er meerdere metingen gedaan, om te
kijken welke uitkomst een grotere waarschijnlijk heeft dan de anderen. De kans
bereken je hierbij door de frequentie te delen door het totale aantal metingen.
Voorbeeld:
Er wordt onderzoek gedaan in een wachtkamer naar
hoeveel mensen er wachten. Dit wordt 20 dagen om
9.00 uur gemeten. De resultaten zijn hiernaast
weergegeven.
De kans dat er 2 wachtende zijn in de wachtkamer, is:
P = 6 / 20 = 0,300
Wachtende
0
1
2
3
4
Frequentie
2
5
6
4
3

Subjectieve methode: hierbij gaat de kansberekening over de mate van geloof in een
uitkomst, vaak gebaseerd op intuïtie of ervaring. Zo valt bijvoorbeeld de kans dat een
bod op een huis wordt geaccepteerd niet te berekenen, slechts te voorspellen op
basis van een gevoel dat iemand bij de situatie heeft.
In alle situaties is het belangrijk om te checken dat de kansen dat iets gebeurd tussen de
0 en de 1 zit en dat alle mogelijke uitkomsten samen weer precies 1 moeten vormen.
§4.2: Events en hun kansen:
Een experiment waarbij meerdere uitkomsten (sample points) samen worden onderzocht,
heet een event. De kans van een event is even groot als de optelsom van alle sample points.
Voorbeeld:
We gaan uit van het onderzoek in de wachtkamer van eerder.
We willen uitzoeken hoe groot de kans is dat er meer dan 2
wachtende zijn in de wachtkamer. Hiervoor berekenen we
eerst de kans op 3 en daarna op 4 wachtende.
P (3) = 4 / 20 = 0,200
P (4) = 3 / 20 = 0,150
Dus de kans op deze event is: 0,200 + 0,150 = 0,350
10 Samenvatting: Anderson - Statistics
Wachtende
0
1
2
3
4
Frequentie
2
5
6
4
3
Rick Hendriks
§4.3: Relaties in kansberekening:
Events worden vaak aangeduid met een letter, zoals A. We kennen ook complementaire
events, dit zijn events die bestaan uit alle sample points die niet tot A behoren, geschreven
als Ā. Daarmee kunnen we een nieuwe formule maken om de kans op A te berekenen:
P(A) = 1 – P(Ā)
Dit betekent: de kans op event A is gelijk aan 1 – de kans dat A niet plaats vind.
Wanneer er meerdere events plaats vinden, kan het zijn dat een deel van de uitkomsten
zowel bij event A als bij event B hoort. Hierbij moet je rekening houden dat je de groep die
bij beide events hoort, niet dubbel telt, dat is de addition law. Hierbij rekenen we met:
 Union of events (A ∪ B): die staat voor alle mogelijke uitkomsten die horen bij
A, of bij B, of bij beide events.
 Intersection of events (A ∩ B): dit staat voor alle mogelijke uitkomsten die
horen bij A, of bij B, maar niet bij beide events.
Daarmee kunnen we de formule opstellen voor kansberekening bij twee events:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)
Voorbeeld:
We gaan een groep medewerkers onderzoeken. We willen weten hoe groot de kans is dat
iemand te veel tijd nodig heeft om een product te maken (event A) of het product dat ze
maken niet goed is (event B). Het is natuurlijk mogelijk dat het te lang duurt en een slecht
product oplevert.
Uit metingen blijkt dat van 50 onderzochte medewerkers er 5 te langzaam zijn, 6 slechte
producten leveren. 2 Personen behoren tot beide groepen.
P(A) = 5 / 50 = 0,100
P(B) = 6 / 50 = 0,120
P(A ∩ B) = 2 / 50 = 0,040
P(A ∪ B) = P(A) + P(B) - P(A ∩ B) = 0,100 + 0,120 – 0,040 = 0,180
Het is natuurlijk ook mogelijk dat het niet mogelijk is dat een uitkomst bij twee events hoort,
dan spreken we van een mutually exclusive event. Dit is bijvoorbeeld het geval wanneer je
onderzoekt hoe groot de kans is dat een willekeurig iemand 20 of 21 jaar is. Iemand kan niet
20 en 21 jaar zijn, dus dan gaan we van de eenvoudigere formule uit:
P(A ∪ B) = P(A) + P(B)
§4.4: Kansberekening onder voorwaarden:
Voorwaardelijke kansberekening (conditional probability) is het kansberekening waarbij de
ene gebeurtenis wordt berekend op voorwaarde van de andere gebeurtenis. Deze kansen
worden geschreven als P (𝐴|𝐵): dit is de kans op A, op voorwaarde van B:
Afhankelijk:
P(𝑨|𝑩) =
𝑷(𝑨 ∩ 𝑩)
𝑷 (𝑩)
Wanneer de twee gebeurtenissen onafhankelijk zijn, hebben ze geen invloed op elkaar. De
kans op A wanneer B gebeurt is dus net zo groot als wanneer B niet zou gebeuren of B
helemaal niet werd meegenomen in het onderzoek. De formule is dan dus:
Onafhankelijk:
11 Samenvatting: Anderson - Statistics
P(𝑨|𝑩) = P(A)
Rick Hendriks
Voorbeeld:
Er wordt onderzoek gedaan naar de relatie
tussen promoties en geslacht. Er zijn 1200
mensen onderzocht, waaruit de tabel hiernaast
is voortgekomen.
PROMOTIE Mannen Vrouwen Totaal
wel (A)
288
36
324
geen (Ā)
672
204
876
Totaal
960
240
1200
Om te zien of er een verband is gaan we P (𝐴|𝑀) berekenen en P (𝐴|𝑉):
𝑷(𝑨 ∩ 𝑴) 𝟐𝟖𝟖 / 𝟏𝟐𝟎𝟎 𝟎,𝟐𝟒
P (𝑨|𝑴) =
=
=
= 0,300
(𝑴)
P (𝑨|𝑽) =
𝑷
𝑷(𝑨 ∩ 𝑽)
𝑷 (𝑽)
𝟗𝟔𝟎 / 𝟏𝟐𝟎𝟎 𝟎,𝟖𝟎
𝟑𝟔 / 𝟏𝟐𝟎𝟎
𝟎,𝟎𝟑
= 𝟐𝟒𝟎 / 𝟏𝟐𝟎𝟎 = 𝟎,𝟐𝟎 = 0,150
De kans dat een man promotie maakt is niet gelijk aan de kans dat een vrouw promotie
maakt, dus de twee gebeurtenissen zijn afhankelijk van elkaar.
Optie 2: Het is ook mogelijk om eerst de tabel om te
zetten in kansen. De kans dat een willekeurig
iemand een man is, is 960 / 1200 = 0,800. De kans
dat iemand man is en promotie maakt
“P (M ∩ A)” is: 288 / 1200 = 0,240, etc. Dat geeft
de tweede tabel.
De formules zijn dan gemakkelijker in te vullen:
𝑷(𝑨 ∩ 𝑴)
𝟎,𝟐𝟒
P (𝑨|𝑴) =
=
= 0,300
en
(𝑴)
𝑷
𝟎,𝟖𝟎
PROMOTIE
wel (A)
geen (Ā)
Totaal
P (𝑨|𝑽) =
M
0,240
0,560
0,800
V
0,030
0,170
0,200
𝑷(𝑨 ∩ 𝑽)
𝑷 (𝑽)
Totaal
0,27
0,73
1,00
𝟎,𝟎𝟑
= 𝟎,𝟐𝟎 = 0,150
De conclusie blijft natuurlijk dezelfde.
Uiteraard zijn de formules ook om te draaien, zodat je er de kans van een onderdeel van de
voorwaarde mee kunt berekenen:
Afhankelijk:
Onafhankelijk:
P (A ∩ B) = P(A) P(𝑩|𝑨)
P (A ∩ B) = P(A) P(B)
of
P (A ∩ B) = P(B) P(𝑨|𝑩)
§4.5: De theorie van Bayes:
Een belangrijke theorie in de kansberekening is de theorie van Bayes over meerdere events.
Hij heeft de volgende formule opgesteld:
Theorie van Bayes:
𝑃 (𝐴𝑖)𝑃(𝐵 |𝐴𝑖 )
P(Ai B) = 𝑃(𝐴1)𝑃(𝐵 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐵 |𝐴2)+ ……+ 𝑃(𝐴𝑛)𝑃(𝐵|𝐴𝑛)
Deze formule is het beste te gebruiken met een boomdiagram of een tabel:
 Boomdiagram: Alle mogelijke wegen worden in het boomdiagram uitgewerkt
en vervolgens de formule invullen.
 Tabel: De volgende tabel invullen en de formule toepassen:
(1)
(2)
(3)
(4)
(5)
Events Prior
Conditional Joint probability
Posterior probabilities
(A)
probability probability
P(Ai ∩ B)
P(𝑨𝒊|𝑩)
P(Ai)
P(𝑩|𝑨𝒊)
A1
…
…
Kolom 2 * kolom 3
Kolom4 * P(B)
A2
…
…
TOTAAL Totaal = P(B)
Totaal = 1.000
12 Samenvatting: Anderson - Statistics
Rick Hendriks
Voorbeeld:
Een fabriek krijgt van 2 leveranciers producten, leverancier A1 en A2. Deze producten kunnen
goed (G) of fout (F) zijn. De manager wil weten hoe groot de kans is dat een fout product
wordt gemaakt door een foute levering door leverancier A1 of A2.
Uit metingen komt naar voren dat leverancier A 1 65% van de voorraad levert en de andere
leverancier de overige 35%. Van leverancier A1 zijn de producten in 98% goed, bij leverancier
A2 gaat het om 95% van de goederen.
Methode 1 – Boomdiagram:
Met behulp van de gegevens kun je dit boomdiagram opstellen:
= P(A1 ∩ G) = P(A1) P(𝐺|𝐴1)
= P(A1 ∩ F) = P(A1) P(𝐹|𝐴1)
= P(A2 ∩ G) = P(A2) P(𝐺|𝐴2)
= P(A2 ∩ F) = P(A2) P(𝐹|𝐴2)
De theorie van Bayes zegt:
P(𝐴1|𝐹) =
𝑃 (𝐴𝑖)𝑃(𝐵 |𝐴𝑖 )
P(Ai B) = 𝑃(𝐴1)𝑃(𝐵 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐵 |𝐴2)+ ……+ 𝑃(𝐴𝑛)𝑃(𝐵|𝐴𝑛)
𝑃 (𝐴1)𝑃(𝐹 |𝐴1)
𝑃(𝐴1)𝑃(𝐹 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐹 |𝐴2)
𝑃 (𝐴2)𝑃(𝐹 |𝐴2)
=
0,0130
0,0130+0,0175
0,0175
=
0,0130
0,0305
= 0,426
0,0175
P(𝐴2|𝐹) = 𝑃(𝐴1)𝑃(𝐹 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐹 |𝐴2) = 0,0130+0,0175 = 0,0305 = 0,574
Dit geeft aan dat wanneer er een fout product wordt gemaakt, de grootste kans is dat dit
wordt veroorzaakt door leverancier A2.
Methode 2 – Tabel:
1) Er zijn 2 events, leverancier A1 kan leveren en leverancier A2.
2) Uit de gegevens kunnen we halen dat de kans dat iets van leverancier A1 komt,
65% is, dus 0,65. A2 is dan 0,35
3) Kolom 3 weten we ook: de kans dat een product van leverancier A1, fout is, is 2%.
Bij leverancier A2 is 5% van de producten fout.
4) Voor kolom 4 vermenigvuldigen we kolom 2 en 3:
A1: 0,65 * 0,02 = 0,0130
A2: 0,35 * 0,05 = 0,0175
Het totaal van deze kolom vormt P(B) = 0,0130 + 0,0175 = 0,0305
5) Kolom 5 is kolom 4 gedeeld door P(B):
A1: 0,0130 / 0,0305 = 0,426
A2: 0,0175 / 0,0305 = 0,574
Events Prior
Conditional Joint probability
Posterior probabilities
(A)
probability probability
P(Ai ∩ B)
P(𝑨𝒊|𝑩)
P(Ai)
P(𝑩|𝑨𝒊)
A1
0,65
0,02
0,0130
0,426
A2
0,35
0,05
0,0175
0,574
TOTAAL Totaal = P(B) = 0,0305 Totaal = 1.000
13 Samenvatting: Anderson - Statistics
Rick Hendriks
Hfst 5: Binomiale Verdeling:
§5.1: Variabelen:
Een variabele (random variable) is een omschrijving in getallen van de uitkomst van een
experiment. We maken een onderscheid naar:
 Discrete variabelen: gehele exacte getallen. Het kan ook zijn dat een getal
een betekenis heeft. Zo kan het gaan om 5 auto’s in een onderzoek, maar kan
een getal 1 ook staan voor een positief resultaat en 0 voor een negatief of
voor mannen / vrouwen, of iets dergelijks.
 Continue variabelen: een interval of een serie intervallen. Zo kun je metingen
maken naar temperaturen en deze in delen in 20 tot 30 graden, 30 tot 40
graden, 40 tot 50 graden, etc.
§5.2: Discrete kansverdeling:
De meest eenvoudige vorm van kansberekening is de discrete uniforme kansberekening.
Hierbij is de kans op een uitkomst net zo groot als elke andere mogelijke uitkomst, zoals bij
het dobbelen met een dobbelsteen. De formule is dan:
n = het aantal mogelijke uitkomsten
p(x) = 1 / n
§5.3: Verwachtingswaarde en standaardafwijking:
Het gemiddelde wordt in de kansberekening vaak verwachtingswaarde genoemd, kenbaar
aan de symbolen µ en E(x). Dit wordt berekend door elke mogelijke uitkomst te
vermenigvuldigen met de kans op deze uitkomst en deze allemaal op te tellen:
E(x) = µ = ∑ 𝐱 ∗ 𝐩(𝐱)
-
Ook in de kansberekening kunnen we de afwijking op het gemiddelde berekenen, de variatie
(σ2 of Var(x)). De formule hiervoor is:
Var(x) = σ2 = ∑(𝒙 − µ) 𝟐 * p(x)
De standaardafwijking is de wortel van de variatie:
σ = √𝝈𝟐 = √∑(𝒙 − µ) 𝟐 ∗ 𝒑(𝒙)
Voorbeeld:
Een autodealer is 300 dagen per jaar geopend. Er is bijgehouden hoeveel auto’s er per dag
verkocht zijn: 18% van de dagen 0 auto’s, 39% van de dagen 1 auto, 24% van de dagen 2
auto’s, 14% van de dagen 3 auto’s, 4% van de dagen 4 auto’s, 1% van de dagen 5 auto’s.
Hiermee gaan we de verwachtingswaarde en standaardafwijking berekenen:
E(x) = µ = ∑ 𝑥 ∗ 𝑝(𝑥) =
0,18 * 0 + 0,39 * 1 + 0,24 * 2 + 0,14 * 3 + 0,04 * 4 + 0,01 * 5 =
0 + 0,39 + 0,48 + 0,42 + 0,16 + 0,05 = 1,50.
(0 − 1,50) 2 ∗ 0,18
2,25 ∗ 0,18
0,405 +
(1 − 1,50) 2 ∗ 0,39
0,25 ∗ 0,39
0,0975 +
2 ∗ 0,24
(2
−
1,50)
0,25
∗
0,24
0,060 +
σ = √∑(𝑥 − µ) 2 ∗ 𝑝(𝑥) =
=
=
= √1,25 = 1,12
2
(3 − 1,50) ∗ 0,14
2,25 ∗ 0,14
0,315 +
6,25 ∗ 0,04
0,250 +
(4 − 1,50) 2 ∗ 0,04
√(5 − 1,50) 2 ∗ 0,01 √12,25 ∗ 0,01 √ 0,1225
14 Samenvatting: Anderson - Statistics
Rick Hendriks
§5.4: Binomiale Verdeling:
Een bijzondere situatie in de kansberekening is de binomiale kansverdeling. Hiervan is
sprake wanneer een kans 2 mogelijkheden heeft: succes of falen. De kans op succes wordt
uitgedrukt in het symbool π, falen in (1 – π). De kans is telkens even groot. De formule
hiervoor is:
P = de kans
n = aantal testen
π = kans op succes
r = aantal gewenst succes
P (X = r) = (𝒏𝒓) * πr * (1 – π) (n – r)
Gemiddelde = µ = n * π
Standaardafwijking = σ = √(𝒏 ∗ 𝝅 (𝟏 − 𝝅))
Voorbeeld:
Je hebt een bak met 9 witte ballen en 5 rode ballen. Je pakt uit de bak 5 ballen. Nadat je een
bal hebt genomen leg je deze weer terug, zodat er weer 14 zijn. Je hebt succes wanneer je
precies 3 witte ballen pakt. Bereken hoe groot de kans op succes is en hoe vaak je gemiddeld
succes hebt als je 5 ballen neemt.
π = 1 witte bal = 9/14
(1 – π) = 5/14
P (X = 3 witte ballen en 2 rode) = (53) * (9/14)3 * (5/14) (2)
Kans = 0,3389
Het gemiddelde aantal witte ballen bij 5 ballen is: µ = 5 * (9/14) = 3,21 witte ballen
15 Samenvatting: Anderson - Statistics
Rick Hendriks
Download