Anderson: ~ Statistiek ~ Hfst 1: Data & Statistics: Statistiek in beroepen: Statistiek is van belang voor verschillende beroepen, bijvoorbeeld in de accounting, in de financiën, bij marketing, productie en economie. Data: Bij statistiek staan data centraal: verzamelde en verwerkte feiten. De naam waarvan de data is, noem je het element. (Bijvoorbeeld: AEX-index of dollarwaarde). Wat de data precies voorstellen noem je de variabele (Bijvoorbeeld: wisselkoers of aantal verkopen per maand). Één meting van een variabele van een element, noem je observation. Wanneer je alle observations van verschillende variabele van verschillende elementen bij elkaar in een schema verwerkt spreek je pas van data. Schaal: Bij metingen kun je verschillende schalen gebruiken: - Nominal scale: een naam of label (Bijvoorbeeld: Amsterdam, Athene, etc.). Let op! Ook getallen kunnen hiertoe behoren, wanneer ze geen echte betekenis hebben van een aantal of een rangorde. - Ordinal scale: geeft een rangorde aan. Dit kan in getallen maar ook in woorden (Zoals: 1, 2, 3, excellent, good, poor). - Interval: geeft een waarde aan die geen algemeen nulpunt heeft en waarmee je niet kunt rekenen. Hiermee wordt bedoelt: als je de waarde verdubbelt, is deze nog niet twee keer zo veel waard (Bijvoorbeeld bij temperatuur: 4 graden Celcius is twee keer zo warm als 8 graden Celcius). Als iets geen algemeen nulpunt heeft, worden er vaak verschillende termen gebruikt. Zo kun je temperatuur aangeven in graden Celcius, Kelvin en Fahrenheit. Het NAP bij hoogteligging heeft een ander nulpunt dan in andere landen. - Ratio: getallen met een nulpunt en waar je mee kunt rekenen (Bijvoorbeeld: aantal kamers, kamerprijzen, etc.) Kwalitatief & Kwantitatief: Data kun je onderverdelen in: - Kwalitatieve data: - Kwantitatieve data: geven een identiteit van iets weer. Het gaat om de nominale of ordinale schaal. geven een hoeveelheid of een waarde van iets weer, zoals bij de schalen: interval en ratio. 1 Samenvatting: Anderson - Statistics Rick Hendriks Cross-sectional & times series data: Er is ook een ander onderscheid te maken bij data, namelijk: - Cross-sectional data: een aantal gegevens dat op hetzelfde moment is verzameld, zoals alle beursstanden op 1 dag. - Time series data: een aantal gegevens gedurende een periode, zoals de veranderingen van dollarwaarde in 2009. Nieuwe & Oude gegevens: Een derde onderscheid tussen data is: Existing sources: Als je gebruik maakt van al bestaande gegevens. In andere gevallen moeten de gegevens zelf worden onderzocht. Dat kan op twee manieren gebeuren: o Experimental studies: onderzoeken van een verwachting die je hebt door de situatie na te bootsen en kijken of je verwachtingen waar zijn. o Observational studies: onderzoeken door observatie, zoals een enquête houden. Onderzoeksgroep: Voor een onderzoek is het meestal goed om alle mensen die er betrekking bij hebben te ondervragen. Als alle mensen onderzocht worden, spreek je van population. In veel gevallen is het echter gemakkelijker om een steekproef op een kleinere groep mensen uit te voeren. Dan spreek je van de sample. Onderzoek dat je uitvoert bij een gehele populatie, noem je een census. Een onderzoek door middel van een steekproef noem je een sample survey. Wanneer je de gegevens uit een steekproef toe gaat passen voor een hypothese voor de gehele populatie, spreek je van statistical inference. 2 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 2: Discriptive Statistics: Tabular and Graphical Presentations Frequency distrubtion – Frequentieverdeling: Een frequentieverdeling is een tabel met verschillende classes van metingen. Van elke klasse wordt aangegeven hoe vaak deze voorkomt in de gegevens. Deze aantallen kun je ook uitdrukken in percentages: de relatieve frequentie, met behulp van de formule: aantal van de klasse / totaal aantal metingen = relatieve frequentie Soms is het nuttig om de klassen te cumuleren. Dan tel je bij het percentage van de huidige klasse ook de waarde van alle eerdere klassen op. Zo loopt het percentage per klasse steeds op, tot 100% bij de laatste klasse. Meestal wordt een frequentieverdeling met aantallen gepresenteerd in een staafdiagram. De relatieve frequentieverdeling is meer geschikt voor een cirkeldiagram. Meestal gebruik je, afhankelijk van het aantal metingen, 5 tot 20 klassen. De klassebreedte kun je vervolgend berekenen: (grootste meting – kleinste meting) / aantal klassen = klassenbreedte De grenzen van een klasse zijn erg belangrijk. Om te zorgen dat er geen waarde is die bij geen enkele klasse hoort, kun je open-ended classes maken. Dit betekent dat de laagste klasse geen ondergrens heeft, maar is dan alle waarden kleiner dan … Voor de hoogste klasse geldt dan: alle waarden groter dan … Metingen presenteren: Metingen kun je op een aantal verschillende manieren presenteren: Dot plot: Dit is een horizontale lijn die loopt van de laagste tot de hoogste waarde. Voor elke gemeten waarde komt er een stip op de lijn te staan. Histogram: Een staafdiagram waarvan elke kolom voor één klasse staat. Op de verticale as is te zien hoe hoog de frequentie van elke klasse is. De vorm vertelt veel over de gegevens: o Als de frequentie afloopt, zijn er veel lage metingen met enkele uitschieters naar boven. (linker figuur) o Als de frequentie oploopt, zijn er veel hoge metingen met enkele uitschieters naar beneden. (middelste figuur) o Als de frequentie als een berg op en af loopt, liggen veel metingen in het midden bij elkaar. (rechter figuur) 3 Samenvatting: Anderson - Statistics Rick Hendriks Ogive: Een lijndiagram van de cumulatieve relatieve frequentieverdeling. Stem-and-leaf display / steel-bladdiagram: In de linkerkolom staan alle tientallen van de metingen en rechts de eenheid van iedere meting per tiental: Een aantal metingen uit dit diagram zijn: 68, 69, 72, 73, 73, … 132, 134, 141. Meerdere gegevens: Er zijn ook tabellen met daarin meerdere gegevens. Zo kun je uit de tabel hiernaast afleiden hoeveel restaurants er in welke prijsklasse vallen, maar ook de beoordeling van de restaurants, maar ook de gemiddelde beoordeling per prijsklasse. Een tabel met meerdere variabelen heet een cross tabulation. Trendlijnen: Aan de hand van een grafiek kun je ook de relatie tussen twee variabelen zien. Je kunt bijvoorbeeld hoe hoog de omzet van een bedrijf is in relatie tot het aantal tv-commercials van het bedrijf op tv. Elke as van de grafiek stelt een variabele voor. Vervolgens zet je voor elke waarde een puntje in de grafiek. Als er een patroon in de puntjes ontstaat kun je daar een rechte lijn tussendoor trekken. Dan kun je één van de 3 soorten relaties tussen de variabelen herkennen: Een stijgende lijn geeft een positief verband aan. In dat geval betekent dat meer reclame ook werkelijk meer omzet oplevert. §2.6: Tabular and Graphical presentations using EXCEL ZELF BESTUDEREN 4 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 3: Discriptive Statistics: Numerical Measures: Gemiddelde: Het belangrijkste gegeven dat de ligging weergeeft is het rekenkundig gemiddelde (mean). Bij een steekproef is het symbool hiervoor 𝑥 en bij een populatie µ. Dit bereken je door alle waarnemingen op te tellen en dan te delen door het aantal metingen. gewogen gemiddelde = som van de waarde van alle metingen Aantal metingen We kennen ook een gewogen gemiddelde (weighted mean). Hierbij tellen niet alle waarden even zwaar mee in het gemiddelde. gewogen gemiddelde = som van alle metingen: (waarde * weging) Som van alle wegingen Mediaan: Een ander gegeven dat een ligging aangeeft is de mediaan (median) dat de middelste waarneming weergeeft. Bij een even aantal metingen is er geen middelste waarneming, dan neem je het gemiddelde van de twee middelste waarnemingen. Modus: De modus (mode) geeft aan welk waarde het meeste voorkomt. Het kan zijn dat er meerdere waarden het meest voorkomen. Als dat twee waarden zijn spreek je van een bimodal onderzoek, bij meer dan twee spreek je van multimodal onderzoek. Percentiel: Het percentiel (percentile) geeft aan welke waarneming er bij een percentage van het aantal waarnemingen hoort. Als je bijvoorbeeld het 85ste percentiel wilt berekenen, deel je 85 door 100 en vermenigvuldig je met het aantal waarden dat je hebt. Bij de 12 metingen krijg je: 85 / 100 * 12 = 10,2. De volgende waarneming na 10,2, dat is dus de 11 de waarneming (van klein naar groot), hoort dus bij het 85ste percentiel. Wanneer er een geheel getal uit de rekensom komt, bijvoorbeeld 10, dan neem je het gemiddelde van de 10 de en de 11de meting. Kwartiel: Een andere belangrijke term is het Kwartiel (Quartile). Van een serie metingen is het eerste kwartiel de waarde die op 25% van de metingen ligt. Het eerste kwartiel is gelijk aan het 25ste percentiel. Het tweede kwartiel is gelijk aan het 50ste percentiel en de mediian. Het derde kwartiel is gelijk aan het 75ste percentiel. Spreiding: De spreiding geeft aan hoe ver de waarnemingen van elkaar liggen. De spreiding, of range bereken je met de simpele formule: range = grootste waarde – kleinste waarde Een variant hierop is de IQR: Interquartile range. Hierbij bereken je de spreiding tussen het eerste en het derde kwartiel. 5 Samenvatting: Anderson - Statistics Rick Hendriks Afwijking: De afwijking (variance) is een getal het verschil tussen een waarde en het gemiddelde van de metingen. De simpele formule daarvoor is: ̅) afwijking (σ) = meting (xi) – gemiddelde (𝒙 Van elke meting kun je de afwijking berekenen, maar je kunt ook het gemiddelde van al die afwijkingen geven: de population variance of de sample variance. De berekening hangt af van of je een steekproef of een gehele populatie onderzoekt: Afwijking (σ2 of s2) = de som van bij elke meting: (x – gemiddelde) 2 Aantal metingen (bij steekproef, aantal – 1) De population variance en de sample variance kun je gebruiken om vervolgens de standaardafwijking te bereken: s2 standaardafwijking (s) = √𝒔𝟐 standaardafwijking (σ) = √𝝈𝟐 De coëfficiënt van de variabele (coefficient of variation) geeft aan hoe ver de standaardafwijking van het gemiddelde afligt. De formule hiervoor is: coefficient of variation = 𝒔𝒕𝒂𝒏𝒅𝒂𝒂𝒓𝒅𝒂𝒇𝒘𝒊𝒋𝒌𝒊𝒏𝒈 𝒈𝒆𝒎𝒊𝒅𝒅𝒆𝒍𝒅𝒆 x 100% Skewness: De vorm (shape) geeft aan hoe de gegevens verspreid liggen. Een voorbeeld hiervan is de scheefheid (skewness). Een negatieve scheefheid (linker grafiek) geeft aan dat de grafiek oplopend zou zijn. Hierbij ligt het gemiddelde boven de mediaan. Bij een positieve scheefheid (rechter grafiek) loopt de grafiek af en ligt het gemiddelde onder de mediaan. Ook geldt dat een hoge scheefheid aangeeft dat de mediaan een betere maatstaf is dan het gemiddelde. 6 Samenvatting: Anderson - Statistics Rick Hendriks Z-score: Een ander getal dat wat over de vorm zegt, is de z-score, of standardized value. Dit getal geeft aan hoe ver een meting van het centrum af ligt. Een z-score van 1,2 zou bijvoorbeeld betekenen dat de waarde 1,2 keer de waarde van de standaardafwijking boven het gemiddelde ligt. Z-score : z-score = (x – gemiddelde) / standaardafwijking De theorie van Chebyshev is ook gebaseerd op de z-score: Tenminste (1 – 1/z2) x 100% van de gegevens valt binnen ‘z’ standaardafwijkingen van het gemiddelde, wanneer z groter is dan 1. Bij een examen van 100 studenten, gemiddeld 70 punten worden behaald, met een standaardafwijking van 5, zou dat betekenen dat: (1 – 1 / 22) x 100% = (1 – ¼) x 100% = 75% Dan zouden 75% van de studenten binnen twee standaardafwijkingen van het gemiddelde scoren, dus tussen de 60 en 80 punten. In het geval van een standaard verdeling (normal probability distribution) gelden dan de empirical rules: 68% van de gegevens valt binnen 1 standaardafwijking van het gemiddelde 95% van de gegevens valt binnen 2 standaardafwijkingen van het gemiddelde Bijna alle gegevens vallen binnen 3 standaardafwijkingen van het gemiddelde Niet altijd vallen alle gegevens binnen deze 3 standaardafwijkingen. Je kunt te maken hebben met enkele extreme waarde (outliers). Men zegt dat wanneer de z-score groter is dan +3, of kleiner dan -3, er sprake is van een extreme waarde. Box plot: Bij het maken van een box plot ga je uit van de 5-getallen samenvatting (five-number summary). Deze gaat uit van de 5 volgende gegevens: 1) Kleinste waarde / smallest value 2) Eerste kwartiel / First quartile (Q1) 3) Mediaan / median (Q2) 4) Derde kwartiel / Third quartile (Q3) 5) Grootste waarde / largest value Een box plot teken je boven een getallenlijn. Je begint met het tekenen van de box, die loopt van Q1 tot aan Q3. Je trekt een verticale streep bij de mediaan. Vervolgens zet je twee verticale strepen op 1,5 IQR van Q1 en Q3 af, dit zijn de lower en upper limit. Je trekt een stippellijn van de kleinste waarde binnen de limits tot aan de grootste waarde binnen de limits. Ten slotte geef je met een sterretje aan of er nog waarden buiten de limits liggen. 7 Samenvatting: Anderson - Statistics Rick Hendriks Covariantie: De covariance (covariantie) geeft de relatie tussen 2 verschillende variabelen aan. Covariantie = som van alle alle waarden: (x – gemiddelde x) * (y – gemiddelde y) Aantal metingen – 1 (bij populatie, niet -1) De uitkomst kan twee dingen aangeven: Een positieve uitkomst geeft een positief verband aan: wanneer de ene variabele toeneemt, neemt ook de andere variabele toe. Een negatieve uitkomst geeft een negatief verband aan: wanneer de ene variabele toeneemt, daalt de andere variabele. Een nadeel van het gebruik van de covariantie is dat je niet kunt aflezen sterk het verband is. Een covariantie van 5 kan in sommige gevallen een heel constant verband weergeven, terwijl het in een ander geval een hele grote afwijking kan weergeven. Correlatie: De correlatie coëfficiënt (correlation coefficient) geeft het verband tussen twee variabelen aan, maar ook hoe sterk dat verband is. De formule voor de correlatie coëfficiënt is: rxy = correlatie coefficient (steekproef) sxy = covariantie (steekproef) sx = standaardafwijking X (steekproef) sy = standaardafwijking Y (steekproef) ρsy = correlatie coefficient (populatie) σxy = covariantie (populatie) σy = standaardafwijking X (populatie) σy = standaardafwijking Y (populatie) Net als bij de covariantie, kun je zien of het een positief of negatief verband is. Ook kan het natuurlijk zijn dat de correlatie 0 is, dan is er helemaal geen verband. Naast dat je kunt zien of het verband positief of negatief is, kun je ook zien hoe sterk het verband is tussen de twee variabelen. Hierbij geldt dat als de uitkomst 1 of -1 is, alle metingen precies in 1 rechte lijn liggen. Hoe dichter de correlatie bij 0 ligt, hoe meer afwijkingen er van het verband zijn. Gegroepeerde gegevens: De formules voor het gemiddelde en de afwijking die hier boven staan, kun je alleen gebruiken wanneer je elke meting apart weet. Maar in sommige gevallen zijn de gegevens gegroepeerd, bijvoorbeeld wanneer je met klassen werkt. Dan krijg je te maken me de volgende formules: Steekproef: Populatie: Gemiddelde: Afwijking §3.8: Tabular Descriptive statistics using EXCEL ZELF BESTUDEREN 8 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 4: Introductie op kansberekening: Kansen (probability) zijn getallen die aangeven hoe waarschijnlijk het is dat iets gebeurd. Die getallen liggen tussen de 0 en de 1, waarbij 0 betekent dat iets nooit kan gebeuren en bij 1 dat iets zeker gaat gebeuren. Kansen worden ook beschreven met het symbool P. §4.1: Experimenten, telregels en kansen toekennen: Bij kansberekening gaat het vaak over gebeurtenissen (ook wel experimenten genoemd). De mogelijke gevolgen van een experiment zijn de uitkomsten (sample points). Alle mogelijke uitkomsten samen vormen de sample space, aangegeven met het symbool S. In de kansberekening kennen we 3 belangrijke telregels: 1) Multiple-step experiments: Dit zijn gebeurtenissen die uit meerdere delen bestaan. Het aantal mogelijke uitkomsten kun je berekenen door de het aantal mogelijke uitkomsten van iedereen onderdeel met elkaar te vermenigvuldigen. Vaak is het ook makkelijk om een boomdiagram (tree diagram) te maken, waarbij je alle mogelijke uitkomsten opschrijft. Voorbeeld: Stel, je wilt het aantal mogelijke uitkomsten weten van het experiment dat je een munt opgooit en een dobbelsteen werpt. Een munt opgooien kent 2 mogelijke uitkomsten, kop of munt. Een dobbelsteen werpen kent er 6. Het totale mogelijke aantal uitkomsten is dus: 2 x 6 = 12. Het boomdiagram hiervan is hiernaast weergegeven. De kans op kop en een 3 werpen schrijf je als volgt: P (kop, 3) De sample space beschrijf je zo: S = { (kop, 1), (kop, 2) … (munt, 6), (munt, 5)} 2) Combinaties: Hierbij heb je een groot aantal objecten, waarvan je er enkele neemt. Het is niet mogelijk om een object meerdere malen te kiezen. Hierbij maken we gebruik van faculteit, het symbool !. Faculteit betekent dat een getal wordt vermenigvuldigd met alle lagere waarden. Bij combinaties kennen we de volgende formule: N = totale aantal objecten n = aantal objecten dat je neemt 𝑵! 𝑵 NC ( ) == n 𝒏!(𝑵−𝒏)! 𝒏 Op je rekenmachine kun je dit ook eenvoudig de eerste formule invoeren. 5 ( ) voer je bijvoorbeeld zo in: 5 nCr 2 2 Voorbeeld: Bij een loterij zitten er 49 getallen in de machine, waarvan er 6 getrokken worden. Bereken het aantal mogelijke uitkomsten. 49! 49! 49 𝑥 48 𝑥 47 𝑥 46 𝑥 45 𝑥 44 49 ( ) = 6!(49−6)! = 6!43! = 6 𝑥 5 𝑥 4 𝑥 3 𝑥 2 𝑥 1 = 13.983.816 6 Of als je het direct op je rekenmachine intypt: 49 nCr 6 = 13.983.816 9 Samenvatting: Anderson - Statistics Rick Hendriks 3) Permutaties: Permutaties werken ongeveer gelijk als combinaties. Het verschil is dat bij permutaties de volgorde belangrijk is. De formule wordt: N = totale aantal objecten n = aantal objecten dat je neemt 𝑵! 𝑵 NP = n! ( ) = n (𝑵−𝒏)! 𝒏 Op je rekenmachine doe je dat met de functie nPr: 2nd nCr Voorbeeld: Een bedrijf heeft 5 machines (A, B, C, D en E), waarvan er 2 willekeurig na elkaar gecontroleerd worden. Hoeveel mogelijkheden zijn er? 5! 5! 5 𝑥 4 𝑥 3 𝑥 2 𝑥 1 120 5P = 2! (5) = = 3! = = 6 = 20 2 (5 −2)! 3𝑥2𝑥1 2 Of op je rekenmachine meteen invoeren: 5 2nd nCr 2 = 20 Er zijn een aantal mogelijkheden om een kansberekening te benaderen: Klassieke methode: hierbij is kans voor het gebeuren van elke uitkomst even groot. Zo is de kans op munt net zo groot als de kans op kop als je een munt opgooit. Hierbij is de kans: 1 / het totale aantal mogelijkheden, dus in dit geval: P = 1 / 2 = 0,500 Relatieve frequentie methode: hierbij worden er meerdere metingen gedaan, om te kijken welke uitkomst een grotere waarschijnlijk heeft dan de anderen. De kans bereken je hierbij door de frequentie te delen door het totale aantal metingen. Voorbeeld: Er wordt onderzoek gedaan in een wachtkamer naar hoeveel mensen er wachten. Dit wordt 20 dagen om 9.00 uur gemeten. De resultaten zijn hiernaast weergegeven. De kans dat er 2 wachtende zijn in de wachtkamer, is: P = 6 / 20 = 0,300 Wachtende 0 1 2 3 4 Frequentie 2 5 6 4 3 Subjectieve methode: hierbij gaat de kansberekening over de mate van geloof in een uitkomst, vaak gebaseerd op intuïtie of ervaring. Zo valt bijvoorbeeld de kans dat een bod op een huis wordt geaccepteerd niet te berekenen, slechts te voorspellen op basis van een gevoel dat iemand bij de situatie heeft. In alle situaties is het belangrijk om te checken dat de kansen dat iets gebeurd tussen de 0 en de 1 zit en dat alle mogelijke uitkomsten samen weer precies 1 moeten vormen. §4.2: Events en hun kansen: Een experiment waarbij meerdere uitkomsten (sample points) samen worden onderzocht, heet een event. De kans van een event is even groot als de optelsom van alle sample points. Voorbeeld: We gaan uit van het onderzoek in de wachtkamer van eerder. We willen uitzoeken hoe groot de kans is dat er meer dan 2 wachtende zijn in de wachtkamer. Hiervoor berekenen we eerst de kans op 3 en daarna op 4 wachtende. P (3) = 4 / 20 = 0,200 P (4) = 3 / 20 = 0,150 Dus de kans op deze event is: 0,200 + 0,150 = 0,350 10 Samenvatting: Anderson - Statistics Wachtende 0 1 2 3 4 Frequentie 2 5 6 4 3 Rick Hendriks §4.3: Relaties in kansberekening: Events worden vaak aangeduid met een letter, zoals A. We kennen ook complementaire events, dit zijn events die bestaan uit alle sample points die niet tot A behoren, geschreven als Ā. Daarmee kunnen we een nieuwe formule maken om de kans op A te berekenen: P(A) = 1 – P(Ā) Dit betekent: de kans op event A is gelijk aan 1 – de kans dat A niet plaats vind. Wanneer er meerdere events plaats vinden, kan het zijn dat een deel van de uitkomsten zowel bij event A als bij event B hoort. Hierbij moet je rekening houden dat je de groep die bij beide events hoort, niet dubbel telt, dat is de addition law. Hierbij rekenen we met: Union of events (A ∪ B): die staat voor alle mogelijke uitkomsten die horen bij A, of bij B, of bij beide events. Intersection of events (A ∩ B): dit staat voor alle mogelijke uitkomsten die horen bij A, of bij B, maar niet bij beide events. Daarmee kunnen we de formule opstellen voor kansberekening bij twee events: P(A ∪ B) = P(A) + P(B) - P(A ∩ B) Voorbeeld: We gaan een groep medewerkers onderzoeken. We willen weten hoe groot de kans is dat iemand te veel tijd nodig heeft om een product te maken (event A) of het product dat ze maken niet goed is (event B). Het is natuurlijk mogelijk dat het te lang duurt en een slecht product oplevert. Uit metingen blijkt dat van 50 onderzochte medewerkers er 5 te langzaam zijn, 6 slechte producten leveren. 2 Personen behoren tot beide groepen. P(A) = 5 / 50 = 0,100 P(B) = 6 / 50 = 0,120 P(A ∩ B) = 2 / 50 = 0,040 P(A ∪ B) = P(A) + P(B) - P(A ∩ B) = 0,100 + 0,120 – 0,040 = 0,180 Het is natuurlijk ook mogelijk dat het niet mogelijk is dat een uitkomst bij twee events hoort, dan spreken we van een mutually exclusive event. Dit is bijvoorbeeld het geval wanneer je onderzoekt hoe groot de kans is dat een willekeurig iemand 20 of 21 jaar is. Iemand kan niet 20 en 21 jaar zijn, dus dan gaan we van de eenvoudigere formule uit: P(A ∪ B) = P(A) + P(B) §4.4: Kansberekening onder voorwaarden: Voorwaardelijke kansberekening (conditional probability) is het kansberekening waarbij de ene gebeurtenis wordt berekend op voorwaarde van de andere gebeurtenis. Deze kansen worden geschreven als P (𝐴|𝐵): dit is de kans op A, op voorwaarde van B: Afhankelijk: P(𝑨|𝑩) = 𝑷(𝑨 ∩ 𝑩) 𝑷 (𝑩) Wanneer de twee gebeurtenissen onafhankelijk zijn, hebben ze geen invloed op elkaar. De kans op A wanneer B gebeurt is dus net zo groot als wanneer B niet zou gebeuren of B helemaal niet werd meegenomen in het onderzoek. De formule is dan dus: Onafhankelijk: 11 Samenvatting: Anderson - Statistics P(𝑨|𝑩) = P(A) Rick Hendriks Voorbeeld: Er wordt onderzoek gedaan naar de relatie tussen promoties en geslacht. Er zijn 1200 mensen onderzocht, waaruit de tabel hiernaast is voortgekomen. PROMOTIE Mannen Vrouwen Totaal wel (A) 288 36 324 geen (Ā) 672 204 876 Totaal 960 240 1200 Om te zien of er een verband is gaan we P (𝐴|𝑀) berekenen en P (𝐴|𝑉): 𝑷(𝑨 ∩ 𝑴) 𝟐𝟖𝟖 / 𝟏𝟐𝟎𝟎 𝟎,𝟐𝟒 P (𝑨|𝑴) = = = = 0,300 (𝑴) P (𝑨|𝑽) = 𝑷 𝑷(𝑨 ∩ 𝑽) 𝑷 (𝑽) 𝟗𝟔𝟎 / 𝟏𝟐𝟎𝟎 𝟎,𝟖𝟎 𝟑𝟔 / 𝟏𝟐𝟎𝟎 𝟎,𝟎𝟑 = 𝟐𝟒𝟎 / 𝟏𝟐𝟎𝟎 = 𝟎,𝟐𝟎 = 0,150 De kans dat een man promotie maakt is niet gelijk aan de kans dat een vrouw promotie maakt, dus de twee gebeurtenissen zijn afhankelijk van elkaar. Optie 2: Het is ook mogelijk om eerst de tabel om te zetten in kansen. De kans dat een willekeurig iemand een man is, is 960 / 1200 = 0,800. De kans dat iemand man is en promotie maakt “P (M ∩ A)” is: 288 / 1200 = 0,240, etc. Dat geeft de tweede tabel. De formules zijn dan gemakkelijker in te vullen: 𝑷(𝑨 ∩ 𝑴) 𝟎,𝟐𝟒 P (𝑨|𝑴) = = = 0,300 en (𝑴) 𝑷 𝟎,𝟖𝟎 PROMOTIE wel (A) geen (Ā) Totaal P (𝑨|𝑽) = M 0,240 0,560 0,800 V 0,030 0,170 0,200 𝑷(𝑨 ∩ 𝑽) 𝑷 (𝑽) Totaal 0,27 0,73 1,00 𝟎,𝟎𝟑 = 𝟎,𝟐𝟎 = 0,150 De conclusie blijft natuurlijk dezelfde. Uiteraard zijn de formules ook om te draaien, zodat je er de kans van een onderdeel van de voorwaarde mee kunt berekenen: Afhankelijk: Onafhankelijk: P (A ∩ B) = P(A) P(𝑩|𝑨) P (A ∩ B) = P(A) P(B) of P (A ∩ B) = P(B) P(𝑨|𝑩) §4.5: De theorie van Bayes: Een belangrijke theorie in de kansberekening is de theorie van Bayes over meerdere events. Hij heeft de volgende formule opgesteld: Theorie van Bayes: 𝑃 (𝐴𝑖)𝑃(𝐵 |𝐴𝑖 ) P(Ai B) = 𝑃(𝐴1)𝑃(𝐵 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐵 |𝐴2)+ ……+ 𝑃(𝐴𝑛)𝑃(𝐵|𝐴𝑛) Deze formule is het beste te gebruiken met een boomdiagram of een tabel: Boomdiagram: Alle mogelijke wegen worden in het boomdiagram uitgewerkt en vervolgens de formule invullen. Tabel: De volgende tabel invullen en de formule toepassen: (1) (2) (3) (4) (5) Events Prior Conditional Joint probability Posterior probabilities (A) probability probability P(Ai ∩ B) P(𝑨𝒊|𝑩) P(Ai) P(𝑩|𝑨𝒊) A1 … … Kolom 2 * kolom 3 Kolom4 * P(B) A2 … … TOTAAL Totaal = P(B) Totaal = 1.000 12 Samenvatting: Anderson - Statistics Rick Hendriks Voorbeeld: Een fabriek krijgt van 2 leveranciers producten, leverancier A1 en A2. Deze producten kunnen goed (G) of fout (F) zijn. De manager wil weten hoe groot de kans is dat een fout product wordt gemaakt door een foute levering door leverancier A1 of A2. Uit metingen komt naar voren dat leverancier A 1 65% van de voorraad levert en de andere leverancier de overige 35%. Van leverancier A1 zijn de producten in 98% goed, bij leverancier A2 gaat het om 95% van de goederen. Methode 1 – Boomdiagram: Met behulp van de gegevens kun je dit boomdiagram opstellen: = P(A1 ∩ G) = P(A1) P(𝐺|𝐴1) = P(A1 ∩ F) = P(A1) P(𝐹|𝐴1) = P(A2 ∩ G) = P(A2) P(𝐺|𝐴2) = P(A2 ∩ F) = P(A2) P(𝐹|𝐴2) De theorie van Bayes zegt: P(𝐴1|𝐹) = 𝑃 (𝐴𝑖)𝑃(𝐵 |𝐴𝑖 ) P(Ai B) = 𝑃(𝐴1)𝑃(𝐵 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐵 |𝐴2)+ ……+ 𝑃(𝐴𝑛)𝑃(𝐵|𝐴𝑛) 𝑃 (𝐴1)𝑃(𝐹 |𝐴1) 𝑃(𝐴1)𝑃(𝐹 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐹 |𝐴2) 𝑃 (𝐴2)𝑃(𝐹 |𝐴2) = 0,0130 0,0130+0,0175 0,0175 = 0,0130 0,0305 = 0,426 0,0175 P(𝐴2|𝐹) = 𝑃(𝐴1)𝑃(𝐹 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐹 |𝐴2) = 0,0130+0,0175 = 0,0305 = 0,574 Dit geeft aan dat wanneer er een fout product wordt gemaakt, de grootste kans is dat dit wordt veroorzaakt door leverancier A2. Methode 2 – Tabel: 1) Er zijn 2 events, leverancier A1 kan leveren en leverancier A2. 2) Uit de gegevens kunnen we halen dat de kans dat iets van leverancier A1 komt, 65% is, dus 0,65. A2 is dan 0,35 3) Kolom 3 weten we ook: de kans dat een product van leverancier A1, fout is, is 2%. Bij leverancier A2 is 5% van de producten fout. 4) Voor kolom 4 vermenigvuldigen we kolom 2 en 3: A1: 0,65 * 0,02 = 0,0130 A2: 0,35 * 0,05 = 0,0175 Het totaal van deze kolom vormt P(B) = 0,0130 + 0,0175 = 0,0305 5) Kolom 5 is kolom 4 gedeeld door P(B): A1: 0,0130 / 0,0305 = 0,426 A2: 0,0175 / 0,0305 = 0,574 Events Prior Conditional Joint probability Posterior probabilities (A) probability probability P(Ai ∩ B) P(𝑨𝒊|𝑩) P(Ai) P(𝑩|𝑨𝒊) A1 0,65 0,02 0,0130 0,426 A2 0,35 0,05 0,0175 0,574 TOTAAL Totaal = P(B) = 0,0305 Totaal = 1.000 13 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 5: Binomiale Verdeling: §5.1: Variabelen: Een variabele (random variable) is een omschrijving in getallen van de uitkomst van een experiment. We maken een onderscheid naar: Discrete variabelen: gehele exacte getallen. Het kan ook zijn dat een getal een betekenis heeft. Zo kan het gaan om 5 auto’s in een onderzoek, maar kan een getal 1 ook staan voor een positief resultaat en 0 voor een negatief of voor mannen / vrouwen, of iets dergelijks. Continue variabelen: een interval of een serie intervallen. Zo kun je metingen maken naar temperaturen en deze in delen in 20 tot 30 graden, 30 tot 40 graden, 40 tot 50 graden, etc. §5.2: Discrete kansverdeling: De meest eenvoudige vorm van kansberekening is de discrete uniforme kansberekening. Hierbij is de kans op een uitkomst net zo groot als elke andere mogelijke uitkomst, zoals bij het dobbelen met een dobbelsteen. De formule is dan: n = het aantal mogelijke uitkomsten p(x) = 1 / n §5.3: Verwachtingswaarde en standaardafwijking: Het gemiddelde wordt in de kansberekening vaak verwachtingswaarde genoemd, kenbaar aan de symbolen µ en E(x). Dit wordt berekend door elke mogelijke uitkomst te vermenigvuldigen met de kans op deze uitkomst en deze allemaal op te tellen: E(x) = µ = ∑ 𝐱 ∗ 𝐩(𝐱) - Ook in de kansberekening kunnen we de afwijking op het gemiddelde berekenen, de variatie (σ2 of Var(x)). De formule hiervoor is: Var(x) = σ2 = ∑(𝒙 − µ) 𝟐 * p(x) De standaardafwijking is de wortel van de variatie: σ = √𝝈𝟐 = √∑(𝒙 − µ) 𝟐 ∗ 𝒑(𝒙) Voorbeeld: Een autodealer is 300 dagen per jaar geopend. Er is bijgehouden hoeveel auto’s er per dag verkocht zijn: 18% van de dagen 0 auto’s, 39% van de dagen 1 auto, 24% van de dagen 2 auto’s, 14% van de dagen 3 auto’s, 4% van de dagen 4 auto’s, 1% van de dagen 5 auto’s. Hiermee gaan we de verwachtingswaarde en standaardafwijking berekenen: E(x) = µ = ∑ 𝑥 ∗ 𝑝(𝑥) = 0,18 * 0 + 0,39 * 1 + 0,24 * 2 + 0,14 * 3 + 0,04 * 4 + 0,01 * 5 = 0 + 0,39 + 0,48 + 0,42 + 0,16 + 0,05 = 1,50. (0 − 1,50) 2 ∗ 0,18 2,25 ∗ 0,18 0,405 + (1 − 1,50) 2 ∗ 0,39 0,25 ∗ 0,39 0,0975 + 2 ∗ 0,24 (2 − 1,50) 0,25 ∗ 0,24 0,060 + σ = √∑(𝑥 − µ) 2 ∗ 𝑝(𝑥) = = = = √1,25 = 1,12 2 (3 − 1,50) ∗ 0,14 2,25 ∗ 0,14 0,315 + 6,25 ∗ 0,04 0,250 + (4 − 1,50) 2 ∗ 0,04 √(5 − 1,50) 2 ∗ 0,01 √12,25 ∗ 0,01 √ 0,1225 14 Samenvatting: Anderson - Statistics Rick Hendriks §5.4: Binomiale Verdeling: Een bijzondere situatie in de kansberekening is de binomiale kansverdeling. Hiervan is sprake wanneer een kans 2 mogelijkheden heeft: succes of falen. De kans op succes wordt uitgedrukt in het symbool π, falen in (1 – π). De kans is telkens even groot. De formule hiervoor is: P = de kans n = aantal testen π = kans op succes r = aantal gewenst succes P (X = r) = (𝒏𝒓) * πr * (1 – π) (n – r) Gemiddelde = µ = n * π Standaardafwijking = σ = √(𝒏 ∗ 𝝅 (𝟏 − 𝝅)) Voorbeeld: Je hebt een bak met 9 witte ballen en 5 rode ballen. Je pakt uit de bak 5 ballen. Nadat je een bal hebt genomen leg je deze weer terug, zodat er weer 14 zijn. Je hebt succes wanneer je precies 3 witte ballen pakt. Bereken hoe groot de kans op succes is en hoe vaak je gemiddeld succes hebt als je 5 ballen neemt. π = 1 witte bal = 9/14 (1 – π) = 5/14 P (X = 3 witte ballen en 2 rode) = (53) * (9/14)3 * (5/14) (2) Kans = 0,3389 Het gemiddelde aantal witte ballen bij 5 ballen is: µ = 5 * (9/14) = 3,21 witte ballen 15 Samenvatting: Anderson - Statistics Rick Hendriks