Anderson: ~ Statistiek ~ Hfst 1: Data & Statistics: Statistiek in beroepen: Statistiek is van belang voor verschillende beroepen, bijvoorbeeld in de accounting, in de financiën, bij marketing, productie en economie. Data: Bij statistiek staan data centraal: verzamelde en verwerkte feiten. De naam waarvan de data is, noem je het element. (Bijvoorbeeld: AEX-index of dollarwaarde). Wat de data precies voorstellen noem je de variabele (Bijvoorbeeld: wisselkoers of aantal verkopen per maand). Één meting van een variabele van een element, noem je observation. Wanneer je alle observations van verschillende variabele van verschillende elementen bij elkaar in een schema verwerkt spreek je pas van data. Schaal: Bij metingen kun je verschillende schalen gebruiken: - Nominal scale: een naam of label (Bijvoorbeeld: Amsterdam, Athene, etc.). Let op! Ook getallen kunnen hiertoe behoren, wanneer ze geen echte betekenis hebben van een aantal of een rangorde. - Ordinal scale: geeft een rangorde aan. Dit kan in getallen maar ook in woorden (Zoals: 1, 2, 3, excellent, good, poor). - Interval: geeft een waarde aan die geen algemeen nulpunt heeft en waarmee je niet kunt rekenen. Hiermee wordt bedoelt: als je de waarde verdubbelt, is deze nog niet twee keer zo veel waard (Bijvoorbeeld bij temperatuur: 4 graden Celcius is twee keer zo warm als 8 graden Celcius). Als iets geen algemeen nulpunt heeft, worden er vaak verschillende termen gebruikt. Zo kun je temperatuur aangeven in graden Celcius, Kelvin en Fahrenheit. Het NAP bij hoogteligging heeft een ander nulpunt dan in andere landen. - Ratio: getallen met een nulpunt en waar je mee kunt rekenen (Bijvoorbeeld: aantal kamers, kamerprijzen, etc.) Kwalitatief & Kwantitatief: Data kun je onderverdelen in: - Kwalitatieve data: - Kwantitatieve data: geven een identiteit van iets weer. Het gaat om de nominale of ordinale schaal. geven een hoeveelheid of een waarde van iets weer, zoals bij de schalen: interval en ratio. 1 Samenvatting: Anderson - Statistics Rick Hendriks Cross-sectional & times series data: Er is ook een ander onderscheid te maken bij data, namelijk: - Cross-sectional data: een aantal gegevens dat op hetzelfde moment is verzameld, zoals alle beursstanden op 1 dag. - Time series data: een aantal gegevens gedurende een periode, zoals de veranderingen van dollarwaarde in 2009. Nieuwe & Oude gegevens: Een derde onderscheid tussen data is: Existing sources: Als je gebruik maakt van al bestaande gegevens. In andere gevallen moeten de gegevens zelf worden onderzocht. Dat kan op twee manieren gebeuren: o Experimental studies: onderzoeken van een verwachting die je hebt door de situatie na te bootsen en kijken of je verwachtingen waar zijn. o Observational studies: onderzoeken door observatie, zoals een enquête houden. Onderzoeksgroep: Voor een onderzoek is het meestal goed om alle mensen die er betrekking bij hebben te ondervragen. Als alle mensen onderzocht worden, spreek je van population. In veel gevallen is het echter gemakkelijker om een steekproef op een kleinere groep mensen uit te voeren. Dan spreek je van de sample. Onderzoek dat je uitvoert bij een gehele populatie, noem je een census. Een onderzoek door middel van een steekproef noem je een sample survey. Wanneer je de gegevens uit een steekproef toe gaat passen voor een hypothese voor de gehele populatie, spreek je van statistical inference. 2 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 2: Discriptive Statistics: Tabular and Graphical Presentations Frequency distrubtion – Frequentieverdeling: Een frequentieverdeling is een tabel met verschillende classes van metingen. Van elke klasse wordt aangegeven hoe vaak deze voorkomt in de gegevens. Deze aantallen kun je ook uitdrukken in percentages: de relatieve frequentie, met behulp van de formule: aantal van de klasse / totaal aantal metingen = relatieve frequentie Soms is het nuttig om de klassen te cumuleren. Dan tel je bij het percentage van de huidige klasse ook de waarde van alle eerdere klassen op. Zo loopt het percentage per klasse steeds op, tot 100% bij de laatste klasse. Meestal wordt een frequentieverdeling met aantallen gepresenteerd in een staafdiagram. De relatieve frequentieverdeling is meer geschikt voor een cirkeldiagram. Meestal gebruik je, afhankelijk van het aantal metingen, 5 tot 20 klassen. De klassebreedte kun je vervolgend berekenen: (grootste meting – kleinste meting) / aantal klassen = klassenbreedte De grenzen van een klasse zijn erg belangrijk. Om te zorgen dat er geen waarde is die bij geen enkele klasse hoort, kun je open-ended classes maken. Dit betekent dat de laagste klasse geen ondergrens heeft, maar is dan alle waarden kleiner dan … Voor de hoogste klasse geldt dan: alle waarden groter dan … Metingen presenteren: Metingen kun je op een aantal verschillende manieren presenteren: Dot plot: Dit is een horizontale lijn die loopt van de laagste tot de hoogste waarde. Voor elke gemeten waarde komt er een stip op de lijn te staan. Histogram: Een staafdiagram waarvan elke kolom voor één klasse staat. Op de verticale as is te zien hoe hoog de frequentie van elke klasse is. De vorm vertelt veel over de gegevens: o Als de frequentie afloopt, zijn er veel lage metingen met enkele uitschieters naar boven. (linker figuur) o Als de frequentie oploopt, zijn er veel hoge metingen met enkele uitschieters naar beneden. (middelste figuur) o Als de frequentie als een berg op en af loopt, liggen veel metingen in het midden bij elkaar. (rechter figuur) 3 Samenvatting: Anderson - Statistics Rick Hendriks Ogive: Een lijndiagram van de cumulatieve relatieve frequentieverdeling. Stem-and-leaf display / steel-bladdiagram: In de linkerkolom staan alle tientallen van de metingen en rechts de eenheid van iedere meting per tiental: Een aantal metingen uit dit diagram zijn: 68, 69, 72, 73, 73, … 132, 134, 141. Meerdere gegevens: Er zijn ook tabellen met daarin meerdere gegevens. Zo kun je uit de tabel hiernaast afleiden hoeveel restaurants er in welke prijsklasse vallen, maar ook de beoordeling van de restaurants, maar ook de gemiddelde beoordeling per prijsklasse. Een tabel met meerdere variabelen heet een cross tabulation. Trendlijnen: Aan de hand van een grafiek kun je ook de relatie tussen twee variabelen zien. Je kunt bijvoorbeeld hoe hoog de omzet van een bedrijf is in relatie tot het aantal tv-commercials van het bedrijf op tv. Elke as van de grafiek stelt een variabele voor. Vervolgens zet je voor elke waarde een puntje in de grafiek. Als er een patroon in de puntjes ontstaat kun je daar een rechte lijn tussendoor trekken. Dan kun je één van de 3 soorten relaties tussen de variabelen herkennen: Een stijgende lijn geeft een positief verband aan. In dat geval betekent dat meer reclame ook werkelijk meer omzet oplevert. §2.6: Tabular and Graphical presentations using EXCEL ZELF BESTUDEREN 4 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 3: Discriptive Statistics: Numerical Measures: Gemiddelde: Het belangrijkste gegeven dat de ligging weergeeft is het rekenkundig gemiddelde (mean). Bij een steekproef is het symbool hiervoor 𝑥 en bij een populatie µ. Dit bereken je door alle waarnemingen op te tellen en dan te delen door het aantal metingen. gewogen gemiddelde = som van de waarde van alle metingen Aantal metingen We kennen ook een gewogen gemiddelde (weighted mean). Hierbij tellen niet alle waarden even zwaar mee in het gemiddelde. gewogen gemiddelde = som van alle metingen: (waarde * weging) Som van alle wegingen Mediaan: Een ander gegeven dat een ligging aangeeft is de mediaan (median) dat de middelste waarneming weergeeft. Bij een even aantal metingen is er geen middelste waarneming, dan neem je het gemiddelde van de twee middelste waarnemingen. Modus: De modus (mode) geeft aan welk waarde het meeste voorkomt. Het kan zijn dat er meerdere waarden het meest voorkomen. Als dat twee waarden zijn spreek je van een bimodal onderzoek, bij meer dan twee spreek je van multimodal onderzoek. Percentiel: Het percentiel (percentile) geeft aan welke waarneming er bij een percentage van het aantal waarnemingen hoort. Als je bijvoorbeeld het 85ste percentiel wilt berekenen, deel je 85 door 100 en vermenigvuldig je met het aantal waarden dat je hebt. Bij de 12 metingen krijg je: 85 / 100 * 12 = 10,2. De volgende waarneming na 10,2, dat is dus de 11 de waarneming (van klein naar groot), hoort dus bij het 85ste percentiel. Wanneer er een geheel getal uit de rekensom komt, bijvoorbeeld 10, dan neem je het gemiddelde van de 10 de en de 11de meting. Kwartiel: Een andere belangrijke term is het Kwartiel (Quartile). Van een serie metingen is het eerste kwartiel de waarde die op 25% van de metingen ligt. Het eerste kwartiel is gelijk aan het 25ste percentiel. Het tweede kwartiel is gelijk aan het 50ste percentiel en de mediian. Het derde kwartiel is gelijk aan het 75ste percentiel. Spreiding: De spreiding geeft aan hoe ver de waarnemingen van elkaar liggen. De spreiding, of range bereken je met de simpele formule: range = grootste waarde – kleinste waarde Een variant hierop is de IQR: Interquartile range. Hierbij bereken je de spreiding tussen het eerste en het derde kwartiel. 5 Samenvatting: Anderson - Statistics Rick Hendriks Afwijking: De afwijking (variance) is een getal het verschil tussen een waarde en het gemiddelde van de metingen. De simpele formule daarvoor is: ̅) afwijking (σ) = meting (xi) – gemiddelde (𝒙 Van elke meting kun je de afwijking berekenen, maar je kunt ook het gemiddelde van al die afwijkingen geven: de population variance of de sample variance. De berekening hangt af van of je een steekproef of een gehele populatie onderzoekt: Afwijking (σ2 of s2) = de som van bij elke meting: (x – gemiddelde) 2 Aantal metingen (bij steekproef, aantal – 1) De population variance en de sample variance kun je gebruiken om vervolgens de standaardafwijking te bereken: s2 standaardafwijking (s) = √𝒔𝟐 standaardafwijking (σ) = √𝝈𝟐 De coëfficiënt van de variabele (coefficient of variation) geeft aan hoe ver de standaardafwijking van het gemiddelde afligt. De formule hiervoor is: coefficient of variation = 𝒔𝒕𝒂𝒏𝒅𝒂𝒂𝒓𝒅𝒂𝒇𝒘𝒊𝒋𝒌𝒊𝒏𝒈 𝒈𝒆𝒎𝒊𝒅𝒅𝒆𝒍𝒅𝒆 x 100% Skewness: De vorm (shape) geeft aan hoe de gegevens verspreid liggen. Een voorbeeld hiervan is de scheefheid (skewness). Een negatieve scheefheid (linker grafiek) geeft aan dat de grafiek oplopend zou zijn. Hierbij ligt het gemiddelde boven de mediaan. Bij een positieve scheefheid (rechter grafiek) loopt de grafiek af en ligt het gemiddelde onder de mediaan. Ook geldt dat een hoge scheefheid aangeeft dat de mediaan een betere maatstaf is dan het gemiddelde. 6 Samenvatting: Anderson - Statistics Rick Hendriks Z-score: Een ander getal dat wat over de vorm zegt, is de z-score, of standardized value. Dit getal geeft aan hoe ver een meting van het centrum af ligt. Een z-score van 1,2 zou bijvoorbeeld betekenen dat de waarde 1,2 keer de waarde van de standaardafwijking boven het gemiddelde ligt. Z-score : z-score = (x – gemiddelde) / standaardafwijking De theorie van Chebyshev is ook gebaseerd op de z-score: Tenminste (1 – 1/z2) x 100% van de gegevens valt binnen ‘z’ standaardafwijkingen van het gemiddelde, wanneer z groter is dan 1. Bij een examen van 100 studenten, gemiddeld 70 punten worden behaald, met een standaardafwijking van 5, zou dat betekenen dat: (1 – 1 / 22) x 100% = (1 – ¼) x 100% = 75% Dan zouden 75% van de studenten binnen twee standaardafwijkingen van het gemiddelde scoren, dus tussen de 60 en 80 punten. In het geval van een standaard verdeling (normal probability distribution) gelden dan de empirical rules: 68% van de gegevens valt binnen 1 standaardafwijking van het gemiddelde 95% van de gegevens valt binnen 2 standaardafwijkingen van het gemiddelde Bijna alle gegevens vallen binnen 3 standaardafwijkingen van het gemiddelde Niet altijd vallen alle gegevens binnen deze 3 standaardafwijkingen. Je kunt te maken hebben met enkele extreme waarde (outliers). Men zegt dat wanneer de z-score groter is dan +3, of kleiner dan -3, er sprake is van een extreme waarde. Box plot: Bij het maken van een box plot ga je uit van de 5-getallen samenvatting (five-number summary). Deze gaat uit van de 5 volgende gegevens: 1) Kleinste waarde / smallest value 2) Eerste kwartiel / First quartile (Q1) 3) Mediaan / median (Q2) 4) Derde kwartiel / Third quartile (Q3) 5) Grootste waarde / largest value Een box plot teken je boven een getallenlijn. Je begint met het tekenen van de box, die loopt van Q1 tot aan Q3. Je trekt een verticale streep bij de mediaan. Vervolgens zet je twee verticale strepen op 1,5 IQR van Q1 en Q3 af, dit zijn de lower en upper limit. Je trekt een stippellijn van de kleinste waarde binnen de limits tot aan de grootste waarde binnen de limits. Ten slotte geef je met een sterretje aan of er nog waarden buiten de limits liggen. 7 Samenvatting: Anderson - Statistics Rick Hendriks Covariantie: De covariance (covariantie) geeft de relatie tussen 2 verschillende variabelen aan. Covariantie = som van alle alle waarden: (x – gemiddelde x) * (y – gemiddelde y) Aantal metingen – 1 (bij populatie, niet -1) De uitkomst kan twee dingen aangeven: Een positieve uitkomst geeft een positief verband aan: wanneer de ene variabele toeneemt, neemt ook de andere variabele toe. Een negatieve uitkomst geeft een negatief verband aan: wanneer de ene variabele toeneemt, daalt de andere variabele. Een nadeel van het gebruik van de covariantie is dat je niet kunt aflezen sterk het verband is. Een covariantie van 5 kan in sommige gevallen een heel constant verband weergeven, terwijl het in een ander geval een hele grote afwijking kan weergeven. Correlatie: De correlatie coëfficiënt (correlation coefficient) geeft het verband tussen twee variabelen aan, maar ook hoe sterk dat verband is. De formule voor de correlatie coëfficiënt is: rxy = correlatie coefficient (steekproef) sxy = covariantie (steekproef) sx = standaardafwijking X (steekproef) sy = standaardafwijking Y (steekproef) ρsy = correlatie coefficient (populatie) σxy = covariantie (populatie) σy = standaardafwijking X (populatie) σy = standaardafwijking Y (populatie) Net als bij de covariantie, kun je zien of het een positief of negatief verband is. Ook kan het natuurlijk zijn dat de correlatie 0 is, dan is er helemaal geen verband. Naast dat je kunt zien of het verband positief of negatief is, kun je ook zien hoe sterk het verband is tussen de twee variabelen. Hierbij geldt dat als de uitkomst 1 of -1 is, alle metingen precies in 1 rechte lijn liggen. Hoe dichter de correlatie bij 0 ligt, hoe meer afwijkingen er van het verband zijn. Gegroepeerde gegevens: De formules voor het gemiddelde en de afwijking die hier boven staan, kun je alleen gebruiken wanneer je elke meting apart weet. Maar in sommige gevallen zijn de gegevens gegroepeerd, bijvoorbeeld wanneer je met klassen werkt. Dan krijg je te maken me de volgende formules: Steekproef: Populatie: Gemiddelde: Afwijking §3.8: Tabular Descriptive statistics using EXCEL ZELF BESTUDEREN 8 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 4: Introductie op kansberekening: Kansen (probability) zijn getallen die aangeven hoe waarschijnlijk het is dat iets gebeurd. Die getallen liggen tussen de 0 en de 1, waarbij 0 betekent dat iets nooit kan gebeuren en bij 1 dat iets zeker gaat gebeuren. Kansen worden ook beschreven met het symbool P. §4.1: Experimenten, telregels en kansen toekennen: Bij kansberekening gaat het vaak over gebeurtenissen (ook wel experimenten genoemd). De mogelijke gevolgen van een experiment zijn de uitkomsten (sample points). Alle mogelijke uitkomsten samen vormen de sample space, aangegeven met het symbool S. In de kansberekening kennen we 3 belangrijke telregels: 1) Multiple-step experiments: Dit zijn gebeurtenissen die uit meerdere delen bestaan. Het aantal mogelijke uitkomsten kun je berekenen door de het aantal mogelijke uitkomsten van iedereen onderdeel met elkaar te vermenigvuldigen. Vaak is het ook makkelijk om een boomdiagram (tree diagram) te maken, waarbij je alle mogelijke uitkomsten opschrijft. Voorbeeld: Stel, je wilt het aantal mogelijke uitkomsten weten van het experiment dat je een munt opgooit en een dobbelsteen werpt. Een munt opgooien kent 2 mogelijke uitkomsten, kop of munt. Een dobbelsteen werpen kent er 6. Het totale mogelijke aantal uitkomsten is dus: 2 x 6 = 12. Het boomdiagram hiervan is hiernaast weergegeven. De kans op kop en een 3 werpen schrijf je als volgt: P (kop, 3) De sample space beschrijf je zo: S = { (kop, 1), (kop, 2) … (munt, 6), (munt, 5)} 2) Combinaties: Hierbij heb je een groot aantal objecten, waarvan je er enkele neemt. Het is niet mogelijk om een object meerdere malen te kiezen. Hierbij maken we gebruik van faculteit, het symbool !. Faculteit betekent dat een getal wordt vermenigvuldigd met alle lagere waarden. Bij combinaties kennen we de volgende formule: N = totale aantal objecten n = aantal objecten dat je neemt 𝑵! 𝑵 NC ( ) == n 𝒏!(𝑵−𝒏)! 𝒏 Op je rekenmachine kun je dit ook eenvoudig de eerste formule invoeren. 5 ( ) voer je bijvoorbeeld zo in: 5 nCr 2 2 Voorbeeld: Bij een loterij zitten er 49 getallen in de machine, waarvan er 6 getrokken worden. Bereken het aantal mogelijke uitkomsten. 49! 49! 49 𝑥 48 𝑥 47 𝑥 46 𝑥 45 𝑥 44 49 ( ) = 6!(49−6)! = 6!43! = 6 𝑥 5 𝑥 4 𝑥 3 𝑥 2 𝑥 1 = 13.983.816 6 Of als je het direct op je rekenmachine intypt: 49 nCr 6 = 13.983.816 9 Samenvatting: Anderson - Statistics Rick Hendriks 3) Permutaties: Permutaties werken ongeveer gelijk als combinaties. Het verschil is dat bij permutaties de volgorde belangrijk is. De formule wordt: N = totale aantal objecten n = aantal objecten dat je neemt 𝑵! 𝑵 NP = n! ( ) = n (𝑵−𝒏)! 𝒏 Op je rekenmachine doe je dat met de functie nPr: 2nd nCr Voorbeeld: Een bedrijf heeft 5 machines (A, B, C, D en E), waarvan er 2 willekeurig na elkaar gecontroleerd worden. Hoeveel mogelijkheden zijn er? 5! 5! 5 𝑥 4 𝑥 3 𝑥 2 𝑥 1 120 5P = 2! (5) = = 3! = = 6 = 20 2 (5 −2)! 3𝑥2𝑥1 2 Of op je rekenmachine meteen invoeren: 5 2nd nCr 2 = 20 Er zijn een aantal mogelijkheden om een kansberekening te benaderen: Klassieke methode: hierbij is kans voor het gebeuren van elke uitkomst even groot. Zo is de kans op munt net zo groot als de kans op kop als je een munt opgooit. Hierbij is de kans: 1 / het totale aantal mogelijkheden, dus in dit geval: P = 1 / 2 = 0,500 Relatieve frequentie methode: hierbij worden er meerdere metingen gedaan, om te kijken welke uitkomst een grotere waarschijnlijk heeft dan de anderen. De kans bereken je hierbij door de frequentie te delen door het totale aantal metingen. Voorbeeld: Er wordt onderzoek gedaan in een wachtkamer naar hoeveel mensen er wachten. Dit wordt 20 dagen om 9.00 uur gemeten. De resultaten zijn hiernaast weergegeven. De kans dat er 2 wachtende zijn in de wachtkamer, is: P = 6 / 20 = 0,300 Wachtende 0 1 2 3 4 Frequentie 2 5 6 4 3 Subjectieve methode: hierbij gaat de kansberekening over de mate van geloof in een uitkomst, vaak gebaseerd op intuïtie of ervaring. Zo valt bijvoorbeeld de kans dat een bod op een huis wordt geaccepteerd niet te berekenen, slechts te voorspellen op basis van een gevoel dat iemand bij de situatie heeft. In alle situaties is het belangrijk om te checken dat de kansen dat iets gebeurd tussen de 0 en de 1 zit en dat alle mogelijke uitkomsten samen weer precies 1 moeten vormen. §4.2: Events en hun kansen: Een experiment waarbij meerdere uitkomsten (sample points) samen worden onderzocht, heet een event. De kans van een event is even groot als de optelsom van alle sample points. Voorbeeld: We gaan uit van het onderzoek in de wachtkamer van eerder. We willen uitzoeken hoe groot de kans is dat er meer dan 2 wachtende zijn in de wachtkamer. Hiervoor berekenen we eerst de kans op 3 en daarna op 4 wachtende. P (3) = 4 / 20 = 0,200 P (4) = 3 / 20 = 0,150 Dus de kans op deze event is: 0,200 + 0,150 = 0,350 10 Samenvatting: Anderson - Statistics Wachtende 0 1 2 3 4 Frequentie 2 5 6 4 3 Rick Hendriks §4.3: Relaties in kansberekening: Events worden vaak aangeduid met een letter, zoals A. We kennen ook complementaire events, dit zijn events die bestaan uit alle sample points die niet tot A behoren, geschreven als Ā. Daarmee kunnen we een nieuwe formule maken om de kans op A te berekenen: P(A) = 1 – P(Ā) Dit betekent: de kans op event A is gelijk aan 1 – de kans dat A niet plaats vind. Wanneer er meerdere events plaats vinden, kan het zijn dat een deel van de uitkomsten zowel bij event A als bij event B hoort. Hierbij moet je rekening houden dat je de groep die bij beide events hoort, niet dubbel telt, dat is de addition law. Hierbij rekenen we met: Union of events (A ∪ B): die staat voor alle mogelijke uitkomsten die horen bij A, of bij B, of bij beide events. Intersection of events (A ∩ B): dit staat voor alle mogelijke uitkomsten die horen bij A, of bij B, maar niet bij beide events. Daarmee kunnen we de formule opstellen voor kansberekening bij twee events: P(A ∪ B) = P(A) + P(B) - P(A ∩ B) Voorbeeld: We gaan een groep medewerkers onderzoeken. We willen weten hoe groot de kans is dat iemand te veel tijd nodig heeft om een product te maken (event A) of het product dat ze maken niet goed is (event B). Het is natuurlijk mogelijk dat het te lang duurt en een slecht product oplevert. Uit metingen blijkt dat van 50 onderzochte medewerkers er 5 te langzaam zijn, 6 slechte producten leveren. 2 Personen behoren tot beide groepen. P(A) = 5 / 50 = 0,100 P(B) = 6 / 50 = 0,120 P(A ∩ B) = 2 / 50 = 0,040 P(A ∪ B) = P(A) + P(B) - P(A ∩ B) = 0,100 + 0,120 – 0,040 = 0,180 Het is natuurlijk ook mogelijk dat het niet mogelijk is dat een uitkomst bij twee events hoort, dan spreken we van een mutually exclusive event. Dit is bijvoorbeeld het geval wanneer je onderzoekt hoe groot de kans is dat een willekeurig iemand 20 of 21 jaar is. Iemand kan niet 20 en 21 jaar zijn, dus dan gaan we van de eenvoudigere formule uit: P(A ∪ B) = P(A) + P(B) §4.4: Kansberekening onder voorwaarden: Voorwaardelijke kansberekening (conditional probability) is het kansberekening waarbij de ene gebeurtenis wordt berekend op voorwaarde van de andere gebeurtenis. Deze kansen worden geschreven als P (𝐴|𝐵): dit is de kans op A, op voorwaarde van B: Afhankelijk: P(𝑨|𝑩) = 𝑷(𝑨 ∩ 𝑩) 𝑷 (𝑩) Wanneer de twee gebeurtenissen onafhankelijk zijn, hebben ze geen invloed op elkaar. De kans op A wanneer B gebeurt is dus net zo groot als wanneer B niet zou gebeuren of B helemaal niet werd meegenomen in het onderzoek. De formule is dan dus: Onafhankelijk: 11 Samenvatting: Anderson - Statistics P(𝑨|𝑩) = P(A) Rick Hendriks Voorbeeld: Er wordt onderzoek gedaan naar de relatie tussen promoties en geslacht. Er zijn 1200 mensen onderzocht, waaruit de tabel hiernaast is voortgekomen. PROMOTIE Mannen Vrouwen Totaal wel (A) 288 36 324 geen (Ā) 672 204 876 Totaal 960 240 1200 Om te zien of er een verband is gaan we P (𝐴|𝑀) berekenen en P (𝐴|𝑉): 𝑷(𝑨 ∩ 𝑴) 𝟐𝟖𝟖 / 𝟏𝟐𝟎𝟎 𝟎,𝟐𝟒 P (𝑨|𝑴) = = = = 0,300 (𝑴) P (𝑨|𝑽) = 𝑷 𝑷(𝑨 ∩ 𝑽) 𝑷 (𝑽) 𝟗𝟔𝟎 / 𝟏𝟐𝟎𝟎 𝟎,𝟖𝟎 𝟑𝟔 / 𝟏𝟐𝟎𝟎 𝟎,𝟎𝟑 = 𝟐𝟒𝟎 / 𝟏𝟐𝟎𝟎 = 𝟎,𝟐𝟎 = 0,150 De kans dat een man promotie maakt is niet gelijk aan de kans dat een vrouw promotie maakt, dus de twee gebeurtenissen zijn afhankelijk van elkaar. Optie 2: Het is ook mogelijk om eerst de tabel om te zetten in kansen. De kans dat een willekeurig iemand een man is, is 960 / 1200 = 0,800. De kans dat iemand man is en promotie maakt “P (M ∩ A)” is: 288 / 1200 = 0,240, etc. Dat geeft de tweede tabel. De formules zijn dan gemakkelijker in te vullen: 𝑷(𝑨 ∩ 𝑴) 𝟎,𝟐𝟒 P (𝑨|𝑴) = = = 0,300 en (𝑴) 𝑷 𝟎,𝟖𝟎 PROMOTIE wel (A) geen (Ā) Totaal P (𝑨|𝑽) = M 0,240 0,560 0,800 V 0,030 0,170 0,200 𝑷(𝑨 ∩ 𝑽) 𝑷 (𝑽) Totaal 0,27 0,73 1,00 𝟎,𝟎𝟑 = 𝟎,𝟐𝟎 = 0,150 De conclusie blijft natuurlijk dezelfde. Uiteraard zijn de formules ook om te draaien, zodat je er de kans van een onderdeel van de voorwaarde mee kunt berekenen: Afhankelijk: Onafhankelijk: P (A ∩ B) = P(A) P(𝑩|𝑨) P (A ∩ B) = P(A) P(B) of P (A ∩ B) = P(B) P(𝑨|𝑩) §4.5: De theorie van Bayes: Een belangrijke theorie in de kansberekening is de theorie van Bayes over meerdere events. Hij heeft de volgende formule opgesteld: Theorie van Bayes: 𝑃 (𝐴𝑖)𝑃(𝐵 |𝐴𝑖 ) P(Ai B) = 𝑃(𝐴1)𝑃(𝐵 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐵 |𝐴2)+ ……+ 𝑃(𝐴𝑛)𝑃(𝐵|𝐴𝑛) Deze formule is het beste te gebruiken met een boomdiagram of een tabel: Boomdiagram: Alle mogelijke wegen worden in het boomdiagram uitgewerkt en vervolgens de formule invullen. Tabel: De volgende tabel invullen en de formule toepassen: (1) (2) (3) (4) (5) Events Prior Conditional Joint probability Posterior probabilities (A) probability probability P(Ai ∩ B) P(𝑨𝒊|𝑩) P(Ai) P(𝑩|𝑨𝒊) A1 … … Kolom 2 * kolom 3 Kolom4 * P(B) A2 … … TOTAAL Totaal = P(B) Totaal = 1.000 12 Samenvatting: Anderson - Statistics Rick Hendriks Voorbeeld: Een fabriek krijgt van 2 leveranciers producten, leverancier A1 en A2. Deze producten kunnen goed (G) of fout (F) zijn. De manager wil weten hoe groot de kans is dat een fout product wordt gemaakt door een foute levering door leverancier A1 of A2. Uit metingen komt naar voren dat leverancier A 1 65% van de voorraad levert en de andere leverancier de overige 35%. Van leverancier A1 zijn de producten in 98% goed, bij leverancier A2 gaat het om 95% van de goederen. Methode 1 – Boomdiagram: Met behulp van de gegevens kun je dit boomdiagram opstellen: = P(A1 ∩ G) = P(A1) P(𝐺|𝐴1) = P(A1 ∩ F) = P(A1) P(𝐹|𝐴1) = P(A2 ∩ G) = P(A2) P(𝐺|𝐴2) = P(A2 ∩ F) = P(A2) P(𝐹|𝐴2) De theorie van Bayes zegt: P(𝐴1|𝐹) = 𝑃 (𝐴𝑖)𝑃(𝐵 |𝐴𝑖 ) P(Ai B) = 𝑃(𝐴1)𝑃(𝐵 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐵 |𝐴2)+ ……+ 𝑃(𝐴𝑛)𝑃(𝐵|𝐴𝑛) 𝑃 (𝐴1)𝑃(𝐹 |𝐴1) 𝑃(𝐴1)𝑃(𝐹 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐹 |𝐴2) 𝑃 (𝐴2)𝑃(𝐹 |𝐴2) = 0,0130 0,0130+0,0175 0,0175 = 0,0130 0,0305 = 0,426 0,0175 P(𝐴2|𝐹) = 𝑃(𝐴1)𝑃(𝐹 |𝐴1)+ 𝑃(𝐴2)𝑃(𝐹 |𝐴2) = 0,0130+0,0175 = 0,0305 = 0,574 Dit geeft aan dat wanneer er een fout product wordt gemaakt, de grootste kans is dat dit wordt veroorzaakt door leverancier A2. Methode 2 – Tabel: 1) Er zijn 2 events, leverancier A1 kan leveren en leverancier A2. 2) Uit de gegevens kunnen we halen dat de kans dat iets van leverancier A1 komt, 65% is, dus 0,65. A2 is dan 0,35 3) Kolom 3 weten we ook: de kans dat een product van leverancier A1, fout is, is 2%. Bij leverancier A2 is 5% van de producten fout. 4) Voor kolom 4 vermenigvuldigen we kolom 2 en 3: A1: 0,65 * 0,02 = 0,0130 A2: 0,35 * 0,05 = 0,0175 Het totaal van deze kolom vormt P(B) = 0,0130 + 0,0175 = 0,0305 5) Kolom 5 is kolom 4 gedeeld door P(B): A1: 0,0130 / 0,0305 = 0,426 A2: 0,0175 / 0,0305 = 0,574 Events Prior Conditional Joint probability Posterior probabilities (A) probability probability P(Ai ∩ B) P(𝑨𝒊|𝑩) P(Ai) P(𝑩|𝑨𝒊) A1 0,65 0,02 0,0130 0,426 A2 0,35 0,05 0,0175 0,574 TOTAAL Totaal = P(B) = 0,0305 Totaal = 1.000 13 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 5: Binomiale Verdeling: §5.1: Variabelen: Een variabele (random variable) is een omschrijving in getallen van de uitkomst van een experiment. We maken een onderscheid naar: Discrete variabelen: gehele exacte getallen. Het kan ook zijn dat een getal een betekenis heeft. Zo kan het gaan om 5 auto’s in een onderzoek, maar kan een getal 1 ook staan voor een positief resultaat en 0 voor een negatief of voor mannen / vrouwen, of iets dergelijks. Continue variabelen: een interval of een serie intervallen. Zo kun je metingen maken naar temperaturen en deze in delen in 20 tot 30 graden, 30 tot 40 graden, 40 tot 50 graden, etc. §5.2: Discrete kansverdeling: De meest eenvoudige vorm van kansberekening is de discrete uniforme kansberekening. Hierbij is de kans op een uitkomst net zo groot als elke andere mogelijke uitkomst, zoals bij het dobbelen met een dobbelsteen. De formule is dan: n = het aantal mogelijke uitkomsten p(x) = 1 / n §5.3: Verwachtingswaarde en standaardafwijking: Het gemiddelde wordt in de kansberekening vaak verwachtingswaarde genoemd, kenbaar aan de symbolen µ en E(x). Dit wordt berekend door elke mogelijke uitkomst te vermenigvuldigen met de kans op deze uitkomst en deze allemaal op te tellen: E(x) = µ = ∑ 𝐱 ∗ 𝐩(𝐱) - Ook in de kansberekening kunnen we de afwijking op het gemiddelde berekenen, de variatie (σ2 of Var(x)). De formule hiervoor is: Var(x) = σ2 = ∑(𝒙 − µ) 𝟐 * p(x) De standaardafwijking is de wortel van de variatie: σ = √𝝈𝟐 = √∑(𝒙 − µ) 𝟐 ∗ 𝒑(𝒙) Voorbeeld: Een autodealer is 300 dagen per jaar geopend. Er is bijgehouden hoeveel auto’s er per dag verkocht zijn: 18% van de dagen 0 auto’s, 39% van de dagen 1 auto, 24% van de dagen 2 auto’s, 14% van de dagen 3 auto’s, 4% van de dagen 4 auto’s, 1% van de dagen 5 auto’s. Hiermee gaan we de verwachtingswaarde en standaardafwijking berekenen: E(x) = µ = ∑ 𝑥 ∗ 𝑝(𝑥) = 0,18 * 0 + 0,39 * 1 + 0,24 * 2 + 0,14 * 3 + 0,04 * 4 + 0,01 * 5 = 0 + 0,39 + 0,48 + 0,42 + 0,16 + 0,05 = 1,50. (0 − 1,50) 2 ∗ 0,18 2,25 ∗ 0,18 0,405 + (1 − 1,50) 2 ∗ 0,39 0,25 ∗ 0,39 0,0975 + 2 ∗ 0,24 (2 − 1,50) 0,25 ∗ 0,24 0,060 + σ = √∑(𝑥 − µ) 2 ∗ 𝑝(𝑥) = = = = √1,25 = 1,12 2 (3 − 1,50) ∗ 0,14 2,25 ∗ 0,14 0,315 + 6,25 ∗ 0,04 0,250 + (4 − 1,50) 2 ∗ 0,04 √(5 − 1,50) 2 ∗ 0,01 √12,25 ∗ 0,01 √ 0,1225 14 Samenvatting: Anderson - Statistics Rick Hendriks §5.4: Binomiale Verdeling: Een bijzondere situatie in de kansberekening is de binomiale kansverdeling. Hiervan is sprake wanneer een kans 2 mogelijkheden heeft: succes of falen. De kans op succes wordt uitgedrukt in het symbool π, falen in (1 – π). De kans is telkens even groot. De formule hiervoor is: P = de kans n = aantal testen π = kans op succes r = aantal gewenst succes P (X = r) = (𝒏𝒓) * πr * (1 – π) (n – r) Gemiddelde = µ = n * π Standaardafwijking = σ = √(𝒏 ∗ 𝝅 (𝟏 − 𝝅)) Voorbeeld: Je hebt een bak met 9 witte ballen en 5 rode ballen. Je pakt uit de bak 5 ballen. Nadat je een bal hebt genomen leg je deze weer terug, zodat er weer 14 zijn. Je hebt succes wanneer je precies 3 witte ballen pakt. Bereken hoe groot de kans op succes is en hoe vaak je gemiddeld succes hebt als je 5 ballen neemt. π = 1 witte bal = 9/14 (1 – π) = 5/14 P (X = 3 witte ballen en 2 rode) = (53) * (9/14)3 * (5/14) (2) Kans = 0,3389 Het gemiddelde aantal witte ballen bij 5 ballen is: µ = 5 * (9/14) = 3,21 witte ballen 15 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 6: Normale Verdeling: §6.2: Normale verdeling: De normale kansverdeling komt in de praktijk het meeste voor. Gemiddelde van steekproeven hebben bijvoorbeeld altijd een normale verdeling. Om met de normale verdeling te rekenen, kun je het beste de z-score gebruiken en de tabel voor kansen bij normale verdeling (blz. 824) Z-score = (x - µ) / σ Wanneer je een kans berekend voor iets dat tussen 2 waarden in ligt, moet je de z-score van deze twee waarden berekenen. Wanneer de twee waarden aan verschillende zijden van het gemiddelde liggen, moet je kansen bij elkaar optellen. Wanneer ze aan dezelfde zijde van het gemiddelde liggen, trek je ze van elkaar af. Voorbeeld: Je hebt een normale verdeling waarbij het gemiddelde 9 is en er een standaardafwijking geldt van 2. Bereken de kans dat X tussen de 7 en de 12 ligt. a=7 b = 12 Za = (7 – 9) / 2 = -1 Zb = (12 – 9) / 2 = 1,5 7 ligt onder het gemiddelde, 12 ligt erboven, dus de kansen moeten worden opgeteld De kansen: P(0 < Z < 1) + P (0 < Z < 1,5) Tabel geeft: (minteken is niet van belang): 0,3413 + 0,4332 = 0,7745 16 Samenvatting: Anderson - Statistics Rick Hendriks §6.3: Binomiale verdeling benaderen door een normale benadering: Je kunt ook een binomiale kansverdeling (zie §5.4) berekenen door de methode van de normale verdeling toe te passen. Hiervoor moet er wel aan 3 eisen worden voldaan: n*π>5 n * (1 – π) > 5 n > 20 Wanneer je een kans berekent, is er nu wel een continuïteitscorrectie nodig. Dit betekent dat je het gebied gaat onderzoeken dat een halve onder en een halve waarde boven je kans gaat onderzoeken. Gemiddelde = µ = n * π Standaardafwijking = σ = √(𝒏 ∗ 𝝅 (𝟏 − 𝝅)) Continuiteitscorrectie uitvoeren Z-score = (x - µ) / σ Verder de normale verdeling toepassen Voorbeeld: Je hebt een pot met 10 knikkers, waarvan er 9 rood zijn en 1 wit. Er worden in totaal 100 trekkingen uit de pot gedaan, na iedere trekking gaat de getrokken bal terug in de bak. Bereken de kans door normale benadering dat er 12 witte ballen worden getrokken. Kan de normale benadering?: - n * π = 100 * 0,1 = 10 > 5 klopt - n * (π – 1) = 100 * 0,9 = 90 > 5 klopt - n = 100 > 20 klopt µ= n * π = 100 * 0,1 = 10 σ = √(100 ∗ 0,1 (0,9)) = 3 Continuiteitscorrectie: P (X = 12), dat wordt: P (11,5 < X < 12,5) a = 11,5 b = 12,5 Za = (11,5 – 10) / 3 = 0,5 Zb = (12,5 – 10) / 3 = 0,8333 De grenzen van het gebied zijn beiden groter dan het gemiddelde, dus de kansen moeten van elkaar worden afgehaald: P (0 < Z < 0,8333) – P (0 < Z < 0,5) 0,2967 – 0,1915 = 0,1052 De kans op 12 witte ballen is dus: 0,1052 17 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 7: Steekproeven: §7.2: Simple random sampling: In de voorgaande hoofdstukken werd er ingegaan op kansberekening bij populaties. In dit een verdere hoofdstukken gaan we in op steekproeven: onderzoek naar een deel van de gehele populatie. §7.3: Point estimation: Een aantal formules die je nodig hebt als je steekproef gemiddelden gaat analyseren: ̅= Gemiddelde = 𝒙 ∑𝒙 𝒏 = som van alle waarden / aantal waarden 2 Standaardafwijking = s = ∑(𝒙−𝒈𝒆𝒎. 𝒙) 𝒏−𝟏 Aantal uitslagen = n Aantal gewenste uitslagen = m Kans op succes (voorheen π) = p = m / n Voorbeeld: Je hebt een grote groep mensen, waarvan je er 10 onderzoekt of ze een opleiding hebben en wat hun jaarsalaris is. Gegevens: X1= opgeleid, €50.000,X6 = opgeleid, €52.000,X2= opgeleid, €55.000,X7 = niet opgeleid, €48.000,X3 = opgeleid, €48.000,X8 = opgeleid, €56.000,X4 = niet opgeleid, €40.000,X9 = opgeleid, €45.000,X5 = niet opgeleid, €26.000,X10 = opgeleid, €61.000,𝑥̅ = (€50.000,- + €55.000,- + €48.000,- + €40.000,- + €26.000,- + €52.000,- + €48.000,- + €56.000,- + €45.000,- + €61.000,-) / 10 = €48.100,- n = 10 m = opgeleid = 7 p = 7 / 10 = 0,7 §7.4: Introductie tot steekproef verdelingen: Het is natuurlijk mogelijk om uit dezelfde populatie meerdere steekproeven te nemen. De uitkomsten hiervan zullen verschillen. De uitslagen die dichtbij het werkelijke gemiddelde liggen, komen vaker voor dan uitkomsten die daar ver van afwijken. Als je dit uitwerkt in een frequentietabel, krijgt de grafiek de vorm die hiernaast is weergegeven. 18 Samenvatting: Anderson - Statistics Rick Hendriks §7.5: Steekproefverdeling van het gemiddelde: Als je bij elke steekproef het gemiddelde neemt, en dan al die gemiddelden weer een gemiddelde neemt, moet dat gelijk zijn aan het gemiddelde van de gehele populatie. De standaardafwijking van de steekproef (σx) moet berekend worden met een formule: σx = standaardafwijking van de steekproef σ = standaardafwijking van de gehele populatie n = steekproefomvang N = populatieomvang σx = 𝝈 √𝒏 met een eindige-populatiecorrectie: σx = √ 𝑵−𝒏 𝝈 𝑵−𝟏 √𝒏 De eindigheidcorrectie moet je alleen toepassen wanneer de omvang van de populatie vast staat en bij de steekproef meer dan 5% van de populatie is onderzocht. In andere gevallen volstaat de eerste kortere formule. Je mag er van uit gaan dat wanneer je meer dan 30 steekproeven neemt en er niets anders vermeld is, dat de resultaten van de steekproeven normaal verdeeld zijn. Wat vaak nog belangrijk is om te weten, is de kans dat de uitkomst van de steekproef erg afwijkt van de werkelijkheid. Hoeveel er mag worden afgeweken wordt vaak gegeven. Met behulp van de z-score kan de kans hierop vervolgens worden berekend: Voorbeeld: Van een groep mensen is het salaris gemiddeld €51.800,-. De directie laat toe dat een steekproef een afwijking van maximaal €500,- hierop mag vertonen. De standaardafwijking is €730,30. Z-score: (€51.300 - €51.800) / €730,30 = - 0,68 De Z-score-tabel geeft hierbij een kans van 0,2518. Omdat de uitslag er ook €500,- boven mag zitten, is de kans dat het binnen de normen ligt 2 * 0,2518 = 0,5036. De kans dat dit niet gebeurt is dus bijna net zo groot (1 – 0,5036 = 0,4964). In dit geval is het verstandig om een nieuwe onderzoek met meer steekproeven te doen. 19 Samenvatting: Anderson - Statistics Rick Hendriks §7.6: Steekproefverdeling van p: Tot nu toe zijn we uitgegaan van gehele getallen. Maar er kan ook worden gerekend met proporties. Hierbij zijn de aantallen niet gegeven in gehele getallen, maar in delen of procenten. De formules en tekens wijken af: p / π = proportieomvang n = steekproefomvang E (p) = Verwachtingswaarde m = aantal ‘positieve’ resultaten N = populatieomvang π = proportie σp = standaardafwijking p= 𝒎 𝒏 E(p) = π 𝝅 (𝟏−𝝅) σp = √ 𝑵−𝒏 𝝅 (𝟏−𝝅) met een eindige-populatiecorrectie: σp = √𝑵−𝟏 √ 𝒏 𝒏 de eindige-populatiecorrectie wordt toegepast wanneer: n / N > 0,05. (wanneer de steekproefomvang kleiner of gelijk is aan 5% van de populatieomvang) Voorbeeld: In een winkel komen dagelijks 1.000 klanten. Er wordt onderzocht hoeveel klanten werkelijk iets kopen. Er worden 10 klanten onderzocht, waarvan er 3 iets kopen. Bereken de verwachtingswaarde en de standaardafwijking met behulp van proporties: De omvang van de proportie is: = π = m / n = 3 / 10 = 0,3 De verwachtingswaarde is gelijk aan de proportie, dus: E(p) = π = 0,3 Om te kijken of de eindige-populatiecorrectie moet worden toegepast wordt berekend: n / N = 10 / 1.000 = 0,01. Dit is kleiner dan 0,05, dus de correctie moet worden toegepast. 𝟏𝟎𝟎𝟎 − 𝟏𝟎 𝟎,𝟑 (𝟏−𝟎,𝟑) σp = √ 𝟏𝟎𝟎𝟎 − 𝟏 √ 𝟏𝟎 990 0,21 = √999 √ 10 = √0,991 √0,021 = 0,995 * 0,145 = 0,144 20 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 8: Schattingsintervallen: In het vorige hoofdstuk zijn we al bezig geweest met schattingspunten (point estimators). Zo is het steekproef gemiddelde een schattingspunt om het gemiddelde van de hele populatie te bepalen. Tot nu toe hebben we gezegd dat de uitkomst van de steekproef precies gelijk is aan de gehele populatie. Er is echter vaak een klein onderscheid tussen, dit verschil noemen we de foutmarge (margin of error). De waarde voor de gehele populatie bevindt zich tussen (schattingswaarde – foutmarge) en (schattingswaarde + foutmarge). Dit noemen we de intervalschatting (interval estimate). §8.1: populatiegemiddelde, σ bekend: Wanneer we van een steekproef naar een resultaat voor de hele populatie gaan rekenen, maken we gebruik van de confidentie coefficiënt. Dit getal geeft weer hoe zeker men wil zijn dat de omzetting klopt. Hoe dichter het getal bij 0 ligt, hoe zekerder men wil zijn. Als je dit getal omzet in een percentage, spreek je van de confidentie level. Om het populatiegemiddelde te gaan berekenen, gebruik je de formule: (1 – α) = confidentie coëfficiënt 𝜎 𝑥̅ = 𝑍𝛼 / 2 ∗ √𝑛 Hiervoor ga je als volgt te werk: 1) Bereken de populatie standaardafwijking: σx = σ / √𝑛 2) Vindt de gewenste z-score in de tabel die hoort bij (1 - confidentie coëfficiënt) / 2 3) Bereken de foutmarge: foutmarge = σx * z-score 4) Bereken het interval: (µ - foutmarge) en (µ + foutmarge) Voorbeeld: Een bedrijf doet een tevredenheidonderzoek bij 100 klanten (n). Uit eerdere testen blijkt dat de standaardafwijking (σ) 12 is. Deze maand is het gemiddelde (µ) van het onderzoek van 72. Bereken het populatiegemiddelde als het confidentie level 95% is. Stap voor stap: Populatie standaardafwijking σx = σ / √𝑛 = 12 / √100 = 12 / 10 = 1,2 Confidentie level = 5%, dus Confidentie coëfficiënt = 0,95. Afwijking zowel links als rechts, dus: 0,95 / 2 = 0,4750 Tabel (blz. 824) geeft 0,4750 bij Za/2 =1,960. Foutmarge = σx * Za/2 = 1,2 * 1,960 = 2,35 Confidentie interval = (72 – 2,35) < 𝑥̅ < (72 + 2,35) = 69,65 < 𝑥̅ < 74,35 Formule: Als je de formule invult, ziet er dat als volgt uit: 𝑥̅ ± 𝑍𝛼 / 2 ∗ 𝜎 √𝑛 72 ± 1,960 ∗ 1,2 √100 21 Samenvatting: Anderson - Statistics 72 ±2,35 69,95 < 𝑥̅ < 74,35 Rick Hendriks §8.2: populatiegemiddelde, σ onbekend: De t-verdeling is een groep kansverdelingen waarvan de verdeling afhangt van het aantal vrijheidsgraden (degrees of freedom). Des te hoger het aantal vrijheidsgraden, hoe meer de verdeling lijkt op de normale verdeling. Net als bij de z-score, ligt bij het gemiddelde van de verdeling t = 0. Het is vaak zo dat de standaardafwijking van de populatie niet bekend is. Hierbij zijn er 2 verschillen in de berekening ten opzichte van de vorige paragraaf: In plaats van de populatie standaardafwijking (σ) gebruik je de steekproef standaardafwijking (s). In plaats van de z-score, gebruiken we de t-score. De nieuwe formule wordt dan: 𝒔 ̅ = 𝒕𝜶 / 𝟐 ∗ 𝒙 √𝒏 Wanneer de t-verdeling wordt gebruikt, moet er ook een andere tabel in het boek worden gebruikt: tabel 2 (blz. 825, 826 en 827). Hierbij moet je het aantal vrijheidsgraden weten: Df (vrijheidsgraden) = n - 1 Hierbij is α (‘area upper tail’ in grafiek): (1 – confidentie coëfficiënt) / 2 Voorbeeld: Het gemiddelde loon is €5.900,- per maand. De standaardafwijking van deze steekproef (s) is €3.058,-. Er zijn 85 mensen ondervraagd. Confidentie coëfficiënt is 0,95 Sx = s / √𝑛 = 3.058 / √85 = 331,69 α = (1 – confidentie coëfficiënt) / 2 = (1 – 0,95) / 2 = 0,05 / 2 = 0,025 Df = n – 1 = 85 – 1 = 84 t0,025 = 1,989 𝑠 𝑓𝑜𝑢𝑡𝑚𝑎𝑟𝑔𝑒 = 𝑡𝛼 / 2 ∗ = 1,989 ∗ 331,69 = 660 √𝑛 Intervalschatting = (5900 – 660) < 𝑥̅ < (5900 + 660) = 5240 < 𝑥̅ < 6560 Bij een kleine steekproef (n < 30) geeft het gebruik van de z-score of t-score geen goed beeld. Daarvoor moet worden gekeken of de steekproefuitslagen lijken op een normale verdeling. Dit doe je door een frequentiegrafiek van de gegevens te maken en kijken of de vorm lijkt op een normale verdeling en of er geen grote uitschieters zijn. §8.3: de steekproefomvang vaststellen: Behalve dat je kunt berekenen waar het gemiddelde ligt, kun je berekenen hoe groot de omvang van een steekproef moet zijn om een bepaalde zekerheid te hebben dat het onderzoek overeen komt met de werkelijkheid. Hiervoor ga je rekenen met de gewenste foutmarge (desired margin of error), met het symbool E. Wanneer je in de formule voor 𝑥̅ verdraait, kun je de formule voor E en n krijgen: 𝐄 = Zα/2 𝝈 √𝒏 en 𝒏= (𝒁𝜶/𝟐 )𝟐 ∗ 𝝈𝟐 𝑬𝟐 De uitkomst voor n moet altijd worden afgerond naar boven. 22 Samenvatting: Anderson - Statistics Rick Hendriks Voorbeeld: Autohuur bedraagt gemiddeld ongeveer €80,- per dag. Men wil een nieuw onderzoek doen om te kijken of dit klopt, waarbij een foutmarge van €2,- wordt toegestaan en het gewenste confidentie leven 95% is. σ = €9,65. Hoe groot moet de steekproef minimaal zijn? (𝒁 )𝟐 ∗ 𝝈𝟐 𝟏,𝟗𝟔𝟐 ∗ 𝟗,𝟔𝟓𝟐 𝟑,𝟖𝟒𝟏 ∗ 𝟗𝟑,𝟏𝟐𝟑 𝟑𝟓𝟕,𝟔𝟖 𝒏 = 𝜶/𝟐𝑬𝟐 = = = 𝟒 = 𝟖𝟗, 𝟒𝟐 𝟐𝟐 𝟒 Er moet worden afgerond naar boven, dus de minimale grootte van de steekproef is 90. §8.4: Populatieproporties: 23 Samenvatting: Anderson - Statistics Rick Hendriks Hfst 9: Hypothese testen: §9.1: Hypothesen opstellen: Wanneer je een onderzoek doet waarbij je ergens van uit gaat, gebruik je hypothesen. Hierbij is de nulhypothese (H0), datgene waar je niet van uit gaat. De alternatieve hypothese is de andere mogelijkheid, waar je vanuit gaat het klopt (H1). Vervolgens ga je de hypothese testen (claimen). Waneer je denkt dat er gemiddeld in een fles cola meer dan 1,5 liter zit, worden je hypothesen: H0: µ ≤ 1,5 liter H1: µ > 1,5 liter Er zijn 3 soorten toetsen mogelijk: Eenzijdige toets: o Linkszijdige toets / lower tail: H0: µ ≥ µ0 // H1: µ < µ0 o Rechtszijdige toets / upper tail: H0: µ ≤ µ0 // H1: µ > µ0 Tweezijdige toets: H0: µ = µ0 // H1: µ ≠ µ0 §9.2: Type I en II errors: Wanneer je een hypothese test, is er altijd nog de kans dat de uitslag van de test niet overeen komt met de werkelijkheid. Dat kan met 2 typen fouten te maken hebben: Werkelijkheid H0 = waar H1 = waar Testen Conclusie H0 accepteren correct Type II fout H0 verwerpen Type I fout correct De redenen van deze fouten zijn: Type I fout: heeft te maken met het significantieniveau α. Dit betekent dat het antwoord erg dicht bij de grens ligt. Er wordt meestal een gebied genomen van 1%, 5% of 10%. Type II fout: Heeft te maken met het onderscheidend vermogen β (uitleg §9.7) Voorbeeld Type I fout: Je onderzoekt of er in een pak rijst werkelijk 1kg zit.: H0: µ ≤ 1000 gram H1: µ > 1000 gram. Er is een standaardafwijking σ van 2,5 gram. Significantieniveau α = 0,01. Uit α = 0,01, volgt Z = 2,33. Z * σ = 2,33 * 2,5 = 5,825 Nieuwe grens = 1000 gram – 5,825 gram = 994,2 Voor een duidelijk antwoord zal dus de uitkomst niet benen 1000 gram, maar beneden de 994,2 gram moeten liggen. 24 Samenvatting: Anderson - Statistics Rick Hendriks §9.3: Populatie gemiddeld, σ bekend: Eenzijdige testen: Omdat je bij een hypothese vaak meerdere testen uitvoert, moet je een standaardafwijking voor het gehele onderzoek (σx) berekenen: σx = σ / √𝒏 Om te weten of je een hypothese gaat verwerpen, kun je met de Z-score gaan rekenen. In de grafiek hiernaast zijn 3 zones getekend: De rechter grijze zone blijft buiten beschouwing De linker grijze zone is α. Wanneer je 99% zeker wilt zijn van je onderzoek, wordt α 0,01. Het gele gebied heeft dan een grote van 0,5 – α, in dit geval 0,49. Hiermee kun je in de Z-score-tabel opzoeken waar de grens ligt, Za ongeveer 2,33. Dit is je richtlijn om te bepalen of de hypothese wel of niet wordt verworpen. Vervolgens bereken je ook de Z-score van de gegevens: Gemiddelde onderzoek - µ0 (dit is je onderzoeksgemiddelde) Z= σx De regel is: Bij linkszijdige toetsen: H0 verwerpen als Z ≤ -Za Bij rechtszijdige toetsen: H0 verwerpen als Z ≥ Za Voorbeeld eenzijdige linkszijdige toets: We gaan onderzoeken of in flessen cola minimaal 3 liter cola zit. Dat geeft: H0: µ ≥ 3 // H1: µ < 3 We gaan 36 flessen coca cola onderzoeken, waarbij er een standaardafwijking (σ) is van 0,18. Dit geeft de standaardafwijking van de gehele proef (σx) = 0,18 / √36 = 0,03 Er van uitgaan dat er bij 36 flessen gemiddeld een inhoud van 2,97 liter wordt gemeten, kun je op basis hiervan de Z-score berekenen: 2,97 - 3 Z = 0,03 = - 1,0 Met α = 0,01, kom je uit op Zα = 2,33. H0 wordt verworpen, want -1,0 < -2,33 Tweezijdige toetsen: Hierbij ga je als volgt te werk De 2 grijze zones samen vormen α = 0,01, dus per zone α = 0,005. Dit betekent dat 1 gele zone 0,495 betekent. Hierop baseer je je Za/2 uit de tabel. De regel is: H0 verwerpen als Z ≤ -Za/2 of Z ≥ Za/2. 25 Samenvatting: Anderson - Statistics Rick Hendriks Voorbeeld tweezijdige toets: We gaan onderzoek doen naar golfballen. Deze moeten gemiddeld 295 meter ver kunnen vliegen. Minder is niet goed, maar meer ook niet: H0: µ = 295 // H1: µ ≠ 295 We gaan 50 golfballen onderzoeken, waarbij er een standaardafwijking (σ) is van 12 meter. Dit geeft de standaardafwijking van de gehele proef (σx) = 12 / √50 = 1,7 Er van uitgaan dat er bij 50 golfballen gemiddeld 297,6 meter wordt gemeten: 297,6 - 295 Z= 1,7 = - 1,53 Met α = 0,05, kom je uit op Zα/2 = 1,96. H0 wordt verworpen, want -1,53 < -1,96 Rekenen met p-waarden: In plaats van de z-score, kun je ook de p-waarden gebruiken om hypothesen te testen. De pwaarde geeft aan hoe groot de kans is dat de uitslag buiten de gewenste zone valt. Hiervoor bereken je eerste de Z-score, en vervolgens geldt de formule: p-value = 0.500 – z-score. Of vervolgens de hypothese wordt verworpen, wordt bepaald aan de hand van de regel: H0 wordt afgewezen wanneer p-value 𝛼 Voorbeeld p-waarden éénzijdige toets: We gaan weer uit van de situatie met de cola-flessen: n = 36, σ = 0.18, en het gemeten gemiddelde is dit maal 2,92 liter. 2.92 – 3 . z-score = 0.18 / √36 = - 2,67 De z-score-tabel geeft hierbij de waarde 0,4962. P-waarde = 0,5000 – 0,4962 = 0,0038. De toegestane afwijking 𝛼 = 0,01. 0,0038 < 0,01, dus wordt H0 verworpen. §9.4: Populatie gemiddeld, σ onbekend: Het kan zo zijn dat de standaardafwijking van de populatie (σ) niet bekend is, maar wel de standaardafwijking van de steekrpoef (s). Het verschil is dat je niet gaat werken met de zscore, maar met de t-score. De formule is bijna gelijk: x - µ0 t = s / √𝒏 Ook bij de t-score kun je de kans opzoeken in een tabel. Hierbij gebruik je de degrees of freedom, dit is het aantal – 1 (N – 1). Deze tabellen zijn een stuk minder exact. Daarom zul je geen exacte waarde krijgen, maar een gebied waarin de kans ligt. De uiteindelijke beslissing of H0 wordt verworpen wordt bepaald door de volgende regels: Eenzijdige testen: o Linkszijdige test: H0 verwerpen wanneer t - ta o Rechtszijdige test: H0 verwerpen wanneer t ta Tweezijdige test: H0 verwerpen wanneer t - ta/2 of t ta/2 Met p-waarden rekenen is hierbij moeilijker en kan eigenlijk alleen worden gedaan met speciale programma’s. De regel blijft H0 wordt afgewezen als p 𝛼. 26 Samenvatting: Anderson - Statistics Rick Hendriks Voorbeeld wanneer σ niet bekend is, eenzijdige linkszijdige toets: We gaan onderzoek doen naar de kwaliteit van vliegvelden die met een score van 0 tot 10 gewaardeerd worden. 60 reizigers wordt gevraagd een cijfer te geven. Wanneer het vliegveld gemiddeld boven de 7,0 scoort, krijgt het een speciale status. Van alle vliegveldbezoekers heb je geen gegevens, alleen van de 60 die onderzocht zijn: x = 7,25 en s = 1,052. H0: µ 7,0 // H1: µ > 7,0 7,25 – 7 . t = 1,052 / √60 = 1,84 Degrees of freedom = 60 – 1 = 59 Deze t-score ligt tussen het gebied 0,050 en 0,025. Er wordt een significantieafwijking 𝛼 van 0,050 afgesproken, hierbij hoort t = 1,671. 1,84 > 1,671, dus H0 wordt afgewezen en het vliegveld krijg een speciale status. §9.5: Populatie proportie: 27 Samenvatting: Anderson - Statistics Rick Hendriks