Medische Statistiek Kansrekening Medisch statistiek- kansrekening Hoorcollege 1 Uitkomstenruimte vaststellen Ook wel S of E. Bij dobbelsteen: E= {1,2,3,4,5,6} Een eindige uitkomstenreeks Bij het gooien met een munt: E={ 1,2,3,4…..,n} Een oneindige uitkomstenreeks Gebeurtenissen zijn deelverzamelingen van uitkomstruimte. Gebeurtenis- A= oneven worp representeren we als een deelverzameling van de hele uitkomstenruimte. S={ 1,2,3,4,5,6}. We schrijven A= (1,3,5) Voor gebeurtenissen A en B kunnen gedefinieerd worden: AᴗB: de vereniging van A en B AᴖB: de doorsnede van A enB Ǡ of Ac: het complement van A AᴗB: AᴖB: Ǡ Frequentiequotient (fractie) F(q) A= N(A)/ N Bij onafhankelijke herhalingen van eenzelfde sort Pr (A): kansen zijn limieten voor gezondheidswetenschapper Kansrekening kent een aantal regels/ eigenschappen: 1. O< P(A) < 1 2. P(E) = 1. De hele E is een zekere gebeurtenis. 3. Als AᴖB = Ø 4. P(Ø)= 0. Kans op lege verzameling = 0 5. P(Ac)= 1-P(A) 6. P (AᴗB)= P(A)+ P(B)- R(AᴗB) Als AᴖB =Ø spreekt men wel van disjuncte gebeurtenissen of van gebeurtenissen die elkaar uitsluiten. Symmetrische kansruimten 3.3 Men spreekt van een symmetrische kansruimte E bestaat uit elementaire gebeurtenissen/ uitkomsten die alle even waarschijnlijk zijn. Gooien dobbelsteen: allemaal 1/6 kans Voorwaardelijke kansen 3.5 N= 100 duizend mensen A= persoon heeft kanker B= persoon rookt Stel N(A)= 100 duizend mensen hebben longkanker in een populatie. P(A)=? P(A)= N(A)/N = 100/1000= 0.1 Voorwaardelijke kans: aselecte proef in doelgroep P(A/B)= N(AᴖB)/ N(B) = (N(AᴖB0/N )/ N(B)/N = P(AᴖB)/P(B) Algemene definitie voorwaardelijke kans: P(A/B)= P(AᴖB)/ P(B) Onafhankelijkheid Je kunt je afvragen of de gebeurtenissen A en B onafhankelijk zijn. Dan zou P(A/B) gelijk moeten zijn aan P(A) P(A/B)= P(A) P(AᴖB)= P(A) P(B) definitie onafhankelijkheid P(B/A)= P(B) geldt ook voor onafhankelijkheid Dus bovenstaande 3 mogelijkheden voor definitie, omdat ze te herleiden zijn op elkaar. Voorwaardelijke kansen omrekenen Vertaald naar een voorwaardelijke kans schrijven we: P(B/A)= 0,800 = 80% Verondersteld bovendien dat vastgesteld is dat 26,7% van de mensen zonder longkanker rookt: P (B/Ǡ)= 0,267= 26,7% Laten we verder uitgaan dat P(A)= 0,10= 10% nog steeds geldt B roken BC Totaal A longkanker Ac Totaal 0,081 0,24032 0,3203 0,10-0,08 0,90-0,2403 1-0,3203 0,10 0,90 1.00 1= P(AᴖB)= P(B/A)/P(A)= 0,8 X0,10= 0,08= 8% 2= P(ACᴖB)= P(B/Ac)x P(AC)= 0,267 x0,90= 0,2403 Sensitiviteit: P (positief/ziek)= 0,90 Specificiteit:P (negatief/ gezond)= 0,95 P(ziek)=0,1 Wat je wilt weten: P (ziek/positief) P(ziek)=0,01 P (gezond)= 1-0.01= 0,99 Ziek Gezond totaal Positief 0,0090 0,0495 0,0585 Negatief 0,0010 0,9405 0,9415 Totaal 0,01 0,99 1 Productregel toepassen: P(ziekᴖpositief)- p (ziek) xP (positief/ ziek)= 0,01 x0,9 Hoorcollege 2 Verwachting geeft een gemiddelde weer Variantie geeft een spreiding weer Telprobleem 3.6 Probleem 1: Vereniging van 40 leden. Ieder lid moet gesproken worden. Hoeveel volgordes zijn hiervoor mogelijk?--> 40! ‘n’ faculteit Probleem 2: Bestuur samenstellen: voorzitter, secretaris, penningmeester. Hoeveel manieren zijn hiervoor mogelijk? 40x39x38= 59.280 manieren Probleem 3: Corveeploeg kiezen van 3 personen Elk drietal komt in de 59.280 mogelijkheden 6x voor. De verschillende volgordes eigenlijk als 1 mogelijkheid kiezen. Dus op 59.280/ 6=- 9880 manieren een corveeploeg van 3 personen kiezen. (40) = 40! 3 3! 37! (n)= n! K k! x(n-k)! K objecten kiezen uit n totaal objecten Voorbeeld: 4x proef. Elke herhaling is onafhankelijk van voorgaande Elke proef is met ¾ succesvol (kans) Kans op (precies) 3 successen? (4) x 0,75^3 x 0,25^1 = 0,4219 3 2 successen? (4)x 0,75^2 x0,25^2= 0,2109 2 Binomiale verdeling Hierboven met n=4 en π= 0,75 Spreiding in kans door toeval Voorbeeld: In een vaas zitten 10 knikkers: 5 witte en 5 zwarte Men trekt zonder terugleggen 4 knikkers. P: 2 witte en 2 zwarte? (10)= 210 mogelijkheden 4 10 nCr 4 Hoeveel combinaties met 2 witte en 2 zwarte? (5)= 10 wit 2 (5)= 10 zwart 2 P 2 wit, 2 zwart = (5) x(5) 2 2 (10) 4 = 100 210 Stochastische variabele 3.7 Stochastische variabele: waarneming waarvan de uitkomst afhangt van toeval P(X=x) tabel met kansverdeling Verwachting Bij stochastische variabele hoort een verwachting, μ(x) of E(x) Μ= ΣP(x)* x Elke uitkomst vermenigvuldigen met de bijbehorende kans Μ(x) is de gemiddelde uitkomst X bij een langdurige herhaling Μ nadert de kans als de herhaling groot is, Ẋ zal, als N groot is, μ naderen. Μ(x) ook wel populatiegemiddelde Variantie Variantie van een stochastische variabele x=σ2= Σp(x)* (x-μ)2 Variantie ook wel σ^2/x of var(x) Σ2 is de gemiddelde kwadratische afwijking op den duur t.o.v. μ. Wortel van variantie is is standaardafwijking en wordt aangegeven met σ. Continue stochastische variabele 3.7 (kansdichtheden) Normaal verdeling (klokvorm) Uitkomsten van een stochastische variabele kunnen ook reële getallen zijn continue stochastische variabele P(a < X<b) Rekenregels voor verwachting, variantie en standaardafwijking Van stochastische variabele overgaan op andere stochastische variabele Y= 2x-5 Μy= aμy+b Σy2= a2* σ2x Σy= |a|*σx E=(ax+b)= a (ex)+b, var (ax+b)= a2var x Voorbeeld: 40 leden, waarvan 15 vrouw 5 kaarten X= aantal vrouwen met kaartje P(X=3) Hoeveel manieren 5 uit 40? 40 boven 5= 658008 3 vrouw+kaartje en 2man +kaartje 15 boven 3 x 25 boven 2= 136500 P(X=3)= 136500/658008= 20,7% Hoorcollege 3 Kansverdelingen 3.8 Volgorde noemen Volgordes aantal berekenen Aantal volgordes met eis Tenminste 4 goed—4,5,6 Per goed aantal volgorde: 6 goed=1 5 goed= x (is automatisch 6 goed) 4 goed- 6boven2 of 6boven4 Uitkomst = kans Totaal Binomiale verdeling Meestal een kansverdeling van X= aantal successen In binomiale situatie: 1) Er zijn n onafhankelijke (deel)experimenten 2) 2 uitkomsten per experiment 3) Kans op succes is gelijk aan π bij elk experiment Bin(n,π) Binomiale verdeling is toepasbaar bij trekken van steekproef met teruglegging. In praktijk zonder terugleggen: Als steekproefgrootte n klein is t.o.v. populatiegrootte kan men de binomiale verdeling gebruiken als goede benadering Vuistregel: populatiegrootte moet groter zijn dan 5n2 Voor de binomiale verdeling zijn er 2 korte formules afgeleid voor verwachting en variantie E(x)= μ= n*π Var(X)= n*π*(1-π) Poisson verdeling Algemene structuur van de tellingen: een telling van een bepaald verschijnsel gebonden aan plaats en tijd P(X=x)= e-μ μx / x! Verwachting en variantie van de Poisson verdeling zijn beide gelijk aan μ. Voor grote n en kleine π wordt de binomiale verdeling goed benaderd door de Poisson verdeling met μ=n*π Normale verdeling Een continue verdeling Klokvorm voor de kansdichtheid. Oppervlak onder de grafiek tussen de aangegeven grenzen. X~N(μ,σ2) Alle normale verdelingen zijn afgeleid van de standaardnormale verdeling Kans dat P(X>x) vertalen naar een kans in Z. Als X~N(μ,σ2) dan Z= (x-μ)/σ ~ N(0,1) Binomiale verdeling kan benaderd worden door de normale verdeling. Alleen als nπ > 5 en n(1-π) > 5 N die groot is! Μ= nπ -- verwachting Σ= √ 𝑛 ∗ 𝜋 ∗ (1 − 𝜋) -- standaardafwijking Strikt genomen zijn kansen op uitkomsten 29,28,27 etc. zijn allemaal 0 als we die berekenen met de normale verdeling, want de normale verdeling is een continue verdeling. Continuïteitscorrectie! 29 28,5 -29,5 Hoorcollege 4 Standaardnormale verdeling Z= (x-μ)/σ Z-score: wat wijkt bijv. persoon (x) af van het gemiddelde? Er zijn meer dan 1 stochastische variabelen, wat is de kansverdeling van het steekproefgemiddelde? De stochastische variabelen X en Y zijn onafhankelijk als gebeurtenissen A die alleen betrekking hebben op X onafhankelijk zijn van gebeurtenissen b die alleen betrekking hebben op Y. Kansverdeling van X en Y in tabel P (X+Y=5) Beschouwen als gooien met 2 dobbelstenene. P (X=1, y=4)…….. P(X=2, Y=3)……… Kansen optellen Verwachting en varianties van X+Y en X-Y Zonder voorwaarden: E(X+Y)= E(X)+E(Y) E(X-Y)= E(X)-E(Y) Onafhankelijkheid: Var(x+y)= var(x)+ var(y) Var (x-y)= var(x)+ (var(y) altijd bij elkaar optellen!! Varianties van X+Y en X-Y zijn kennelijk gelijk Var(-y)= var(-1*y)= (-1)2 x var(y)= var(y) Verdeling van X+Y en X-Y in geval van normale verdelingen Geval 1: Als X en y onafhankelijk zijn en beide normaal verdeeld, dan zijn zowel X+Y als X-Y ook normaal verdeeld. Geval 2: Poisson verdeling: Als X en Y beide onafhankelijk zijn en beide Poisson verdeeld, dan is X+Y ook weer Poisson verdeeld. Μx=4 en de telling μy=5 Dan geldt in gebal van onafhankelijkheid X+Y poisson verdeeld μx+y= 4+5=9 Dan geldt P(X+Y=6) =e-μ* μ6 6! Als je wilt dat eenzelfde telling blijft, gebruik je de Poisson verdeling. Centrale limietsteliing (CLS) Ongeacht de werkelijke verdeling van de stochastische variabelen X: zijn zowel S als Ẋ bij benadering normaal verdeeld als de steekproefgrootte n groot is. Μ=E(XI) en σ2= var(Xi) Als we de algemene regels E(X+Y) = E(X)+ E(Y) en VAR(X+Y)= VAR(X) +VAR(Y) in geval van onafhankelijkheid herhaald toepassen op S= X1+X2…. Dan vinden we E(S)=n*μ, var(S)= n*σ2 en σs=σ*√𝑛 Z=S-n*μ σ*√𝑛 bij benadering standaardnormaal verdeeld wat houdt dit in voor Ẋ? Algemene regel: Als Y= ax+b dan μx=aμx+b en σy= |a|*σy Voor Ẋ= s/n geldt dus E(Ẋ)= 1/n * nμ=μ en σx= 1/n σ*√𝑛 Het steekproefgemiddelde Ẋ is dus bij benadering normaal verdeeld met verwachting μ en standaardafwijking σ/√𝑛 Opmerking 1 n.a.v. CLS Als Xi een normale verdeling hebben dan is de verdeling Ẋ exact een normale verdeling Als bijvoorbeeld Xi een normale verdeling heeft met μ= 10 en σ=3 dan heeft Ẋ voor n=100 exact de normale verdeling met verwachting 10 en standaardafwijking σ/√100 Aanpassing van σ is cruciaal P(XI> 13)= P(Z>1)= 1- (P <1)= 1- 0,841= 0,159 Met Z= Xi- 10/3 is standaardnormaal verdeeld P (Ẋ>13)= P(Z> 13-10/ 0.3)= P(Z>10)= 0.000 Tabel geeft geen waarde voor 10. 3.59 is het hoogst mogelijke waarde in de tabel. Kans links van 3.59 is 1.00 dus is de kans rechts van 3.59 0.00 (max. kans is immers 1) is wel altijd een benadering van 0 Opmerking 2 n.a.v. CLS Vorige college: de normale benadering van de binomiale verdeling. Deze normale benadering is eigenlijk het gevolg van de centrale Limiet Stelling. Binomiale verdeling successen als volgt coderen: XI=1 als 1e deelexperiment succes oplevert, anders Xi= 0. Dan is S= X1 + X2….. Voorbeeld: X is binomiaal verdeeld met n= 500 en succeskans π= 0,10. Willen benaderen: P(X<65) Aan voorwaarde van goede benadering is voldaan. Normale benadering: doen alsof X normaal verdeeld is met μ= n*π = 500*0,1=50 en σ= n*π*(1-π)= 500*0,1*0,9= 45 σ√45= 6.708 Continuïteitscorrectie P(x<65) P(X<64.5) Daarna standaardiseren: Z= x-μ/σ is standaardnormaal verdeeld Kans omschrijven naar Z en tabellen Standaardafwijking= √𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒