Sheets hoorcollege 2: 1.3, 4.3, 4.4 en 5.1 Een stochastische variabele (s.v.) X is een kwantitatieve variabele bij een toevalsexperiment. De kansverdeling van X: alle mogelijke waarden van de s.v. X en bijbehorende kansen (tabel of formule). Discrete s.v. X heeft eindig aantal waarden x1 t/m xn met kansen pi, dus pi = P( X= xi) En: P(A) pi x i in A Kanshistogram van een discrete s.v. X: histogram van kansen (i.p.v. relatieve frequenties) bij de mogelijke x-waarden. Een staafdiagram van kansen geeft een beter beeld van de verdeling. De verwachting , of X of E(X) van een discrete s.v. X is het gewogen gemiddelde van alle x-waarden: = xi pi , waarin p i = P( X=xi ) de wegingsfactor van de waarde xi is. 1 Verschil en verband tussen en x : De verwachting(swaarde) , ook wel populatiegemiddelde genoemd, is een maat voor het centrum van een kansverdeling. Het steekproefgemiddelde x geeft een schatting voor de (onbekende) . De (experimentele) wet van de grote aantallen: indien x het gemiddelde van de waargenomen waarden van s.v. X is bij herhaling van het experiment, dan zal x bij veel herhalingen dicht bij liggen. Dus in het algemenen geldt: µ ≠ x Rekenregels voor verwachting = E(X): 1. E(a+bX) = a + bE(X) 2. E(X+Y) = E(X) + E(Y) Notatie boek: a+bX=a+bX en X+Y=X+Y De variantie 2 of σ2X of var(X) is een maat voor de spreiding van een s.v. X: 2 = (xi - )2 pi De standaardafwijking of X of sd(X) wordt afgeleid uit de variantie: 2 σX σX 2 Eigenschappen van σ2X = var(X) en X =sd(X) σ2X 0 en X 0 Let op de eenheid: als de s.v. X in meters (m), dan is σ2X in m2 en X weer in m. σ2X en X zijn de variantie en standaardafwijking van de populatie. s2 en s zijn de variantie en standaardafwijking van de steekproef: zij schatten de (veelal onbekende) waarde van σ2X en X. De variantie van a + bX: E(a +bX) = a+ b E(X), maar voor de variantie geldt: 2 2 2 var(a+bX) = b2 var(X) (boek: σa = b σX ) bX En: a+bX = bX (als b >0) De variantie van X + Y: We weten al dat E(X+Y) = E(X) + E(Y). Maar zo’n eigenschap geldt niet algemeen voor de variantie. 3 De correlatie ρ van X en Y: ρ is de maat voor afhankelijkheid van X en Y ρ ligt altijd tussen -1 en 1. Als ρ = 1, liggen de waarden van X en Y in een spreidingsdiagram op een stijgende rechte lijn. Als ρ = -1, op een dalende lijn. Als ρ = 0, is er geen lineair verband. Algemeen geldt: σ2XY = σ2X + σ2Y + 2ρX Y σ2XY = σ2X + σ2Y - 2ρX Y Als X en Y onafhankelijk zijn, dan geldt: ρ = 0, dus: var(X+Y) = var(X) + var(Y) en var(X -Y) = var(X) + var(Y) Ofwel: 2XY 2X 2Y XY 2X 2Y 4 Continue kansverdelingen Continue s.v. X: de (oneindig veel) waarden van X vormen een interval. X heeft dan een dichtheidskromme p(x): de kans dat X een waarde in een interval aanneemt, wordt bepaald door de oppervlakte boven dat interval onder de kromme. Totale oppervlakte = totale kans = 1 (100%) p-de percentiel: oppervlakte links van die waarde is p% en rechts is (100-p)%. 5 Mediaan: oppervlakte links en rechts van de mediaan is ½ . Verwachting µ = E(X) = µX van continue s.v. X is het “evenwichtspunt” van de kromme. Normale verdeling: symmetrische, klokvormige dichtheidskromme p(x) 2 1 1 x ), (formule p(x) = e 2 2 2 waarin µ = symmetriepunt = verwachting en σ = standaardafwijking notatie: X is N(µ, σ) 6 De 68-95-99.7-regel voor de normale verdeling: P(µ - σ ≤ X ≤ µ + σ) ≈ 68% P(µ - 2σ ≤ X ≤ µ + 2σ) ≈ 95% P(µ - 3σ ≤ X ≤ µ + 3σ) ≈ 99.7% De standaardnormale verdeling N(0,1): Voor µ = 0 en σ = 1 zijn de normale kansen P(Z ≤ z) getabelleerd, bijv. P(Z ≤ 1.15)= 0,8749. wegens symmetrie geldt: P(Z ≥ 1.15) = P(Z ≤ -1.15) = 1- P(Z ≤ 1.15) En: P(-1 ≤ Z ≤ 2) =P(Z ≤ 2) - P(Z ≤ -1). In formule: P(a ≤ Z ≤ b) =P(Z ≤ b) - P(Z ≤ a). 7 Standaardiseren: X μ Als X N(µ, σ), dan is Z = N(0,1) σ Dus kansen voor X kun je met de N(0,1)-tabel bepalen (of direct met de GR). Voorbeeld: X is N(20, 2), dan is X 20 22.3 20 P(X ≤ 22.3) = P( ≤ ) 2 2 = P(Z ≤ 1.15) = 0.8749 met GR schrijf op: P(X ≤ 22.3) = 0.8749 (GR) Eigenschappen normale verdeling: 1. Als X is N(µ, σ), dan is Y = a + bX N(a + bµ, bσ) (als b>0) 2.Als X en Y onafhankelijk zijn en normaal verdeeld [X is N(µX, σX) en Y is N(µY, σY)], dan is X + Y N(µX + µY, 2X Y2 ) Let op: σX+Y ≠ σX + σY, maar wel µX+Y = µX + µY 8 De binomiale verdeling is van toepassing bij een binomiale situatie: 1. onafhankelijke herhalingen van een experiment. 2. steeds twee mogelijke uitkomsten (“succes” en “mislukking”). 3. kans p op succes is steeds gelijk. X, het aantal successen bij de n herhalingen, heeft een B(n,p)-verdeling. Binomiale kansformule: n k P(X=k) = p 1 p nk , voor k= 0,1,…,n k d.i. de kans op k successen en n-k mislukkingen Binomiale kansen kunnen we in binomiale tabellen opzoeken of met de rekenmachine berekenen. Eigenschappen B(n,p)-verdeling: 1. μX = E(X) = np 9 2. σX2 = var(X) = np(1-p) en σX = np(1 p) 3. Voor grote n is X bij benadering N( np , np(1 p) ) (vuistregel: np >5 en n(1-p) >5) Bij normale benadering van de binomiale kansen passen we continuïteitscorrectie (c.c.) toe, omdat dat i.h.a. een betere benadering geeft: Voorbeeld: berekening van P(X ≤ 55) voor X, die B(100, ½ ) is, dus: μX= np =50 en σX = np(1 p) = 5 P( X ≤ 55) = P( X ≤ 55.5) (cont. correctie) X 50 55.5 50 = P (standaard.) 5 5 = P( Z ≤ 1.10) met Z is N(0,1) = 86.43% uit N(0,1)-tabel Evenzo: P( X < 55) = P( X ≤ 54.5) = …. 10 Populatie en steekproeven Populatie: de hele groep van objecten of individuen waarover informatie moet worden ingewonnen. Steekproef: gekozen deel van de populatie. Enkelvoudige Aselecte Steekproef (EAS): willekeurige en beperkte keuze van n elementen uit een populatie. n = steekproefomvang. Populatieverdeling: kansverdeling van een populatievariabele. De twee belangrijkste modellen in dit vak: het binomiale model: zie hieronder en het normale model: zie sheets HC 3 Binomiale model Een populatie bestaat voor een onbekend deel (= fractie p) uit “successen” en voor het overige (fractie 1-p) uit “mislukkingen”. 11 Om p te bepalen wordt een EAS van omvang n uit de populatie genomen: X = “aantal successen in de EAS” is B(n,p) wordt de steekproeffractie genoemd. p̂ X n Hiermee wordt de populatiefractie p geschat. Eigenschappen steekproeffractie : 1. E(p̂) p : p̂ is een zuivere schatter van p. 2. var(p̂) p(1 p) en σ p̂ n p(1 p) : n de variantie resp. de standaardfout (standard error) van de steekproeffractie. 3.Voor grote n is p̂ bij benadering N(p, p(1 p) ) n –verdeeld. 12