Deel II Kansrekening Hoofdstuk 5: De populatie en verdelingsfuncties 5.1 Verdelingsfunctie discrete variabelen = een verdelingsfunctie kan gezien worden als de tegenhanger van de frequentieverdeling, maar nu gedefinieerd voor een populatie ipv een steekproef. Beschrijving? Hangt af van type variabele: discreet of continu Discrete variabelen ο Kunnen eindig aantal waarden aannemen (aantal=p) ο Populatie kan groot zijn: eenvoudiger om #elementen als oneindig te beschouwen ο DUS populatie van oneindig veel elementen en een variabele die een eindig #waarden kan aannemen ο P(X = π₯π ) : kans van een variabele ο hangt samen met frequentieverdeling uit steekproef π(π = π₯π ) = lim ππ π→∞ π : limiet van de relatieve frequentie wanneer de steekproef oneindig groot wordt; relatieve frequentie van π₯π in de populatie 5.1.1 De kansverdeling = tabel met 2 kolommen waarbij de 1ste kolom de waarden π₯π weergeeft en de 2e kolom de overeenkomstige kansen = tegenhanger van de relatieve frequentieverdeling op populatieniveau (kans ligt in interval (0,1) 5.1.2 De cumulatieve verdelingsfunctie (trapsgewijs) ο geeft de kans dat de waarde van een variabele X kleiner dan of gelijk is aan x (tegenhanger van cumulatieve relatieve frequentie) πΉπ₯ (π₯) = π(π ≤ π₯) 5.2 Verdelingsfunctie continue variabelen Continue variabelen ο Kunnen oneindig veel verschillende waarden aannemen ο P(X = x) = 0 voor elke waarde x ο Kansen berekenen: dichtheidsfunctie nodig 5.2.1 De cumulatieve verdelingsfunctie (continu) Er zijn ook kansen verschillend van 0: π(π ≤ π₯) (cumulatieve verdelingsfunctie) ο geeft de kans dat de waarde van een variabele X kleiner dan of gelijk is aan x πΉπ₯ (π₯) = π(π ≤ π₯) 5.2.2 De dichtheidsfunctie = Voor een variabele X is de dichtheidsfunctie ππ₯ (π₯) (ook kansdichtheid genoemd), gelijk aan de afgeleide van de verdelingsfunctie. πΉ(π₯π₯ + π) − πΉ(π₯) π→0 π ππ₯ (π₯) = lim b = breedte van het interval (convergeert naar 0) Kan ook op andere manier bekomen worden: histogram ο Oppervlaktes rechthoeken = relatieve frequenties ο Naarmate het aantal klassen toeneemt (en de breedte van de klassen kleiner wordt), wordt het histogram meer om meer benaderd door een continue functie. Continue functie = dichtheidsfunctie ο door dichtheidsfunctie: kansen van de vorm π(π₯1 ≤ π ≤ π₯2 ) berekenen 110 π(90 ≤ π ≤ 110) = ∫ ππ₯ (π₯)ππ₯ 90 Wat is de numerieke waarde van deze kans? Eigenschap: π(π₯1 ≤ π ≤ π₯2 ) = π(π ≤ π₯2 ) − π(π ≤ π₯1 ) = πΉπ₯ (π₯2 ) − πΉπ₯ (π₯1 ) 3 interessante eigenschappen ο· De dichtheidsfunctie is een positieve functie : ππ₯ (π₯) ≥ 0 (gebaseerd op kansen en kansen kunnen niet negatief zijn) ο· De volledige oppervlakte onder de dichtheidsfunctie = 1 : ∫−∞ ππ₯ (π₯)ππ₯ = 1 ο· π(π > π₯) = 1 − π(π ≤ π₯) +∞ 5.3 Populatieparameters 5.3.1 Populatiegemiddelde Discrete variabelen Gemiddelde (=verwachtingswaarde): πΈ(π) = ∑ππ=1 π(π = π₯π )π₯π Onderscheid gemiddelde steekproef en gemiddelde populatie: ο Steekproefgemiddelde ο Populatiegemiddelde = verwachtingswaarde = E(X) = µ Continue variabelen +∞ Gemiddelde: πΈ(π) = ∫−∞ ππ₯ (π₯)ππ₯ 5.3.2 Populatievariantie Discrete variabelen Variantie: π(π) = ∑ππ=1 π(π = π₯π )(π₯π − πΈ(π))² Standaarddeviatie: ππ₯ = √π(π) = √∑ππ=1 π(π = π₯π )(π₯π − πΈ(π))² Continue variabelen Som vervangen door integraal en kansverdeling vervangen door dichtheidsfunctie +∞ Variantie: π(π) = ∫−∞ ππ₯ (π₯)(π₯ − πΈ(π))²ππ₯ 5.4 Bivariate kansverdelingen 2 variabelen gezamenlijk bekijken 5.4.1 Discrete variabelen π(π = π₯π ππ π = π¦π ) ο marginale (univariate) verdelingen afleiden door kansen op te tellen Univariate verdeling van X: π π(π = π₯π ) = ∑ π(π = π₯π ππ π = π¦π ) π=1 Statistische onafhankelijkheid! 2 discrete variabelen X en Y zijn onafhankelijk als de gelijkheid π(π = π₯π ππ π = π¦π ) = π(π = π₯π )π(π = π¦π ) geldt voor alle mogelijke combinaties van i en j. Covariantie: πΆππ(π, π) = ∑ππ=1 ∑ππ=1 π(π = π₯π ππ π = π¦π )(π₯π − πΈ(π))(π¦π − πΈ(π)) Correlatiecoëfficiënt: πππ = πΆππ(π,π) ππ₯ ππ¦ 5.4.2 Continue variabelen Cumulatieve bivariate verdelingsfunctie : πΉπ,π (π₯, π¦) = π(π ≤ π₯ ππ π ≤ π¦) Bivariate dichtheidsfunctie: πΉπ,π (π₯, π¦)ο afleiden ππ,π (π₯, π¦) 2 continue variabelen zijn onafhankelijk als geldt dat : π(π ≤ π₯ππ π ≤ π¦) = π(π ≤ π₯)π(π ≤ π¦) +∞ +∞ Covariantie: πΆππ(π, π) = ∫−∞ ∫−∞ ππ,π (π₯, π¦)(π₯ − πΈ(π))(π¦ − πΈ(π))ππ₯ππ¦ Correlatiecoëfficiënt= πππ = πΆππ(π,π) ππ ππ 5.5 Nuttige stellingen Zie formuleblad 5.6 Bijzondere verdelingen 5.6.1 De binomiale verdeling (voor discrete variabelen) = kansverdeling weergeven om k correcte antwoorden te hebben op een examen met N vragen ο wiskundige formule om de kansverdeling van X te berekenen: de binomiale kansverdeling π(π = π) = π! ππ (1 − π)π−π π! (π − π)! N! = N faculteit p = kans op succes k = # successen N = maximaal # successen ο Variabele met binomiale verdeling = binomiale variabele ο symbolisch: X ~ Binom(N,p) ο Verwachtingswaarde: E(X) = Np (makkelijker dan definitie invullen) ο Variantie: V(X) = Np(1-p) (makkelijker dan definitie invullen) ο Kan enkel gebruikt worden als N vast is en als de kans op succes p ongewijzigd blijft Illustratie in R 5.6.2 De normale verdeling (voor continue variabelen) Dichtheidsfunctie: ππ₯ (π₯) = 1 π√2π Variabele die normaal verdeeld is: X ~ N (π, π²) π −(π₯−π)² 2π² Dichtheidsfunctie hangt af van 2 parameters: π ππ π² ο ο ο ο E(X) = π V(X) = π² Bereikt haar hoogste punt in het gemiddelde Breder = grotere variantie en meer spreiding rond het gemiddelde π₯ 1 Kansen berekenen bij normale verdeling: π(π₯1 ≤ π ≤ π₯2 ) = ∫π₯ 2 π√2π π −(π₯−π)² 2π² 1 ππ₯ ο beroep doen op tabellen om deze integraal op te lossen Wat blijkt? Een tabel voor π = 0 en π² = 1 is voldoende om de kansen te berekenen voor elke normale verdeling. Dit noemen we de standaardnormale verdeling. π(π ≤ 0) = 0,5 (oppervlakte links) Algemeen: π(π > π₯) = π(π ≤ −π₯) en π(π ≤ −π₯) = 1 − π(π ≤ π₯) π−π Wat als π ≠ 0 ππ π² ≠ 0 ? ο π(π ≤ π₯) = π ( Waarbij Z = π ≤ π₯−π π ) = π(π ≤ π₯−π π ) π−π π Dit noemen we standaardiseren van X. Illustratie in R 5.6.3 De π²- verdeling (continue variabelen) π = π12 + π22 + β― + ππ2 ο som van de k gekwadrateerde standaardnormale variabelen waarbij k = # vrijheidsgraden E(Y)= k en V(Y)= 2k ο k interpreteren als populatiegemiddelde 5.6.4 De t-verdeling (continue variabelen) π= π π √1 π π Als T ~ π‘π , dan geldt: E(T) = 0 en V(T) = π−2 voor k > 2 Illustratie in R Hoofdstuk 6: De steekproevenverdeling Belangrijk! Reproduceerbaarheid ο we verwachten gelijkaardige conclusies wanneer we het experiment opnieuw uitvoeren. Door de steekproevenverdeling kunnen we de reproduceerbaarheid inschatten obv 1 experiment. 6.1 Steekproeftrekking - aselecte steekproeftrekking: op willekeurige wijze + elementen zijn onafhankelijk variabele = X ; waarde van variabele = x Intermezzo: de betekenis van een kans Voorbeeld: opwerpen van een muntstuk o uitkomst = kop of munt ο toeval o kans dat we munt gooien: 50% (na oneindig keer opwerpen) o Kans v/e gebeurtenis = relatieve frequentie v/d gebeurtenis π(π¦ = ππ’ππ‘) = lim π→∞ πππ’ππ‘ π ο πππ’ππ‘ = absolute frequentie van munt Terugkeer naar de Benton Visual Retention Test Toevalsvariabele: een variabele X die bekomen wordt door op toevallige wijze een element uit de populatie te trekken - Duidt het resultaat aan v/e toevallige trekking v/e element uit de populatie Is veranderlijk want niet alle elementen uit de populatie hebben = waarde 6.2 Steekproevenverdeling van het gemiddelde Het steekproefgemiddelde is variabel: de waarde hangt af v/d frequentieverdeling v/d scores i/d steekproef en verschillende steekproeven hebben verschillende frequentieverdelingen ο DUS steekproefgemiddelde is een variabele π 1 πΜ = ∑ ππ π π=1 - Steekproefgemiddelde = vb. v/e steekproefgrootheid (wordt ook een statistiek genoemd) Dichtheidsfunctie = steekproevenverdeling v/h gemiddelde ο geeft de verdeling weer v/h steekproefgemiddelde voor zeer veel steekproeven Steekproevenverdeling: De verdeling van een steekproefgrootheid πΈ(πΜ ) = ππ₯ Stelling 11 en 12: Stelling 13 (verdelingsfunctie): π~π(ππ , en π² π(πΜ ) = π π π²π⁄ Μ π (π is normaal verdeeld) Stelling 14 (centrale limietstelling): p. 196 (hoe groter de steekproef, hoe beter de verdeling v/h steekproefgemiddelde zal lijken op een normaalverdeling) Steekproefgemiddelde standaardiseren: π(πΜ ≤ π₯) = π(π ≤ π₯−ππ √π²π /π , Z~π(0,1) (geldt enkel voor n als X uit een normale verdeling komt, anders enkel voor grote n) Hoe weten of vb. π₯Μ = 5,95 een vrij lage of hoge score is? π(πΜ ≤ 5,92) berekenen! ο dicht bij 0 = vrij lage score ; dicht bij 1 = vrij hoge score 2 manieren 1. Experiment vele malen herhalen en de proportie van gemiddelden berekenen dat kleiner is dan of gelijk aan 5,92 2. Experiment maar 1 keer uitvoeren en gebruik maken van stelling 14 en eigenschap 6.2 (gemiddelde eerst standaardiseren) 6.3 Steekproevenverdeling van de variantie 1 ππ·²π₯ = π ∑ππ=1(ππ − πΜ )² EN 1 π²π₯ = π−1 ∑ππ=1(ππ − πΜ )² Hoe weten welke formule? ο wordt aangegeven in vraag πΈ(ππ·2 π₯ ) = Stelling 15: π−1 π π²π (niet gelijk aan populatievariantie) (π−1)π²π₯ π²π ~π²π−1 EN πΈ(π 2π ) = π²π