Deel 2: Kansrekening

advertisement
Deel II
Kansrekening
Hoofdstuk 5: De populatie en verdelingsfuncties
5.1 Verdelingsfunctie discrete variabelen
= een verdelingsfunctie kan gezien worden als de tegenhanger van de frequentieverdeling,
maar nu gedefinieerd voor een populatie ipv een steekproef. Beschrijving? Hangt af van type
variabele: discreet of continu
Discrete variabelen
οƒ˜ Kunnen eindig aantal waarden aannemen (aantal=p)
οƒ˜ Populatie kan groot zijn: eenvoudiger om #elementen als oneindig te beschouwen
οƒ  DUS populatie van oneindig veel elementen en een variabele die een eindig
#waarden kan aannemen
οƒ˜ P(X = π‘₯𝑖 ) : kans van een variabele οƒ  hangt samen met frequentieverdeling uit
steekproef
𝑃(𝑋 = π‘₯𝑖 ) = lim
𝑓𝑖
𝑛→∞ 𝑛
: limiet van de relatieve frequentie wanneer de steekproef
oneindig groot wordt; relatieve frequentie van π‘₯𝑖 in de populatie
5.1.1 De kansverdeling
= tabel met 2 kolommen waarbij de 1ste kolom de waarden π‘₯𝑖 weergeeft en de 2e kolom de
overeenkomstige kansen
= tegenhanger van de relatieve frequentieverdeling op populatieniveau (kans ligt in interval
(0,1)
5.1.2 De cumulatieve verdelingsfunctie (trapsgewijs)
οƒ  geeft de kans dat de waarde van een variabele X kleiner dan of gelijk is aan x
(tegenhanger van cumulatieve relatieve frequentie)
𝐹π‘₯ (π‘₯) = 𝑃(𝑋 ≤ π‘₯)
5.2 Verdelingsfunctie continue variabelen
Continue variabelen
οƒ˜ Kunnen oneindig veel verschillende waarden aannemen οƒ  P(X = x) = 0 voor elke
waarde x
οƒ˜ Kansen berekenen: dichtheidsfunctie nodig
5.2.1 De cumulatieve verdelingsfunctie (continu)
Er zijn ook kansen verschillend van 0: 𝑃(𝑋 ≤ π‘₯) (cumulatieve verdelingsfunctie)
οƒ  geeft de kans dat de waarde van een variabele X kleiner dan of gelijk is aan x
𝐹π‘₯ (π‘₯) = 𝑃(𝑋 ≤ π‘₯)
5.2.2 De dichtheidsfunctie
= Voor een variabele X is de dichtheidsfunctie 𝑓π‘₯ (π‘₯) (ook kansdichtheid genoemd), gelijk aan
de afgeleide van de verdelingsfunctie.
𝐹(π‘₯π‘₯ + 𝑏) − 𝐹(π‘₯)
𝑏→0
𝑏
𝑓π‘₯ (π‘₯) = lim
b = breedte van het interval (convergeert naar 0)
Kan ook op andere manier bekomen worden: histogram
οƒ˜ Oppervlaktes rechthoeken = relatieve frequenties
οƒ˜ Naarmate het aantal klassen toeneemt (en de breedte van de klassen kleiner wordt),
wordt het histogram meer om meer benaderd door een continue functie. Continue
functie = dichtheidsfunctie οƒ  door dichtheidsfunctie: kansen van de vorm
𝑃(π‘₯1 ≤ 𝑋 ≤ π‘₯2 ) berekenen
110
𝑃(90 ≤ 𝑋 ≤ 110) = ∫
𝑓π‘₯ (π‘₯)𝑑π‘₯
90
Wat is de numerieke waarde van deze kans?
Eigenschap: 𝑃(π‘₯1 ≤ 𝑋 ≤ π‘₯2 ) = 𝑃(𝑋 ≤ π‘₯2 ) − 𝑃(𝑋 ≤ π‘₯1 ) = 𝐹π‘₯ (π‘₯2 ) − 𝐹π‘₯ (π‘₯1 )
3 interessante eigenschappen
ο‚·
De dichtheidsfunctie is een positieve functie : 𝑓π‘₯ (π‘₯) ≥ 0 (gebaseerd op
kansen en kansen kunnen niet negatief zijn)
ο‚·
De volledige oppervlakte onder de dichtheidsfunctie = 1 : ∫−∞ 𝑓π‘₯ (π‘₯)𝑑π‘₯ = 1
ο‚·
𝑃(𝑋 > π‘₯) = 1 − 𝑃(𝑋 ≤ π‘₯)
+∞
5.3 Populatieparameters
5.3.1 Populatiegemiddelde
Discrete variabelen
Gemiddelde (=verwachtingswaarde): 𝐸(𝑋) = ∑𝑝𝑖=1 𝑃(𝑋 = π‘₯𝑖 )π‘₯𝑖
Onderscheid gemiddelde steekproef en gemiddelde populatie:
οƒ˜ Steekproefgemiddelde
οƒ˜ Populatiegemiddelde = verwachtingswaarde = E(X) = µ
Continue variabelen
+∞
Gemiddelde: 𝐸(𝑋) = ∫−∞ 𝑓π‘₯ (π‘₯)𝑑π‘₯
5.3.2 Populatievariantie
Discrete variabelen
Variantie: 𝑉(𝑋) = ∑𝑝𝑖=1 𝑃(𝑋 = π‘₯𝑖 )(π‘₯𝑖 − 𝐸(𝑋))²
Standaarddeviatie: 𝜎π‘₯ = √𝑉(𝑋) = √∑𝑝𝑖=1 𝑃(𝑋 = π‘₯𝑖 )(π‘₯𝑖 − 𝐸(𝑋))²
Continue variabelen
Som vervangen door integraal en kansverdeling vervangen door dichtheidsfunctie
+∞
Variantie: 𝑉(𝑋) = ∫−∞ 𝑓π‘₯ (π‘₯)(π‘₯ − 𝐸(𝑋))²π‘‘π‘₯
5.4 Bivariate kansverdelingen
2 variabelen gezamenlijk bekijken
5.4.1 Discrete variabelen
𝑃(𝑋 = π‘₯𝑖 𝑒𝑛 π‘Œ = 𝑦𝑗 )
οƒ  marginale (univariate) verdelingen afleiden door kansen op te tellen
Univariate verdeling van X:
π‘ž
𝑃(𝑋 = π‘₯𝑖 ) = ∑ 𝑃(𝑋 = π‘₯𝑖 𝑒𝑛 π‘Œ = 𝑦𝑗 )
𝑗=1
Statistische onafhankelijkheid! 2 discrete variabelen X en Y zijn onafhankelijk als de
gelijkheid 𝑃(𝑋 = π‘₯𝑖 𝑒𝑛 π‘Œ = 𝑦𝑗 ) = 𝑃(𝑋 = π‘₯𝑖 )𝑃(π‘Œ = 𝑦𝑗 ) geldt voor alle mogelijke
combinaties van i en j.
Covariantie: 𝐢𝑂𝑉(𝑋, π‘Œ) = ∑𝑝𝑖=1 ∑π‘žπ‘—=1 𝑃(𝑋 = π‘₯𝑖 𝑒𝑛 π‘Œ = 𝑦𝑗 )(π‘₯𝑖 − 𝐸(𝑋))(𝑦𝑗 − 𝐸(π‘Œ))
Correlatiecoëfficiënt: πœŒπ‘‹π‘Œ =
𝐢𝑂𝑉(𝑋,π‘Œ)
𝜎π‘₯ πœŽπ‘¦
5.4.2 Continue variabelen
Cumulatieve bivariate verdelingsfunctie : 𝐹𝑋,π‘Œ (π‘₯, 𝑦) = 𝑃(𝑋 ≤ π‘₯ 𝑒𝑛 π‘Œ ≤ 𝑦)
Bivariate dichtheidsfunctie: 𝐹𝑋,π‘Œ (π‘₯, 𝑦)οƒ  afleiden 𝑓𝑋,π‘Œ (π‘₯, 𝑦)
2 continue variabelen zijn onafhankelijk als geldt dat :
𝑃(𝑋 ≤ π‘₯𝑒𝑛 π‘Œ ≤ 𝑦) = 𝑃(𝑋 ≤ π‘₯)𝑃(π‘Œ ≤ 𝑦)
+∞
+∞
Covariantie: 𝐢𝑂𝑉(𝑋, π‘Œ) = ∫−∞ ∫−∞ 𝑓𝑋,π‘Œ (π‘₯, 𝑦)(π‘₯ − 𝐸(𝑋))(𝑦 − 𝐸(π‘Œ))𝑑π‘₯𝑑𝑦
Correlatiecoëfficiënt= πœŒπ‘‹π‘Œ =
𝐢𝑂𝑉(𝑋,π‘Œ)
πœŽπ‘‹ πœŽπ‘Œ
5.5 Nuttige stellingen
Zie formuleblad
5.6 Bijzondere verdelingen
5.6.1 De binomiale verdeling (voor discrete variabelen)
= kansverdeling weergeven om k correcte antwoorden te hebben op een examen met N
vragen
οƒ  wiskundige formule om de kansverdeling van X te berekenen: de binomiale kansverdeling
𝑃(𝑋 = π‘˜) =
𝑁!
π‘π‘˜ (1 − 𝑝)𝑁−π‘˜
π‘˜! (𝑁 − π‘˜)!
N! = N faculteit
p = kans op succes
k = # successen
N = maximaal # successen
οƒ˜ Variabele met binomiale verdeling = binomiale variabele οƒ  symbolisch: X ~
Binom(N,p)
οƒ˜ Verwachtingswaarde: E(X) = Np (makkelijker dan definitie invullen)
οƒ˜ Variantie: V(X) = Np(1-p) (makkelijker dan definitie invullen)
οƒ˜ Kan enkel gebruikt worden als N vast is en als de kans op succes p ongewijzigd blijft
Illustratie in R
5.6.2 De normale verdeling (voor continue variabelen)
Dichtheidsfunctie:
𝑓π‘₯ (π‘₯) =
1
𝜎√2πœ‹
Variabele die normaal verdeeld is: X ~ N (πœ‡, 𝜎²)
𝑒
−(π‘₯−πœ‡)²
2𝜎²
Dichtheidsfunctie hangt af van 2 parameters: πœ‡ 𝑒𝑛 𝜎²
οƒ˜
οƒ˜
οƒ˜
οƒ˜
E(X) = πœ‡
V(X) = 𝜎²
Bereikt haar hoogste punt in het gemiddelde
Breder = grotere variantie en meer spreiding rond het gemiddelde
π‘₯
1
Kansen berekenen bij normale verdeling: 𝑃(π‘₯1 ≤ 𝑋 ≤ π‘₯2 ) = ∫π‘₯ 2 𝜎√2πœ‹ 𝑒
−(π‘₯−πœ‡)²
2𝜎²
1
𝑑π‘₯
οƒ  beroep doen op tabellen om deze integraal op te lossen
Wat blijkt? Een tabel voor πœ‡ = 0 en 𝜎² = 1 is voldoende om de kansen te berekenen voor
elke normale verdeling. Dit noemen we de standaardnormale verdeling.
𝑃(𝑋 ≤ 0) = 0,5 (oppervlakte links)
Algemeen: 𝑃(𝑋 > π‘₯) = 𝑃(𝑋 ≤ −π‘₯) en 𝑃(𝑋 ≤ −π‘₯) = 1 − 𝑃(𝑋 ≤ π‘₯)
𝑋−πœ‡
Wat als πœ‡ ≠ 0 π‘œπ‘“ 𝜎² ≠ 0 ? οƒ  𝑃(𝑋 ≤ π‘₯) = 𝑃 (
Waarbij Z =
𝜎
≤
π‘₯−πœ‡
𝜎
) = 𝑃(𝑍 ≤
π‘₯−πœ‡
𝜎
)
𝑋−πœ‡
𝜎
Dit noemen we standaardiseren van X.
Illustratie in R
5.6.3 De πœ’²- verdeling (continue variabelen)
π‘Œ = 𝑋12 + 𝑋22 + β‹― + π‘‹π‘˜2
οƒ  som van de k gekwadrateerde standaardnormale variabelen waarbij k = # vrijheidsgraden
E(Y)= k en V(Y)= 2k οƒ  k interpreteren als populatiegemiddelde
5.6.4 De t-verdeling (continue variabelen)
𝑇=
π‘˜
𝑋
√1 π‘Œ
π‘˜
Als T ~ π‘‘π‘˜ , dan geldt: E(T) = 0 en V(T) = π‘˜−2 voor k > 2
Illustratie in R
Hoofdstuk 6: De steekproevenverdeling
Belangrijk! Reproduceerbaarheid οƒ  we verwachten gelijkaardige conclusies wanneer we het
experiment opnieuw uitvoeren. Door de steekproevenverdeling kunnen we de
reproduceerbaarheid inschatten obv 1 experiment.
6.1 Steekproeftrekking
-
aselecte steekproeftrekking: op willekeurige wijze + elementen zijn onafhankelijk
variabele = X ; waarde van variabele = x
Intermezzo: de betekenis van een kans
Voorbeeld: opwerpen van een muntstuk
o uitkomst = kop of munt οƒ  toeval
o kans dat we munt gooien: 50% (na oneindig keer opwerpen)
o Kans v/e gebeurtenis = relatieve frequentie v/d gebeurtenis
𝑃(𝑦 = π‘šπ‘’π‘›π‘‘) = lim
𝑛→∞
π‘“π‘šπ‘’π‘›π‘‘
𝑛
οƒ  π‘“π‘šπ‘’π‘›π‘‘ = absolute frequentie van munt
Terugkeer naar de Benton Visual Retention Test
Toevalsvariabele: een variabele X die bekomen wordt door op toevallige wijze een element
uit de populatie te trekken
-
Duidt het resultaat aan v/e toevallige trekking v/e element uit de populatie
Is veranderlijk want niet alle elementen uit de populatie hebben = waarde
6.2 Steekproevenverdeling van het gemiddelde
Het steekproefgemiddelde is variabel: de waarde hangt af v/d frequentieverdeling v/d
scores i/d steekproef en verschillende steekproeven hebben verschillende
frequentieverdelingen οƒ  DUS steekproefgemiddelde is een variabele
𝑛
1
𝑋̅ = ∑ 𝑋𝑖
𝑛
𝑖=1
-
Steekproefgemiddelde = vb. v/e steekproefgrootheid (wordt ook een statistiek
genoemd)
Dichtheidsfunctie = steekproevenverdeling v/h gemiddelde οƒ  geeft de verdeling
weer v/h steekproefgemiddelde voor zeer veel steekproeven
Steekproevenverdeling: De verdeling van een steekproefgrootheid
𝐸(𝑋̅) = πœ‡π‘₯
Stelling 11 en 12:
Stelling 13 (verdelingsfunctie): 𝑋~𝑁(πœ‡π‘‹ ,
en
𝜎²
𝑉(𝑋̅) = 𝑋
𝑛
𝜎²π‘‹⁄ Μ…
𝑛 (𝑋 is normaal verdeeld)
Stelling 14 (centrale limietstelling): p. 196 (hoe groter de steekproef, hoe beter de verdeling
v/h steekproefgemiddelde zal lijken op een normaalverdeling)
Steekproefgemiddelde standaardiseren:
𝑃(𝑋̅ ≤ π‘₯) = 𝑃(𝑍 ≤
π‘₯−πœ‡π‘‹
√𝜎²π‘‹ /𝑛
, Z~𝑁(0,1)
(geldt enkel voor n als X uit een normale verdeling komt, anders enkel voor grote n)
Hoe weten of vb. π‘₯Μ… = 5,95 een vrij lage of hoge score is? 𝑃(𝑋̅ ≤ 5,92) berekenen! οƒ  dicht
bij 0 = vrij lage score ; dicht bij 1 = vrij hoge score
2 manieren
1. Experiment vele malen herhalen en de proportie van gemiddelden berekenen dat
kleiner is dan of gelijk aan 5,92
2. Experiment maar 1 keer uitvoeren en gebruik maken van stelling 14 en eigenschap
6.2 (gemiddelde eerst standaardiseren)
6.3 Steekproevenverdeling van de variantie
1
𝑆𝐷²π‘₯ = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)²
EN
1
𝑆²π‘₯ = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)²
Hoe weten welke formule? οƒ  wordt aangegeven in vraag
𝐸(𝑆𝐷2 π‘₯ ) =
Stelling 15:
𝑛−1
𝑛
𝜎²π‘‹ (niet gelijk aan populatievariantie)
(𝑛−1)𝑆²π‘₯
𝜎²π‘‹
~πœ’²π‘›−1
EN
𝐸(𝑆 2𝑋 ) = 𝜎²π‘‹
Download