Formules Statistiek I

advertisement
Formules Statistiek I
blauw = staat op het formularium blad
ORGANIZATION
Opgesteld door: Yanah Franki
Formules Statistiek I
blauw = staat op het formularium blad
HOOFDSTUK 3: SAMENVATTEN VAN DATA
3.1. Centrummaten
 Steekproefgemiddelde:
𝑛
1
π‘₯Μ… = ∑ π‘₯𝑖
𝑛
𝑖=1
 Gemiddelde op basis van frequentieverdeling:
𝑝
1
π‘₯Μ… = ∑ 𝑓𝑖 π‘₯𝑖𝑒
𝑛
𝑖=1
π‘₯𝑖𝑒 = unieke waarden van variabele x
𝑓𝑖 = absolute frequentie horende bij de waarde π‘₯𝑖𝑒
 Klassenmidden voor klasse ]π‘Ž, 𝑏]
π‘Ž+𝑏
2
 Gemiddelde op basis van gegroepeerde data:
𝑝
1
π‘Žπ‘– + 𝑏𝑖
π‘₯Μ… = ∑ 𝑓𝑖
𝑛
2
𝑖=1
 Mediaan = π‘šπ‘‘π‘₯
 Mediaan voor gegroepeerde data:
𝑛
(2 − 𝑐) (𝑏 − π‘Ž)
π‘šπ‘‘π‘₯ = π‘Ž +
𝑑
π‘Ž: de ondergrens van de mediane klasse
𝑏: de bovengrens van de mediane klasse
𝑐: de cumulatieve absolute frequentie van de klasse
net kleiner dan de mediane klasse.
𝑑: de absolute frequentie van de mediane klasse
𝑛: de steekproefgrootte
 Modus = π‘šπ‘œ
Formules Statistiek I |
3.2. Spreidingsmaten
1
 Variatiebreedte 𝑣π‘₯ =
οƒ  de grootse min de kleinste waarde voor ongegroepeerde data
οƒ  de bovengrens van de laatste klasse min de ondergrens van de eerste klasse voor
gegroepeerde data
 Gemiddelde absolute afwijking π‘”π‘Žπ‘₯ :
𝑛
1
π‘”π‘Žπ‘₯ = ∑|π‘₯𝑖 − π‘₯Μ… |
𝑛
𝑖=1
 Steekproefvariantie:
𝑛
1
2
𝑠𝑑π‘₯ = ∑(π‘₯𝑖 − π‘₯Μ… )2
𝑛
𝑖=1
𝑛
1
𝑠π‘₯2 =
∑(π‘₯𝑖 − π‘₯Μ… )2
𝑛−1
𝑖=1
 Standaarddeviatie:
𝑠𝑑π‘₯ = √𝑠𝑑π‘₯2
𝑠π‘₯ = √𝑠π‘₯2
 Interkwartielafstand:
𝑄 = 𝑃75 − 𝑃25
 Spreidingsmaat d:
𝑓
1 − π‘šπ‘œ
𝑛
𝑑=
1
1−𝑝
π‘“π‘šπ‘œ : frequentie van de modus
𝑝: aantal waarden
3.3. Boxplot
 Bepalen van outliers:
𝑃25 − 1,5 × π‘„
𝑃75 + 1,5 × π‘„
HOOFDSTUK 4: SAMENHANG TUSSSEN TWEE VARIABELEN
4.4. maten van samenhang
 De covariantie (steekproef):
𝑛
1
π‘π‘œπ‘£π‘‹π‘Œ =
∑(π‘₯𝑖 − π‘₯Μ… )(𝑦𝑖 − 𝑦̅)
𝑛−1
Formules Statistiek I |
𝑖=1
2
π‘π‘œπ‘£π‘‹π‘Œ > 0 bij een positieve samenhang
π‘π‘œπ‘£π‘‹π‘Œ < 0 bij een negatieve samenhang
π‘π‘œπ‘£π‘‹π‘Œ ≈ 0 indien er geen samenhang is (≈ = ongeveer)
 De correlatiecoëfficiënt (steekproef):
π‘π‘œπ‘£π‘‹π‘Œ
π‘Ÿπ‘‹π‘Œ =
𝑠𝑋 π‘ π‘Œ
 Kendall’s 𝜏:
𝜏=
2(π‘Žπ‘Žπ‘›π‘‘π‘Žπ‘™ π‘π‘œπ‘›π‘π‘œπ‘Ÿπ‘‘π‘Žπ‘›π‘‘π‘’ π‘π‘Žπ‘Ÿπ‘’π‘› − π‘Žπ‘Žπ‘›π‘‘π‘Žπ‘™ π‘‘π‘–π‘ π‘π‘œπ‘Ÿπ‘‘π‘Žπ‘›π‘‘π‘’ π‘π‘Žπ‘Ÿπ‘’π‘›)
𝑛(𝑛 − 1)
𝑦𝑗 −𝑦𝑖
π‘₯𝑗 −π‘₯𝑖
𝑦𝑗 −𝑦𝑖
> 0 οƒ  concordant
π‘₯𝑗 −π‘₯𝑖
< 0 οƒ  discordant
Samenhang hetzelfde bij de covariantie
4.5. De regressielijn
 Regressielijn:
π‘Œ = 𝑏0 + 𝑏1 𝑋
Regressiecoëfficiënt = helling van de rechte:
𝑦𝑗 − 𝑦𝑖
𝑏1 =
π‘₯𝑗 − π‘₯𝑖
Snijpunt met de verticale as:
𝑏0 = 𝑦𝑖 − 𝑏1 π‘₯𝑖
 Kleinste-kwadratenmethode:
𝑛
∑(𝑦𝑖 − (𝑏0 + 𝑏1 π‘₯𝑖 )) 2
𝑖=1
𝑏1 = π‘Ÿπ‘‹π‘Œ
π‘ π‘Œ
𝑠𝑋
𝑏0 = 𝑦̅ − 𝑏1 π‘₯Μ…
HOOFDSTUK 5: DE POPULATIE EN VERDELINGSFUNCTIES
5.1. Verdelingsfunctie discrete variabelen
 Relatieve frequentie van π‘₯𝑖 in de populatie:
𝑓𝑖
𝑃(𝑋 = π‘₯𝑖 ) = lim
𝑛→∞ 𝑛
5.2. Verdelingsfunctie continue variabelen
 Cumulatieve verdelingsfunctie:
𝐹𝑋 (π‘₯) = 𝑃(𝑋 ≤ π‘₯)
 Eigenschappen dichtheidsfunctie:
𝑃(π‘₯1 ≤ 𝑋 ≤ π‘₯2 ) = 𝑃(𝑋 ≤ π‘₯2 ) − 𝑃(𝑋 ≤ π‘₯1 ) = 𝐹𝑋 (π‘₯2 ) − 𝐹𝑋 (π‘₯1 )
Formules Statistiek I |
𝑃(𝑋 > π‘₯) = 1 − 𝑃(𝑋 ≤ π‘₯)
3
𝑓𝑋 (π‘₯) ≥ 𝑂
5.3. Populatieparameters
 Populatiegemiddelde:
𝑝
𝐸(𝑋) = πœ‡ = ∑ 𝑃(𝑋 = π‘₯𝑖 )π‘₯𝑖
𝑖=1
 Populatievariantie:
𝑝
2
2
𝑉(𝑋) = 𝜎 = ∑ 𝑃(𝑋 = π‘₯𝑖 ) (π‘₯𝑖 − 𝐸(𝑋))
𝑖=1
 Standaarddeviatie (populatie):
πœŽπ‘‹ = √𝑉(𝑋)
5.4. Bivariate kansverdelingen
 Univariate verdeling van X wordt bekomen via:
π‘ž
𝑃(𝑋 = π‘₯𝑖 ) = ∑ 𝑃(𝑋 = π‘₯𝑖 𝑒𝑛 π‘Œ = 𝑦𝑗 )
𝑗=1
 Statistische onafhankelijkheid (discreet):
𝑃(𝑋 = π‘₯𝑖 𝑒𝑛 π‘Œ = 𝑦𝑗 ) = 𝑃(𝑋 = π‘₯𝑖 )𝑃(π‘Œ = 𝑦𝑗 )
 Covariantie (populatie):
𝑝
π‘ž
𝐢𝑂𝑉(𝑋, π‘Œ) = ∑ ∑ 𝑃(𝑋 = π‘₯𝑖 𝑒𝑛 π‘Œ = 𝑦𝑗 )(π‘₯𝑖 − 𝐸(𝑋)) (𝑦𝑗 − 𝐸(π‘Œ))
𝑖=1 𝑗=1
 Correlatiecoëfficiënt (populatie):
𝐢𝑂𝑉(𝑋, π‘Œ)
πœŒπ‘‹π‘Œ =
πœŽπ‘‹ πœŽπ‘Œ
 Cumulatieve bivariate verdelingsfunctie:
𝐹𝑋,π‘Œ (π‘₯, 𝑦) = 𝑃(𝑋 ≤ π‘₯ 𝑒𝑛 π‘Œ ≤ 𝑦)
 Twee continue variabelen X en Y zijn onafhankelijk als geldt dat:
𝑃(𝑋 ≤ π‘₯ 𝑒𝑛 π‘Œ ≤ 𝑦) = 𝑃(𝑋 ≤ π‘₯)𝑃(π‘Œ ≤ 𝑦)
Formules Statistiek I |
5.5. Nuttige stellingen
4
 Stelling 1: Als X en Y onafhankelijke variabelen zijn dan geldt dat:
𝐢𝑂𝑉(𝑋, π‘Œ) = 0
 Stelling 2: Voor een variabele Y = X + a geldt dat:
𝐸(π‘Œ) = 𝐸(𝑋) + π‘Ž
Waarbij a een constante is
 Stelling 3: Voor een variabele Y = aX geldt dat:
𝐸(𝑋) = π‘ŽπΈ(𝑋)
Waarbij a een constante is
 Stelling 4: Voor twee variabelen X en Y (die onafhankelijk of afhankelijk kunnen zijn) geldt
dat:
𝐸(𝑋 + π‘Œ) = 𝐸(𝑋) + 𝐸(π‘Œ),
𝑒𝑛
𝐸(𝑋 − π‘Œ) + 𝐸(𝑋) − 𝐸(π‘Œ)
 Stelling 5: Voor twee onafhankelijke variabelen X en Y geldt dat:
𝐸(π‘‹π‘Œ) = 𝐸(𝑋)𝐸(π‘Œ)
 Stelling 6: Voor een variabele Y = X + a geldt dat:
𝑉(π‘Œ) = 𝑉(𝑋)
Waarbij a een constante is
 Stelling 7: Voor een variabele Y = aX geldt dat:
𝑉(π‘Œ) = π‘Ž2 𝑉(𝑋)
Waarbij a een constante is
 Stelling 8: Voor twee variabelen X en Y geldt dat:
𝑉(𝑋 + π‘Œ) = 𝑉(𝑋) + 𝑉(π‘Œ) + 2𝐢𝑂𝑉(𝑋, π‘Œ)
Indien X en Y onafhankelijke variabelen zijn, dan volgt uit Stelling 1 en Stelling 8 dat:
𝑉(𝑋 + π‘Œ) = 𝑉(𝑋) + 𝑉(π‘Œ)
 Stelling 9: Voor twee variabelen X en Y geldt dat:
𝑉(𝑋 − π‘Œ) = 𝑉(𝑋) + 𝑉(π‘Œ) − 2𝐢𝑂𝑉(𝑋, π‘Œ)
Indien X en Y onafhankelijke variabelen zijn dan volgt uit Stelling 1 en Stelling 9 dat:
𝑉(𝑋 − π‘Œ) = 𝑉(𝑋) + 𝑉(π‘Œ)
5.6. Bijzondere verdelingen
 Binominale kansverdeling:
𝑁!
𝑃(𝑋 = π‘˜) =
π‘π‘˜ (1 − 𝑝)𝑁−π‘˜
(𝑁
π‘˜!
− π‘˜)!
Formules Statistiek I |
 Verwachtingswaarde van een binomiale variabele 𝑋~π΅π‘–π‘›π‘œπ‘š(𝑁, 𝑝):
𝐸(𝑋) = 𝑁𝑝
5
 Variantie van een binomiale variabele 𝑋~π΅π‘–π‘›π‘œπ‘š(𝑁, 𝑝):
𝑉(𝑋) = 𝑁𝑝(1 − 𝑝)
 Dichtheidsfunctie van een normaal verdeelde variabele:
−(π‘₯−πœ‡)2
1
(π‘₯)
𝑓𝑋
=
𝑒 2𝜎2
𝜎√2πœ‹
 Voor een standaardnormale verdeling geldt dat:
𝑃(𝑋 > π‘₯) = 𝑃(𝑋 ≤ −π‘₯)
𝑃(𝑋 ≤ −π‘₯) = 1 − 𝑃(𝑋 ≤ π‘₯)
 Stelling 10: Als X een normale verdeling heeft met gemiddelde πœ‡ en variantie 𝜎 2 , dus
𝑋−πœ‡
𝑋~𝑁(πœ‡, 𝜎 2 ), dan heeft de variabele 𝑍 = 𝜎 , een standaardnormale verdeling, dus
𝑍~𝑁(0,1)
Deze stelling impliceert de volgende vergelijking: als 𝑋~𝑁(πœ‡, 𝜎 2 ) dan geldt dat:
𝑃(𝑋 ≤ π‘₯) = 𝑃 (
𝑋−πœ‡ π‘₯−πœ‡
π‘₯−πœ‡
≤
) = 𝑃 (𝑍 ≤
)
𝜎
𝜎
𝜎
= standaardiseren
 De π‘‹π‘˜2 -verdeling is de verdeling van de variabele:
π‘Œ = 𝑋12 + 𝑋22 + β‹― + π‘‹π‘˜2
 Verwachtingswaarde van een variabele in een π‘‹π‘˜2 -verdeling:
𝐸(π‘Œ) = π‘˜
 Variantie van een variabele in een π‘‹π‘˜2 -verdeling:
𝑉(π‘Œ) = 2π‘˜
 π‘‘π‘˜ -verdeling is de verdeling van de variabele:
𝑋
𝑇=
√1 π‘Œ
π‘˜
 Als 𝑇~π‘‘π‘˜ dan geldt dat:
𝐸(𝑇) = 0
π‘˜
𝑉(𝑇) =
, π‘£π‘œπ‘œπ‘Ÿ π‘˜ > 2
π‘˜−2
HOOFDSTUK 6: DE STEEKPROEVENVERDELING
6.2. Steekproevenverdeling van het gemiddelde
 Gemiddelde (steekproef algemeen)
𝑛
1
𝑋̅ = ∑ 𝑋𝑖
𝑛
Formules Statistiek I |
𝑖=1
6
 Stelling 11: De verwachtingswaarde van het steekproefgemiddelde 𝑋̅ is gelijk aan het
populatiegemiddelde van de variabele X :
𝐸(𝑋̅) = πœ‡π‘‹
Bewijs. Door gebruik te maken van Stelling 3 volgt dat:
1
1
𝐸(𝑋̅) = 𝐸 (𝑛 (𝑋1 + β‹― + 𝑋𝑛 )) = 𝑛 𝐸(𝑋1 + β‹― + 𝑋𝑛 )
Stelling 4 impliceert dat:
𝐸(𝑋1 + β‹― + 𝑋𝑛 ) = 𝐸(𝑋1 ) + β‹― + 𝐸(𝑋𝑛 )
Omdat 𝐸(𝑋1 ) = πœ‡π‘‹ volgt dat:
Zodat:
𝐸(𝑋1 ) + β‹― + 𝐸(𝑋𝑛 ) = πœ‡π‘‹ + β‹― + πœ‡π‘‹ = π‘›πœ‡π‘‹
1
π‘›πœ‡
𝐸(𝑋̅) = 𝑛 𝐸(𝑋1 + β‹― + 𝑋𝑛 ) = 𝑛𝑋 = πœ‡π‘‹
 Stelling 12: De variantie van het steekproefgemiddelde is gelijk aan de populatievariantie
van de variabele gedeeld door de steekproefgrootte:
𝑉(𝑋̅) =
πœŽπ‘‹2
𝑛
Bewijs. Door gebruik te maken van Stelling 7 volgt dat:
1
1
𝑉(𝑋̅) = 𝑉 (𝑛 (𝑋1 + β‹― + 𝑋𝑛 )) = 𝑛2 𝑉(𝑋1 + β‹― + 𝑋𝑛 )
Omdat 𝑋1 , … , 𝑋𝑛 onafhankelijk zijn, volgt uit formule 5.15 dat:
𝑉(𝑋1 + β‹― + 𝑋𝑛 ) = 𝑉(𝑋1 ) + β‹― + 𝑉(𝑋𝑛 )
Omdat 𝑉(𝑋𝑖 ) = πœŽπ‘‹2 volgt dat:
𝑉(𝑋1 ) + β‹― + 𝑉(𝑋𝑛 ) = πœŽπ‘‹2 + β‹― + πœŽπ‘‹2 = π‘›πœŽπ‘‹2
Zodat:
2
2
1
π‘›πœŽ
𝜎
𝑉(𝑋̅) = 𝑛2 𝑉(𝑋1 + β‹― + 𝑋𝑛 ) = 𝑛2𝑋 = 𝑛𝑋
 Stelling 13: Stel dat 𝑋1 , … , 𝑋𝑛 n onafhankelijke lukrake trekkingen zijn uit een populatie met
een normale verdeling 𝑁(πœ‡π‘‹ , πœŽπ‘‹2 ), dan zal 𝑋̅ook normaal verdeeld zijn:
𝜎2
𝑋̅~𝑁 (πœ‡π‘‹ , 𝑋)
𝑛
 Stelling 14: (Centrale limietstelling), Stel dat 𝑋1 , … , 𝑋𝑛 n onafhankelijke lukrake trekkingen
zijn uit een populatie met gemiddelde πœ‡π‘‹ en variantie πœŽπ‘‹2 , dan wordt de verdeling van het
steekproefgemiddelde 𝑋̅naarmate n groter wordt, steeds beter benaderd door de normale
verdeling met gemiddelde πœ‡π‘‹ en variantie
 Standaardiseren steekproefgemiddelde:
π‘₯ − πœ‡π‘‹
𝑃(𝑋̅ ≤ π‘₯) = 𝑃 (𝑍 ≤
),
√πœŽπ‘‹2 ⁄𝑛
2
πœŽπ‘‹
𝑛
𝑍~𝑁(0,1)
Formules Statistiek I |
6.3. Steekproevenverdeling van de variantie
7
 Steekproefvariantie:
𝑛
1
2
𝑆𝐷π‘₯ = ∑(𝑋𝑖 − 𝑋̅)2
𝑛
𝑖=1
𝑛
𝑆π‘₯2
1
=
∑(𝑋𝑖 − 𝑋̅)2
𝑛−1
𝑖=1
 Verwachtingswaarde van de steekproefvariantie:
𝐸(𝑆𝐷𝑋2 ) =
𝑛−1 2
πœŽπ‘‹
𝑛
𝐸(𝑆𝑋2 ) = πœŽπ‘‹2
 Stelling 15: Stel dat 𝑋1 , … , 𝑋𝑛 n onafhankelijke lukrake trekkingen zijn uit een populatie met
normale verdeling 𝑁(πœ‡π‘‹ , πœŽπ‘‹2 ), dan geldt:
(𝑛 − 1)𝑆𝑋2
2
~ 𝑋𝑛−1
πœŽπ‘‹2
Hoofdstuk 7: Betrouwbaarheidsintervallen en statistische toetsen voor
het populatiegemiddelde
7.1 Schatters
 De verwachtingswaarde van de schatter is gelijk aan de populatieparameter
E(πœƒΜ‚) = 
7.2.1 X normaal verdeeld en gekende populatievariantie
 We duiden met 𝑍𝛼 de waarde van de standaardnormale verdeling aan zodat de oppervlakte
onder de curve rechts van de waarde gelijk is aan 
𝑃(𝑍 > 𝑍𝛼 ) = 
 De standaardnormale verdeling is symmetrisch rond 0
𝑃 (−𝑍𝛼 ≤ 𝑍 ≤ 𝑍𝛼 ) = 1 − 𝛼
2
 We kunnen Z vervangen
𝑋̅−πœ‡
𝜎/√𝑛
𝑃 (−𝑍𝛼 ≤
Formules Statistiek I |
2
8
2
𝑋̅ − πœ‡
𝜎/√𝑛
≤ 𝑍𝛼 ) = 1 − 𝛼
2
 De kans dat het populatiegemiddelde in het interval ligt is gelijk aan 1 - 
𝑋̅ − 𝑍𝛼
2
𝜎
√𝑛
≤ πœ‡ ≤ 𝑋̅ + 𝑍𝛼
2
𝜎
√𝑛
= 1− 𝛼
7.2.2 X normaal verdeeld en ongekende populatievariantie
 De t n−1verdeling is symmetrisch rond 0
𝑃 ( −𝑑𝑛−1;𝛼 ≤ 𝑇 ≤ 𝑑𝑛−1;𝛼 ) = 1 − 𝛼
2
2
𝑋̅−πœ‡
π‘₯ / √𝑛
 We kunnen T vervangen door 𝑆
Μ… −πœ‡
𝑋
~𝑑𝑛−1
𝑆π‘₯ / √𝑛
𝑃 ( −𝑑𝑛−1;𝛼 ≤
2
𝑋̅ − πœ‡
𝑆π‘₯ / √𝑛
≤ 𝑑𝑛−1;𝛼 ) = 1 − 𝛼
2
 De kans dat het populatiegemiddelde in het interval ligt is gelijk aan 1 - 
𝑃(𝑋̅ − 𝑑𝑛−1;𝛼
2
𝑆π‘₯
√𝑛
≤ πœ‡ ≤ 𝑋̅ + 𝑑𝑛−1;𝛼
2
𝑆π‘₯
√𝑛
=1− 𝛼
Betrouwbaarheidsintervallen
 Betrouwbaarheidsintervallen
𝜎
, 𝑋̅
√
2 𝑛
[𝑋̅ − 𝑍𝛼
𝜎
√
2 𝑛
+ 𝑍𝛼
𝑆π‘₯
√
2 𝑛
] [𝑋̅ − 𝑑𝑛−1;𝛼
𝑆π‘₯
√
2 𝑛
, 𝑋̅ + 𝑑𝑛−1;𝛼
]
7.3.1 Toetsingsgrootheid
 De toetsingsgrootheid G
𝐺=
𝑋̅ − πœ‡0
𝑆π‘₯ /√𝑛
Formules Statistiek I |
7.3.3 Type I en Type II fout
9
 Type I fout
 Type II fout
𝑃(π‘£π‘’π‘Ÿπ‘€π‘’π‘Ÿπ‘ 𝐻0 /πœ‡ = πœ‡0 ) = 𝛼
𝑃(π‘Žπ‘Žπ‘›π‘£π‘Žπ‘Žπ‘Ÿπ‘‘π‘’π‘› 𝐻0 /πœ‡ ≠ πœ‡0 ) = 𝛽
Download