Formules Statistiek I blauw = staat op het formularium blad ORGANIZATION Opgesteld door: Yanah Franki Formules Statistiek I blauw = staat op het formularium blad HOOFDSTUK 3: SAMENVATTEN VAN DATA 3.1. Centrummaten οΆ Steekproefgemiddelde: π 1 π₯Μ = ∑ π₯π π π=1 οΆ Gemiddelde op basis van frequentieverdeling: π 1 π₯Μ = ∑ ππ π₯ππ’ π π=1 π₯ππ’ = unieke waarden van variabele x ππ = absolute frequentie horende bij de waarde π₯ππ’ οΆ Klassenmidden voor klasse ]π, π] π+π 2 οΆ Gemiddelde op basis van gegroepeerde data: π 1 ππ + ππ π₯Μ = ∑ ππ π 2 π=1 οΆ Mediaan = πππ₯ οΆ Mediaan voor gegroepeerde data: π (2 − π) (π − π) πππ₯ = π + π π: de ondergrens van de mediane klasse π: de bovengrens van de mediane klasse π: de cumulatieve absolute frequentie van de klasse net kleiner dan de mediane klasse. π: de absolute frequentie van de mediane klasse π: de steekproefgrootte οΆ Modus = ππ Formules Statistiek I | 3.2. Spreidingsmaten 1 οΆ Variatiebreedte π£π₯ = ο de grootse min de kleinste waarde voor ongegroepeerde data ο de bovengrens van de laatste klasse min de ondergrens van de eerste klasse voor gegroepeerde data οΆ Gemiddelde absolute afwijking πππ₯ : π 1 πππ₯ = ∑|π₯π − π₯Μ | π π=1 οΆ Steekproefvariantie: π 1 2 π ππ₯ = ∑(π₯π − π₯Μ )2 π π=1 π 1 π π₯2 = ∑(π₯π − π₯Μ )2 π−1 π=1 οΆ Standaarddeviatie: π ππ₯ = √π ππ₯2 π π₯ = √π π₯2 οΆ Interkwartielafstand: π = π75 − π25 οΆ Spreidingsmaat d: π 1 − ππ π π= 1 1−π πππ : frequentie van de modus π: aantal waarden 3.3. Boxplot οΆ Bepalen van outliers: π25 − 1,5 × π π75 + 1,5 × π HOOFDSTUK 4: SAMENHANG TUSSSEN TWEE VARIABELEN 4.4. maten van samenhang οΆ De covariantie (steekproef): π 1 πππ£ππ = ∑(π₯π − π₯Μ )(π¦π − π¦Μ ) π−1 Formules Statistiek I | π=1 2 πππ£ππ > 0 bij een positieve samenhang πππ£ππ < 0 bij een negatieve samenhang πππ£ππ ≈ 0 indien er geen samenhang is (≈ = ongeveer) οΆ De correlatiecoëfficiënt (steekproef): πππ£ππ πππ = π π π π οΆ Kendall’s π: π= 2(ππππ‘ππ ππππππππππ‘π πππππ − ππππ‘ππ πππ πππππππ‘π πππππ) π(π − 1) π¦π −π¦π π₯π −π₯π π¦π −π¦π > 0 ο concordant π₯π −π₯π < 0 ο discordant Samenhang hetzelfde bij de covariantie 4.5. De regressielijn οΆ Regressielijn: π = π0 + π1 π Regressiecoëfficiënt = helling van de rechte: π¦π − π¦π π1 = π₯π − π₯π Snijpunt met de verticale as: π0 = π¦π − π1 π₯π οΆ Kleinste-kwadratenmethode: π ∑(π¦π − (π0 + π1 π₯π )) 2 π=1 π1 = πππ π π π π π0 = π¦Μ − π1 π₯Μ HOOFDSTUK 5: DE POPULATIE EN VERDELINGSFUNCTIES 5.1. Verdelingsfunctie discrete variabelen οΆ Relatieve frequentie van π₯π in de populatie: ππ π(π = π₯π ) = lim π→∞ π 5.2. Verdelingsfunctie continue variabelen οΆ Cumulatieve verdelingsfunctie: πΉπ (π₯) = π(π ≤ π₯) οΆ Eigenschappen dichtheidsfunctie: π(π₯1 ≤ π ≤ π₯2 ) = π(π ≤ π₯2 ) − π(π ≤ π₯1 ) = πΉπ (π₯2 ) − πΉπ (π₯1 ) Formules Statistiek I | π(π > π₯) = 1 − π(π ≤ π₯) 3 ππ (π₯) ≥ π 5.3. Populatieparameters οΆ Populatiegemiddelde: π πΈ(π) = π = ∑ π(π = π₯π )π₯π π=1 οΆ Populatievariantie: π 2 2 π(π) = π = ∑ π(π = π₯π ) (π₯π − πΈ(π)) π=1 οΆ Standaarddeviatie (populatie): ππ = √π(π) 5.4. Bivariate kansverdelingen οΆ Univariate verdeling van X wordt bekomen via: π π(π = π₯π ) = ∑ π(π = π₯π ππ π = π¦π ) π=1 οΆ Statistische onafhankelijkheid (discreet): π(π = π₯π ππ π = π¦π ) = π(π = π₯π )π(π = π¦π ) οΆ Covariantie (populatie): π π πΆππ(π, π) = ∑ ∑ π(π = π₯π ππ π = π¦π )(π₯π − πΈ(π)) (π¦π − πΈ(π)) π=1 π=1 οΆ Correlatiecoëfficiënt (populatie): πΆππ(π, π) πππ = ππ ππ οΆ Cumulatieve bivariate verdelingsfunctie: πΉπ,π (π₯, π¦) = π(π ≤ π₯ ππ π ≤ π¦) οΆ Twee continue variabelen X en Y zijn onafhankelijk als geldt dat: π(π ≤ π₯ ππ π ≤ π¦) = π(π ≤ π₯)π(π ≤ π¦) Formules Statistiek I | 5.5. Nuttige stellingen 4 οΆ Stelling 1: Als X en Y onafhankelijke variabelen zijn dan geldt dat: πΆππ(π, π) = 0 οΆ Stelling 2: Voor een variabele Y = X + a geldt dat: πΈ(π) = πΈ(π) + π Waarbij a een constante is οΆ Stelling 3: Voor een variabele Y = aX geldt dat: πΈ(π) = ππΈ(π) Waarbij a een constante is οΆ Stelling 4: Voor twee variabelen X en Y (die onafhankelijk of afhankelijk kunnen zijn) geldt dat: πΈ(π + π) = πΈ(π) + πΈ(π), ππ πΈ(π − π) + πΈ(π) − πΈ(π) οΆ Stelling 5: Voor twee onafhankelijke variabelen X en Y geldt dat: πΈ(ππ) = πΈ(π)πΈ(π) οΆ Stelling 6: Voor een variabele Y = X + a geldt dat: π(π) = π(π) Waarbij a een constante is οΆ Stelling 7: Voor een variabele Y = aX geldt dat: π(π) = π2 π(π) Waarbij a een constante is οΆ Stelling 8: Voor twee variabelen X en Y geldt dat: π(π + π) = π(π) + π(π) + 2πΆππ(π, π) Indien X en Y onafhankelijke variabelen zijn, dan volgt uit Stelling 1 en Stelling 8 dat: π(π + π) = π(π) + π(π) οΆ Stelling 9: Voor twee variabelen X en Y geldt dat: π(π − π) = π(π) + π(π) − 2πΆππ(π, π) Indien X en Y onafhankelijke variabelen zijn dan volgt uit Stelling 1 en Stelling 9 dat: π(π − π) = π(π) + π(π) 5.6. Bijzondere verdelingen οΆ Binominale kansverdeling: π! π(π = π) = ππ (1 − π)π−π (π π! − π)! Formules Statistiek I | οΆ Verwachtingswaarde van een binomiale variabele π~π΅ππππ(π, π): πΈ(π) = ππ 5 οΆ Variantie van een binomiale variabele π~π΅ππππ(π, π): π(π) = ππ(1 − π) οΆ Dichtheidsfunctie van een normaal verdeelde variabele: −(π₯−π)2 1 (π₯) ππ = π 2π2 π√2π οΆ Voor een standaardnormale verdeling geldt dat: π(π > π₯) = π(π ≤ −π₯) π(π ≤ −π₯) = 1 − π(π ≤ π₯) οΆ Stelling 10: Als X een normale verdeling heeft met gemiddelde π en variantie π 2 , dus π−π π~π(π, π 2 ), dan heeft de variabele π = π , een standaardnormale verdeling, dus π~π(0,1) Deze stelling impliceert de volgende vergelijking: als π~π(π, π 2 ) dan geldt dat: π(π ≤ π₯) = π ( π−π π₯−π π₯−π ≤ ) = π (π ≤ ) π π π = standaardiseren οΆ De ππ2 -verdeling is de verdeling van de variabele: π = π12 + π22 + β― + ππ2 οΆ Verwachtingswaarde van een variabele in een ππ2 -verdeling: πΈ(π) = π οΆ Variantie van een variabele in een ππ2 -verdeling: π(π) = 2π οΆ π‘π -verdeling is de verdeling van de variabele: π π= √1 π π οΆ Als π~π‘π dan geldt dat: πΈ(π) = 0 π π(π) = , π£πππ π > 2 π−2 HOOFDSTUK 6: DE STEEKPROEVENVERDELING 6.2. Steekproevenverdeling van het gemiddelde οΆ Gemiddelde (steekproef algemeen) π 1 πΜ = ∑ ππ π Formules Statistiek I | π=1 6 οΆ Stelling 11: De verwachtingswaarde van het steekproefgemiddelde πΜ is gelijk aan het populatiegemiddelde van de variabele X : πΈ(πΜ ) = ππ Bewijs. Door gebruik te maken van Stelling 3 volgt dat: 1 1 πΈ(πΜ ) = πΈ (π (π1 + β― + ππ )) = π πΈ(π1 + β― + ππ ) Stelling 4 impliceert dat: πΈ(π1 + β― + ππ ) = πΈ(π1 ) + β― + πΈ(ππ ) Omdat πΈ(π1 ) = ππ volgt dat: Zodat: πΈ(π1 ) + β― + πΈ(ππ ) = ππ + β― + ππ = πππ 1 ππ πΈ(πΜ ) = π πΈ(π1 + β― + ππ ) = ππ = ππ οΆ Stelling 12: De variantie van het steekproefgemiddelde is gelijk aan de populatievariantie van de variabele gedeeld door de steekproefgrootte: π(πΜ ) = ππ2 π Bewijs. Door gebruik te maken van Stelling 7 volgt dat: 1 1 π(πΜ ) = π (π (π1 + β― + ππ )) = π2 π(π1 + β― + ππ ) Omdat π1 , … , ππ onafhankelijk zijn, volgt uit formule 5.15 dat: π(π1 + β― + ππ ) = π(π1 ) + β― + π(ππ ) Omdat π(ππ ) = ππ2 volgt dat: π(π1 ) + β― + π(ππ ) = ππ2 + β― + ππ2 = πππ2 Zodat: 2 2 1 ππ π π(πΜ ) = π2 π(π1 + β― + ππ ) = π2π = ππ οΆ Stelling 13: Stel dat π1 , … , ππ n onafhankelijke lukrake trekkingen zijn uit een populatie met een normale verdeling π(ππ , ππ2 ), dan zal πΜ ook normaal verdeeld zijn: π2 πΜ ~π (ππ , π) π οΆ Stelling 14: (Centrale limietstelling), Stel dat π1 , … , ππ n onafhankelijke lukrake trekkingen zijn uit een populatie met gemiddelde ππ en variantie ππ2 , dan wordt de verdeling van het steekproefgemiddelde πΜ naarmate n groter wordt, steeds beter benaderd door de normale verdeling met gemiddelde ππ en variantie οΆ Standaardiseren steekproefgemiddelde: π₯ − ππ π(πΜ ≤ π₯) = π (π ≤ ), √ππ2 ⁄π 2 ππ π π~π(0,1) Formules Statistiek I | 6.3. Steekproevenverdeling van de variantie 7 οΆ Steekproefvariantie: π 1 2 ππ·π₯ = ∑(ππ − πΜ )2 π π=1 π ππ₯2 1 = ∑(ππ − πΜ )2 π−1 π=1 οΆ Verwachtingswaarde van de steekproefvariantie: πΈ(ππ·π2 ) = π−1 2 ππ π πΈ(ππ2 ) = ππ2 οΆ Stelling 15: Stel dat π1 , … , ππ n onafhankelijke lukrake trekkingen zijn uit een populatie met normale verdeling π(ππ , ππ2 ), dan geldt: (π − 1)ππ2 2 ~ ππ−1 ππ2 Hoofdstuk 7: Betrouwbaarheidsintervallen en statistische toetsen voor het populatiegemiddelde 7.1 Schatters οΆ De verwachtingswaarde van de schatter is gelijk aan de populatieparameter E(πΜ) = ο± 7.2.1 X normaal verdeeld en gekende populatievariantie οΆ We duiden met ππΌ de waarde van de standaardnormale verdeling aan zodat de oppervlakte onder de curve rechts van de waarde gelijk is aan ο‘ π(π > ππΌ ) = ο‘ οΆ De standaardnormale verdeling is symmetrisch rond 0 π (−ππΌ ≤ π ≤ ππΌ ) = 1 − πΌ 2 οΆ We kunnen Z vervangen πΜ −π π/√π π (−ππΌ ≤ Formules Statistiek I | 2 8 2 πΜ − π π/√π ≤ ππΌ ) = 1 − πΌ 2 οΆ De kans dat het populatiegemiddelde in het interval ligt is gelijk aan 1 - ο‘ πΜ − ππΌ 2 π √π ≤ π ≤ πΜ + ππΌ 2 π √π = 1− πΌ 7.2.2 X normaal verdeeld en ongekende populatievariantie οΆ De t n−1verdeling is symmetrisch rond 0 π ( −π‘π−1;πΌ ≤ π ≤ π‘π−1;πΌ ) = 1 − πΌ 2 2 πΜ −π π₯ / √π οΆ We kunnen T vervangen door π Μ −π π ~π‘π−1 ππ₯ / √π π ( −π‘π−1;πΌ ≤ 2 πΜ − π ππ₯ / √π ≤ π‘π−1;πΌ ) = 1 − πΌ 2 οΆ De kans dat het populatiegemiddelde in het interval ligt is gelijk aan 1 - ο‘ π(πΜ − π‘π−1;πΌ 2 ππ₯ √π ≤ π ≤ πΜ + π‘π−1;πΌ 2 ππ₯ √π =1− πΌ Betrouwbaarheidsintervallen οΆ Betrouwbaarheidsintervallen π , πΜ √ 2 π [πΜ − ππΌ π √ 2 π + ππΌ ππ₯ √ 2 π ] [πΜ − π‘π−1;πΌ ππ₯ √ 2 π , πΜ + π‘π−1;πΌ ] 7.3.1 Toetsingsgrootheid οΆ De toetsingsgrootheid G πΊ= πΜ − π0 ππ₯ /√π Formules Statistiek I | 7.3.3 Type I en Type II fout 9 οΆ Type I fout οΆ Type II fout π(π£πππ€πππ π»0 /π = π0 ) = πΌ π(ππππ£ππππππ π»0 /π ≠ π0 ) = π½