Samenvatting statistiek Academiejaar 2006-2007 Statistiek 4 examenvragen: - tabel aanvullen met spreidings- en centrummaten - poisson- en binomiale verdeling Deel 1 Beschrijvende statistiek 1 Soorten variabelen Kwalitatief: geen getallen - ordinaal: ordening (rangschikbaar) - nominaal: geen ordening Kwantitatief: getallen - discreet: in stapjes - continu: kommagetallen - ratio: natuurlijk nulpunt - interval: geen natuurlijk nulpunt 2 Grafieken (relatieve) frequenties: histogram cumulatieve (relatieve) frequenties: cumulatief frequentiepolygoon of ogief ! Bliksemschichtje bij assen die niet vanaf 0 beginnen. 2.1 Kwantitatief discrete variabele - histogram of staafdiagram: staafjes raken elkaar niet ogief: snijden op x-as, midden van de klasse, verbinding met punten in lijnen 2.2 Kwantitatief continu ratio variabele - ogief: punt op rechterklassegrens stengel-bladdiagram 2.3 Kwalitatief nominale variabele - strookdiagram in relatieve frequentie in percentage cirkel- taart- of schijfdiagram in relatieve frequentie in percentage Jolien De Veirman 1/10 Samenvatting statistiek Academiejaar 2006-2007 3 Centrummaten voor discrete gegroepeerde gegevens 3.1 Rekenkundig gemiddelde 3.1.1 Ongewogen gemiddelde Som van Xi waarden (soms . Fi), delen door n (of door de som van Fi) 3.1.2 Gewogen gemiddelde Som van Xi . Wi gedeeld door de som van Wi waarbij W= wegingsfactor 3.2 Mediaan Middelste waarneming of rekenkundig gemiddelde van de 2 middelste waarnemingen 3.2.1 Mediaan bij continue gegroepeerde gegevens Linkerklassegrens + aantal waarnemingen kleiner dan de mediaan . klassenbreedte aantal waarnemingen kleiner dan de mediaan + aantal waarnemingen groter dan de mediaan Opmerking: Indien n = even mediaan tussen 2 getallen links en rechts meetellen voor het aantal waarnemingen Indien n = oneven mediaan is 1 getal mediaan niet meetellen 3.3 Modus Meest voorkomende waarneming. 2 modussen “bestaan niet”. 3.4 Kwartielen Q1: 25% crf, helft van MED Q3: 75% crf, heft van MED Jolien De Veirman 2/10 Samenvatting statistiek Academiejaar 2006-2007 4 Spreidingsmaten 4.1 Variatiebreedte Grootste – kleinste waarneming Rechtergrens grootste klasse – linkergrens kleinste klasse 4.2 Interkwartielafstand (IQR) Q3 – Q1 4.3 Gemiddelde afwijking (gemiddelde absolute fout) Absolute som van Xi – rekenkundig gemiddelde, gedeeld door n 1 n ∑ xi − x . fi n i =1 4.4 Standaardafwijking Vergelijking met het gemiddelde in hoeverre deze van het gemiddelde afwijkt σ= Opm: ( ) 2 1 n x − x . fi ∑ i =1 i n [x − σ , x + σ ] = 70%waarne min gen [x − 2σ , x + 2σ ] = 95%waarne min gen 4.5 Variantie Standaardafwijking zonder vierkantswortel 4.6 Variatiecoëfficiënt Spreidingsvergelijking met een verschillend gemiddelde σ x 4.7 Boxplot Xmin, Xmax, MED, Q1, Q3, onderaan as Jolien De Veirman 3/10 Samenvatting statistiek Academiejaar 2006-2007 5 Verband tussen kwalitatieve ordinale verbanden 5.1 Spearman rangcorrelatie coëfficiënt 6∑i =1 d i n rs = 1 − 2 n3 − n Di = rang 1 - rang 2 -1 - 0,7 - 1 tot – 0,7 1 tot 0,7 - 0,3 tot 0,3 - 0,3 0 0,3 0,7 1 perfect omgekeerd verband perfect verband geen verband Bij exaeco voor rangschikken van kwalitatieve nominale gegevens: Neem de gemiddelde waarde van wat er nog overblijft. 6 Verband tussen kwantitatieve variabelen 6.1 Rangcorrelatie coëfficiënt ∑ (x n r= i =1 ∑ (x )( − x . yi − y ) ∑ (y 2 n i =1 i i −x . n i =1 i ) −y ) 2 X: gegevens kolom 1 Y: gegevens kolom 2 Uitkomst: zie as hierboven Weergave: puntenwolk of Scatterdiagram Jolien De Veirman 4/10 Samenvatting statistiek Academiejaar 2006-2007 6.2 Puntenwolk Jolien De Veirman 5/10 Samenvatting statistiek Academiejaar 2006-2007 6.3 Regressielijn Rechte die het beste door de puntenwolk gaat ∑ (x − x )(. y − y ) m= ∑ (x − x ) n i =1 i i 2 n i =1 i q = y − mx y = mx + q 6.3.1 Voorspelling op basis van de regressielijn Het missende cijfer (x) ingeven in de formule y = mx + q 6.4 Seizoenspatroon Formule van de regressierechte + gemiddelde vd som vd positieve(Yi – Ykansberekening) Ykansberekening = voor iedere x-waarde, regressierechte opnieuw berekenen. 7 Verband tussen nominale variabelen of tussen nominale en ordinale variabelen Bvb verband opleidingsniveau en supermarkt 7.1 Verwachte frequenties Eij (kolomtotaal . rijtotaal) / volledig totaal 7.2 Chi-kwadraat test χ ² obs =∑ (f − eij ) ² ij eij Waarbij Fij = waargenomen (gegeven) frequenties 7.3 Vrijheidsgraad of degree of freedom (df) (aantal kolommen – 1) . (aantal rijen -1) 7.4 Kritieke waarden ² χ krit In gegeven tabel bij 5% rechteroverschrijdingskans kijken, per berekende vrijheidsgraad. Kritieke waarden kleiner dan chi obs verband met 5% foutkans Jolien De Veirman 6/10 Samenvatting statistiek Academiejaar 2006-2007 Deel 2: Kansberekening 1 Regel van Laplace Kans (P) = aantal gunstige uitkomsten aantal mogelijke uitkomsten 1.1 Complementaire gebeurtenissen P (niet A) = 1 – P(A) 1.2 Productregel Als A en B onafhankelijke gebeurtenissen zijn, dan is P(A en B) = P(A).P(B) Vb. Kans om lotto te winnen (6 juiste kruisjes uit 42) 6/42 . 5/41 . 4/40 . 3/39 . 2/38 . 1/37 = 0,00000019 (1 / 5245786) Vb. Kans dat persoon 30 jaar lang wekelijks lotto speelt ooit zou winnen? 52 . 30 deelnames = 1560 deelnames 1. Kans om bij 1 deelname te winnen: 1 / 5245786 2. Kans om bij 1 deelname niet te winnen: 1 – (1 / 5245786) = 5245785 / 5245786 3. Kans om bij 1560 deelnames niet te winnen: (5245785 / 5245786)1560 4. Kans om ooit te winnen bij 1560 deelnames: 1 – (5245785 / 5245786) 1560 2 Discrete kansverdelingen De kansverdeling van een discrete variabele x is een tabel die voor elke mogelijke waarde k van X aangeeft wat de kans is dat X precies gelijk is aan k. k P (X=k) 0 x/n 2.1 Verwachtingswaarde µ = E[ X ] = ∑k =0 k .P( X = k ) n Vb. Hoeveel keer kruis gooi je gemiddeld met 2 munten? µ = E [ X ] = 0 . 1/4 + 1 . 2/4 + 2 . 1/4 = 1 Jolien De Veirman 7/10 Samenvatting statistiek Academiejaar 2006-2007 2.2 Standaardafwijking σ= ∑ (k − µ ) ).P( X = k ) 2 Hoe groter, hoe gevaarlijker de kans. 2.3 Binomiale verdeling X is het aantal successen van een veranderlijke x, bij het n keer herhalen van een experiment met een vaste kans p op een succes bij elk experiment Als X ~ Bin (n, p) dan P( X = k ) = n! p k (1 − p ) n − k k!(n − k )! 2.4 Poisson verdeling Telt het aantal keer iets gebeurt (per tijdseenheid) als je weet dat het gemiddeld aantal keer (per tijdseenheid) gelijk is aan µ . Als X ~Pois ( µ ) dan P( X = k ) = µ k e−µ k! 3 Continue kansverdelingen 3.1 Normale verdeling (heeft veel invloeden) De normale verdeling met gemiddelde Als X ~ N ( µ , σ ) X −µ dan (= Z) ~ N (0,1) µ en standaardafwijking σ . σ P (Z < a): rechtstreeks aflezen in tabel P (Z > a): 1 – P (Z < a) P (a < Z < b): P (Z < b) – P (Z < a) Jolien De Veirman 8/10 Samenvatting statistiek Academiejaar 2006-2007 4 Verdelingen benaderen met andere verdelingen 4.1 Possion ipv Bin als Als of n ≥ 30 n.p ≤ 5 n (1 – p) ≤ 5 dan Bin (n , p) ≈ P (n . p) dan Bin (n,p) ≈ N (n. p, n. p(1 − p) ) 4.2 Normaal ipv Bin als Als En n ≥ 30 N.p>5 n (1 – 5) > 5 4.3 Vuistregeltjes rechtstreeks uit tabel P(x ≤ a) P(x ≥a) 1–P(x ≤ a) P(x=a) P ( x ≤ a ) – P ( x ≤ a -1 ) P (a ≤ x ≤ b ) P ( x ≤ b ) – P ( x ≤ a - 1 ) 5 Kansen over het gemiddelde Populatie (N) Steekproef (n) σ X s µ Gemiddelde Standaardafwijking 5.1 σ bekend Als X ~ N ( µ , σ ) dan X ~ N ( µ , σ n ) 5.2 σ onbekend (maar wordt geschat door steekproef s) Als X ~ N ( µ , σ ) dan X ~ Jolien De Veirman tn − 1 ( X − µ ) s n 9/10 Samenvatting statistiek Academiejaar 2006-2007 6 Betrouwbaarheidsintervallen over het gemiddelde 6.1 σ bekend σ σ X − z x + z ; α α n n 2 2 % zekerheid 90 95 99 tabel normale verdeling 1,64 1,96 2,57 6.2 σ onbekend (met steekproefstandaardafwijking s) s s 1 ; 1 X − t − x + t − n α n α n n 2 2 Jolien De Veirman 10/10