Statistiek Deel 1 Beschrijvende statistiek

advertisement
Samenvatting statistiek
Academiejaar 2006-2007
Statistiek
4 examenvragen:
- tabel aanvullen met spreidings- en centrummaten
- poisson- en binomiale verdeling
Deel 1 Beschrijvende statistiek
1 Soorten variabelen
Kwalitatief: geen getallen
- ordinaal: ordening (rangschikbaar)
- nominaal: geen ordening
Kwantitatief: getallen
- discreet: in stapjes
- continu: kommagetallen
- ratio: natuurlijk nulpunt
- interval: geen natuurlijk nulpunt
2 Grafieken
(relatieve) frequenties: histogram
cumulatieve (relatieve) frequenties: cumulatief frequentiepolygoon of ogief
! Bliksemschichtje bij assen die niet vanaf 0 beginnen.
2.1 Kwantitatief discrete variabele
-
histogram of staafdiagram: staafjes raken elkaar niet
ogief: snijden op x-as, midden van de klasse, verbinding met punten in lijnen
2.2 Kwantitatief continu ratio variabele
-
ogief: punt op rechterklassegrens
stengel-bladdiagram
2.3 Kwalitatief nominale variabele
-
strookdiagram in relatieve frequentie in percentage
cirkel- taart- of schijfdiagram in relatieve frequentie in percentage
Jolien De Veirman
1/10
Samenvatting statistiek
Academiejaar 2006-2007
3 Centrummaten voor discrete gegroepeerde gegevens
3.1 Rekenkundig gemiddelde
3.1.1 Ongewogen gemiddelde
Som van Xi waarden (soms . Fi), delen door n (of door de som van Fi)
3.1.2 Gewogen gemiddelde
Som van Xi . Wi gedeeld door de som van Wi waarbij W= wegingsfactor
3.2 Mediaan
Middelste waarneming of rekenkundig gemiddelde van de 2 middelste waarnemingen
3.2.1 Mediaan bij continue gegroepeerde gegevens
Linkerklassegrens + aantal waarnemingen kleiner dan de mediaan . klassenbreedte
aantal waarnemingen kleiner dan de mediaan
+ aantal waarnemingen groter dan de mediaan
Opmerking: Indien n = even mediaan tussen 2 getallen links en rechts meetellen voor
het aantal waarnemingen
Indien n = oneven mediaan is 1 getal mediaan niet meetellen
3.3 Modus
Meest voorkomende waarneming. 2 modussen “bestaan niet”.
3.4 Kwartielen
Q1: 25% crf, helft van MED
Q3: 75% crf, heft van MED
Jolien De Veirman
2/10
Samenvatting statistiek
Academiejaar 2006-2007
4 Spreidingsmaten
4.1 Variatiebreedte
Grootste – kleinste waarneming
Rechtergrens grootste klasse – linkergrens kleinste klasse
4.2 Interkwartielafstand (IQR)
Q3 – Q1
4.3 Gemiddelde afwijking (gemiddelde absolute fout)
Absolute som van Xi – rekenkundig gemiddelde, gedeeld door n
1 n
∑ xi − x . fi
n i =1
4.4 Standaardafwijking
Vergelijking met het gemiddelde in hoeverre deze van het gemiddelde afwijkt
σ=
Opm:
(
)
2
1 n
x − x . fi
∑
i =1 i
n
[x − σ , x + σ ] = 70%waarne min gen
[x − 2σ , x + 2σ ] = 95%waarne min gen
4.5 Variantie
Standaardafwijking zonder vierkantswortel
4.6 Variatiecoëfficiënt
Spreidingsvergelijking met een verschillend gemiddelde
σ
x
4.7 Boxplot
Xmin, Xmax, MED, Q1, Q3, onderaan as
Jolien De Veirman
3/10
Samenvatting statistiek
Academiejaar 2006-2007
5 Verband tussen kwalitatieve ordinale verbanden
5.1 Spearman rangcorrelatie coëfficiënt
6∑i =1 d i
n
rs = 1 −
2
n3 − n
Di = rang 1 - rang 2
-1
- 0,7
- 1 tot – 0,7
1 tot 0,7
- 0,3 tot 0,3
- 0,3
0
0,3
0,7
1
perfect omgekeerd verband
perfect verband
geen verband
Bij exaeco voor rangschikken van kwalitatieve nominale gegevens:
Neem de gemiddelde waarde van wat er nog overblijft.
6 Verband tussen kwantitatieve variabelen
6.1 Rangcorrelatie coëfficiënt
∑ (x
n
r=
i =1
∑ (x
)(
− x . yi − y
) ∑ (y
2
n
i =1
i
i
−x .
n
i =1
i
)
−y
)
2
X: gegevens kolom 1
Y: gegevens kolom 2
Uitkomst: zie as hierboven
Weergave: puntenwolk of Scatterdiagram
Jolien De Veirman
4/10
Samenvatting statistiek
Academiejaar 2006-2007
6.2 Puntenwolk
Jolien De Veirman
5/10
Samenvatting statistiek
Academiejaar 2006-2007
6.3 Regressielijn
Rechte die het beste door de puntenwolk gaat
∑ (x − x )(. y − y )
m=
∑ (x − x )
n
i =1
i
i
2
n
i =1
i
q = y − mx
y = mx + q
6.3.1 Voorspelling op basis van de regressielijn
Het missende cijfer (x) ingeven in de formule y = mx + q
6.4 Seizoenspatroon
Formule van de regressierechte + gemiddelde vd som vd positieve(Yi – Ykansberekening)
Ykansberekening = voor iedere x-waarde, regressierechte opnieuw berekenen.
7 Verband tussen nominale variabelen of tussen nominale en
ordinale variabelen
Bvb verband opleidingsniveau en supermarkt
7.1 Verwachte frequenties Eij
(kolomtotaal . rijtotaal) / volledig totaal
7.2 Chi-kwadraat test
χ
²
obs
=∑
(f
− eij )
²
ij
eij
Waarbij Fij = waargenomen (gegeven) frequenties
7.3 Vrijheidsgraad of degree of freedom (df)
(aantal kolommen – 1) . (aantal rijen -1)
7.4 Kritieke waarden
²
χ krit
In gegeven tabel bij 5% rechteroverschrijdingskans kijken, per berekende vrijheidsgraad.
Kritieke waarden kleiner dan chi obs verband met 5% foutkans
Jolien De Veirman
6/10
Samenvatting statistiek
Academiejaar 2006-2007
Deel 2: Kansberekening
1 Regel van Laplace
Kans (P) = aantal gunstige uitkomsten
aantal mogelijke uitkomsten
1.1 Complementaire gebeurtenissen
P (niet A) = 1 – P(A)
1.2 Productregel
Als A en B onafhankelijke gebeurtenissen zijn, dan is P(A en B) = P(A).P(B)
Vb. Kans om lotto te winnen (6 juiste kruisjes uit 42)
6/42 . 5/41 . 4/40 . 3/39 . 2/38 . 1/37 = 0,00000019 (1 / 5245786)
Vb. Kans dat persoon 30 jaar lang wekelijks lotto speelt ooit zou winnen?
52 . 30 deelnames = 1560 deelnames
1. Kans om bij 1 deelname te winnen: 1 / 5245786
2. Kans om bij 1 deelname niet te winnen: 1 – (1 / 5245786) = 5245785 / 5245786
3. Kans om bij 1560 deelnames niet te winnen: (5245785 / 5245786)1560
4. Kans om ooit te winnen bij 1560 deelnames: 1 – (5245785 / 5245786) 1560
2 Discrete kansverdelingen
De kansverdeling van een discrete variabele x is een tabel die voor elke mogelijke waarde k
van X aangeeft wat de kans is dat X precies gelijk is aan k.
k
P (X=k)
0
x/n
2.1 Verwachtingswaarde
µ = E[ X ] = ∑k =0 k .P( X = k )
n
Vb. Hoeveel keer kruis gooi je gemiddeld met 2 munten?
µ = E [ X ] = 0 . 1/4 + 1 . 2/4 + 2 . 1/4 = 1
Jolien De Veirman
7/10
Samenvatting statistiek
Academiejaar 2006-2007
2.2 Standaardafwijking
σ=
∑ (k − µ ) ).P( X = k )
2
Hoe groter, hoe gevaarlijker de kans.
2.3 Binomiale verdeling
X is het aantal successen van een veranderlijke x, bij het n keer herhalen van een experiment
met een vaste kans p op een succes bij elk experiment
Als X ~ Bin (n, p)
dan P( X = k ) =
n!
p k (1 − p ) n − k
k!(n − k )!
2.4 Poisson verdeling
Telt het aantal keer iets gebeurt (per tijdseenheid) als je weet dat het gemiddeld aantal keer
(per tijdseenheid) gelijk is aan µ .
Als X ~Pois (
µ
)
dan P( X = k ) =
µ k e−µ
k!
3 Continue kansverdelingen
3.1 Normale verdeling (heeft veel invloeden)
De normale verdeling met gemiddelde
Als X ~ N ( µ , σ )
X −µ
dan
(= Z) ~ N (0,1)
µ
en standaardafwijking σ .
σ
P (Z < a): rechtstreeks aflezen in tabel
P (Z > a): 1 – P (Z < a)
P (a < Z < b): P (Z < b) – P (Z < a)
Jolien De Veirman
8/10
Samenvatting statistiek
Academiejaar 2006-2007
4 Verdelingen benaderen met andere verdelingen
4.1 Possion ipv Bin als
Als
of
n ≥ 30
n.p ≤ 5
n (1 – p) ≤ 5
dan
Bin (n , p) ≈ P (n . p)
dan
Bin (n,p) ≈ N (n. p, n. p(1 − p) )
4.2 Normaal ipv Bin als
Als
En
n ≥ 30
N.p>5
n (1 – 5) > 5
4.3 Vuistregeltjes
rechtstreeks uit tabel
P(x ≤ a)
P(x ≥a)
1–P(x ≤ a)
P(x=a)
P ( x ≤ a ) – P ( x ≤ a -1 )
P (a ≤ x ≤ b ) P ( x ≤ b ) – P ( x ≤ a - 1 )
5 Kansen over het gemiddelde
Populatie (N)
Steekproef (n)
σ
X
s
µ
Gemiddelde
Standaardafwijking
5.1 σ bekend
Als X ~ N ( µ , σ )
dan X ~ N ( µ ,
σ
n
)
5.2 σ onbekend (maar wordt geschat door steekproef s)
Als X ~ N ( µ , σ )
dan X ~
Jolien De Veirman
tn − 1 ( X − µ )
s
n
9/10
Samenvatting statistiek
Academiejaar 2006-2007
6 Betrouwbaarheidsintervallen over het gemiddelde
6.1 σ bekend

σ
σ 
X
−
z
x
+
z
;


α
α
n
n
2
2


% zekerheid
90
95
99
tabel normale verdeling
1,64
1,96
2,57
6.2 σ onbekend (met steekproefstandaardafwijking s)

s
s 
1
;
1
X
−
t
−
x
+
t
−


n
α
n
α
n
n
2
2


Jolien De Veirman
10/10
Download