Statistiek 1, theorie les 1

advertisement
H1, H2. Beschrijvende Statistiek.
Statistiek haalt info uit data.
Descriptieve statistiek geeft de kenmerken van een dataset.
Inferentiële statistiek geeft met data conclusie over populatie.
Populatie= totale groep die wordt onderzocht.
Parameter= kengetal van de populatie
Steekproef= deel van de populatie.
Statistiek= kengetal van de steekproef.
Variabele is kenmerk die per persoon kan verschillen.
Data is meting van kenmerk.
Een discrete variabele als vaste stappen tussen de uitkomsten,
bijv. aantal kinderen
Een continue variabele heeft tussen 2 punten oneindig aantal uitkomsten, bijv.
tussen 1,74 meter en 1,75 meter oneindig aantal lengtes.
Scores zijn dus altijd afgeronde getallen.
Cross-sectional als gemeten op hetzelfde moment.
Time-series data als gemeten op verschillende momenten.
Een nominale (=naam geven) variabele heeft wel of niet een kenmerk,
bijv: Belg/Ned, Man/Vrouw.
Een ordinale variabele ordent de kenmerken van laag naar hoog zonder vaste
onderliggende schaal: Afstand van 1 tot 2 ≠ afstand van 2 tot 3.
Bijv: laag-, midden-, hoogopgeleid.
Nominaal en ordinaal zijn kwalitatief= categorisch= wel/niet in klasse.
Een interval schaal gaat van laag naar hoog met vaste onderliggende schaal.
Afstand van 1 tot 2 = afstand van 2 tot 3.
Bijv: hoogte van temperatuur.
Interval is kwantitatief en numeriek.
Frequentieverdelingen.
Een absolute frequentietabel geeft aan hoe vaak waarnemingen voorkomen.
Een relatieve frequentietabel maakt kansen of percentages van de aantallen: p=
frequentie/N
Een groepsfrequentieverdeling geeft aantal scores per interval.
Een cumulatieve frequentieverdeling geeft het aantal waarnemingen kleiner dan
de klasse bovengrens.
Een frequentie polygoon trekt een lijntje door de middenpunten met het aantal
waarnemingen per klasse.
De staafdiagram (bar chart) geeft het aantal waarnemingen per klasse.
Klassen in taartdiagram en staafdiagram zijn geschikt voor nominaal/ordinaal:
Ned/Belg, Man/Vrouw. En ook voor discrete kwantitatieve variabelen, bijv.
aantal kinderen per gezin.
In een taartdiagram (pie chart) komt het oppervlakte van de cirkelsector
overeen met het percentage waarnemingen in de klasse.
De histogram geeft het aantal waarnemingen per klasse.
Voordeel: overzichtelijker.
Hoogte geeft frequentie, breedte geeft exacte klassengrenzen.
Klassen zijn kwantitatief: 10-20, 20-30, etc. en gemeten op intervalniveau.
H4. (behalve regressie)
Centrummaten.
De mediaan. Als 50% kleiner= mediaan. Mediaan handig in scheve verdelingen.
De mediaan bij losse scores:
De mediaan is de middelste waarneming als van laag naar hoog gerangschikt.
Als even aantal waarnemingen het gemiddelde van de middelste 2 waarnemingen.
Het Gemiddelde (=Mean).
Als losse scores:
_ som van de waarnemingen
ΣX
X=
=
aantal waarnemingen
N
Als frequentieverdeling:
_ som van de waarnemingen
ΣXf
X=
=
aantal waarnemingen
Σf
X= de uitkomsten
f= hoe vaak een uitkomst voorkomt
De Modus.
Bij losse waarnemingen is de modus de waarneming die het meest voorkomt.
Als waarnemingen in groepen is de modus het midden van de klasse met de meeste
waarnemingen (de modale klasse).
Unimodaal= 1 top. Bimodaal= 2 toppen.
Keuze tussen mean, mediaan en modus
Mean meest gangbaar. Alleen bij interval.
Modus alleen bij Nominale, Discrete variabele.
Mediaan beter dan mean als:
1. Extreme scores (outliers) of scheve verdeling te bepalend bij mean.
2. Als waarden niet zijn te bepalen, bijv. niet af binnen de tijdsduur.
3. Als ordinale schaal (mean niet te bepalen).
Spreidingsmaten.
Variatiebreedte= Range=de grootste waarneming - de kleinste waarneming.
Een percentiel geeft het % waarnemingen kleiner dan dit punt.
Voordeel percentiel= uitschieters weinig invloed.
Eerste kwartiel=25% kleiner. Mediaan=50% kleiner. Derde kwartiel=75% kleiner.
LP= (n+1) . (P/100)
Interkwartielafstand IKA= Q3 - Q1= derde kwartiel - eerste kwartiel.
De steekproefvariantie s2:
Inzichtelijke formule:
Rekenformule:
Σ(losse scores x - x)2
s2=
Σx2 - (Σx)2/n
=
n - 1
n - 1
standaarddeviatie s= √variantie s2
s= maat voor spreiding rond het gemiddelde.
Het is ruwweg de gemiddelde afstand van de losse scores tot het gemiddelde.
Frequenties:
Σ(losse scores x - x)2 . f
s2=
=
n - 1
Σfx2 - (Σfx)2/n
n - 1
Boxplot.
Een boxplot-grafiek zet het kleinste getal, het grootste getal,
Q1, Q3 en de mediaan in een plaatje.
Whiskers zijn de lijntjes naar de grootste en kleinste waarde.
Het plaatje van de boxplot heeft de volgende standaardvorm:
50%
25%
Kleinste
getal
Q1
25%
Mediaan
Q3
Grootste
getal
kwartielafstand
Een complete boxplot geeft extra aandacht aan de outliers.
Lower inner fence= Q1 – 1,5 . IKA
Als waarneming < lower inner fence= outlier
Upper inner fence= Q1 + 1,5 . IKA
Als waarneming > upper inner fence= outlier
Whiskers lopen nu naar de grootste en kleinste waarde die geen outlier zijn
(als geen outliers -> is grootste en kleinste waarde).
H5.
Een aslecte enkelvoudige steekproef (simple random sample): 1 steekproef uit
populatie en elke persoon evenveel kans om in steekproef te zijn.
Random= personen worden door loting geselecteerd.
Een systematische steekproef geeft elke persoon door loting een nummer en
vervolgens met vaste stappen selecteren, bijv: 20, 70, 120, 170 etc.
Een geclusterde steekproef verdeelt populatie in groepjes (bijv. scholen,
gemeenten etc.). Een paar random clusters bekijk je helemaal, de rest niet.
Gestratificeerd: populatie in groepen en uit elke groep random steekproef.
Enkelvoudig
Gestratificeerd
Clusters
H4. Regressie.
Het lineaire model.
y’
= b0 + b1 . x
Doel Model is voorspellen en verklaren van y.
Residu= e= y- y’= gemeten y – geschatte y’.
De lijn wordt zo geschat dat e2 wordt geminimaliseerd
=kleinste kwadratenmethode= minimaliseer ∑e2.
Het model bestaat uit een rechte lijn die ergens begint (intercept=b0)
en die een constante richting heeft (helling=b1).
b1 laat het effect van x1 op y zien als x1 met 1 punt stijgt.
Een scatterplot is een puntenwolk.
Elk punt geeft de scores op x en y van 1 individu.
Je kan in een scatterplot zien:
- 1. de richting (stijgend=positief of dalend=negatief)
- 2. de sterkte (tussen -1 en 1)
Samenhang r en verklaring r2.
r= de sterkte van de samenhang tussen x en y
r2= gemeenschappelijke of gedeelde variantie
- 3. de vorm (lineair of kwadratisch)
Basisberekeningen voor regressielijn.
Σ(losse scores x - x)2
sx2=
Σx2 - (Σx)2/n
=
n - 1
n - 1
Σ(losse scores x – x).(losse scores y - y)
sxy=
∑xy – (∑x.∑y)/n
=
n-1
Schatten van Regressielijn.
y’= b0 + b1 . x
sxy
r=
sx.sy
sxy
b1=
s2x
b0= y – b1 . x
n-1
H6. Kansen.
Kansen.
aantal uitkomsten met A
P(A)= De kans op een uitkomst A=
totaal aantal uitkomsten
Complement van A= P(AC)= 1 - P(A)
Kansen optellen.
aantal uitkomsten met tenminste 1 kenmerk A of B
P(A of B)=
totaal aantal uitkomsten
Als
P(A
Als
P(A
uitkomst A en
of B)= P(A) +
uitkomst A en
of B)= P(A) +
B elkaar uitsluiten:
P(B)
B elkaar niet uitsluiten:
P(B) - P(overlap A en B)
Kansen vermenigvuldigen.
aantal uitkomsten met beide kenmerken A en B
P(A en B)=
totaal aantal uitkomsten
Als kansen onafhankelijk:
p(A en B)= p(A) . p(B)
Als kansen afhankelijk:
p(A en B)= p(A) . p(B│A)
De voorwaardelijke kans P(A│B):
het aantal waarnemingen A in B
P(A en B)
P(A│B)=
=
het aantal waarnemingen B
P(B)
Je kan kans A verdelen over B en niet-B.
P(A)= P(A ∩ B) + P(A ∩ BC)
De Bayesiaanse beslissingstheorie.
Een verhaaltje met conditionele kansen kan worden uitgetekend in een kansboom.
De gezamenlijke joint kans op A en B= p(A) . p(B|A)
p(B│A)
->de joint kans op A en B= p(A) . p(B|A)
A
p(niet-B│A)
p(B│niet-A)
Niet-A
p(niet-B│niet-A)
Bayes’ rule:
p(A) . p(B|A)
P(A│B)=
P(B)
H7. Kansverdeling.
Het gemiddelde van de kansverdeling.
μX= E(X)= Σ(de uitkomsten . de kansen)
E(X2)= Σ(de uitkomsten2 . de kansen)
De variantie van de kansverdeling.
σ2X= V(X)= Σ(de uitkomsten - gemiddelde)2 . de kansen
Of: V(X)= E(X2) – (EX)2
σX = √σ2X
Een gezamenlijke kansverdeling.
Een gezamenlijke kansverdeling geeft de kans op tegelijk X en Y.
σXY= cov(X,Y) = E(X,Y) - E(X) . E(Y)
E(X,Y)= Σ(uitkomst X . uitkomst Y . kans op tegelijk X en Y)
cov(X,Y)
ρ(X,Y)=
σX . σY
Rekenregels.
E(a . X + b)= a . E(X) + b
V(a . X + b)= a2 . V(X)
V(a . X + b . Y)= a2 . V(X) + b2 . V(Y) + 2 . a . b . cov(X,Y)
Als onafhankelijk -> cov(X,Y)=0
Voorbeelden:
E(4 . X + 6)=
V(4 . X + 6)=
V(2 . X + 3 .
V(3 . X - 5 .
4 . E(X) + 6
16 . V(X)
Y)= 4 . V(X) + 9 . V(Y) + 2 . 2 . 3 . cov(X,Y)
Y)= 9 . V(X) + 25 . V(Y) + 2 . 3 . -5 . cov(X,Y)
H7. Discrete kansverdelingen.
Een discrete kansverdeling geeft de uitkomsten met de kans.
De cumulatieve kansverdeling geeft de kans kleiner of gelijk aan.
Binomiale kansverdeling.
p(X=x)= Cnx . px . (1-p)n-x
n= aantal experimenten
p= kans op succes
x= aantal goeden
C met nCr
Normale benadering Binomiaal.
X + 0,5 - µ
X - 0,5 - µ
p(z <
) of
p(z >
)
σ
σ
Benadering redelijk ok als np>5 en n(1-p)>5
μ=np en σ2= np(1-p)
Voorwaarden:
De experimenten zijn onafhankelijk.
p=constant.
Hypergeometrische kansverdeling.
x ~ Hypergeometrisch (N,n,x)
Ckx . CN-kn-x
p(X=x)=
CNn
N=
n=
k=
x=
totale
totale
aantal
aantal
populatie
steekproef
goeden in de populatie
goeden in de steekproef
Poisson kansverdeling.
x ~ Poisson(μ)
e-μ . μx
p(X=x)=
x!
μ= gemiddeld aantal gebeurtenissen in de periode
x= het aantal goeden
Normale benadering Poisson.
X + 0,5 - µ
p(z <
) of
p(z >
õ
Benadering redelijk ok als µ>15
X - 0,5 - µ
)
õ
Overzicht kansverdeling.
- Binomiaal als constante kans.
- Hypergeometrisch als zonder teruglegging met 2 kleine groepen.
Voorbeeld: je pakt uit een bakje met rode en zwarte knikkers.
- Poisson als het aantal gebeurtenissen in een tijdsinterval.
H8. Continue kansverdelingen.
Een continue kansdichtheidsfunctie geeft kans op een uitkomst in een interval.
Uniforme kansverdeling
a= begin van het traject
b= het einde van het traject
1
f(x)=
b-a
De normale verdeling.
X is een normale verdeling met gemiddelde μ en afwijking van gemiddelde σ
68,3% binnen 1σ van het gemiddelde.
95,4% binnen 2σ van het gemiddelde.
99,7% binnen 3σ van het gemiddelde.
De z-verdeling.
De standaard normale verdeling Z is symmetrisch rond 0 met σ=1.
Elke ruwe score van normale verdeling X kan worden omgeschreven naar z:
ruwe score X - μ
z=
σ
Berekenen van percentiles in normale verdeling X.
Xp - μ
= zp -> Xp= σ . zp + μ
σ
H9. Steekproeven verdelingen.
_
Steekproevenverdeling van X.
Je doet een steekproef uit populatie waarvan gemiddelde  en  bekend zijn.
Het gemiddelde van de steekproef is niet bekend en de steekproevenverdeling
geeft de kansverdeling van de mogelijke uitkomsten van dat gemiddelde.
Steekproevenverdeling X heeft gemiddelde µ en Standard Error Mean= σX=σX/√n
Als n groter, verdeling normaler en de Standard Error Mean kleiner.
_
Rekenen met X.
gemiddelde steekproef – μ0
p(Z <
)
σX
Centrale limietstelling:
_
Als populatie normaal is kansverdeling X altijd normaal verdeeld.
Als n > 30 altijd normaal benaderen, ook als populatie niet normaal.
Steekproevenverdeling van p geeft mogelijke uitkomsten in de steekproef
(als p in de populatie bekend is).
Je verwacht dat p in de steekproef gelijk is aan p in de populatie: Ep= p
p.(1-p)
p.(1-p)
σ2p=
-> σp= √[
]
n
n
Rekenen met steekproevenverdeling van p.
Als H0: p= p0
p steekproef - p0
p(Z <
)
σp
Vuistregel: n.p0 > 5
en n.(1-p0)>5
Statistiek 1, theorie H10-12. Toetsen.
Inzichtelijk overzicht intervallen.
Een formule voor een interval heeft de volgende vorm (σ2=uitzondering):
schatting ± onzekerheidsmarge
onzekerheidsmarge= tabelwaarde . standaardfout(schatting)
Intervallen voor:
- Het gemiddelde μ met σ bekend.
- Het gemiddelde μ met σ=s geschat.
- De kans p
- De variantie σ2
- Interval voor het gemiddelde μ met σ bekend.
_
X ± z . σ/√n
z in onderste regel t-tabel
n die een maximale halflengte B van het interval garandeert.
z . 
n= (
)2
B
z in onderste regel t-tabel
- Interval voor het gemiddelde μ met σ=s geschat.
_
X ± t . s/√n
t in t-tabel met df=n-1
n= aantal waarnemingen in de steekproef
- Interval voor de kans p
p ± z . √[p . (1-p)/n]
p= aantal goeden in de steekproef/aantal waarnemingen in de steekproef
z in onderste regel t-tabel
n die een maximale halflengte B van het interval garandeert.
z . √p(1-p)
n= (
)2
B
- Interval voor variantie σ2:
(n-1) . s²
(n-1) . s²
< ² <
2df
2df
Ondergrens: rechterkant X2-tabel met df=n-1
Bovengrens: linkerkant X2-tabel met df=n-1
Toetsen met een interval.
Als H0 in het interval ligt
-> H0 niet verwerpen.
Als H0 niet in het interval ligt -> H0 wel verwerpen.
Voorbeeld: μ=10 en btbhi (9, 13) en de H0 wordt niet verworpen.
H0 ligt niet in het btbhi en wordt verworpen.
Voorbeeld: μ=10 en btbhi (6, 9) en de H0 wordt verworpen.
- Toets voor het gemiddelde μ met σ populatie.
H0: µ=c
H1: µc, <c, >c
_
X - μ0
z=
z ~ N(0, 1)
σ/√n
Rejection Region onderste regel t-tabel
p-value rechtszijdig: p(Z > z-waarde)
p-value linkszijdig: p(Z < z-waarde)
Als 2-zijdig: 2 . p(kleinste staart)
- Toets voor het gemiddelde μ met s steekproef.
H0: µ=c
H1: µc, <c, >c
_
X - μ0
t=
s/√n
Kritieke waarde in t-tabel met df=n-1
n= aantal waarnemingen in de steekproef
Voorwaarden t-verdeling:
- Random steekproef.
- Normaal verdeelde populatie.
- Toets voor de kans p
H0: p=c
H1: pc, <c, >c
p - p0
z=
√p0 . (1-p0)/n
p= aantal goeden in de steekproef/aantal waarnemingen in de steekproef
Kritieke waarde z in onderste regel t-tabel
Voorwaarden:
- onafhankelijke waarnemingen, constante kans.
- steekproef groot genoeg: n.p>5 en n.(1-p)>5 anders: binomiale verdeling.
Testen van ²
H0: ²=c
H1: ²c, <c, >c
(n-1) . s²
2=
c=H0
Linker grenswaarde: linkerkant X2-tabel met df= n-1
Rechter grenswaarde: rechterkant X2-tabel met df= n-1
Toetsen met toetsingsgrootheid in 9 stappen.
1. H0 en H1.
2. De toetsingsgrootheid.
3. Onder de H0 is de tg. een x-verdeling met x vrijheidsgraden.
4. Onder de H1 neigt de tg. naar grote en/of kleine waarden en dus rechtse
en/ of linkse Rejection Region.
5. Bepaal Rejection Region
6. Uitkomst toetsingsgrootheid wel/niet in Rejection Region.
7. H0 wel/niet verwerpen.
8. H1 wel/niet aangetoond.
9. Conclusie in woorden.
Toetsen met p-waarde en Statistische Significantie α.
Als de p-waarde < α -> H0 verwerpen.
Als de p-waarde > α -> H0 niet verwerpen.
Significantie α.
Uitgangspunt: H0 is waar.
α is de kans dat een ware H0 wordt verworpen.
Als een ware H0 wordt verworpen is Type-I fout.
α het liefst 0, maar in de praktijk meestal 0,05.
α=0,05 betekent maximaal 5% kans dat ware H0 wordt verworpen.
Kans op Type-I fout= p(H0 in Rejection Region)
Bereken α:
z=(Kritieke Waarde - µ0)/σX (=σX/√n)
Type-II fout.
Uitgangspunt: H1 is waar.
Het vermogen (power) is de kans dat een ware H1 wel wordt aangetoond.
Type-II fout β is de kans dat een ware H1 niet wordt aangetoond.
Type-II fout= 1 - power.
power het liefst 100%.
β=0,20 betekent 20% kans dat een ware H1 niet wordt aangetoond
en 80% power dat de ware H1 wel wordt aangetoond.
Type-II fout= p(H1 niet in Rejection Region)
Power=
p(H1 wel in Rejection Region)
Bereken Type-II fout/power:
z=(Kritieke Waarde - µ1)/σX
p-waarde.
Uitgangspunt: H0 is waar.
De p-waarde is de waarschijnlijkheid van een uitkomst
die zo extreem is, of nog extremer, als de H0 waar is.
p-waarde is oppervlakte in de staart.
Bereken p-waarde:
z=(Uitkomst - µ0)/σX
One-tailed meer power dan two-tailed.
Logica: Bij one-tailed weet je al in welke richting je moet zoeken
en dat verhoogt de kans dat je wat vindt.
α groter -> power groter= Type-II fout kleiner.
Logica: Als H0 makkelijk te verwerpen, H1 makkelijker aan te tonen.
Steekproef groter -> power groter.
Als steekproef groter wordt, beter beeld en worden foutkansen kleiner.
Verschil μ1 – μ0
Als verschil groter -> power groter.
Logica: een groot verschil tussen H1 en H0 is makkelijker aan te tonen.
Index.
Simpele indices:
nieuwe prijs
prijsindex P01=
. 100
oude prijs
nieuwe hoeveelheid
hoeveelheidindex Q01=
. 100
oude hoeveelheid
Indices Carli
PC01= gemiddelde van simpele prijsindex cijfers
QC01= gemiddelde van simpele hoeveelheidindex cijfers
Indices Dutot:
∑ nieuwe prijzen
PD01=
. 100
∑ oude prijzen
∑ nieuwe hoeveelheden
QD01=
. 100
∑ oude hoeveelheden
Volume-index:
∑ nieuwe prijs . nieuwe hoeveelheid
V01=
∑ oude prijs . oude hoeveelheid
. 100
PU01= (V01/ QD01) . 100
Budgetshare w:
w= besteding aan 1 product/totale budget
Indices Laspeyres:
∑ nieuwe prijzen . oude hoeveelheden
PL01 (direct)=
∑ oude prijzen . oude hoeveelheden
PL01 (indirect 1)= ∑ w basisjaar . simpele prijsindex
(=CPI)
(=CPI)
∑ volume oud . simpele prijs index
PL01 (indirect 2)=
(=CPI)
∑ volume oud
∑ oude prijzen . nieuwe hoeveelheden
QL01 (direct)=
∑ oude prijzen . oude hoeveelheden
QL01 (indirect 1)= ∑w basisjaar . simpele hoeveelheidindex
∑ volume oud . simpele hoeveelheid index
QL01 (indirect 2)=
volume oud
Indices Paasche:
∑ nieuwe prijzen . nieuwe hoeveelheden
PP01 (direct)=
∑ oude prijzen . nieuwe hoeveelheden
PP01 (indirect 1)= 1/ ∑ (w nieuwe jaar / simpele prijsindex)
∑ volume nieuw
PP01 (indirect 2)=
∑ (volume nieuw/simpele prijsindex)
∑ nieuwe prijzen . nieuwe hoeveelheden
QP01 (direct)=
∑ nieuwe prijzen . oude hoeveelheden
QP01 (indirect 1)= 1/ ∑ (w nieuwe jaar / hoeveelheidindex)
∑ volume nieuw
QP01 (indirect 2)=
∑ (volume nieuw/simpele hoeveelheid index)
Indices Fisher:
Soort gemiddelde van Laspeyres en Paasche:
PF01= √( PL01 . PP01)
QF01= √( QL01 . QP01)
Theorie Sign-Test.
Essentie: data wordt zo gemanipuleerd dat je kan testen
met binomiale verdeling met p=0,5
Voor Likertschaal.
Likertschaal: 1.Zeer oneens, 2.Oneens, 3.Neutraal, 4.Eens, 5.Zeer mee eens.
p- -> 1,2
pZERO=3
p+ -> 4,5
H0: p+ = pn= aantal personen (Neutraal niet meetellen)
X+= aantal 4,5
X+ binomiaal verdeeld met n en p=0,5
Normale benadering (als n≥10):
X+ - 0,5n
Z=
0,5√n
Voor mediaan.
H0: Mediaan= M0 (=getal)
n= aantal personen (scores precies M0 niet meetellen)
X+= aantal personen hoger dan mediaan
X+ binomiaal verdeeld met n en p=0,5
Normale benadering (als n≥10):
X+ - 0,5n
Z=
0,5√n
Download