Statistiek 1, theorie les 1

advertisement
H1, H2. Beschrijvende Statistiek.
Statistiek haalt info uit data.
Descriptieve statistiek geeft de kenmerken van een dataset.
Inferentiële statistiek geeft met data conclusie over populatie.
Populatie= totale groep die wordt onderzocht.
Parameter= kengetal van de populatie
Steekproef= deel van de populatie.
Statistiek= kengetal van de steekproef.
Variabele is kenmerk die per persoon kan verschillen.
Data is meting van kenmerk.
Een discrete variabele als vaste stappen tussen de uitkomsten,
bijv. aantal kinderen
Een continue variabele heeft tussen 2 punten oneindig aantal uitkomsten, bijv.
tussen 1,74 meter en 1,75 meter oneindig aantal lengtes.
Scores zijn dus altijd afgeronde getallen.
Cross-sectional als gemeten op hetzelfde moment.
Time-series data als gemeten op verschillende momenten.
Een nominale (=naam geven) variabele heeft wel of niet een kenmerk,
bijv: Belg/Ned, Man/Vrouw.
Een ordinale variabele ordent de kenmerken van laag naar hoog zonder vaste
onderliggende schaal: Afstand van 1 tot 2 ≠ afstand van 2 tot 3.
Bijv: laag-, midden-, hoogopgeleid.
Nominaal en ordinaal zijn kwalitatief= categorisch= wel/niet in klasse.
Een kwantitatieve variabele is numeriek en krijgt een getalswaarde.
Frequentieverdelingen.
Een absolute frequentietabel geeft aan hoe vaak waarnemingen voorkomen.
Een relatieve frequentietabel maakt percentages van de aantallen:
p= frequentie/N
Een groepsfrequentieverdeling geeft aantal scores per interval.
Een cumulatieve frequentieverdeling geeft het aantal waarnemingen kleiner
dan de klasse bovengrens.
Een frequentie polygoon trekt een lijntje door de middenpunten
met het aantal waarnemingen per klasse.
De staafdiagram (bar chart) geeft het aantal waarnemingen per klasse.
Klassen in taartdiagram en staafdiagram zijn geschikt voor nominaal/ordinaal:
Ned/Belg, Man/Vrouw. En ook voor discrete kwantitatieve variabelen, bijv.
aantal kinderen per gezin.
In een taartdiagram (pie chart) komt het oppervlakte van de cirkelsector
overeen met het percentage waarnemingen in de klasse.
De histogram geeft het aantal waarnemingen per klasse.
Voordeel: overzichtelijker.
Hoogte geeft frequentie, breedte geeft exacte klassengrenzen.
Klassen zijn kwantitatief: 10-20, 20-30, etc.
Rechtsscheef= positief
Linksscheef=negatief
H3. Centrummaten.
De mediaan. Als 50% kleiner= mediaan. Mediaan handig in scheve verdelingen.
De mediaan bij losse scores:
De mediaan is de middelste waarneming als van laag naar hoog gerangschikt.
Als even aantal waarnemingen het gemiddelde van de middelste 2 waarnemingen.
De mediaan in kansverdelingen: De waarde waarbij de relatieve cumulatieve
frequentieverdeling een half passeert.
Uitzondering als precies op grens: zie opgave.
De mediaan in een histogram:
Bereken waar in het histogram een half gepasseerd wordt.
Het Gemiddelde (=Mean).
Als losse scores:
_ som van de waarnemingen
ΣX
X=
=
aantal waarnemingen
N
Als frequentieverdeling:
_ som van de waarnemingen
ΣXf
X=
=
aantal waarnemingen
Σf
X= de uitkomsten
f= hoe vaak een uitkomst voorkomt
De Modus.
Bij losse waarnemingen is de modus de waarneming die het meest voorkomt.
Als waarnemingen in groepen is de modus het midden van de klasse met de meeste
waarnemingen (de modale klasse).
Unimodaal= 1 top. Bimodaal= 2 toppen.
Keuze tussen mean, mediaan en modus
Mean meest gangbaar. Alleen bij kwantitatief.
Modus alleen bij Nominale, Discrete variabele.
Mediaan beter dan mean als:
1. Extreme scores (outliers) of scheve verdeling te bepalend bij mean.
2. Als waarden niet zijn te bepalen, bijv. niet af binnen de tijdsduur.
3. Als ordinale schaal (mean niet te bepalen).
Mean, mediaan en modus in scheve verdelingen:
Linksscheef: mean < mediaan < modus (zeer kleine waarden trekken mean omlaag)
Rechtsscheef: mean > mediaan > modus (zeer hoge waarden trekken mean omhoog)
Geometrisch gemiddelde= gemiddelde percentuele stijging:
Gemiddelde rente rg 3 jaar= 3√(1+r1).(1+r2).(1+r3) - 1
Dus: A . (1 + rg)3= A . (1+r1).(1+r2).(1+r3)
H4. Spreidingsmaten.
Een percentiel geeft het % waarnemingen kleiner dan dit punt.
Voordeel percentiel= uitschieters weinig invloed.
Eerste kwartiel=25% kleiner. Mediaan=50% kleiner. Derde kwartiel=75% kleiner.
Interkwartielafstand IQR= k3 - k1= derde kwartiel - eerste kwartiel.
Relatieve IQR= IQR/mediaan
De steekproefvariantie s2:
Inzichtelijke formule:
Rekenformule:
Σ(losse scores x - x)2
Σx2 – nx2
2
s=
=
n - 1
n - 1
standaarddeviatie s= √variantie s2
s= maat voor spreiding rond het gemiddelde.
Frequenties:
Σ(losse scores x - x)2 . f
s2=
n - 1
Boxplot.
Een boxplot-grafiek zet het kleinste getal, het grootste getal,
Q1, Q3 en de mediaan in een plaatje.
Whiskers zijn de lijntjes naar de grootste en kleinste waarde.
Het plaatje van de boxplot heeft de volgende standaardvorm:
50%
25%
Kleinste
getal
Q1
25%
Mediaan
Q3
Grootste
getal
kwartielafstand
Een complete boxplot geeft extra aandacht aan de outliers.
Lower inner fence= Q1 – 1,5 . IQR
Als waarneming < lower inner fence= outlier
Upper inner fence= Q1 + 1,5 . IQR
Als waarneming > upper inner fence= outlier
Whiskers lopen nu naar de grootste en kleinste waarde die geen outlier zijn
(als geen outliers -> is grootste en kleinste waarde).
Chebyshev’s theorem.
Als interval: x – k . s, x + k . s) ->
liggen minimaal (1 – 1/k2) van de data in het interval
Ruwe score omrekenen naar z-score
Je kan van elke ruwe score een z-score maken:
ruwe score X - gemiddelde
= z-score
s
H5. Regressie.
Het lineaire model.
y = b0 + b1 . x
Doel Model is voorspellen en verklaren van y.
Residu= e= y- y’= gemeten y – geschatte y.
De lijn wordt zo geschat dat e2 wordt geminimaliseerd
=kleinste kwadratenmethode= minimaliseer ∑e2=SSE
Het model bestaat uit een rechte lijn die ergens begint (=b0)
en die een constante richting heeft (helling=b1).
b1 laat het effect van x1 op y zien als x1 met 1 punt stijgt.
Een scatterplot is een puntenwolk.
Elk punt geeft de scores op x en y van 1 individu.
Je kan in een scatterplot zien:
- 1. de richting (stijgend=positief of dalend=negatief)
- 2. de sterkte (r tussen -1 en 1)
- 3. de vorm (lineair of kwadratisch)
Basisberekeningen voor regressielijn.
Σ(losse scores x - x)2
Σx2 – n.x2
sx2=
=
n - 1
n - 1
Σ(losse scores x – x).(losse scores y - y)
sxy=
∑xy – (∑x.∑y)/n
=
n-1
n-1
Schatten van Regressielijn.
y= b0 + b1 . x
sxy
r=
sxy
b1=
sx.sy
s2= variantie
s= standaard deviatie
sxy= covariantie
rxy= correlatie
b0= y - b1 . x
s2x
Rekenregels.
E(a . X + b)= a . E(X) + b
V(a . X + b)= a2 . V(X)
V(a . X + b . Y)= a2 . V(X) + b2 . V(Y) + 2 . a . b . cov(X,Y)
Als onafhankelijk -> cov(X,Y)=0
cor(-ax+b, cy+d)= -cor(x,y) -> schaal onbelangrijk, behalve minteken
cov(-ax+b, cy+d)= -a.c.cov(x,y)
Computeruitdraai.
Model
SS
Regression SSM
Residual
SSE
Total
SST
df
1
n-2
n-1
MS
MSM=SSM/1
MSE=SSE/n-2
F
MSM/MSE
sig
p-waarde
SSE= ∑(meting - schatting )2= ∑(y - y)2
Coefficients:
Model
Constant
b0
X1
b1
Std. Error
se(b0)
se(b1)
t
b0/se(b0)
b1/se(b1)
sig
p-waarde
H6, H7. Kansen.
Een toevalsverschijnsel=random event:
- heeft meer dan 1 uitkomst
- welke uitkomst is toevallig
- is gebaseerd op een onderliggende kansverdeling.
De klassieke kans kan logisch worden afgeleid uit vaststaande gegevens.
aantal uitkomsten met A
P(A)= De kans op uitkomst A=
totaal aantal uitkomsten
Complement van A= P(AC)= 1 - P(A)
De empirische kans is een ervaringskans op basis van waarnemingen.
De subjectieve kans is gebaseerd op een individuele inschatting.
De wet van grote aantallen.
Als experiment groter, benadert de empirische kans de werkelijke kans beter.
Kansen optellen.
aantal uitkomsten met tenminste 1 kenmerk A of B
P(A U B)=
totaal aantal uitkomsten
Als A en B elkaar uitsluiten:
P(A U B)= P(A) + P(B)
Als A en B elkaar niet uitsluiten:
P(A U B)= P(A) + P(B) - P(A ∩ B)
Kansen vermenigvuldigen.
aantal uitkomsten met beide kenmerken A en B
P(A ∩ B)=
totaal aantal uitkomsten
Als kansen onafhankelijk:
p(A ∩ B)= p(A) . p(B)
P(A)=P(A│B)
P(B)=P(B│A)
Als kansen afhankelijk:
p(A ∩ B)= p(A) . p(B│A)
De voorwaardelijke kans P(A│B):
het aantal waarnemingen A in B
P(A ∩ B)
P(A│B)=
=
het aantal waarnemingen B
P(B)
Je kan kans A verdelen over B en niet-B.
P(A)= P(A ∩ B) + P(A ∩ BC)
De Bayesiaanse beslissingstheorie.
Een verhaaltje met conditionele kansen kan worden uitgetekend in een kansboom.
De gezamenlijke joint kans op A en B= p(A) . p(B|A)
p(B│A)
->de joint kans op A en B= p(A) . p(B|A)
A
p(niet-B│A)
p(B│niet-A)
Niet-A
p(niet-B│niet-A)
Bayes’ rule:
p(A) . p(B|A)
P(A│B)=
P(B)
H8. Kansverdeling.
Discreet= eindig aantal uitkomsten.
Een discrete kansverdeling geeft een beperkt aantal uitkomsten met de kans.
Continu= oneindig aantal waarnemingen in interval.
De kans op een uitkomst in een interval is gelijk aan het oppervlakte
dat hoort bij het interval.
In een continue kansverdeling heeft een punt geen oppervlakte ->
p(X=getal)=0 (Logica: Niemand weegt precies 80kg, maar bijv. 80,0001kg)
Een discrete kansverdeling.
Een discrete kansverdeling geeft de uitkomsten met de kans.
De cumulatieve kansverdeling F(x) geeft de kans kleiner of gelijk aan.
F(x)= een niet dalende stapsgewijze functie.
F(-∞)=0 en F(∞)=1
Het gemiddelde van de discrete kansverdeling.
μX= E(X)= Σ(de uitkomsten . de kansen)
E(X2)= Σ(de uitkomsten2 . de kansen)
De variantie van de discrete kansverdeling.
σ2X= V(X)= Σ(de uitkomsten - gemiddelde)2 . de kansen
Of: V(X)= E(X2) – (EX)2
σX = √σ2X
Een continue kansverdeling.
De kansdichtheidsfunctie f(x) geeft de kans op een uitkomst in een interval.
Totale oppervlakte onder de functie is 1.
De verdelingsfunctie F(x) geeft de kans kleiner of gelijk aan.
F(x)= is een continue niet-dalende functie.
F= ∫f
- ondergrens= begin traject
- bovengrens= x
- voorafgaande oppervlakten meetellen
- F(-∞)=0 en F(∞)=1
Het gemiddelde van de continue kansverdeling.
μX= E(X)= -∞∞∫x.f(x) dx
-∞=begin van het traject en ∞=eind van het traject
De variantie van de continue kansverdeling.
V(X)= -∞∞∫(x-μ)2.f(x) dx
H9. Discrete kansverdelingen.
Een discrete kansverdeling f(k) geeft de uitkomsten met de kans.
De cumulatieve kansverdeling F(k) geeft de kans kleiner of gelijk aan.
Binomiale kansverdeling.
Y ~ Bin(n,p)
f(k)=
n
k
. pk . (1-p)n-k
n= aantal experimenten
p= kans op succes
k= aantal goeden
n boven k met nCr
Aannames:
Onderzoeker bepaalt de steekproefgrootte n.
Observaties zijn onafhankelijk.
Elke observatie is een succes of geen succes (=Bernoulli trial).
De kans op succes is constant.
Kansverdeling p in binomiaal experiment.
μp= p
(zie steekproevenverdeling p H14)
p.(1-p)
p.(1-p)
σ2p=
-> σp= √[
]
n
n
Kansverdeling aantal goede uitkomsten k in Binomiaal experiment.
μ= np en σ2=np(1-p)
(zie normale benadering H10)
Als n=1 (Bernoulli): μ=p en σ2=p(1-p)
Hypergeometrische kansverdeling.
Y ~ H(n,M,N)
M
k
N - M
n - k
f(k)=
N
n
N=
n=
M=
k=
totale
totale
aantal
aantal
populatie
steekproef
goeden in de populatie
goeden in de steekproef: 0,1 . . n
Kansverdeling aantal goede uitkomsten k in Hypergeometrisch experiment.
μ=n.M en σ2= n . M . N-M . N-n
N
N
N
N-1
Binomiale benadering Hypergeometrisch.
Als n/N ≤ 0,1 -> Binomiale benadering met p=M/N
Overzicht kansverdeling.
- Binomiaal als constante kans (=met teruglegging of grote populatie).
- Hypergeometrisch als zonder teruglegging met 2 kleine groepen.
Voorbeeld: je pakt uit een bakje met rode en zwarte knikkers.
H10. Continue kansverdelingen.
Uniforme kansverdeling
Y ~ Uniform (,)
= begin van het traject, = het einde van het traject
1
y-
f(y)=
F(y)=
-
-
De normale verdeling.
Y ~ N(μ, σ) ->
Y is normaal verdeeld met gemiddelde μ en afwijking van gemiddelde σ
68,3% binnen 1σ van het gemiddelde.
95,4% binnen 2σ van het gemiddelde.
99,7% binnen 3σ van het gemiddelde.
De normale verdeling X is symmetrisch rond μ.
De standaard normale verdeling Z is symmetrisch rond μ=0 met σ=1
Van Y naar Z.
Y ~ N(μ, σ) ->
getal - μ
p(Y < getal)
->
p(Z <
)
σ
Normale benadering Binomiaal met
x + 0,5 - µ
p(z ≤
) of
p(z ≥
σ
Binomiaal ≤ Getal -> Normaal ≤
Binomiaal ≥ Getal -> Normaal ≥
Benadering redelijk ok als np>5
μ=np en σ2= np(1-p)
continuïteitscorrectie.
x - 0,5 - µ
)
σ
Getal + 0,5
Getal - 0,5
en n(1-p)>5
H11. Joint kansverdeling.
Het gemiddelde van de kansverdeling.
μX= E(X)= Σ(de uitkomsten . de kansen)
E(X2)= Σ(de uitkomsten2 . de kansen)
De variantie van de kansverdeling.
σ2X= V(X)= Σ(de uitkomsten - gemiddelde)2 . de kansen
Of: V(X)= E(X2) – (EX)2
σX = √σ2X
Een gezamenlijke kansverdeling.
Een gezamenlijke kansverdeling geeft de kans op tegelijk X en Y.
Voorwaarden: Joint kansen h(x,y) ≥ 0
Som joint kansen ∑h(x,y) = 1
σXY= cov(X,Y)= Σ(uitkomsten X – mean X) . (uitkomsten Y – mean Y) . kansen
Of: σXY= cov(X,Y) = E(XY) - E(X) . E(Y)
E(XY)= Σ(uitkomst X . uitkomst Y . kans op tegelijk X en Y)
cov(X,Y)
ρ(X,Y)=
σX . σY
Rekenregels.
E(a . X + b)= a . E(X) + b
V(a . X + b)= a2 . V(X)
V(a . X + b . Y)= a2 . V(X) + b2 . V(Y) + 2 . a . b . cov(X,Y)
Als onafhankelijk -> cov(X,Y)=0
cor(-aX+b, cY+d)= -cor(X,Y) -> schaal onbelangrijk, behalve minteken
cov(-aX+b, cY+d)= -a.c.cov(X,Y)
Conditionele kansen in joint kansverdeling.
P({X=x} ∩ B)
(=stukje X in B)
P(X=x│B)=
P(B)
Onafhankelijkheid in een joint kansverdeling.
Kans op X=x is gelijk voor elke waarde van Y ->
- Joint= marginale kansen vermenigvuldigd.
- E(XY)= E(X).E(Y) en cov(X,Y)=0
Verwachting en variantie bij SOM.
μSOM = n . µ
σ2SOM= n . σ2
Sommeren
- n bij
X
~
Y
~
X + Y ~
van binomiale kansen als dezelfde p.
elkaar optellen.
(n1, p)
(n2, p)
(n1+n2, p)
Sommeren van normale kansen.
- verwachtingen en varianties apart bij elkaar optellen.
X
~ N(a+μ1,
cσ12)
Y
~ N(b+μ2,
dσ12)
X + Y ~ N(a+b+μ1+μ2, c2σ12 + d2σ22)
H12. Random Samples.
Steekproef random als elke persoon in populatie dezelfde kans heeft
om voor de steekproef geselecteerd te worden.
Voor reeks van random trekkingen met teruglegging geldt:
iid= independent en identieke distributies
Voor steekproef zonder teruglegging geldt:
iid + cov(X1,X2)= -σ2/(N-1)
H13. Steekproeven verdeling gemiddelde.
_
Steekproevenverdeling van X.
Je doet een steekproef uit populatie waarvan gemiddelde  en  bekend zijn.
Het gemiddelde van de steekproef is niet bekend en de steekproevenverdeling
geeft de kansverdeling van de mogelijke uitkomsten van dat gemiddelde.
Steekproevenverdeling X heeft gemiddelde µ en Standard Error Mean= σX=σX/√n
Als n groter, verdeling normaler en de Standard Error Mean kleiner.
_
Rekenen met X.
gemiddelde steekproef – μ0
p(Z <
)
σX
Centrale limietstelling:
_
Als populatie normaal is kansverdeling X altijd normaal verdeeld.
Als n > 30 altijd normaal benaderen, ook als populatie niet normaal.
H14. Steekproeven verdeling kans p.
Steekproevenverdeling van p geeft mogelijke uitkomsten in de steekproef
(als p in de populatie bekend is).
De normale verdeling van p.
Voor de kansverdeling van p geldt: E(p)=p en σP= √[p.(1-p)/n]
Voorwaarde normale benadering: np>5 en n(1-p)>5
Rekenen met steekproevenverdeling van p.
p steekproef - p
p(Z <
)
σp
H15. Toetsen.
- Interval voor het gemiddelde μ met σ bekend.
_
L= X - z . σ/√n
_
U= X + z . σ/√n
n die een maximale halflengte B van het interval garandeert.
H= z . σ/√n
- Interval voor de kans p
L= p - z . √[p . (1-p)/n]
U= p + z . √[p . (1-p)/n]
p= aantal goeden in de steekproef/aantal waarnemingen in de steekproef
z in onderste regel t-tabel
- Toets voor het gemiddelde μ met σ populatie.
H0: µ ≥, =, ≤
H1: µ <, , >
_
p-value rechtszijdig: p(Z > z-waarde)
X - μ0
p-value linkszijdig: p(Z < z-waarde)
z=
z ~ N(0, 1)
Als 2-zijdig: 2 . p(kleinste staart)
σ/√n
Toetsen met Rejection Region in 5 stappen.
1. H0 en H1.
2. Test statistic.
3. Rejection Region.
4. Test Statistic berekenen.
5. Uitkomst toetsingsgrootheid wel/niet in Rejection Region.
H0 wel/niet verwerpen.
Toetsen met p-waarde en Statistische Significantie α.
Als de p-waarde < α -> H0 verwerpen.
Als de p-waarde > α -> H0 niet verwerpen.
Significantie α.
Uitgangspunt: H0 is waar.
α is de kans dat een ware H0 wordt verworpen.
Als een ware H0 wordt verworpen is Type-I fout.
α het liefst 0, maar in de praktijk meestal 0,05.
α=0,05 betekent maximaal 5% kans dat ware H0 wordt verworpen.
Type-II fout.
Uitgangspunt: H1 is waar.
Type-II fout is de kans dat een ware H1 niet wordt aangetoond.
p-waarde.
Uitgangspunt: H0 is waar.
De p-waarde is de waarschijnlijkheid van een uitkomst
die zo extreem is, of nog extremer, als de H0 waar is.
p-waarde is oppervlakte in de staart.
p-waarde is kleinste waarde van α, waarmee je H0 nog verwerpt.
Download