Statistiek 1, theorie les 1

advertisement
H2-H5.
Statistiek
Statistiek haalt info uit data.
Descriptieve statistiek beschrijft de dataset.
Inferentiële statistiek geeft met data conclusie over populatie.
Populatie en steekproef
Populatie= totale groep die wordt onderzocht.
Parameter= kengetal van de populatie
Steekproef= deel van de populatie.
Statistiek= kengetal van de steekproef.
Variabele
Variabele is kenmerk die per persoon kan verschillen.
Data is meting van kenmerk.
Een discrete variabele als vaste stappen tussen de uitkomsten,
bijv. aantal kinderen
Een continue variabele heeft tussen 2 punten oneindig aantal uitkomsten,
bijv. tussen 1,74 meter en 1,75 meter oneindig aantal lengtes.
Scores bij continu zijn dus altijd afgeronde getallen.
Frequentieverdelingen.
Een frequentietabel geeft aan hoe vaak waarnemingen voorkomen.
Grafisch weergave: lijndiagram.
Een relatieve frequentietabel maakt percentages van de aantallen:
p= frequentie/N
Een gegroepeerde frequentieverdeling geeft aantal scores per interval.
Een cumulatieve frequentieverdeling geeft het aantal waarnemingen kleiner
dan de klasse bovengrens.
Grafisch weergave: histogram histogram.
De staafdiagram (bar chart) geeft het aantal waarnemingen per categorie.
Klassen in taartdiagram en staafdiagram zijn geschikt voor nominaal/ordinaal:
Ned/Belg, Man/Vrouw.
In een taartdiagram (pie chart) komt het oppervlakte van de cirkelsector
overeen met het percentage waarnemingen in de klasse.
Verschillende schalen.
Een schaal is de meeteenheid om een variabele te meten
Een nominale (=naam geven) variabele heeft wel of niet een kenmerk,
bijv: Belg/Ned, Man/Vrouw.
Een ordinale variabele ordent de kenmerken van laag naar hoog zonder vaste
onderliggende schaal: Afstand van 1 tot 2 ≠ afstand van 2 tot 3.
Bijv: laag-, midden-, hoogopgeleid.
Nominaal en ordinaal zijn kwalitatief= wel/niet in klasse.
Een kwantitatieve variabele is numeriek en krijgt een getalswaarde:
Een interval schaal gaat van laag naar hoog met vaste onderliggende schaal.
Afstand van 1 tot 2 = afstand van 2 tot 3.
Bijv: hoogte van temperatuur.
Een ratioschaal gaat van laag naar hoog met vaste schaal en nulpunt.
Afstand van 1 tot 2 = afstand van 2 tot 3.
Bijv: lengte in centimeters.
Een absolute schaal als de variabele maar op een manier gemeten kunnen worden,
bijv: aantal kinderen in een gezin
Zinvolle bewering.
Een bewering is zinvol als waar voor iedereen die werkt met dezelfde schaal.
Voorbeeld: ‘temperatuur ligt hoger’ is waar voor Celcius en Fahrenheit= zinvol
‘temperatuur 10 graden hoger’ verschilt voor Celcius en Fahrenheid= niet zinvol
Nominale variabelen kan je niet zinvol numeriek vergelijken.
Je kan niet zeggen dat Belg hogere score is dan Nederlander.
Je kan de frequenties per categorie wel vergelijken (meer Belgen dan Ned).
Bij ordinale variabelen kan je wel zeggen dat iemand hoger of lager scoort,
bijv: universiteit hogere opleiding dan alleen lagere school,
maar je kan dat verschil geen getalwaarde geven.
Bij interval wel hoger/lager,
je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C
je mag niet zeggen: A= 2B (verschilt tussen Celcius en Fahrenheit)
je mag niet zeggen: verschil= 5 (verschilt tussen Celcius en Fahrenheit),
Bij Ratio wel hoger/lager,
je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C
je mag zeggen: A= 2B (gelijk voor meting in centimeters en meters)
je mag niet zeggen: verschil= 5 (verschilt tussen cm en meters)
Bij absoluut wel hoger/lager
je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C
je mag zeggen: A= 2B
je mag zeggen: verschil= 1 (1 kind meer per gezin wordt altijd zo gemeten)
6. Reductietechnieken.
Reductie zoekt 1 score die data samenvat.
Nadruk op 2 kenmerken van de data:
- Centrale tendentie (=gemiddelde)
- Spreiding (=spreiding rond het gemiddelde).
Centrale tendentie.
Het rekenkundig gemiddelde
Als losse scores:
som van de waarnemingen
ΣX
X=
=
aantal waarnemingen
n
Als data gegroepeerd in klassen:
n1 * Klassemidden Groep 1 + n2 * Klassemidden Groep 2
X=
aantal waarnemingen= n1 + n2
n1,n2= aantal waarnemingen per klasse
Klassemidden= (bovengrens + ondergrens)/2
Kenmerken van rekenkundig gemiddelde.
- Elke verandering van 1 score verandert uitkomst.
- Zeer gevoelig voor outliers.
De mediaan.
Als 50% kleiner en 50% groter= mediaan.
De mediaan bij losse scores:
De mediaan is de middelste waarneming als van laag naar hoog gerangschikt.
Als even aantal waarnemingen het gemiddelde van de middelste 2 waarnemingen.
Als data gegroepeerd in klassen:
Aflezen op y-as (=relatieve frequentie) bij 50%
De Modus.
Bij losse waarnemingen is de modus de waarneming die het meest voorkomt.
Als waarnemingen in groepen is de modus het midden van de klasse
met de meeste waarnemingen (=de modale klasse).
Als 2 modi: bimodaal
Keuze tussen gemiddelde, mediaan en modus
gemiddelde meest gangbaar.
Nominale variabele alleen met modus.
soms mediaan beter dan mean:
1. Extreme scores of scheve verdeling (uitersten te bepalend voor gemiddelde).
2. Als ordinale schaal (gemiddelde niet te bepalen).
Spreiding
Variantie s2
Σ(losse scores X - gemiddelde)2
s2=
n= aantal losse scores
standaarddeviatie s= √variantie s2
Percentiel
Een percentiel geeft het % waarnemingen kleiner dan deze waarde.
Het percentage staat op y-as, de waarde kan je aflezen op x-as
Percentiel
interkwartielafstand
%
75%
p
25%
x-waarde
Q
p25
x-waarde
p75
Eerste kwartiel= p25= 25% kleiner, 75% groter
Mediaan= p50= 50% kleiner, 50% groter
Derde kwartiel= p75= 75% kleiner, 25% groter
Interkwartielafstand Q= derde kwartiel - eerste kwartiel.
Over percentielen.
- Het percentiel is een soort rangordenummer in een groep.
Score van persoon is dus sterk afhankelijk van niveau van de groep.
- De berekening wordt helemaal bepaald door het aantal mensen dat
lager scoort. Hoeveel lager anderen scoren heeft geen invloed.
De variatiebreedte
variatiebreedte =de grootste waarneming - de kleinste waarneming.
In klassen: bovenste klassegrens – onderste klassegrens
Spreidingsmaat d
1 – fmo/n
d=
1 – 1/p
fmo= aantal scores bij de modus of in modale klasse
n= aantal waarnemingen
p= aantal verschillende uitkomsten of aantal klassen
Vergelijken variantie=s2, percentiel, variatiebreedte en d
Doel: meting moet stabiel zijn
Outliers veel invloed op s2 en variatiebreedte, niet op percentiel en d
d vanaf nominaal, percentiel vanaf ordinaal, breedte en d vanaf interval
7. Bivariate statistiek
Bivariaat=2 variabelen, je kijkt naar 2 variabelen tegelijk
Een spreidinsdiagram (scatterplot) is een puntenwolk.
Elk punt geeft de scores op x en y van 1 individu.
Je kan in een scatterplot zien hoe x en y samenhangen:
- 1. de richting (stijgend=positief of dalend=negatief)
- 2. de sterkte (tussen -1 en 1)
- 3. de vorm (lineair of kwadratisch)
Het lineaire model.
y= b0 + b1 * x
Doel is voorspellen van y.
Residu= meting y – schatting b0 + b1 * x
(residu: hoe ver ligt een los punt van de rechte lijn)
De lijn wordt zo geschat dat ∑residuen2 wordt geminimaliseerd
=kleinste kwadratenmethode
Het model bestaat uit een rechte lijn die ergens begint (=b0)
en die een constante richting heeft (helling= b1).
b1 laat het effect van x op y zien als x met 1 punt stijgt.
Schatten van Regressielijn.
y= b0 + b1 * x
sy
b1= r *
sx
b0= y - b * x
Voorwaarden voor regressie.
- De relatie tussen X en Y is lineair.
- Beide variabelen minimaal interval.
Correlatie.
y
correlatie r.
cov(X,Y)
r=
sx*sy
(x,y)= ++
(X,Y)
x
(x,y)= --
cov(X,Y)= ∑(X-X)(Y-Y)/N-1
Kruisprodukt= ∑(X-X)(Y-Y)
Covariantie= gemiddeld kruisprodukt
Correlatie= gestandaardiseerde covariantie
Als zowel x en y hoger of lager dan gemiddelde
draagt punt bij aan een positieve correlatie.
Pearson orrelatie r
- Pearson correlatie meet alleen lineaire correlatie (=lijntje).
Niet-lineaire correlatie wordt niet gemeten.
Duidelijke niet-lineaire samenhang kan r=0 opleveren.
- Extreme scores kunnen allesbepalend zijn.
Outliers liggen een eind buiten het algemene patroon.
- Beide variabelen minimaal interval.
Een correlatie is niet een causaal verband.
Wel gemeten correlatie, maar geen causaal effect.
Bijv.: X1 en Y worden allebei beïnvloed door X2.
X2
X1
Y
Voorbeeld: Hoge inkomen ouders (X1) hangt samen met IQ van kinderen (Y).
IQ ouders (X2) verklaart allebei: Slimme ouders verdienen meer en krijgen slimme
kinderen. Kinderen worden niet slimmer als ouders meer gaan verdienen.
Kendall’s tau τ
Kendall als relatie x en y monotoon stijgend of monotoon dalend is,
maar niet lineair (dan Pearson)
Je hebt van een aantal personen de scores op 2 variabelen.
Je vergelijkt alle personen paarsgewijs.
A - B
τ =
n*(n-1)/2
A= aantal paren waar de ene persoon hoger of lager scoort op beide variabelen
B= aantal paren waar de ene hoger scoort op 1 variabele, maar lager op andere
Tie= als 2 personen gelijk scoren op 1 variabele (telt niet mee bij A of B)
n= aantal personen
n*(n-1)/2= aantal paren dat je kan maken met n personen
Spearman rS
Pearson r voor interval
Spearman rS- correlatie tussen 2 ordinale variabelen.
6 * ∑D2
rS= 1 – (
)
n * (n2-1)
1. Per kenmerk resultaten rangordenen.
2. Per paar rangnummers van elkaar aftrekken=D.
3. Verschillen gekwadrateerd bij elkaar optellen=D2.
Persoon 1
Kenmerk X
Kenmerk Y
P2
P3
P4
P5
P6
per paar
aftrekken
X EN Y APART RANGORDENEN
D1
D2
D3
D4
D5
D6
H8. Theorie Kansen.
samenvatting 8.1-8.3
De toevalsvariabele
Een toevalsvariabele is een variabele waarvan de uitkomst toeval is.
Een gebeurtenis is een groepje mogelijke uitkomsten van de variabele.
Een zekere gebeurtenis zijn alle mogelijke uitkomsten.
De som van de kansen op alle uitkomsten is 1.
voorbeeld:
dobbelsteen is toevalsvariabele
uitkomst 1,2= gebeurtenis
uitkomst 1,2,3,4,5,6= zekere gebeurtenis
De uitkomsten van de variabele zijn discreet of continu:
discreet= eindig aantal uitkomsten.
continu= oneindig aantal waarnemingen in interval.
voorbeeld:
dobbelsteen is discreet, lengte in continu
De kans
de kans op een uitkomst is hoe vaak iets gebeurt als je eindeloos probeert:
aantal uitkomsten met A
P(A)= De kans op uitkomst A=
totaal aantal uitkomsten
complement van kans A:
De kans dat iets niet gebeurt= 1 - de kans dat het wel gebeurt.
p(AC)= 1 - p(A)
p(AC)= het complement van p(A)
voorbeeld zuivere dobbelsteen:
kans op gooien van 6= 1/6
complement van gooien van 6: 1 – 1/6= 5/6
Unie= kansen optellen.
aantal uitkomsten met tenminste 1 kenmerk A of B
P(A U B)=
totaal aantal uitkomsten
als A en B elkaar uitsluiten:
P(A U B)= P(A) + P(B)
als A en B elkaar niet uitsluiten:
P(A U B)= P(A) + P(B) - P(A ∩ B)
voorbeeld zuivere dobbelsteen als uitsluiten:
uitkomst A= 1,2,3
uitkomst B= 4,5
P(A U B)= 3/6 + 2/6= 5/6
voorbeeld zuivere dobbelsteen als niet uitsluiten:
uitkomst A= 1,2,3
uitkomst B= 1,3,5
P(A U B)= 3/6 + 3/6 – 2/6= 4/6
1 2 3
4 5
6
4 6
2
1 3
5
Onafhankelijke en afhankelijke kansen.
onafhankelijk= uitkomst A geen invloed op uitkomst B: P(B)= P(B│A)
afhankelijk=
uitkomst A
invloed op uitkomst B: P(B)≠ P(B│A)
voorbeeld zuivere dobbelsteen onafhankelijk
A= 1,2
B= even= 2,4,6
P(B)= 3/6= 1/2
1 3 5
2 4 6
P(B│A)= 1/2
P(B)=3/6
voorbeeld zuivere dobbelsteen afhankelijk
A= 1,2,3
B= even= 2,4,6
P(B)= 3/6= 1/2
1 3 5
2 4 6
P(B│A)= 1/3
P(B)=3/6
1
2
P(B│A)= 1/2
1
2
3
P(B│A)= 1/3
Doorsnede= overlap tussen de uitkomsten.
aantal uitkomsten met beide kenmerken A en B
P(A ∩ B)=
totaal aantal uitkomsten
Als kansen onafhankelijk:
p(A ∩ B)= p(A) * p(B)
P(A)=P(A│B)
P(B)=P(B│A)
Als kansen afhankelijk:
p(A ∩ B)= p(A) * p(B│A)
voorbeeld zuivere dobbelsteen onafhankelijk
A= 1,2
B= even= 2,4,6
P(A ∩ B)= 1/6
1
2
4 6
P(A ∩ B)=
p(A) * p(B)=
2/6 * 1/2= 1/6
3
5
P(A ∩ B)= 1/6
voorbeeld zuivere dobbelsteen afhankelijk
A= 1,2,3
B= even= 2,4,6
P(A ∩ B)= 1/6
1 3 2 4 6
P(A ∩ B)=
P(A) * p(B│A)=
1/2 * 1/3= 1/6
5
P(A ∩ B)= 1/6
De voorwaardelijke kans P(A│B):
het aantal waarnemingen A in B
P(A ∩ B)
P(A│B)=
=
het aantal waarnemingen B
P(B)
voorbeeld zuivere dobbelsteen:
A=1,2,3
B=1,3,5
C=2,4,6
P(B)= 3/6
P(B│A)= 2/3
P(C)= 3/6
P(C│A)= 1/3
of met formule: P(A ∩ B) / P(B)= 2/6 / 3/6= 2/3
of met formule: P(A ∩ C) / P(C)= 1/6 / 3/6= 1/3
Samenvatting 8.4-8.7
Een discrete kansverdeling.
Een discrete kansverdeling f(x) geeft de uitkomsten met de kans.
De cumulatieve kansverdeling F(x) geeft de kans kleiner of gelijk aan.
F(x)= een niet dalende stapsgewijze functie.
voorbeeld
X
1
fx: 1/6
Fx: 1/6
dobbelsteen
2
3
4
1/6 1/6 1/6
2/6 3/6 4/6
5
1/6
5/6
6
1/6
1
Het gemiddelde van de discrete kansverdeling.
E(X)= Σ(de uitkomsten * de kansen)
De variantie van de discrete kansverdeling.
V(X)= Σ(de uitkomsten - gemiddelde)2 * de kansen
voorbeeld
X:
4
fx: 1/4
8
3/4
E(X)= 4 * 1/4 + 8 * 3/4= 7
V(X)= (4-7)2 * 1/4 + (8-7)2 * 3/4= 3
Een continue kansverdeling.
De kansdichtheidsfunctie f(x) geeft de kans op een uitkomst in een interval.
De kans op een uitkomst in een interval is gelijk aan het oppervlakte
dat hoort bij het interval.
In een continue kansverdeling heeft een punt geen oppervlakte ->
p(X=getal)=0 (Logica: Niemand weegt precies 80kg, maar bijv. 80,0001kg)
Totale oppervlakte onder de functie is 1.
De verdelingsfunctie F(x) geeft de kans kleiner of gelijk aan.
F(x)= is een continue niet-dalende functie.
Bivariate (=gezamenlijke) kansverdeling.
Een gezamenlijke kansverdeling geeft de kans op tegelijk X en Y.
- kansen (x,y) ≥ 0
- som gezamenlijke kansen ∑(x,y) = 1
cov(X,Y) = E(XY) - E(X) * E(Y)
E(XY)= Σ(uitkomst X * uitkomst Y * kans op tegelijk X en Y)
cov(X,Y)
ρ(X,Y)=
σX * σY
voorbeeld
Y=0 Y=1
X=0 0,4 0,3
X=1 0,1 0,2
P(X=0)= 0,7
E(X)= 0 * 0,7 + 1 * 0,3= 0,3
V(X)= (0 – 0,3)2 * 0,7 + (1 – 0,3)2 * 0,3= 0,063 + 0,147= 0,21
E(Y)= 0 * 0,5 + 1 * 0,5= 0,5
V(X)= (0 – 0,5)2 * 0,5 + (1 – 0,5)2 * 0,5= 0,125 + 0,125= 0,25
E(XY)= 0*0*0,4 + 0*1*0,3 + 1*0*0,1 + 1*1*0,2= 0,2
COV(XY)= 0,2 – 0,3*0,5= 0,05
COR(XY)= 0,05/ (√0,21*√0,25)= 0,218
P(X=0│Y=0)= 0,4/0,5= 0,8
P(X=0│Y=1)= 0,3/0,5= 0,6
samenvatting 8.8
De verwachting voor een constante maal een variabele.
Als Z= aX
E(Z)=E(a * X)= a * E(X)
voorbeeld
Als E(X)=4 en Z=2X ->
E(Z)= 2* E(X)= 2*4= 8
De verwachting voor een constante maal een variabele.
Als Z= aX
V(Z)= a2 * V(X)
voorbeeld
Als V(X)=3 en Z=2X ->
V(Z)= 22* V(X)= 4*3= 12
De verwachting van een som.
Als Z= X + Y
E(Z)=E(X) + E(Y)
voorbeeld
Als E(X)=4 en E(Y)=2 en Z=X+Y
E(Z)= E(X) + E(Y)= 4+2= 6
->
De verwachting van een produkt.
Als Z= X * Y
E(Z)=E(X) * E(Y) (als onafhankelijk)
voorbeeld
Als E(X)=4 en E(Y)=2 en Z=X*Y
E(Z)= E(X) * E(Y)= 4*2= 8
->
De variantie van een som.
Als Z= X + Y
V(Z)=V(X) + V(Y) + 2*COV(X,Y)
voorbeeld
Als V(X)=4 en V(Y)=2 en COV(X,Y)=1 en Z=X+Y
V(Z)= V(X) + V(Y) + 2*COV(X,Y)= 4+2+2*1= 8
->
De variantie van een aftrekking.
Als Z= X - Y
V(Z)=V(X) + V(Y) - 2*COV(X,Y)
voorbeeld
Als V(X)=4 en V(Y)=2 en COV(X,Y)=1 en Z=X-Y
V(Z)= V(X) + V(Y) – 2*COV(X,Y)= 4+2-2*1= 4
->
H9. Bijzondere kansverdelingen
9.1 Binomiale kansverdeling B met parameters n en π.
n!
kans op k goede uitkomsten=
* π k * (1- π)n-k
k!*(n-k)!
n= de steekproefgrootte
E(B)= n*π
π= kans op succes bij elke poging
V(B)= n*π*(1- π)
k= aantal successen in de steekproef
Aanname: De kans op succes is constant.
voorbeeld dobbelsteen:
je gooit 4x met een dobbelsteen,
kans op uitkomst 1x 6:
4!
* 1/61 * 5/64-1 = 4 * 1/6 * 0,5787= 0,386
1!*(4-1)!
9.2 Normale kansverdeling met parameters μ en σ.
De normale verdeling.
N(μ,σ) is een normale verdeling met gemiddelde μ en afwijking σ.
De normale verdeling is symmetrisch rond μ.
De z-verdeling.
De standaard normale verdeling Z is symmetrisch rond 0 met σ=1.
Elke score van normale verdeling N kan worden omgeschreven naar z:
ruwe score X - μ
z=
σ
voorbeeld:
μ=100 en σ=10
kans op score kleiner dan 90 ->
p(Z < ((90 – 100)/10)= p(Z < -1)= 0,1587
9.3 Χ2-verdeling.
E(Χ2)= v en V(Χ2)= 2v
9.4 t-verdeling.
z
t-verdeling (in vergelijking met z-verdeling).
t= meer uitgewaaierd dan z
Bij n>30 -> t ~ z
t en z beide symmetrisch rond 0.
t
0
9.5 F-verdeling:
0
1
∞
- F altijd positief
- Rechtsscheef
- Piek bij ongeveer 1 (iets groter)
Steekproevenverdeling van X.
Je doet een steekproef uit populatie waarvan gemiddelde  en  bekend zijn.
Het gemiddelde van steekproef is niet bekend (kan door toeval afwijken van
gemiddelde populatie) en de steekproevenverdeling X geeft kansverdeling
van de mogelijke uitkomsten van gemiddelde steekproef.
Rekenen met X.
X - μ
z =
σ/√n
voorbeeld
μ=10, σ=5, n=25
kans op uitkomst gemiddelde >12
p(X > ((12-10)/(5/√25)) ->
P(Z > 2)= 0,0228
Centrale limietstelling:
Als populatie normaal is kansverdeling X altijd normaal verdeeld.
Als n > 30 kan je het gemiddelde normaal benaderen,
ook als populatie niet normaal verdeeld is.
Steekproevenverdeling X heeft gemiddelde µ en V(X)= V(X)/n
Als n groter, wordt verdeling steeds normaler en V(X) steeds kleiner.
Steekproevenverdeling van S2.
Je doet een steekproef uit populatie waarvan variantie s2 bekend is.
De variantie in de steekproef is niet bekend (kan door toeval afwijken
van de populatie) en de steekproevenverdeling S2 geeft kansverdeling
van de mogelijke uitkomsten van variantie in steekproef.
Rekenen met S2.
Gegeven:nS2/σ2= Χ2n-1
Als P(S2 < getal) ->
(links en rechts vermenigvuldigen met n/σ2)
P(nS2/σ2 < n*getal/σ2) ->
P(Χ2n-1 < n*getal/σ2) ->
opzoeken in Χ2-tabel
voorbeeld
n=10 en σ2=100
P(S2 > 190) ->
P(10*S2/100 > 10*190/100)
P(Χ29 > 19)=
1 – 0,975= 0,025
->
Vanaf 26 december definitieve herziene versie
met H10 + vectoren
Download