College-aantekeningen, hoorcolleges 1 tot 8

advertisement
lOMoARcPSD
Hoorcollege 1
Numerieke maatstaven van centrale tendentie
Steekproefgemiddelde: optelling van de waarde gedeeld door het aantal waarden dat
je hebt.
X met streepje staat voor steekproefgemiddelde.
n
x
i
x
i 1
n
Mediaan: middelste getal wanneer de waarnemingen op volgorde gezet worden.
Oneven: middelste  n/2 + 0,5
Even: twee middelste  gemiddelde van de n/2 en n/2 + 1
Modus: meest voorkomende waarde in een dataset
De dataset kan multi-modaal zijn  meerdere modi hebben.
Voorbeeld
{1,3,5,6,8,8,9,11,12,100}
Door een groot getal wordt het gemiddelde helemaal vervormd.
De mediaan blijft op 8 en de modus ook.
Gemiddelde = (1+3+5+6+8+8+9+11+12)/9 = 7
Meidaan is het gemiddelde van (8+8)/2 = 8
Modus is 8
Algemene regel: bij een symmetrische verdeling gebruik je het gemiddelde en bij een
scheve verdeling gebruik je de mediaan. (bij een histogram)
Modus gebruik je alleen maar als er categorieabele variabelen zijn. (niet bij een continue
variabele)
Kwalitatieve data SPSS
Analyse
Descriptive statistics
Frequencies
Bij statisctis  mean, meidan, mode
Cirkeldiagram: graphs  legacy dialogs  pie
Graphs  legacy dialogs  bar
Steekproefgemiddelde vs populatiegemiddelde
Steekproefgemiddelde: x met een streepje, je krijgt elke keer net een ander gemiddelde
lOMoARcPSD
n
x
i
x
i 1
n
Mu, is een constante en varieert niet  krijgen we nooit met zekerheid, met het
steekproefgemiddelde willen we hier iets over zeggen.
N
x
i

i 1
N
N = alle eenheden van de populatie waarover we iets willen zeggen
n = aantal analyse-eenheden.
Samengevat
Mediaan bij scheve verdelingen
Gemiddelde bij symmetrische verdelingen
Modus kan willekeurig zijn (dus niet geschikt), maar wel geschikt bij kwalitatieve data
Voldoende aan maten voor centrale tendentie?
Als je twee verschillende grafieken heeft, kies je de meest betrouwbare
Numeriek spreidingsmaatstaven
Spreiding van data over de verschillende waarden
Veel gebruikte maatstaven:
1. bereik
2. interkwartielafstand
3. variantie &standaarddeviatie
-
-
Bereik: grootste waarneming – de kleinste waarneming; hoogste = 90, laagste =
10. Dit geeft een bereik van 80.
Ongevoelig voor vorm verdeling (in dit geval spreiding)
Interkwartielafstand (IKA) = 75e percentiel (Q3) – 25e percentiel (Q1)
Mediaan = 50e percentiel
Stel 75e = 40 en 25e = 30, dan IKA = 40.
Zegt al iets meer over de spreiding van de data dan het bereik.
variantie & standaarddeviatie (populatievariantie en standaarddeviantie)
N
s2 =
å(xi - m )
N
2

i=1
N
en
2
(
x


)
 i
i 1
N
 2
lOMoARcPSD
FORMULE KENNEN EN TOEPASSEN
(met de hand uitrekenen op tentamen)
variantie: je neemt een waarde – het gemiddelde. Kwadrateer dit, en doet dit met alle
getallen. Tel deze bij elkaar op en deel door het aantal N
Standaarddeviatie: de wortel van de variantie.
Gemiddelde
5
6
1
5
8
5
6
1
5
8
(xi – u)
0
1
-4
0
3
(xi-u)^2
0
1
16
0
9
5
26
Variantie = 26/5 = 5,2
St. Dev = √5,2 = 2,28
Numerieke spreidingsmaatstaven
Voor de steekproefvariantie delen we 26 door n-1, oftewel 26/(5-1) = 6,5
Bij een kleine hoeveelheid datapunten, corrigeer je de st.dev. en de variantie
n
n
s2 
 ( xi  x)
2
2
i
s=
i 1
n 1
å(x - x)
i=1
en
n -1
= s2
Excel:
Var.p = variantie populatie
Var.s = variantie steekproef
STDEV.p = standaarddeviatie populatie
STDEV.s = standaarddeviatie steekproef
Populatievariantie = σ
Steekproefvariantie = s (met delen door n-1)
Spss geeft altijd de parameters van de steekproef  dus de steekproefvariantie en de
bijbehorende standaarddeviatie hiervan.
Huiwerkopdracht: let op naar welk steekproefwaarden er gevraagd wordt.
Interpretatie van de standaardafwijking
Hoeveel waarnemingen zitten binnen +- n s van het gebied. De standaardafwijking
veronderstelt de normale verdeling
Empirische regel
- 68% van de waarden tussen -1 en 1
- 95% van de waarden tussen -2 en 2
- 99,7% van de waarden tussen -3 en 3
lOMoARcPSD
bereik, IKA, variantie en standaarddeviatie:
percentielen: explore functie  statistics  percentiles
Numerieke maatstaven van relatieve positie
Beschrijvende maatstaven die de relatie tussen een meting met de rest van de data
weergeven. 2 maatstaven:
- z-score: de afstand tussen meting x en het gemiddelde, uitgedrukt in
standaardafwijkingen. Het gebruik van standaardafwijkingen maakt het mogelijk
verschillende datasets met elkaar te vergelijken z = (x- x(streepje) /s)
SPSS: transform  compute variable  numeric expression: (paardekr104.2)/38.3  target variable: Zpaardekracht  klik analyse/discriptive
statistics/explore  voeg Zpaardekracht toe aan dependent list
- percentiel score
Een 2e methode om uitscheiden van outliers
Box plots:
Gebaseerd op quartielen, waarden die de dataset in 4 groepen indelen op basis van 3
percentielen.
Q1,Q2 (mediaan) en Q3
IKA = Q3-Q1
Methoden om uitschieters te detecteren
Vuistregels:
- box plots:
o metingen buiten Q3 + 1,5 * IKA (50) zijn verdacht
- Z-scores
o Scores van +_ 3 in bergachtige verdelingen (+- 2 in scheve verdelingen)
worden beschouwd als uitschieters
o
Graphische representatie van bivariatie relaties
Bivariate relaties – de relatie tussen twee kwantitatieve variabelen
Graphische representatie met scatter (puntenwolk) diagram
lOMoARcPSD
graphische representatie van bivariate relaties
Zelf:
Auto.sav
Graphs/legacy dialogs/scatter
Simple scatter  define
KG als X (onafhankelijk)
Kies brandstof gebruik in liters als Y (afhankelijk), en
Outliers belangrijk als je kijkt naar verband tussen 2 variabelen
Een afwijkend punt vervormd een data-set helemaal  belangrijk om outliers te
bepalen want ze hebben de potentie om de regressielijn weg te trekken.
Samenvatting
- Grafische methoden voor kwalitatieve data
o Cirkeldiagram
o Staafdiagram
- Grafische methoden voor kwantitatieve data
o Histogram
- Numerieke maatstaven van centrale tendentie
o Gemiddelde
o Mediaan
o Modus
- Numerieke maatstaven van spreiding
o Bereik
o Interkwartielafstand
o Variantie & standaarddeviatie
- Verdelingsregels
o Empirische regel
- Maatstaven van relatieve positie
o Percentiel scores
o Z-scores
- Methoden voor het detecteren van uitschieters
o Box plots
o Z-scores
- Methoden voor het grafisch representeren van de relatie tussen twee
kwantitatieve variabelen
o Scatter (puntenwolk) diagram
lOMoARcPSD
HUISWERKOPDRACHT
Bb/assignments/data-analyse/huiswerkopdracht 1
Oefenen met oefenopdracht 1
Individueel
Deadline: 19 Februari 7.30
lOMoARcPSD
Hoorcollege 2: Simuleren
Steekproef  random variabelen
Stochastische variabelen
Numerieke waarden die toegekend worden aan de uitkomsten van een random proces.
0  kop komt boven
1  munt komt boven
oftewel de bernoulli verdeling.
Random waarden uit verdeling trekken
Transform/compute variable
Target variabele = Bernoulli0punt5
Numeric experession = RV.BERNOULLI(0.5)
 maak frequentietabel
 histogram
variantie Bernoulli  kans op succes
Gemiddelde en spreiding van Bernoulli verdeling (algemeen)
Variantie = p * (1-p)
Bij welke kans is de spreiding van een Bernoulli distributie maximaal?
 variantie is het grootst als de kans 0,5 is.
Dit kan je zien aan de volgende tabel:
P
1-p
Variantie
0,1
0,9
0,09
0,2
0,8
0,16
0,3
0,7
0,21
0,4
0,6
0,24
0,5
0,5
0,25
0,6
0,4
0,24
0,7
0,3
0,21
0,8
0,2
0,16
0,9
0,1
0,09
De variantie heeft bij deze tabel zijn hoogste punt bij 0,25. Dit is bij de
vermenigvuldiging van 0,5*0,5.
lOMoARcPSD
Uniforme verdeling
Transform/COmpute variable
Target variabele = Uniform3tot7
Numeric expression = RV.UNIFORM(3,7)
Gelijke kans bij de uniforme verdeling
Elke waarde komt maar 1 keer voor in de dataset, omdat er oneindig veel cijfers achter
de komma staan. Dit zorgt ervoor dat elke waarde uniek is  elke waarde is mogelijk.
De kans dat je exact 5 trekt is gelijk aan 0! Je kan nooit precies een waarde trekken uit
deze verdeling.
Wel: wat is de kans tussen twee waarden (bijvoorbeeld 4,95 en 5,05)  je kan de
oppervlakte van de range bepalen, nooit een exacte waarde.
Cumulatieve distributiefunctie geeft aan hoeveel procent van de waarden lager of gelijk
aan de gegeven waarde is.
Normale verdeling
Transform/compute variabele
Target variable = NormalMu5Sigma2
Numeric expression = RV.NORMAL(5,2)
 historam maken
 frequentietabel
Is de verdeling discreet of continu?
 continu verdeling (je kan alleen iets zeggen over een bepaald interval)
Ook deze verdeling geeft alleen unieke waarden.
Geen analytische oplossing  gebruik tabel of excel
De kans zal nooit exact 0 worden, de staarten lopen oneindig ver door (excel bestand).
Standaard normale verdeling: gemiddelde = o en de st.dev = 1.
lOMoARcPSD
Als je interval van 3 keer de standaarddeviatie neemt, beide kanten op de x-as, dan heb
je vrijwel alle waarden (99,7%).
Excel  normale verdeling vragen met behulp van: NORM.DIST (statistieken)
1.
2.
3.
4.
geef waarde op voor x = 0
gemiddelde = 0
standaard deviatie = 1
cumulatief = true (geeft de cumulatieve distributie functie)
Men gebruikt meestal niet de kansdichtheidsfunctie om dit te berekenen.
Opdracht excel
Gegeven is een normaal verdeelde continue kansvariabele x waarvoor geldt dat de
gemiddelde waarde gelijk is aan -4 en de st dev = 3.
a) bereken de kans P(x<-7) in vier decimalen  =NORM.DIST(-7;-4;3;TRUE)
b) bereken de kans dat x gelijk of groter is dan 2,3 in vier decimalen.  = 1-NORM.DIST(2,3;4;3;TRUE)
c) Bereken de kans dat x inligt tussen -11,2 en 3,2 in vier decimalen  = NORM.DIST(3,2;-4;3;TRUE)NORM.DIST(-11,2;-4;3;TRUE)
In plaats van true kan je ook een 1 invoeren, en voor false een 0.
Zie excel en slide
Transformeren naar standaard normaal verdeling (z-score)
Je kan de kans berekenen met behulp van een z-score.
z
x

P( X  x)  P( z 
x

opdracht transformeren (z-score)
)
lOMoARcPSD
tranformeer de waarden naar standaardnormale verdeling en bereken de kansen in
Excel
Gegeven is een normaal verdeelde continue kansvariabele x waarvoor geldt dat de
gemiddelde waarde gelijk is aan -4 en de standaarddeviatie 3.
a) bereken de kans P(X<_ -7) in vier decimalen  = NORM.S.DIST(-1;TRUE)
b) Bereken de kans P(X>_ 2,3) in vier decimalen  = 1-NORM.S.DIST(2,1;TRUE)
c) Bereken de kans dat x inligt tussen -11,2 en 3.2  = NORM.S.DIST(2,4;TRUE)-NORM.S.VERD.(2,4;TRUE)
Verdeling herleiden(1)
Va neen normaal verdeelde kansvariabele is gegeven dat ze een standaarddeviatie heeft
die gelijk is aan 8. Kan dat x gelijk of kleiner is aan 60,92 = 0,0222
Bereken het gemiddelde van deze kansvariabele en rond af op een geheel getal.
1.
2.
3.
teken de verdeling
bereken de z-score: NORM.S.INV(0,0222) in excel
bedenk de regel voor transformeren
P( X  x)  P( z 
x

)
opdracht
gemiddelde en kans op iets bekend.
1.
2.
3.
teken de verdeling
1-p
acherhaal de z-score
Som van n onafhankelijke random variabelen (wortel N-wet)
Maak 5 normaal verdelingen (normaal 1 t/m normaal5) met mu=16 en sigma=5
Maak een nieuwe variabelen Y = normaal1 +normaal2+normaal3+normaal4+normaal5
n
  E (Y )  E ( X i )  n * E ( X i )  5 *16  80
i 1
n
VAR(Y )  VAR( X i )  n *VAR( X i )  5 * 25  125
i 1
 y  n *VAR( X i )  n * VAR( X i )  n * i  5 * 5  11,2
Wortel-N wet
oftwel:
-
gemiddelde = som van de gemiddeldes
variantie = som van de varianties
standaarddeviatie = √n * variantie(van 1 variabele)
Voorbeeld:
Een wereldreiziger koopt ten behoeve van zijn videocamera batterijen waarvan de
levensduur kan worden beschrven door een normale verdeling met mu=16 en sigma=5
uur. Hij neemt 5 batterijen mee op zijn tocht.
lOMoARcPSD
Hoe groot is de kans dat de totale draaitijd van 60 uur wel gehaald wordt?
P(X>_60)=????
1.
2.
3.
4.
Maak een tekening
Zet alle bekende waarden in de tekening en markeer het deel dat je wil weten
Schrijf om naar: P(X>_60)= 1 – P(x<_60)
Schrijf om naar de z-score en gebruik: NORM.S.VERD(-20/11.18;1)
De gemiddelde van n onafhankelijke random variabelen
n
1 n
1
1
  E ( Z )  E (  X i )  * E ( X i )  * n * E ( X i )  16
n i 1
n
n
i 1
n
n *VAR( X i ) VAR( X i ) 25
1 n
1
VAR( Z )  VAR(  X i )  2 VAR( X i ) 


2
n i 1
n
n
n
5
i 1
z 
VAR( X i )  i
VAR( X i )
5



 2,32
n
n
n
5
Voorbeeld:
Van een grote groep mensen wordt precies gemeten wat het gemiddelde is van de lengte
van deze personen. Dit gemiddelde blijkt gelijk te zijn aan 177 cm met een spreiding van
sigma = 18 cm.
Men neemt een steekproef van 10 personen en bepaalt de gemiddelde lichaamslengte
Hoe groot is de kans dat deze uitkomst groter is dan 175?
 z  i  177
P(
x  z
z
 z)
z 
i
n

18
 5,69
10
175  177
P(
 z)
5,69
1  P( z  0,35) P  0,64
lOMoARcPSD
Hoorcollege 3
Gemiddelde van n onafhankelijke random variabelen
n
1 n
1
1
  E ( Z )  E (  X i )  * E ( X i )  * n * E ( X i )  16
n i 1
n
n
i 1
n
n *VAR( X i ) VAR( X i ) 25
1 n
1
VAR( Z )  VAR(  X i )  2 VAR( X i ) 


2
n i 1
n
n
n
5
i 1
z 
VAR( X i )  i
VAR( X i )
5



 2,32
n
n
n
5
Met de z-score standaardiseer je iets.
De verdeling van de gemiddelde van steekproeftrekkingen (van een normale verdeling)
vormt ook een normale verdeling.
Dit is niet alleen bij een normale verdeling, maar bij alle verdelingen, wordt de
verdelingen van de gemiddeldes van de steekproeven een normale verdeling  centrale
limietstelling.
Vanaf N=25 zal er een normale verdeling gemaakt worden.
Het gemiddelde van n onafhnakelijke random variabelen
-
open centrale limiet stelling.sav
Maak een histogram van Uniform1, wat zijn de parameters van deze verdeling?
Maak een nieuwe variabelen uniformgemiddelde = (uniform1 + uniform2 + uniform3 + uniform4 +
uniform5)/5
Hoe ziet de verdeling van uniformgemiddelde er uit?
Wat is het gemiddelde (mu), variantie (sigma kwadraat) en de standaarddeviatie (sigma) van de nieuwe
verdeling (uniformgem)?
Wat is de relatie met mu en sigma van de originele verdelingen?
Hypothese toetsen
Stel: in 1930 trekken we een aselecte steekproef van N=1000.
Gemiddelde leeftijd is nu 28,4, in 1899 was deze 27,1.
Is de gemiddelde leeftijd gestegen?
Steekproef (1930)
Populatie (1899)
N = 1.000
N = 5.104.026
X streepje = 28,4
Mu = 27,1
S=?
Sigma = 20,6
Wat gaan we doen?
-
Stel een nulhypothese op: Het populatiegemiddelde is niet gestegen (sigma = 27,1)
Wat is dan de kans (p) dat we in 1930 met een willekeurige steekproef toevallig een
steekproefgemiddelde van 28,4 of hoger vinden?
Als deze kans p <0,05 dan verwerpen we de nulhypothese (en nemen we de alternatieve hypothese aan
>27,1)
Hoe kunnen we deze kans p berekenen?
lOMoARcPSD
Centrale limiet theorie
Wat zijn de waarden van x en sigma van de steekproef?
x 

n

20 ,6
 0,65
1000
   x  27,1
= Standaardfout
Om de kan te berekenen wordt gebruik gemaakt van de z-score.
X = 28,4
Mu = 27,1
Sigma = 0,65
Steekproefverdeling (centrale limietstellig)
De steekproefverdeling is ongeacht de populatieverdeling een normale verdeling.
De standaardfout is de sigma (sigma/wortel n).
We gaan ervan uit dat het gemiddelde hetzelfde is gebleven. (27,1)
Z-toets voor gemiddelde
VOORBEELD  ZIE SCHRIFT
Significantieniveau
Twee soorten fouten bij het al dan niet verwerpen van de nulhypothese
Werkelijkheid
Onze beslissing
H0 is waar
H1 is waar
H0 wordt niet verworpen
OK
Type 2 is fout (beta)
H0 wordt verworpen
Type 1 fout (alfa)
OK
Er kunnen eenzijdige of tweezijdige centrale limietstellingen voorkomen.
Tweezijdige z-toets
H0: mu = 30
H1: mu =/ 30
Geen verwachting richting  tweezijdige p-waarde
x 1
f (x )
+1,96
-1,96
 xx 0
x
Eenzijdig
H0: mu = 30
H1: mu < 30 of H1: mu . 30
Wel verwachting richting  eenzijdige p-waarde
lOMoARcPSD
x 1
f (x )
f (x )
x 1
+1,66
-1,66
 xx 0
x
 xx 0
x
Betrouwbaarheidsinterval
x  z  x
Van een bepaald type batterij is bekend dat de gebruiksduur kan worden weergegeven
door de kansvariabele x die een onbekende verwachtingswaarde mu heeft, terwijl de
sigma = 6
Voor n = 60 batterijen wordt vervolgens de gebruiksduur bepaald. Dit levert een
gemiddelde op van x =44 uur
Voor het populatiegemiddelde mu vinden we als 99% betrouwbaarheidsinterval
lOMoARcPSD
Hoorcollege 4
we hoeven niet te weten hoe de populatieverdeling eruit ziet, de steekproefverdeling is
namelijk altijd normaal verdeeld.
z-toets: enkelvoudig (voorbeeld zie schrift)
enkelvoudige steekproef
als het gemiddelde van de steekproef hoger is dan het gemiddelde van de
populatieverdeling, en je wil toetsen of het gedaald is. Hoef je het niet te toetsen. De
alternatieve hypothese kan dan al niet meer weer zijn en je kan per definitie H1
verwerpen en H0 aannemen.
Steekproefgrootte bepalen
Zie schrift  voorbeeld
Bernoulli-verdeling
Hierbij krijg je bij de som, net als bij een normale verdeling, ook een normale verdeling
voor de som.
Als je de som neemt van bernoulli-verdelingen, krijg je een Binomial verdelen met (n,p)
= (5;0,4)
Vergelijk met BIN(5,0.4)
Centrale limiet theorie
Populatieverdeling:
 2  p * (1  p)  0,24
Steekproevenverdeling van de som:
s 2 = n * p *(1- p) = 2, 4
Steekproevenverdeling van het gemiddelde:
 2 p * (1  p)
 2x 

 0,024
n
n
Je kan ook de sigma gebruiken
Populatieverdeling:
  p * (1  p)  0,24
Steekproevenverdeling:
x 

n

p * (1  p )
n
Z-toets op proportie

0,24
10
lOMoARcPSD
In plaats van dat sigma gegeven is, kan je de sigma zelf berekenen (er is sprake van een
Bernoulli-verdeling).
Hiermee bereken je ook de sigma van de steekproevenverdeling en kan je een bepaalde
steekproefwaarde berekenen.
Betrouwbaarheidsinterval voor proportie
Kan je hetzelfde bepalen als dat je het voor een gemiddelde bepaald.
Studieuren
Een aselecte steekproef van N = 145
Gemiddeld aantal uur besteed aan studie (x streepje) = 28,3
Nulhypothese: het populatiegemiddelde voor u_studie = 30 uur
Alternatieve hypothese: het populatiegemiddelde voor u_studie is niet gelijk aan 30 uur.
We gebruiken de steekproef-standaarddeviatie omdat we de populatiestandaarddeviatie niet weten. Om dit te corrigeren gebruiken we de student tdistributie.
T-verdeling versus normale verdeling
Hoe minder vrijheidsgraden K (N=1), dus als je steekproef kleiner is en onzekerder, zijn
de staarten veel dikker (dit is om rekening te houden met de onzekerheid van de
standaarddeviatie).
Bij N=30 krijg je een redelijke normaal verdeling.
SPSS werkt bijna nooit met de normale verdeling  dus altijd t-toets in SPSS (z-toets is
niet mogelijk).
Bepalen toetsingsgrootheid
De z-waarde en de t-waarde zijn precies hetzelfde, maar je gebruikt een andere formule
om de kans te bereken.
t
x  x
x
dezelfde formule als voor de z-toets.
In excel gebruiken we:
TVERD(x; vrijheidsgraden; zijden)
Je kan je antwoorden controleren in SPSS.
Standaardfout van de standaarddeviatie steekproefverdeling (std. Error mean).
VOORBEELD
lOMoARcPSD
Betrouwbaarheidsinterval obv t-waarde
Vrijheidsgraden = aantal steekproeven – 1
Je hebt niet bijzonder grote steekproeven nodig om toch iets met redelijke
betrouwbaarheid over de populatie te zeggen.
lOMoARcPSD
Hoorcollege 5
Eenzijdige t-toets
Omdat we de populatie standaarddeviatie niet weten (sigma) gebruiken we de
steekproef standaarddeviatie. Om voor deze schatting te corrigeren gebruiken we de
student t-distributie.
Vrijheidsgraden: N -1
Begrippen
Steekproevenverdeling: dit geeft aan hoe de waardes van de getrokken steekproef
verdeeld zijn in een grafiek. Met heel veel steekproeven
Standaardfout: de standaarddeviatie van de steekproevenverdeling
T-waarde:
p-waarde: de kans dat een bepaalde waarde die groter of kleiner is dan een gegeven
waarde voorkomt.
Alpha: de waarde waar je de p-waarde mee vergelijkt. Het minimaal geaccepteerde
onzekerheid die voor mag komen in de verdeling zodat je de nulhypothese aanneemt of
verwerpt. Als de nulhypothese groter is dan de alpha wordt deze hypothese
aangenomen, in het andere geval wordt de alternatieve hypothese aangenomen.
Gepaarde t-toets
met twee reeksen
Voor
Na
68
81
75
73
73
68
70
74
95
78
77
67
86
85
82
90
1. maak een nieuwe variabele met het verschil
2. gemiddelde verschil (1,25)
3. sd: standaarddeviatie van het verschil berekenen sd(s)
ZIE EXCEL
In spss:
1. analyze
2. compare means
3. paired sample T-test
4. beide selecteren
compute variable
target variable: verschil
voor – na
nu uitvoeren: one simple t-test
Je test value is nu 0  Je krijgt dezelfde waarden als bij een paired sample t-test.
Ongepaarde t-test (gelijke variantie)
Onafhankelijke steekproeven. De variabelen komen uit twee verschillende groepen. Is er
een verschil in gemiddeldes tussen de beide reeksen?
lOMoARcPSD
Neem aan dat de verdelingen gekenmerkt worden door even grote (gelijke) varianties.
Je kan van beide reeksen het gemiddelde berekenen, en het verschil van de twee
gemiddeldes
Ongepaarde t-test (ongelijke variantie)
Moeilijke formule voor het aantal vrijheidsgraden.
Zijn de onbekende varianties gelijk?
Levene’s test for equality of variances
- hij berekent de f-waarde (ene variantie gedeeld door de andere variantie)
- als deze waarde groot is (groter is dan 1), dan verschillen de varianties van
elkaar
- bij bijvoorbeeld een 0,153 voor f-waarde zijn de varanties gelijk
- als de p-waarde kleiner is dan 0,05 (sig) dan de onderste rij
- anders de bovenste rij dus als sig > 0,05 (ook wel de p-waarde)
lOMoARcPSD
Hoorcollege 6
De formules voor t-toetsen herkennen (niet uit je hoofd kennen) alleen voor de t-toets
voor mu, moet je de formules wel uit je hoofd kennen.
Twee soorten fouten bij het al dan niet verwerpen van de nulhypothese:
Type 1 : H0 wordt verworpen, terwijl H0 wel waar is
Type 2 : H0 wordt niet verworpen, terwijl H1 waar is
Kanskapitalisatie
Als je meerdere toetsen achter elkaar doet, ontstaat er kanskapitalisatie.
1- P(x=geenfouten) = 1 – (1-0.05)^6 = 1 – 0,74 = 0,26
Dit is de kans dat je tenminste één fout maakt van type 1.
Variantie-analyse
Oplossen met: variantie-analyse  ANOVA (Spss)
Gebruiken als je drie of meer groepen wil vergelijken
Uitgangspunt: de variantie van de afhankelijke variabele (bijvoorbeeld opdracht 3)
Oorzaak en gevolg  onafhankelijke en afhankelijke variabelen.
Voorbeeld:
Toets of de groepsgemiddelde van
afstand tot winkelcentrum
verschillen van 3 gebruikte
vervoerswijzen (auto, fiets en OV)
Variantie-analyse
Variantie-analyse gebaseerd op de variantie (formule uit college 1)
Totale variantie uitsplitsen in:
- tussengroepsvariantie
- binnengroepsvariantie
- totale variantie = tussengroepsvariantie + binnengroepsvariantie
MSG = Mean Sum of Squares of Groups
MSE = Mean Sum of Squares of Errors
Tussengroepsvariantie (MSG): afstand berekenen van groepsgemiddelde met overall
gemiddelde, hiervan de som nemen en delen door (p-1). P is hier het aantal groepen.
p
MSG 
 n (x  x)
i 1
i
2
i
p 1
Binnengroepsvariantie: heeft te maken met de afwijking. Hoe breder het bereik van een
groep, hoe groter de afwijking kan zijn maar hoe betrouwbaarder de f-waarde zal zijn.
lOMoARcPSD
n1
MSE 
 (x
j 1
1j
np
n2
 x1 )   ( x2 j  x2 )  ... ( x pj  x p ) 2
2
2
j 1
j 1
n p
F-waarde
F-toetsgrootheid
F = tussengroep/ binnengroep
F
MSG
MSE
H0: F = 1, waarden van F dicht bij 1 suggereren dat de groepsgemiddelden niet van
elkaar verschillen
H1: F > 1, waarden die verder van 1 liggen, suggereren dat de variatie in
groepsgemiddelde groter is dan de variatie binnen groepen, hetgeen de alternatieve
hypothese ondersteunt.
F-verdeling:
F > 1: verwerpen van H0, groepsgemiddelden zijn ongelijk
F
MSG Tussengroep  groot

 groot  1
MSE Binnengroep  klein
F < 1: aannemen van H0, groepsgemiddelden zijn gelijk aan elkaar
F
MSG Tussengroe p  klein

 klein  1
MSE Binnengroep  groot
SPSS
Analyze
Compare means
One-way anova
Toevoegen van factor (vervoersmiddel)
Dependent list (afstand)
Descriptives: opvragen bij opties
lOMoARcPSD
Voorbeeld
Dependent: cijfers opdracht 3
Factor: cohort
Experiment
Heeft een bepaald medicijn een positieve invloed op het chlesterolgehalte. Er zijn 3
groepen, met A 5 patienten, B 3 patienten en C 4 patienten.  H0 blijft behouden
Een f-waarde kan je controleren in SPSS. De waarden moeten onder elkaar staan en elk
een groepsnummer hebben. Geef de variabelen een naam en bereken de ANOVA. Er kan
nu gecontroleerd worden of je het goed gedaan hebt.
Post hoc tests (SPSS)
Wat weten we nu wel/niet?
- er zijn verschillen in gemiddelden tussen groepen
- maar welke groepen verschillen significant van elkaar?
Post hoc tests:
- alle paren van groepen worden vergeleken
- met strengere alpha dan t-toest (correctie door kanskapitalisatie)
- er zijn verschillende correctie methoden voor alpha
- in deze modulen kiezen we voor ‘Bonferroni’
NB. Alleen post-hoc test als F-waarde significant is (p,0,05)
Keuze analysetechniek
Is afhankelijke van:
- het aantal variabelen (1 of 2)
- de meetniveaus van de (onafhankelijke en afhankelijke) variabele(n)
- de verdeling van de variabele (bij N < 30 moet de variabele normaal verdeeld
zijn)
Wat zijn de meetniveaus?
Hoe controleer je de verdeling?
Meetniveaus
Nominaal meetniveau:
cijfers duiden alleen dat er te onderscheiden categorieën zijn (groepen of klassen)
Voorbeeld: herkomst
1= VS; 2 = Europa; 3= Japan
is gelijk aan 2 = Japan; 3 =VS; 1= Europa
dichotoom: variabele nominaal meetniveau met slecht 2 categorieën (geslacht: 1 vrouw,
2 man)
Ordinaal meetniveau
Er is wel een ordening, maar je kan niet zeggen wat de verschillen zijn tussen de
opeenvolgende categorieën.
lOMoARcPSD
Voorbeeld:
1 mavo; 2 havo; 3 vwo = 2 mavo; 5 havo; 7 vwo (ordening is belangrijk)
interval meeniveau
ordening met gelijke afstand, maar geen absoluut nulpunt
voorbeeld:
wel: verschil 20 graden – 10 graden = 2 x (15 graden – 10 graden)
Maar niet: als temperatuur daalt van 20 graden naar 10 graden is het 2 maal zo koud
Vanaf dit meetniveau zijn gemiddelde en mediaan zinnig.
Ratio meetniveau
Ordening & gelijke intervallen
Absoluut nulpunt
Voorbeeld: geld, kilometers, temperatuur in graden Kelvin (absoluut nulpunt)
Discreet: nominaal en ordinaal
Continu: interval en ratio
Normaliteitsassumptie
Voorwaarde bij t-testen en variantie-analyse (patametrische toetsen)
Als je N < 30, dan moet je verdeling normaal verdeeld zijn. Als dit niet het geval is of als
je een ordinale variabele hebt gebruik je een ‘’niet-parametrische toets’’.
Controle normaliteit
1. visuele inspectie histogram
2. kolmogorov-Smirnov toetsen:
K-S toets
Ho wordt met een p-waarde van 0,000 (<0,05) verworpen
H1 wordt aangenomen
Je moet hiervoor kijken naar de significantie
lOMoARcPSD
Hoorcollege 7
Relatie tussen continue variabelen
Voorbeeld:
Open auto.sav
Graphs/legacy dialogs / scatter / simple
Bekijken in auto.sav (verband tussen gewicht en het brandstofverbruik)
- afhankelijke variabele komt op de y-as
- onafhankelijke variabele komt op de x-as
- kunnen we dit verband generaliseren naar de populatie?
- wat is de vorm van het verband?  waar snijdt hij de y-as, gebruiken om te
voorspellen (regressie)
- als je een lijn door de lijn heen schat, wat is dan de variantie die overblijft (hoe zitten
die punten om die lijn heen)
regressie-analyse: lijn die het beste bij de punten past.
Sterkte verband: correlatiecoëfficiënt
Covariantie
n
i 1
i
 x )( y i  y )
16
14
12
10
n 1
afstand tot winkelcentrum
COV ( X , Y ) 
 (x
is een maat voor de sterkte van een lineaire relatie tussen X en Y:
8
6
4
2
0
1000
2000
3000
4000
5000
6000
7000
netto maandinkomen huishouden
Positieve relatie: cov(X,Y) > 0
Negatieve relatie: cov(X,Y) < 0
gemiddeld aantal winkelbezoeken per maand
12
De covariantie lijkt qua formule erg op de formule van de variantie
11
10
9
8
7
6
5
4
3
2
1
0
0
2
4
6
8
10
12
14
16
afstand tot winkelcentrum
Nadeel covariantie
Grootte hangt af van de schalen waarop X en Y gemeten zijn (x = gewicht in kg, y =
brandstofverbruik in liter/1000 km). Dit kan genormaliseerd worden met een formule
voor r. R is de correlatiecoëfficient
 ( X ,Y )  r 
COV ( X , Y )
sx s y
Covariantiedelen door productie van de standaarddeviatie. De correlatiecoëfficient heeft
altijd een waarde -1 en 1.
lOMoARcPSD
Correlatiecoefficient
r >1  positieve lineaire relatie (de lijn loopt van linksonder naar rechtsboven)
r < 0  negatieve relatie (de lijn loopt van linksboven naar rechtsonder)
r = 0  geen relatie of niet-lineaire relatie
Het toetsen van de correlatiecoefficient
H0: geen relatie tussen X en Y
H1: twee zijdige relatie; eenzijdige positieve relatie tussen X en Y of eenzijdige negatieve
relatie tussen X en Y.
Schatten van correlatiecoefficient o.b.v steekproef. De verdeling van r is niet bekend
maar wordt benaderd met een t-waarde:
n2
*r
1 r2
T=
De student-t-distributie met (n-2) vrijheidsgraden (df)
Dus Student-t-test om de nulhypothese te testen
P (X,Y) = 0
SPSS:
Open auto.sav
Analyse/correlate/bivariate
Gewicht en brandstofverbruik toevoegen
Options: “cross-product deviations and covariances”
R = pearson Correlation = 0,0886
Covariantie = covariance = 1300,15
Nulhypothese wordt verworpen (0,000 < 0,05)
Casus
H0: er is geen relatie tussen het cijfer voor opdracht 1 en het cijfer voor opdracht 2 in de
populatie
H1: er is een positieve relatie tussen het cijfer voor 1 en het cijfer voor 2
Hoe sterk is het verband?
Mag het verband gegeneraliseerd worden naar de populatie
1. alles invullen
2. gemiddelde berekenen
3. beren (xi – x ) en (yi – y )
4. vermenigvuldig dit per persoon
5. productensom hiervan nemen
6. bereken de covariantie
7. correlatie berekenen
8. t-waarde berekenen
9. p-waarde
Eenzijdig toetsen
lOMoARcPSD
Samenvatting correlatie
Maatstaf voor het teken en sterkte van een relatie tussen 2 variabelen van tenminste
intervalmeetniveau.
Teken (+/-)
- positief: lage waarden van X gaan gepaard met lage waarden van Y.
- Negatief: lage waarden van X gaan gepaard met hoge waarden van Y
Sterkte
Waarden dichter bij +1 of -1 indiceren sterkere lineaire relatie tussen X en Y.
Enkelvoudige regressieanalyse
Enkelvoudig: 1 voorspellende variabele en 1 afhankelijke variabelen
Regressie: welke vorm heeft het verband (waar snijdt hij de y-as). De helling van deze
lijn is b1. Doel is voorspellen!
y  b0  b1 x  
bestaat uit
e = error = ŷ - yi
yˆ  b0  b1 x
en
Met steekproefwaarden b0 en b1 schatten.
Met een regressielijn probeer je de errors te minimaliseren  de kleinste
kwadraatmethode.
Je probeert de kwadraten van de error termen te minimaliseren.
Je kan het partieel differentiëren naar b0 en b1. (KENNISCLIPS)
Minimaliseren kan met de volgende formule:
n
 b
0
i 1
 b1 xi   yi 
2
Belangrijk: als je dit doet met 1 voorspeller, worden de formules eigenlijk gegeven door:
n
b1 
 x  x  y
i
i 1
n
 y  /(n  1)
i
 x  x 
i 1
2
i
/(n  1)
b0  y  b1 x
Met y (dakje), de voorspelde waarde, kan je door een x in te vullen een waarde schatten.
lOMoARcPSD
Spss, regressie
Analyse/regression/lineair
Afhankelijk: brandstofverbruik (dependent)
Onafhankelijk: gewicht (independenten)
OK
Model fit  hoe precies voorspelt het regressiemodel?
Verklaarde variantie
Gerelateerd aan de correlatie. Zegt iets over hoe goed de voorspelling is van je
regressiemodel. Als je geen info hebt over onafhankelijke variabele x, het gemiddelde
gebruiken om de waarde van Y te voorspellen. Deze lijn is dan de beste voorspelling. De
afstand van punt tot lijn is te zien als de totale fout (SStotal).
(SSreg) is het verklaarde deel. Is de afstand van regressielijn tot lijn
(SSer) is het onverklaarde deel. Is de afstand van regressielijn tot punt.
De voorspelde waarden zijn de waarden die op de regressielijn liggen Y streepje.
SStotal = SS reg + SS er
n
n
2
i
i 1
= i 1
 y
 y
  yˆ i  y 
n
2
  y  yˆ 
2
i
i
i 1
+
Deel van de variantie in Y dat verklaard wordt door waarden van de onafhankelijke
variabele x
R2 = SSreg / SStotal
R-square = R-kwadraat = (correlatiecoefficient)^2
De waarden liggen tussen 0 en 1. Hoe dichter de waarde bij 1 ligt, hoe preciezer je
voorspelling is.
Model summary
R = absoute waarde van correlatiecoëfficiënt
R square = verklaarde variantie (geeft het percentage aan wanneer 2 variabele een
verband hebben  verklaard, voorspellende kracht van het model). De
voorspellingsfout neemt af.
Proportie verklaarde variantie
1. bereken de covariantie
2. bereken de correlatie
3. doe de regressieanalyse
4. gebruik de antwoorden om de proportie verklaarde variantie te bepalen.
SPSS  multiple regressie
Open ‘cijfers opdracht 1-3.sav’
Analyse/regression/lineair
Dependent: opdracht 3
Independents: opdracht 1 en 2
lOMoARcPSD
F-test
H0: B1 = B2 = Bn = 0
H1: tenminste 1 Bi =/ 0
Dit is de correctie voor kanskapitalisatie
Voorwaarden regressieanalyse
1. lineaire relatie (controle scatterplot)
2. constante variantie (controle scatterplot)
3. normale verdeling van residuen of N>100
4. geen outliers / leverage point
Invloedrijke punten
Punten die buiten het algemen patroon vallen:
- niet altijd slecht
- identificeren en invloed onderzoeken
2 soorten
1. Uitbuiters/outliers: cases met grote residuen (voorspellingsfouten_
2. Leverage (hefboom) punten: sterk afwijkende waarden op onafhankelijke variabelen
Samenvatting
Correlatie: sterkte en richting van een verband; gestandaardiseerd
Covariantie: ongestandaardiseerd
Regressiecoëfficiënt(b1): de verandering in Y bij 1 eenheid verandering in X
Regressieconstante (b0): voorspelde waarde van Y bij X=0
Variantie: kan gebruikt worden als indicator voor voorspellingsfout
R-square/R-kwadraat: de reductie in voorspellingsfout t.o.v gemiddelde van Y; bij
enkelvoudige regressie  R^2
lOMoARcPSD
Hoorcollege 8
Meetniveau bepaalt de test die je moet doen.
Kruistabel en Chi-kwadraat toets
Relatie tussen 2 variabelen van nominaal niveau. (verschilt de verdeling van
woonsituatie (uitwonend of thuiswonend) tussen mannen en vrouwen (geslacht)).
Analyze/Descriptive statistics/ crosstabs
Row: geslacht
Column: woonsituatie
Cells  percentages (rows)
Rijen zijn onafhankelijke variabele, kolommen zijn afhankelijke variabele.
Als je de relatie tussen twee nominale variabelen orienteert, moet je kijken naar de
percentagess (cells  percentage).
Je percenteert over de rijen (horizontaal) en kijkt verticaal naar de kruistabel. Nooit
absolute aantallen, maar percentages.
Er is in dit geval een verschil (vrouwen meer uitwonend dan mannen):
STAPPENPLAN
Chi-kwadraat
Gebaseerd op het verschil in de verwachtte en geobserveerde frequentie. De verwachte
frequenti
Verwachte frequentie: de frequentie die zou zijn verkregen als de verdeling van
uitwonend/thuiswonend onafhankelijke is van geslacht.
Hoe zou de verdleing eruit zien bij onafhankelijkheid?
Als geslacht (a) en woonsituatie (b) onafhankelijk zijn dan geldt:
P (A = man en B=thuiswonend ) = 13,5 %
Als je dit vermenigvuldigt met het totaal krijg je de verwachte frequentie: 0,135 * 143 =
19,3
Algemeen: rijtotaal * kolomtotaal / generaal totaal
SPSS
Analyze/descriptive statistics/crosstabs
Cells : expected
Chi-kwadraat berekenen
Formule:
Bereken het verschil tussen de verwachte en de geobserveerde frequentie.
lOMoARcPSD
De waarde geeft aan hoe groot het verschil is tussen de verwachtte en geobserveerde
frequentie. Als deze heel groot is, zal de onafhankelijkheid steeds kleiner worden.
Vrijheidsgraden = het aantal datapunten wat te kiezen valt zonder dat je daardoor
andere datapunten vastlegt.
Df = (N rij – 1 ) * (N kolom – 1 )
Chi-kwadraat verdeling
De standaard normaal verdeling in het kwadraat. Het is namelijk de som van kwadraten
van K standaardnormaal verdeelde variabelen met Df = k = 1
Met mu = 0 en sigma = 1
Berekende chi-kwadraat in steekproef
- geeft aan hoe groot de kans is dat we een dergelijke Chi-kwadraat of groter
vinden, gegeven dat de nulhypothese klopt
- als deze klein is, dan geloven we niet meer dat de variabelen onafhankelijk van
elkaar zij.  SIGNIFICANT
Resultaat chi-kwadraat
SPSS: crosstabs
Statictics: square
Je kan alleen eenzijdig toetsen want je hebt geen inzicht over de richting van het
verband.
Pearson Chi-square – value = chi-kwadraat = 3,125
P –waarde = asump. Sig. = 0,077
H0: … en .. zijn onafhankelijk
H1:… en. …. Zijn afhankelijk
Opdracht – kranterverkoper
Zie schrift
H0 blijft behouden en H1 wordt verworpen
Kritieke grenswaarde: de waarde van de toetsingsgrootheid waarbij je H0 zou gaan
verwerpen. Dit kan je berekenen door de inverse van 0,05 te nemen.
CHIKW.INV(0.95;4;1) = 9.4877
0.95 omdat we het linkerdeel van de grafiek berekenen. Het kritieke gebied ligt op 5%
van het rechterdeel.
Niet-parametrische toets
- verdelingsvrije toets (verondersteld geen normale verdeling)
- gebruik je voor:
o variabelen van ordinaal meetniveau
o continue variaben met groepsgrootten N<30 en geen normale verdeling
- principe: geobserveerde waarden worden vertaald naar rangnummers
(afstanden spelen geen rol)
lOMoARcPSD
elke parametrische toets heeft een equivalente niet-parametrische toets. (weten waar te
vinden in spss).
Wilcoxon signed rank test
Tegenhanger van de t-toets voor bekend gemiddelde
Voorwaarden:
- 1 steekproef
- variabelen van ordinaal meetniveau
wilcoxon test:
- mediaan
voorbeeld
lOMoARcPSD
VOORBEELDEN TENTAMENVRAGEN
1. toets (met a = 0,05) met een parametrische toets of er een verband is tussen geslacht
en lichaamslengte. De verwachting is dat mannen gemiddelde langer zijn dan vrouwen.
H0: gemiddelde man = gemiddelde vrouw
H1: gemiddelde man > gemiddelde vrouw
Geslachte = nominaal en onafhankelijk
Lichaamslengte = rationiveau en afhankelijk
Explore/ geslacht factor list, lengte dependent list / normally plots with tests en
histogram aanvinken
Mannen 40 > normaal verdeeld
Vrouwen < 30; controleren
Kolmogorov smirnov:
Vrouwen: p = 0,2; H0 blijft behouden
Je voldoet aan de voorwaarden
Uitvoeren: analyze/compare means / independent t-test
Geslacht = onafhankelijk
Lengte = afhankelijk
OK
Kijken of varianties gelijk zijn: gelijk (p = 0,9) en hoeft niet verworpen te worden.
Uitgaan van gelijke varianties.
Als je de toetsingsgrootheid moet rapporteren, rapporteer je de t-waarde (8,…). H0
wordt verworpen en H1 wordt aangenomen.
SIg. (2-tailed) wordt altijd gegeven, als je eenzijdig moet toetsen moet deze nog door 2
gedeeld worden, in dit geval maakt dat niet uit want hij is al 0, en H0 zal dus al
verworpen worden.
Als je niet aan de voorwaarden had voldoen (vrouwen steekproefgrootte is kleiner dan
30 en niet normaal verdeeld) dan mag je geen parametrische toets meer uitvoeren. Dan
moet je de Mann Whitney U toets (= Wilcoxon toets) uitvoeren
2. Toets (met a = 0.05) met een parametrische toets of studenten statistiek
noodzakelijker vinden voor een TB-er (Statistiek_D) in algemene zin (statistiek_C)
meetniveau = inteval-niveau
2 variabelen van continu meetniveau. Het is een meetniveau met onafhankelijke
variabelen, van ordinaal/continu. Meetniveau afhankelijke variabele is continu er is
sprake van een verschil dus een gepaarde t-toets.
H0: gemiddelde TB = gemiddelde algemeen
H1: gemiddelde TB > gemiddelde algemeen
lOMoARcPSD
We toetsen weer eenzijdig. We willen weten of het gemiddelde voor tb-ers groter is dan
het gemiddelde in algemene zin.
Voorwaarden:
Explore
C en D in dependent list
De steekproefgrootte is 93 , het maakt niet uit of hij normaal verdeeld is of niet (CLS)
Analyze/compare means/ paired t-test
Als paar toevoegen
T = -3,070
Df = 92
Sig(2-tailed) = 0,003 / 2 = 0,0015
Eenzijdig is 0,0015 < 0,05 er is een significant verschil. Dus H0 verwerpen
3. toets met een parametrische toets of het cijfer cohort een significante invloed heeft op
het cijfer voor opdracht 2.
Meetniveau:
Cohort (4 jaren) dus meer dan 2 groepen: nominaal
Opdracht 2: ratio-niveau
Het zijn meer dan 2 groepsgemiddelden, en om een type 1 –fout te voorkomen
gebruiken we de variantie-analyse
H0: gemiddelde 1 = gemiddelde 2 = gemiddelde 3 = gemiddelde 4
H1: minimaal 2 gemiddelde zijn ongelijk aan elkaar.
Post-hoc is vanwege kanskapitalisatie
Voorwaarden:
Steekproefgrootte moet groter dan 30 of normaal verdeeld.
Explore: cohort = factor list
Opdracht 2 = dependent list
KS-toets
Bij de 4e toets is Sig. Groter dan 0,05,maar je kan niet zeggen dat de variabele niet
normaal verdeeld is  variantie-analyse uitvoeren
One-way ANOVA
Afhankelijk: opdracht 2
Onafhankleijk = cohort
Post-hoc en bonferonni.
Opties:
lOMoARcPSD
F-waarde is 8,552 en SIg. Is 0,000
H1 wordt aangenomen en H0 wordt verworpen.
Post Hoc test vergelijkt alle groepen met elkaar
Eerste en tweedejaars/derdejaars verschillen ergs van elkaar
Tweede en derde jaars niet
POST HOC  VARIANTIE-ANALYSE
Toets die je zou moeten uitvoeren als je er niet aan voldeed: Kruskal-wallis toets
TENTAMEN
Vragen van huiswerkopdracht
Voorbeeld tentamenvragen
Inzichtvragen (begrip van het hele toetsverhaal)
Geef een uitleg van alle theoretische en wiskudige stappen achter de one-sample t-toets.
Betrek in je antwoord de termen populatiegemiddede, populatievariantie/-SD,
Download