Statistiek in de Praktijk

advertisement
Statistiek in de Praktijk - samenvatting
Wim Muskee
11 maart 2005
Vrij naar het boek van Moore & McCabe
Inhoudsopgave
1 kijken naar gegevens - verdelingen
1.1 weergeven van verdelingen met grafieken
1.1.1 verdeling kwalitatief: . . . . . . .
1.1.2 verdeling kwantitatief: . . . . . .
1.2 verdelingen beschrijven . . . . . . . . . .
1.3 normale verdelingen . . . . . . . . . . .
1.3.1 dichtheidskrommen . . . . . . . .
1.3.2 normale verdelingen . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
4
5
7
8
8
2 kijken naar gegevens - relaties
2.1 spreidingsdiagrammen . . . . . . . . . . . . . . . .
2.2 correlatie . . . . . . . . . . . . . . . . . . . . . . .
2.3 kleinste-kwadraten methode . . . . . . . . . . . . .
2.4 gebruik en beperkingen van regressie en correlatie .
2.5 relaties tussen kwalitatieve variabelen . . . . . . .
2.6 oorzaak en gevolg . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
10
10
11
12
13
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 vergaren van gegevens
4 kansrekening - de studie van het toeval
4.1 toeval . . . . . . . . . . . . . . . . . . . .
4.2 kansmodellen . . . . . . . . . . . . . . . .
4.3 stochastische variabelen . . . . . . . . . .
4.4 verwachting en variantie van stochastische
4.5 de wetten van de kansrekening . . . . . .
14
. . . . . .
. . . . . .
. . . . . .
variabelen
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
15
16
17
5 van kans naar inferentie - aantallen en fracties
19
5.1 aantallen en fracties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 steekproefgemiddelden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6 inleiding tot inferentie
21
6.1 schatten met betrouwbaarheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.2 significatietoetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
6.3 gebruik en misbruik van toetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7 inferentie voor verdelingen
25
7.1 inferentie voor de verwachting van een populatie . . . . . . . . . . . . . . . . . . 25
7.2 inferentie voor twee verwachtingen . . . . . . . . . . . . . . . . . . . . . . . . . . 26
7.3 inferentie voor populatiespreiding . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
8 inferentie voor telgegevens
28
8.1 inferentie voor een enkele fractie . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
8.2 vergelijken van twee fracties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
9 inferentie voor kruistabellen
30
9.1 kruistabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
9.2 formules en modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10 inferentie voor regressie
33
10.1 enkelvoudige lineaire regressie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
10.2 details . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
11 één-factor variantie-analyse
37
11.1 ANOVA procedure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
11.2 voorbeeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
12 sheets div.doc
40
3
1
kijken naar gegevens - verdelingen
inleiding
• Individuen zijn objecten die beschreven worden door een gegevensverzameling.
• Een variabele is een eigenschap van een individu. Een variabele kan verschillende gegevens
uitdrukken voor verschillende individuen.
• Een kwalitatieve variabele plaatst het individu in een of meer categoriën.
• Een kwantitatieve variabele geeft een bepaalde hoeveelheid aan over een individu. Dit
is een numerieke waarde.
• De verdeling van een variabele geeft aan welke waarde aangenomen wordt en hoe vaak
deze waarden aangenomen worden.
Een database met studentengegevens. De individuen zijn de studenten. De
variabelen zijn bijvoorbeeld ‘geslacht’, ‘geboortedatum’ en ‘woonplaats’. Geslacht en woonplaats zijn kwalitatieve variabelen en geboortedatum een kwantitatieve. In een database zijn rijen simpelgezegd de individuen en de kolommen
zijn de variabelen.
Bij een statistisch onderzoek zijn de volgende belangrijk om te stellen:
1. Waarom? Welk doel dienen de gegevens? Kunnen we de juiste conclusies trekken uit de
gegevens die we hebben?
2. Wie? Welke individuen worden door de gegevens beschreven?
3. Wat? Hoeveel variabelen bevatten de gegevens? Wat is de definitie van die variabelen?
1.1
weergeven van verdelingen met grafieken
Verkenning van gegevens (de belangrijkste kenmerken vinden) wordt exploratieve data-analyse
genoemd. Er zijn twee basisstrategieën:
• Eerst elke variabele apart, vervolgens de verbanden tussen de variabelen.
• Eerst diagrammen, vervolgens numerieke aspecten.
1.1.1
verdeling kwalitatief:
De verdeling van een kwalitatieve variabele kan goed met staaf- of taartdiagrammen. Taartdiagrammen laten de relatie tot het geheel goed zien.
1.1.2
verdeling kwantitatief:
• Kennis van het meetinstrument is belangrijk om erachter te komen wat de definitie van
de gemeten variabele is.
• Vertellen de gemeten variabelen wat je wil weten? Soms is een relatief aantal gebeurtenissen, in relatie met de context, betekenisvoller dan een optelsom van het aantal gebeurtenissen.
• Het variatiepatroon van een variabele wordt zijn verdeling genoemd. De verdeling van een
kwantitatieve variabele legt de numerieke waarden van de variabelen vast en het aantal
keren dat de waarde voorkomt.
Verdelingen kunnen naast numeriek ook op een aantal grafische manieren weergegeven worden:
4
stamdiagram: Het maken van een stamdiagram is geen doel op zich. Het moet helpen de
gegevens beter te begrijpen en het hoeft niet wiskundig correct te zijn. Het moet de vorm van
de verdeling weergeven. De stam is het voorste getal en de bladeren het tweede getal in het
cijfer. Aan één stam kunnen meerdere bladeren zitten. Ook kunnen stammen verdeeld worden
om de bladeren beter te spreiden. Door een rug-aan-rug stamdiagram te maken, kun je twee
verdelingen vergelijken. Verdelingsonderzoek gaat als volgt:
• Kijk in het diagram naar het globale patroon en naar opvallende afwijkingen in het patroon.
• Je kunt de globale vorm van een verdeling beschrijven door zijn vorm, centrum en spreiding.
• Een belangrijk type afwijking is een uitschieter, een individuele waarde die buiten het
patroon valt.
• Mediaan is de (centrum)waarde waarbij de helft van de andere waarden hoger is en de
andere helft lager.
• De spreiding is het bereik tussen de hoogste en de laagste waarden.
• Een verdeling met één top wordt unimodaal genoemd.
• De vorm kan symmetrisch zijn of symmetrisch scheef. Scheef, als er meer waarden aan één
kant van het centrum liggen.
histogram: Vele aspecten van een stamdiagram gelden ook voor het histogram. Het verschil
is dat waar het stamdiagram bij de indeling afhankelijk is van het getalsysteem, je dit bij een
histogram zelf kunt bepalen. Vanwege het feit dat de vorm altijd afhankelijk is van de indeling
hoeft deze niet exact symmetrisch te zijn. De indeling moet zo gekozen worden dat de vorm
duidelijk wordt.
• Door relatieve frequenties te nemen in plaats van de frequenties ontstaat dezelfde vorm,
echter wel vergelijkbaar met andere gelijksoortige tellingen.
• Histogrammen worden gebruikt waar er meer gegevens zijn in de verdeling.
tijdreeksgrafieken: Deze grafieken laten de metingen zien in relatie tot de tijd. Dit kan de
de meetvolgorde zijn of in relatie tot de ‘absolute’ tijd. Strict genomen zijn tijdreeksen metingen
van een variabele in regelmatig, opeenvolgende tijdvakken.
• Een patroon in een tijdreeks dat zich steeds herhaalt op bekende regelmatige tijdsintervallen wordt een seizoensvariatie genoemd. Hoeft niet over seizoenen te gaan, kan ook
dagelijks of maandelijks zijn.
• Een trend in een tijdreeks is een aanhoudende lange termijn stijging of daling.
• Een indexcijfer stelt de gemiddelde waarde van een bepaalde periode op 100 procent. De
rest van de metingen wordt weergegeven in relatie tot dat cijfer.
• Een seizoenscorrectie is een bijstelling van de gemeten waarden in relatie tot de seizoensvariatie.
1.2
verdelingen beschrijven
Een korte beschrijving van een verdeling moet bestaan uit zijn vorm en cijfers die zijn centrum
en spreiding beschrijven. Let wel, de cijfers die we vergaren uit de waarden zijn geen antwoord,
louter hulpmiddelen om de situatie beter te beschrijven.
5
het gemiddelde: Is een maat voor het centrum. Om het gemiddelde van alle waarnemingen
te vinden moeten alle waarnemingen bij elkaar op worden geteld en gedeeld door het aantal
waarnemingen.
x1 + x2 + · · · + xn
x=
n
1X
xi
x=
n
Aangezien het gemiddelde sterk gevoelig is voor uitschieters in de waarnemingen is het geen
resistente maat van het centrum.
de mediaan: De volgende formule geeft de positie van de mediaan (Mp ) in een geordende
lijst. Als het aantal waarnemingen oneven is, is de mediaan een waarneming, als het aantal
even is, dan is de mediaan het gemiddelde van de twee getallen direct naast de positie van de
mediaan.
n+1
Mp =
2
meten van de verdeling: de kwartielen: De maat van het centrum geeft niet voldoende
informatie over de verdeling, de maat van de spreiding is ook nodig. De eenvoudigste nuttige
beschrijving van een verdeling bestaat zowel uit een centrummaat als een spreidingsmaat.
De spreiding of variabiliteit van een verdeling kan worden aangeduid door verschillende percentielen te geven. Het p-de percentiel van een verdeling is de waarde, zodaning dat p procenten
van de waarneming lager is of eraan gelijk is. De mediaan is de 50ste percentiel. Gangbare
percentielen zijn kwartielen (Q), de eerste als 25ste percentiel en de derde als 75ste . Wanneer
M bepaald is, is Q1 de mediaan van alle waarden links van M en Q3 de mediaan er rechts van.
Een eenvoudige maat voor de spreiding is de afstand tussen de kwartielen die het gebied aangeeft
waarbinnen zich de helft van de data bevindt. Deze afstand wordt de interkwartielafstand
(IKA) genoemd.
IKA = Q3 − Q1
Een waarneming is een verdachte uitschieter als deze tenminste 1.5 x IKA boven Q3 of onder
Q1 ligt.
de vijf-getallen-samenvatting en de boxplots:
• De vijf-getallen-samenvatting bestaat uit Q1 , Q2 , Q3 en de grootste en kleinste individuele
waarneming.
• Een boxplot is een grafiek van de vijf-getallen-samenvatting, waarbij verdachte uitschieters
individueel worden weergegeven.
– Q1 tot en met Q3 worden weergegeven door een rechthoek, door de lijn van Q2
gescheiden.
– Waarnemingen die meer dan 1.5 IKA buiten de centrale rechthoek vallen worden
afzonderlijk afgebeeld.
– Twee buiten de rechthoek lopende lijnen strekken zich uit tot aan de kleinste en
grootste waarneming die geen uitschieters zijn. Volgens de ‘whiskers’ methode gaat
dit van 5% tot 95% van alle waarnemingen.
verdelingen vergelijken: Boxplots kunnen het beste worden gebruikt om verschillende verdelingen met elkaar te vergelijken terwijl stamdiagrammen en histogrammen beter iets kunnen
vertellen over een enkele verdeling, zeker als bijbehorende numerieke gegevens worden verstrekt.
6
meten van de spreiding: de standaardafwijking: De standaardafwijking meet de spreiding door te kijken hoe ver de waarnemingen van hun gemiddelde zijn verwijderd. De variantie
s2 is het gemiddelde van het kwadraat van de afwijkingen van de waarnemingen van hun gemiddelde. De standaardafwijking is s.
s2 =
(x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2
n−1
1 X
(xi − x)2
n−1
r
1 X
s=
(xi − x)2
n−1
s2 =
Aangezien er altijd begonnen wordt met 1 waarneming van de n waarnemingen, kunnen de rest
van de waarnemingen, n − 1 vrij variëren ten opzichte van de eerste. Het getal n − 1 noemt men
het aantal vrijheidsgraden van de variantie of van de standaardafwijking.
• s meet de spreiding rondom het gemiddelde en dient alleen gebruikt te worden wanneer
het gemiddelde als centrummaat is gekozen.
• Alleen als er geen spreiding is, is s = 0. Dit gebeurt als alle waarnemingen dezelfde waarde
hebben. Anders is s > 0. Als de waarnemingen meer verspreid zijn rond hun gemiddelde
wordt s groter.
• s is net als x, niet resistent. Enkele uitschieters kunnen s erg groot maken.
het kiezen van centrum en spreidingsmaten: De vijf-getallen-samenvatting is over het
algemeen geschikter dan het gemiddelde en de standaardafwijking voor het gebruik van een
scheve verdeling of een verdeling met sterke uitschieters. Gebruik x en s alleen voor redelijk
symmetrische verdelingen zonder uitschieters.
Een grafiek is het beste middel om een algemeen beeld te krijgen van een verdeling. Numerieke
centrum- en spreidingsmaten geven bepaalde kenmerken weer van een verdeling maar beschrijven
niet de hele vorm.
de meeteenheid veranderen: De verandering van een meeteenheid is een lineaire transformatie van de metingen. Elke lineaire transformatie verloopt volgens de volgende formule:
xnew = a + bx
Lineaire transformaties hebben geen effect op de vorm van de verdeling. Door met b te vermeningvuldigen worden centrum- en spreidingsmaten met b vermenigvuldigd. Door optellen van
a worden de centrummaten veranderd maar de spreidingsmaten niet. Het verschil bijvoorbeeld
tussen Q1 en Q3 veranderd niet evenals de standaardafwijking.
1.3
normale verdelingen
Om te beginnen de basisstappen voor het analyseren van een kwantitatieve variabele met
daaraan toegevoegd een nieuwe vierde stap. De kromme is een wiskundig model, een geı̈dealiseerde
beschrijving van de verdeling.
1. Maak een grafische voorstelling van de gegevens.
2. Kijk naar het patroon en naar afwijkingen.
3. Bereken een numerieke samenvatting door spreiding en centrum te berekenen.
4. Is het patroon regelmatig genoeg, dan is deze te beschrijven door een gladde kromme.
7
1.3.1
dichtheidskrommen
Anders dan een grafische voorstelling van de daadwerkelijke waarnemingen, is een dichtheidskromme een model van de waarnemingen. Het globale patroon van de verdeling wordt beschreven,
niet de uitschieters. De oppervlakte onder de kromme en onder een willekeurig interval is de relatieve frequentie van alle waarnemingen die binnen dat interval vallen. Een dichtheidskromme
is een kromme . . .
• die zich altijd op of boven de horizontale as bevindt, en
• waarvan de oppervlakte eronder gelijk is aan 1.
• De mediaan van een dichtheidskromme is het punt dat de oppervlakte onder de kromme
in twee gelijke stukken verdeeld.
• De verwachting van de dichtheidskromme is het gemiddelde.
feitelijke waarneming
x
s
1.3.2
dichtheidskromme
µ
σ
normale verdelingen
Normale verdelingen zijn symmetrische, ééntoppige, klokvormige dichtheidskrommen. De exacte
dichtheidskromme voor een specifiek normale verdeling wordt vastgelegd door zijn verwachting
µ en zijn standaardafwijking σ. De punten waar de kromme van richting veranderd liggen op
afstand σ aan weerszijden van µ. De normale dichtheidskrommen worden door een speciale
formule gespecificeerd.
1 x−µ 2
1
√ e− 2 ( σ )
σ 2π
Er zijn drie redenen voor het belang van normale verdelingen.
1. Het zijn goede modellen voor sommige verdelingen van werkelijke data, vooral in grote
hoeveelheden.
2. Het zijn goede benaderingen van de uitkomsten van vele soorten toevallige uitkomsten.
3. Vele statische inferentie procedures, gebaseerd op normale verdelingen, werken goed voor
ruwweg symmetrische verdelingen.
De beslissing om een door een normaal model te beschrijven kan bepalend zijn voor de verdere
stappen in de analyse van de data. Verschillende berekening berusten op de modelkeuze en zo’n
keuze moet zorgvuldig gemaakt worden.
de 68-95-99.7 regel:
geldt dat ongeveer:
In de normale verdeling met verwachting µ en standaardafwijking σ
• 68% van de waarnemingen binnen afstand σ van verwachting µ ligt.
• 95% van de waarnemingen binnen afstand 2σ van verwachting µ ligt.
• 99.7% van de waarnemingen binnen afstand 3σ van verwachting µ ligt.
standaardisering: In feite zijn alle normale verdelingen identiek als de metingen worden
vericht met σ als eenheid van grootte en µ als het centrum. Het omzetten naar deze eenheden
wordt standaardisering genoemd en kan met de volgende formule. Als x een waarneming is uit
de verdeling, dan zegt z hoeveel standaardafwijkingen x van µ verwijderd is en in welke richting.
z=
x−µ
σ
Standaardisering is een lineaire transformatie die de gegevens in de standaard schaal van z-scores
omzet.
8
standaard normale verdeling: Het standaardiseren van een variabele die een willekeurige
normale verdeling heeft, geeft een nieuwe variabele die een standaardnormale verdeling heeft.
De standaardnormale verdeling is de normale verdeling N (0,1) met verwachting 0 en standaardafwijking 1. Als een variabele X een normale verdeling N (µ,σ) heeft, dan heeft variabele Z de
standaardnormale verdeling:
Z −µ
Z=
σ
Uit een normale verdeling N (166.4, 6.4) voor lengtes van jonge vrouwen komt
een vrouw met de lengte 176 cm voor. Haar gestandaardiseerde lengte is:
176−166.4
= 1.5. Ze zit 1.5 standaardafwijkingen boven de verwachting. Wan6.4
neer we dit gegeven opzoeken in tabel A1 , vinden we 0.9332. Oftewel, ongeveer
93.3% van alle jonge vrouwen is kleiner dan of net zo groot als haar.
We kunnen relatieve frequenties voor elke willekeurige normale verdeling bepalen, door standaardisatie toe te passen en tabel A te gebruiken.
normaal-kwantiel-diagram: Als een stamdiagram of histogram ruwweg symmetrisch en unimodaal lijkt, passen we het normaal-kwantiel-diagram2 toe. Hieronder het grondbeginsel van
de opzet ervan.
1. Rangschik de waarnemingen van klein naar groot en zet achter elke waarneming de percentiel.
2. Bepaal de z-scores voor elke percentiel. Bijvoorbeeld -1.645 voor de 5%.
3. Zet elke waarneming x uit tegen z. Als de gegevensverdeling dicht bij de standaardnormale ligt, zullen de getekende punten dicht bij de 45-gradenlijn van x = z liggen. Als
de gegevensverdeling dicht bij een willekeurige normale verdeling ligt, zullen de getekende
punten dicht bij een rechte lijn liggen. Uitschieters verschijnen als punten die ver verwijderd zijn van het globale patroon van de figuur.
2 normal
possible plots op z’n Engels
9
2
kijken naar gegevens - relaties
inleiding
samenhang: Twee variabelen gemeten bij dezelfde individuen hangen samen als sommige
waarden van één variabele vaker voorkomen bij bepaalde waarden van de tweede variabele dan
met andere waarden van de tweede variabele. Wanneer men de relatie tussen twee variabelen
onderzoekt zijn de volgende vragen belangrijk:
• Welke individuen worden door de data beschreven?
• Welke variabelen zijn er en hoe zijn ze gemeten?
• Welke variabelen zijn kwantitatief en welke kwalitatief?
• Is het de bedoeling eenvoudig de aard van het verband te ontdekken of hoopt men te
kunnen aantonen dat een van de variabelen de veranderingen in de ander kan verklaren?
Een te verklaren variabele meet de uitkomst van een onderzoek. Een verklarende variabele
poogt de waargenomen uitkomsten te verklaren. De te verklarende variabele wordt ook wel
afhankelijke variabele genoemd omdat deze afhangt van de verklarende variabele. De verklarende
wordt vervolgens de onafhankelijke variabele genoemd.
De hoeveelheid alcohol heeft invloed op de lichaamstemperatuur. Bij een onderzoek hiernaar wordt de hoeveelheid alcohol verhoogd en de temperatuur
gemeten. De temperatuur is de te verklaren variabele en de hoeveelheid alcohol de verklarende variabele.
2.1
spreidingsdiagrammen
Een spreidingsdiagram toont het verband aan tussen twee kwantitatieve variabelen gemeten bij
dezelfde individuen. De waarden van de ene variabele verschijnen op de horizontale as en de
waarden van de andere variabele op de verticale as. Elk individu in de gegevens verschijnt als
het punt in de diagram dat is bepaald door de waarden van beide variabelen voor dat individu.
Teken de verklarende variabele op de x-as en de te verklarende variabele op de y-as.
interpretatie:
• Kijk in elke grafische voorstelling naar het algemene patroon en naar de afwijkingen in
dat patroon.
• Het globale patroon van een spreidingsdiagram kan beschreven worden door de vorm,
richting en sterkte van de relatie.
• De sterkte van een relatie wordt bepaald door hoe dicht de punten in een spreidingsdiagram
bij een simpele vorm als een stijgende of dalende lijn liggen.
• Een bepaald type vorm is een geclusterde vorm. Bepaalde groepen (clusters) met elk
eigen richting en sterkte.
• Tussen twee variabelen bestaat positieve samenhang als de waarden boven het gemiddelde van de ene variabele de neiging vertonen samen te gaan met de waarden boven het
gemiddelde van de andere variabele, terwijl de waarden onder het gemiddelde op soortgelijke wijze de neiging hebben om samen te gaan. In de diagram van is positief dus van
linksonder naar rechtsboven.
• De vorm van de relatie kan lineair zijn. Wanneer er meerdere clusters zijn is het handig
ze afzonderlijk te bekijken.
• Uitschieters zijn univariaat niet te vinden maar bivariaat wel. De uitschieters zijn alleen
te vinden wanneer men de individuen voor twee variabelen meet.
10
kwalitatief verklarende variabelen: Deze kunnen evengoed in een diagram geplaatst worden voor vergelijking met een kwantitatieve te verklaren variabele. Voor de representatie kan
gebruik gemaakt worden van boxplots.
2.2
correlatie
De correlatie meet de richting en sterkte van de lineaire relatie tussen twee kwantitatieve variabelen. De twee kwantitatieve variabelen zijn x en y. Correlatie r is het gemiddelde van de
gestandaardiseerde producten van de variabelen.
y−y
1 X x−x
r=
n−1
sx
sy
r=
1 X
Zx Zy
n−1
• Geen onderscheid tussen de te verklaren variabele en de verklarende variabele.
• Variabelen dienen kwantitatief te zijn.
• Correlatie r heeft geen meeteenheid, het komt voor uit gestandaardiseerde waarden zonder
eenheid, wel grootheid.
• Een positieve r wijst op een positieve samenhang en een negatieve r op een negatieve
samenhang.
• De correlatie ligt tussen -1 en 1. Naarmate r dichter bij -1 of 1 ligt, is de lineariteit van
het verband sterker.
• Correlatie meet slechts de sterkte van een lineaire relatie tussen twee variabelen.
• Correlatie is niet resistent. Bovendien is het geven van alleen de correlatie niet afdoende
voor een volledige beschrijving van de gegevens.
2.3
kleinste-kwadraten methode
Net zoals we één variabele numeriek willen samenvatten met bijvoorbeeld een mediaan en een
vijf-getal-samenvatting willen we ook een relatie tussen twee variabelen simpel numeriek kunnen
samenvatten. Een rechte lijn die de afhankelijkheid van een variabele (y) van een andere (x)
beschrijft wordt een regressielijn genoemd.
Vaak gebruiken we een regressielijn om de waarde van y voor een waarde x te voorspellen.
Regressie vereist, in tegenstelling tot correlatie, een verklarende en een te verklaren variabele.
van data naar lijn: Van verschillende waarnemingen kan een grafische voorstelling gemaakt
worden waardoor in sommige gevallen een rechte lijn is te trekken. Deze lijn is een model te
beschrijven door de volgende formule waarbij x de verklarende variabele is en y de te verklaren
variabele. b is de helling en a het startpunt voor x = 0.
y = a + bx
Er zijn voorspelling te doen op basis van de formule. Echter de waarde die we toekennen aan de
voorspelling is afhankelijk van de spreiding van de gegevens ten op zichte van de regressielijn.
Is de spreiding groot dan wordt de voorspelling minder betrouwbaar. Voorspellingen doen op
basis van de regressielijn wordt extrapolatie genoemd.
11
de methode: Om de voorspellingen op basis van de regressielijn zo betrouwbaar mogelijk
te maken, moet de regressielijn de punten zo dicht mogelijk benaderen. We zoeken de lijn die
zo dicht mogelijk langs de punten in verticale richting loopt, immers de fouten die we maken
drukken zich uit in y, de te verklaren variabele. Het doel is nu om de afstanden tussen de
regressielijn en alle punten zo klein mogelijk te maken.
Een methode hiervoor is de kleinste kwadraten methode. De kleinste regressielijn van y over x
is de lijn waarvoor de som van de kwadraten van de verticale afstanden van de gegevenspunten
tot de lijn, zo klein mogelijk is.
Wanneer a + bx de voorspellende waarde voor y aangeeft dan zal die waarde afgetrokken moeten
worden van de echt waargenomen y om de fout te vinden. Wanneer we die fouten kwadrateren
en optellen vinden we de volgende formule.
X
2
(yi − a − bxi )
De volgende formules leiden tot de correcte waarden voor a en b voor de vergelijking van de
kleinste kwadratenlijn. De vergelijking voor b zegt dat langs de regressielijn een verandering
van één standaardafwijking in x overeenstemt met een verandering van r standaardafwijkingen
in y.
Denk eraan dat de standaardafwijking iets vertelt over de gemiddelde afwijking van de waarnemingen van het gemiddelde voor één variabele. De te verklaren variabele staat als teller in de
breuk en r geeft de sterkte en de richting van de relatie aan.
Voorts gaat de kleinste kwadraten regressielijn altijd door het punt (x, y). Als x en y gestandaardiseerde variabelen zijn, loopt de regressielijn door de oorsprong en is helling b gelijk
aan r.
sy
b=r
sx
a = y − bx
Het kwadraat van correlatie, r2 , is die fractie van de variatie in de y-waarden die verklaard
worden door de kleinste-kwadratenregressie van y op x. Bij een bepaalde x is er een bepaalde
spreiding aan y-waarden en een voorspelde y. Over alle waarnemingen is een standaardafwijking
berekend en aan de hand daarvan de correlatie r. Stel r = 0.921 en dus r2 = 0.849, dan
betekent dat 85% van de variatie in de te verklaren variabele verklaard worden door de xvariabele. De voorspellingen die gedaan worden op basis van de regressielijn met een lage r2
zullen onbetrouwbaarder zijn.
r2 is fractie verklaarde variatie. Een deel van de variatie in y wordt veroorzaakt door x. Twee
bronnen van variatie: x en het residu. Spreiding van ŷ is kleiner dan y. r2 schrijft een percentage
variantieŷ
van de variatie toe aan x met de formule variantiey
. De rest van het percentage wordt verklaard
door het residu en is dus het deel onverklaarde variantie.
2.4
gebruik en beperkingen van regressie en correlatie
residuen: Nog even voor de duidelijkheid: Een regressielijn is een wiskundig model voor het
algemene patroon van een lineaire relatie tussen een verklarende en een te verklaren variabele.
De kleinste-kwadraten methode berekent de som van het kwadraat van de afstand tussen de
waargenomen waarde en de voorspelde waarde van de te verklaren variabele. Het residu is de
afstand voor een meting tussen de de waargenomen waarde en de voorspelde waarde van de te
verklaren variabele.
residu = y − ŷ
Voor elk datapunt kan het residu apart beschreven worden, naast de som van het kwadraat van
alle residuen. Het gemiddelde van de residuen gebruikt in de kleinste-kwadraten methode is
gelijk aan 0. De residuen kunnen vervolgens uitgezet worden in een residuendiagram. Hiermee
kunnen we de aanpassingen van een regressielijn beter beoordelen.
Als de regressielijn het algemene patroon van de gegevens weergeeft mag in het residudiagram
geen patroon zichtbaar zijn. Is er wel een patroon te zien dan is regressielijn minder betrouwbaar
om voorspellingen mee te doen. Een gebogen residupatroon duidt op een kromlijnig en niet
12
lineair verband, een waaiervormig patroon naar rechts duidt op een dalende betrouwbaarheid
naarmate de waarde van de verklarende variabele stijgt.
verborgen variabelen: Een verborgen variabele is een variabele die een belangrijke invloed
heeft op de relaties tussen variabelen in een onderzoek, maar niet is opgenomen in de verzameling
van de bestudeerde variabelen. Een nuttige methode om verborgen variabelen te ontdekken is
om zowel de te verklaren variabele alsook de regressieresiduen uit te zetten tegen de tijdsvolgorde
van de waarnemingen, als die volgorde beschikbaar is.
uitschieters en invloedrijke waarnemingen: Een uitschieter in de context van regressie
is een punt dat in vericale richting ver verwijderd ligt van de aangepaste lijn en daarom een
groot residu oplevert. Toch heeft een uitschieter in horizontale richting ook veel invloed op de
richting van de regressielijn vanwege de niet-resistentie. Zo’n uitschieter heet een invloedrijke
waarneming. De zekerste manier om te bepalen of een punt invloedrijk is, is om de regressielijn
te tekenen met en zonder die waarneming.
wees alert:
• correlatie meet alleen de mate van lineaire associatie. Als het globale patroon van de
relatie niet lineair is, heeft het geen zin de relatie lineair te tekenen.
• extrapolatie kan onbetrouwbaar zijn.
• Correlaties en kleinste-kwadratenregressies zijn niet resistent.
• Verborgen variabelen kunnen gegevens van regressie of correlatie misleiden. Zet residuen
altijd uit tegen de tijd en tegen andere vaiabelen die de relatie tussen x en y kunnen
beı̈nvloeden.
• Een samenhang tussen verklarende variabele en een te verklaren variabele betekent nog
geen oorzaak-gevolg relatie.
• Correlaties die gebaseerd zijn op gemiddelden zijn over het algemeen hoger dan correlaties
tussen dezelfde variabelen gebaseerd op data van individuen.
• Voor succesvol voorspellen is een oorzakelijke relatie niet vereist. Als zowel x als y afgeleiden zijn van dezelfde onderliggende niet-gemeten variabelen, is het misschien mogelijk om
y uit x te voorspellen, zelfs als x niet een directe invloed heeft op y.
• Wanneer de gegevens niet de maximale informatie bevattten spreken we van een beperkt
bereik. Beperkt bereik zal alleen een probleem vormen wanneer de uitkomsten afwijkingen
vertonen ten opzichte van gegevens met een minder beperkt bereik.
2.5
relaties tussen kwalitatieve variabelen
Relaties tussen kwalitatieve variabelen worden beschreven door uit de gegeven aantallen de
bijbehorende percentages te berekenen. Percentages zijn gemakkelijker te vergelijken dan aantallen.
Twee kwalitatieve variabelen worden in een kruistabel genoteerd. Een variabele in de rijen en
de andere in de kolommen geordend van laag naar hoog. De verdeling van een variabele alleen,
dus niet in relatie tot de andere variabele, heet een marginale verdeling.
De verdeling van een categorie van een variabele in relatie tot de andere variabele heet een
voorwaardelijke verdeling.
13
opleiding
leeftijd
25-34
12.87
33.97
28.17
24.99
100
geen middelbare school
middelbare school
1-3 jr hbo of uni
4+ jr hbo of uni
totaal
35-54
12.53
32.96
27.29
27.22
100
55+
30.82
35.22
18.57
15.39
100
In de percentagetabel wordt beschreven wat het opleidingsniveau is van elke leeftijdsgroep, niet
hoe elke leeftijdsgroep binnen opleiding is verdeeld. Daarom is de horizontale optelling geen
100%. Om de gegevens te vergelijken voor elke rij, is een staafdiagram vaak afdoende. Voor de
absolute waarden boeit het niet. Het verschil tussen horizontaal en verticaal of zelfs diagonaal
(totaal). In de tabel hierboven is verticaal gepercenteerd. percenteren.
paradox van simpson: De paradox van Simpson betreft de omkering van de richting van een
samenhang wanneer data uit verscheidene groepen gecombineerd worden tot een enkele groep.
De verborgen variabelen in de paradox van Simpson zijn kwalitatief, ze delen de individuen op
in groepen. De paradox van Simpson is een extreme vorm van het feit dat de waargenomen
samenhang misleidend kan zijn als er verborgen variabelen zijn.
Drie kwalitatieve variabelen worden in een driedimensionale tabel met elkaar vergeleken. Dit
is een kruistabel waarbinnen onderscheid wordt gemaakt in nog een variabele. In essentie één
tweedimensionale kruistabel voor elke categorie van de derde variabele.
2.6
oorzaak en gevolg
Het feit dat twee variabelen samenhangend zijn tot elkaar betekent nog niet automatisch dat
de veranderingen bij de ene, veranderingen bij de ander teweegbrengen. Ik vermeld een aantal
soorten samenhang:
• a: Een rechtstreekse oorzaak-gevolg samenhang tussen x en y.
• b: Er is een gemeenschappelijke afhankelijkheid van x en y door verborgen variabele z.
• c: Er is een verstrengeling als zowel de verklarende variabele x als de verborgen variabele
z invloed hebben op de te verklaren variabele y, echter kunnen we de invloed van x niet
onderscheiden van die van z.
De beste methode om de exacte relatie tussen variabelen vast te stellen is door middel van een
experiment waarin de effecten van alle variabelen gecontroleerd kunnen worden.
3
vergaren van gegevens
Een belangrijke methode om informatie te vergaren is de Enkelvoudige Aselecte Steekproef
(EAS).
• steekproef; greep uit een bepaalde populatie
14
• aselect; elk element van de greep is willekeurig gekozen, het enige verschil mag worden
veroorzaakt door toeval
• enkelvoudig; één tegelijk en geen tweetallen
15
4
kansrekening - de studie van het toeval
4.1
toeval
• Een toevalsverschijnsel is een verschijnsel waarbij individuele uitkomsten onzeker zijn,
maar er niettemin bij een groot aantal herhaling een regelmatige verdeling van uitkomsten
bestaat.
• De kans op een willekeurige uitkomst van een toevalsverschijnsel is de fractie keren dat
de uitkomst voorkomt in een lange reeks herhalingen. Dat wil zeggen, de fractie is een
relatieve frequentie op de lange termijn.
4.2
kansmodellen
Kansmodellen worden gedefinieerd aan de hand van twee onderdelen:
• een lijst van mogelijke uitkomsten
• een kans voor elke uitkomst
definities en regels:
• De uitkomstenruimte S van een toevalsverschijnsel is de verzameling van alle mogelijke
uitkomsten.
• Een gebeurtenis is een verzameling uitkomsten van een toevalsverschijnsel; ofwel een
deelverzameling van een uitkomstenruimte.
• Een Venn-diagram is een figuur dat de uitkomstenruimte als een rechthoek weergeeft en
de gebeurtenissen als oppervlaktes binnen dat diagram.
De kans op een gebeurtenis A is:
P (A) =
aantal uitkomsten in A
aantal uitkomsten in S
Er zijn 5 regels over een kansberekeningsmodel. De gegevens komen voort uit de gedachte dat
kans wordt omschreven als ‘het aantal herhalingen waarbinnen een gebeurtenis plaatsvindt’.
1. De kans P (A) op een gebeurtenis a voldoet aan 0 ≤ P (A) ≤ 1; Elke kans is een getal
tussen 0 en 1.
2. Als S de uitkomstenruimte is in een kansmodel dan is P (S) = 1. Alle mogelijke uitkomsten
moeten samen een kans van 1 hebben.
3. Als A een gebeurtenis is, dan heet de gebeurtenis dat A niet optreed het complement
van A, genoteerd als Ac . De complementregel stelt dat P (Ac ) = 1 − P (A). De kans dat
een gebeurtenis niet plaatsvindt is 1 minus de kans dat de gebeurtenis wel voorkomt.
4. Twee gebeurtenissen A en B zijn disjunct als zij geen gezamelijke uitkomsten hebben en
daardoor nooit tegelijk kunnen optreden. Wanneer dat zo is dan geldt de optelregel voor
disjuncte gebeurtenissen: P (A of B) = P (A) + P (B). Wanneer twee gebeurtenissen geen
gelijke uitkomsten hebben, dan is de kans dat het een of het ander voortkomt de som van
hun individuele kansen.
5. De gebeurtenissen A en B zijn onafhankelijk als de wetenschap dat A gebeurt niet de
kans verandert dat B gebeurt. De productregel voor onafhankelijke gebeurtenissen luidt:
P (A en B) = P (A) × P (B).
16
4.3
stochastische variabelen
Een stochastische variabele is een variabele waarvan de waarde een numerieke uitkomst is van een
toevalsverschijnsel. Een stochastische variabele heeft een verwachting en een variantie. In deze
paragraaf leren we kansen toe te kennen aan gebeurtenissen aan de hand van een stochastische
variabele.
discrete stochastische variabele: Een discrete stochastische variabele X neemt een eindig
aantal waarden aan, noem die x1 , x2 , · · · , xk . Een kansmodel voor X wordt gegeven door aan
deze uitkomsten kansen pi toe te kennen.
P (X = xi ) = pi
Hierbij moeten de kansen pi voldoen aan regels 1 en 2 van het kansberekeningsmodel. De kans
P (X in A) op een willekeurige gebeurtenis wordt gevonden door sommatie van de kansen pi
van de uitkomsten xi waaruit de gebeurtenis A is samengesteld.
Van alle kansen kan een kanshistogram getekend worden. Alle gebeurtenissen komen op de x-as
waarna op y-as de kansen uitgezet worden. Een kanshistogram is daarmee een histogram van
relatieve frequenties bij een zeer groot aantal pogingen.
continue stochastische variabelen: Bij een continue stochastische variabele kan X elke
waarde in het interval aannemen en is deze niet beperkt tot een eindig aantal. We gebruiken nu
een andere manier om kansen aan gebeurtenissen toe te kennen, niet door het aantal gebeurtenissen met het aantal mogelijke gebeurtenissen te vergelijken maar als oppervlaktes onder de
kromme.
De totale uitkomstenruimte heeft kans 1 en is de volledige oppervlakte onder de dichtheidskromme. Elke dichtheidskromme beschrijft de kansverdeling van de een of andere continue
stochastische variabele. Omdat de oppervlakte boven elke individuele gebeurtenis 0 is, is de
kans daarop bij continue kansverdeling ook 0.
Normale verdelingen zijn kansverdelingen. Als X de N (µ, σ) verdeling heeft, dan heeft de gestandaardiseerde variabele de standaardnormale verdeling N (0, 1).
Z=
4.4
X −µ
σ
verwachting en variantie van stochastische variabelen
De kansrekening is de wiskundige taal die het regelmatig gedrag op lange termijn van toevalsverschijnselen beschrijft. De kansverdeling van een stochastische variabele is een geı̈dealiseerde
verdeling van relatieve frequenties.
Als X een discrete stochastische variabele is, die de waarden x1 , x2 , · · · , xk aanneemt met de
kansen p1 , p2 , · · · , pk dan wordt de verwachting van X gevonden door elke uitkomst te vermenigvuldigen met zijn kans en alle uitkomsten te sommeren:
X
µX = x1 p1 + x2 p2 + · · · + xk pk =
xi pi
Dit is een soort rekenkundig gemiddelde maar een gewogen gemiddelde van een stochastische
variabele, vandaar de µX .
We gooien met de dobbelsteen en bij 6 ontvang je 12 euro en bij niet 6 geef
je 3 euro weg. De verwachte winst op de lange termijn bereken je als volgt.
uitkomst (xi ) 6 (12) niet 6 (-3)
15
3
12× 16 +−3× 65 = 12
1
5
6 − 6 = − 6 = −0, 50
kans (pi )
6
6
Op lange termijn is de verwachting voor elke worp dat je 0.50 ct verliest. Ga
maar na dat je na 6 keer gooien 3 euro verliest. Dat is 0.50 ct per worp.
17
grote aantallen: Neem een willekeurig aantal onafhankelijke waarnemingen van een populatie
met een eindige verwachting µ. Bepaal hoe nauwkeurig de schatting van µ moet worden. Naarmate het aantal getrokken waarnemingen toeneemt, zal het gemiddelde x van de waargenomen
waarden uiteindelijk het gemiddelde µ van de populatie zo dicht naderen als men van tevoren
heeft vastgelegd en zo dichtbij blijven. De voorspellingen die je kunt doen is afhankelijk van
de variantie van de variabele. hoe meer je meet, des te meer naderen de meetwaarden de
rekenkundige verwachting
verwachtingsregels:
Als X en Y stochastische variabelen zijn en a en b constanten dan geldt:
µa+bX = a + bµX
µX+Y = µX + µY
De eerste regel geeft de mogelijkheid voor een lineaire transformatie voor de verwachting aan.
De tweede regel zegt dat als we stochastische variabelen bij elkaar optellen, we dat met de
verwachtingen ook mogen doen. Als het ware twee lootjes tegelijk kopen en dan de gezamelijke
verwachting te lezen.
variantie van een stochastische variabele: Als X een discrete stochastische variabele is,
die de waarden x1 , x2 , · · · , xk aanneemt met de kansen p1 , p2 , · · · , pk dan wordt de variantie van
X gegeven door:
X
2
σX
= (x1 − µX )2 p1 + (x2 − µX )2 p2 + · · · + (xk − µX )2 pk =
(xi − µX )2 pi
De standaardafwijking σX is vervolgens de wortel uit de variantie. Bij formule van variantie
1
vermenigvuldigen maar dit is een
vermenigvuldig je met p, de kans. Normaliter zou je met n−1
gewogen gemiddelde, de kans.
variantieregels:
dan geldt:
Als X en Y onafhankelijke stochastische variabelen zijn en a en b constanten
2
2
σa+bX
= b2 σ X
2
2
σX+Y
= σX
+ σY2
2
2
σX−Y
= σX
+ σY2
De eerste regel geeft het effect van de lineaire transformatie weer. Op de variantie heeft a geen
invloed. De tweede regels zeggen dat de variantie altijd groter wordt, ook als je ze van elkaar
af haalt. In feite is de variantie namelijk een onzekerheid, deze wordt niet kleiner als je twee
onzekerheden van elkaar afhaalt.
18
Tom en Henk spelen golf. Beide spelers scoren gevarieerd. Tom speelt beter
maar minder constant:
Tom’s score X:
µX = 110
σX = 10
Henk’s score Y :
µY = 100
σX = 8
Wanneer ze onafhankelijk van elkaar een ronde spelen kunnen we de regels van
verwachtingen en varianties toepassen. Het verschil in scores na de eerste ronde
heeft de verwachting:
µX−Y = µX − µY = 110 − 100 = 10
De variantie van het verschil in scores is:
2
2
σX−Y
= σX
+ σY2 = 102 + 82 = 164
De standaardafwijking volgt uit de variantie:
√
σX−Y = 164 = 12, 8
Dit houdt in dat ook al is de verwachting voor Henk 10 punten lager dan Tom,
door de standaardafwijking van 12,8 heeft hij wel kans om te winnen.
4.5
de wetten van de kansrekening
1. 0 ≤ P (A) ≤ 1
2. P (S) = 1
3. P (Ac ) = 1 − P (A)
4. P (A of B) = P (A + B)
5. P (A en B) = P (A) × P (B)
De vereniging van een willekeurige verzameling gebeurtenissen is de gebeurtenis dat er tenminste één uit de verzameling optreed. De algemene optelregel voor een vereniging van twee
gebeurtenissen A en B is:
P (A of B) = P (A) + P (B) − P (A en B)
productregel:
P (A en B) = P (A) × P (B|A)
P (A en B)
P (A)
Als twee gebeurtenissen beiden plaatsvinden moet er eerst 1 gebeurtenis plaatsvinden, P (A), en
vervolgens, gegeven dat de eerste plaats heeft gehad. de tweede moet plaatshebben, P (B|A).
P (B|A) =
19
Karel de pokeraar speelt poker en ziet in een spel 11 kaarten, waaronder de
kaarten in zijn hand. Van die 11 zijn er 4 ruiten. Aangezien er 13 ruiten in het
spel zijn, zijn er nog 9 in het spel. Er zijn nog 52 - 11 = 41 kaarten in het spel.
Karel heeft 2 ruiten nodig.
P (eerste kaart ruiten) =
9
41
De voorwaardelijke kans op nog een ruiten hangt af van de eerste kaart
die getrokken wordt, voor de geldigheid moet die eerste kaart een ruiten zijn.
Hieruit volgt:
P (tweede kaart ruiten | eerste kaart ruiten) =
8
40
De productregel zegt nu:
P (beide kaarten ruiten) =
9
8
×
= 0, 044
41 40
De doorsnede van een willekeurige verzameling gebeurtenissen is de gebeurtenis dat alle gebeurtenissen optreden.
boomdiagrammen: Boomdiagrammen zijn nuttig bij het weergeven van berekeningen die
uit verscheidene stappen bestaan, de verschillende stappen na de eerste stap zijn dan voorwaardelijke kansen.
regel van Bayes: Als A en B willekeurige gebeurtenissen zijn met een kans die noch gelijk is
aan 1, noch aan 0 dan geldt:
P (A|B) =
onafhankelijke gebeurtenissen:
hebben, zijn onafhankelijk als:
P (B|A)P (A)
P (B|A)P (A) + P (B|Ac )P (Ac )
Twee gebeurtenissen A en B die beide een positieve kans
P (B|A) = P (B)
20
5
van kans naar inferentie - aantallen en fracties
inleiding
De statistische inferentie trekt op grond van gegevens conclusies omtrent een populatie of een
proces. De gegevens worden samengevat door steekproefgrootheden. De samenhang tussen kansrekening en gegevens wordt gevormd door de steekproefverdelingen van de steekproefgrootheden. Een steekproefverdeling laat zien hoe een steekproefgrootheid zou variëren bij het herhaald
produceren van data.
Een steekproefgrootheid bij een kanssteekproef of een toevalsexperiment is een stochastische
variabele. De kansverdeling van de steekproefgrootheid is zijn steekproefverdeling. Op basis
van meting.
De populatieverdeling van een variabele is de verdeling van zijn waarden voor alle leden van
de populatie. De populatieverdeling is ook een kansverdeling van de variabele wanneer we een
willekeurig individu uit de populatie kiezen. Op basis van theorie.
5.1
aantallen en fracties
We willen iets weten over een hele populatie, maar we vragen aan een deel van de populatie.
We willen nu op basis van dat deel, de steekproef een uitspraak kunnen doen over het geheel, we
willen kunnen generaliseren. De steekproef kan afwijken van de werkelijkheid. Echter als we de
verdeling van een steekproefvariabele vinden, weten we hoe groot de afwijking van de populatie
is.
Bij een EAS gelden wetten van de kansrekening, elke steekproefgrootheid heeft ook een bepaalde
variatie, de mate waarin de grootheid zou variëren als we het vaker zouden doen. De kans die
we uit een steekproef halen heet een steekproeffractie.
p̂ =
X
n
We vragen 2500 mensen of ze ervoor zijn dat Turkije toetreed tot de EU. Het
aantal ja-zeggers is de steekproefvariabele X. De steekproeffractie is als er 1650
voor zijn: p̂ = 1650
2500 = 0, 66. De fractie is een geschatte fractie, bij een volgende
steekproef zou deze kunnen wijzigen.
binomiale verdelingen: De verdeling van X hangt af van de wijze waarop de data worden
gegenereerd. Een wijze is een binomiale situatie en die voldoet aan de volgende eisen.
1. vast aantal n waarnemingen
2. alle waarnemingen onafhankelijk (niet twee muntjes aan elkaar)
3. elke waarneming valt in 2 categoriën
4. kans op succes p steeds hetzelfde (bijv eerlijk muntje)
De verdeling van X wordt volledig bepaald door n en door p. X = B(n, p). Bijvoorbeeld de
binomiale verdeling voor een test uit een zending machines waarbij 10% stuk is is B(10, 0, 1).
De binomiale verdeling kan op drie manieren gevonden worden, echter tabel c, geeft voor een
aantal n en p de verdelingen.
Rick de basketballer gooit 75% van zijn vrije worpen in. Tijdens een wedstrijd
mist hij 5 van de 12 vrije worpen. De vraag is of dat normaal is. De vrije worpen
zijn onafhankelijk, we kunnen de verdeling van de 12 worpen erbij pakken uit
tabel c door de kans op de missers te nemen. Het aantal mislukkingen X heeft
de verdeling: B(12, 0, 25). De kans op meer dan 5 missers is 0,1576.
Rick zal in 16% van de tijd meer dan 5 van de 12 worpen missen, oftwel één
op de zes wedstrijden.
21
verwachting en standaardafwijking:
σX
Als X de B(n, p)-verdeling heeft, dan geldt:
µX = np
p
= np(1 − p)
Met deze formules kunnen we bepalen of steekproefgroottes groot genoeg zijn om iets te zeggen
over een totale populatie. Wanneer σ bijvoorbeeld groter in dan µ zou dit niet kunnen.
verwachting en standaardafwijking van een steekproeffractie: Stel dat p̂ de fractie
successen is in een EAS van omvang n, getrokken uit een grote populate, met de fractie p
successen in de populatie, dan geldt:
µp̂ = p
r
p(1 − p)
σp̂ =
n
Hoe groter de steekproef, des te dichter ligt de steekproeffractie bij de verwachte fractie en dus
ook de verwachtingen en varianties. Ook lijkt naarmate n groter wordt de steekproefverdeling
meer op een normale verdeling en kunnen we dus standaardiseren. Op basis van gestandaardiseerde gegevens van p̂ (en p natuurlijk) kunnen we iets vertellen over de marge van p̂ ten opzichte
van de populatie.
5.2
steekproefgemiddelden
Het steekproefgemiddelde x is een schatting van de verwachting µ net zoals steekproeffractie p̂
de schatting voor de populatiefractie p is. Herinner de twee soorten variabelen, kwantitatieve
en kwalitatieve. Het gemiddelde zegt iets over kwantitatieve en de fractie iets over kwantitatieve.
Indien x het gemiddelde van een EAS van omvang n uit een populatie met verwachting µ
en een standaardafwijking σ, dan geldt:
µx = µ
σ
σx = √
n
• Gemiddelden zijn minder variabel dan afzonderlijke waarnemingen.
• De verdeling van gemiddelden lijkt meer op een normale verdeling dan de verdeling van
afzonderlijke waarnemingen.
• Het gemiddelde van verscheidene waarnemingen is minder variabel dan één enkele waarneming.
steekproefverdeling van x: Als een populatie een N (µ, σ)-verdeling heeft, dan heeft het
steekproefgemiddelde van n onafhankelijke waarnemingen de N (µ, √σn )-verdeling.
Elke lineaire combinatie (bv. aX + bY ) van onafhankelijke stochastische variabelen is eveneens
normaal verdeeld.
centrale limietstelling: Neem een EAS met omvang n uit een populatie met verwachting
µ en een eindige σ. Wanneer de populatie groter is dan n, de steekproefverdeling van het
steekproefgemiddelde x bij benadering normaal.
Elke variabele die de som is van vele kleine variabelen zal bij benadering een normale verdeling
hebben, op eenzelfde manier als de verdeling van gemiddelden meer op een normale verdeling
lijkt.
Welke steekproefomvang n nodig is, opdat x dicht bij een normale verdeling komt, hangt af
van de verdeling van de populatie. In de vorm ver verwijderd is van de normale, zijn meer
waarnemingen nodig.
22
De tijd X die een monteur nodig heeft om computers te repareren heeft een
exponentiële verdeling. De verwachte tijd µ is 1 uur en de standaardafwijking
ook. Een firma heeft 70 computers in onderhoud. Wat is de kans dat de
gemiddelde onderhoudsbeurt langer duurt dan 50 minuten?
De centrale limietstelling zegt dat de gemiddelde tijd in de steekproef, x, bij
benadering een normale verdeling heeft met µ = 1 en σ = √170 = 0, 12.
De verdeling van x is daarom N (1, 0, 12). De kans zoeken we op door te stan50
= 0, 83.
daardiseren met x = 60
z=
x−µ
0, 83 − 1
=
= −1.42
σ
0, 12
De kans die we hierbij vinden in tabel A is 0,9222. 92% van de reparaties duurt
langer dan 50 minuten.
Ook een steekproeffractie kan beschouwd worden als een steekproefgemiddelde en kan derhalve
door de centrale limietstelling beschouwd worden als een normale verdeling.
23
6
inleiding tot inferentie
Bij statistische inferentie worden zoals gezegd op grond van steekproefgegevens conclusies getrokken
over een populatie of een proces. Statistische inferentie levert ook een uitspraak over de mate
van vertrouwen die we kunnen hechten aan die conclusies.
6.1
schatten met betrouwbaarheid
statistische betrouwbaarheid:
SAT scores hebben een verwachting van 500 en een standaardafwijking van
100. Uit een EAS van 500 komt een steekproefgemiddelde van 461. We willen
nu weten hoe betrouwbaar deze schatting is. Daarvoor gaan we uit van de
σ = 500 die we hebben. Dit hebben we normaliter niet maar om dit voorbeeld
mee uit te leggen is het handig.
σ
100
= 4, 5
σx = √ = √
n
500
De 68-95-99,7 regel zegt dat de kans dat x binnen een afstand van tweemaal
σx (9 punten) van de verwachting van de populatie ligt, ongeveer gelijk is aan
0,95.
x − 9 = 461 − 9 = 452
x + 9 = 461 + 9 = 470
We kunnen de volgende uitspraken doen:
1. Het interval tussen 452 en 470 bevat de werkelijke µ.
2. Onze EAS was een van de weinige steekproeven waarbij x niet binnen 9
punten van de werkelijke µ ligt. Slechts 5% van alle steekproeven geeft
zulke onnauwkeurige resultaten.
We hebben deze getallen gevonden volgens een methode die in 95% van de
gevallen correcte resultaten geeft.
betrouwbaarheid: Dit wordt veelal aangegeven door de schatting in combinatie met de foutmarge: schatting ± foutmarge. Een betrouwbaarheidsniveau van niveau C voor een parameter
θ, is een interval berekend uit de steekproefdata, volgens een methode die kans C heeft om een
interval op te leveren dat de werkelijke waarde θ bevat.
redenering
1. de kans dat x binnen een afstand van 2σ, van µ ligt is ongeveer 95%
2. x binnen een afstand van 2σ van µ is hetzelfde als µ binnen een afstand van 2σ van x
3. in ongeveer 95% van alle steekproeven bevat het interval x − 2σ - x + 2σ, de werkelijke µ.
We moeten het getal z ∗ zoeken, zodanig dat elke normale verdeling met kans C binnen ±z ∗
standaardafwijkingen van zijn verwachting ligt. We bepalen z ∗ met behulp van tabel A. Wanneer C = 0,95 dan is z ∗ exact 2 voor een normale verdeling. De bovenste kritieke waarde is nu
1−C
2 = 0, 025.
Het getal z ∗ met rechts daarvan onder de standaardnormale dichtheidskromme de kans (oppervlakte) p, wordt de bovenste p-kritieke waarde van de standaardnormale verdeling genoemd.
Samengevat: steekproefgemiddelde x heeft een verdeling N (µ, √σn ). De kans dat x tussen
σ
σ
µ − z ∗ √ en µ + z ∗ √
n
n
24
ligt is gelijk aan C. Er is dus een kans C dat het interval wat we willen weten ligt tussen:
σ
σ
x − z ∗ √ en x + z ∗ √
n
n
De schatting voor µ is x en de foutmarge is z ∗ √σn .
Trek een EAS van omvang n uit een populatie met onbekende verwachting µ en een bekende
standaardafwijking σ. Een betrouwbaarheidsinterval van niveau C voor µ is:
σ
x ± z∗ √
n
Hierbij is z ∗ de waarde voor de standaardnormale verdeling waarvoor geldt dat de oppervlakte
onder de curve tussen −z ∗ en z ∗ gelijk is aan C. Dit interval is exact correct als de populatieverdeling normaal is, en in andere gevallen voor grote n bij benadering correct.
het gedrag van betrouwbaarheidsintervallen: Kleine foutenmarges gaan samen met een
lagere betrouwbaarheid en vica versa. We kunnen dit beı̈nvloeden door de grootte van n.
Wanneer n groter wordt, maken we de foutenmarge kleiner. Door z ∗ te vergroten wordt de
betrouwbaarheid hoger maar de foutenmarge ook.
bepalen van de steekproefomvang: Wat men wil is een zo hoog mogelijke betrouwbaarheid
en een zo klein mogelijke foutmarge. De geschikte steekproefomvang kan men bepalen door het
kiezen van een foutmarge m. Vervolgens vindt je via de volgende formule de ideale n.
∗ 2
z σ
n=
m
6.2
significatietoetsen
Significatietoetsen beoordelen het door data verschafte bewijsmateriaal ten gunste van een of
andere bewering omtrent de populatie. Een significantietoets is een formele procedure om
waargenomen data te vergelijken met een hypothese waarvan we willen beoordelen of hij waar
is.
We doen een steekproef met een veronderstelde verwachting verkrijgen we een gemiddelde. Op
basis van de kans dat dat gemiddelde voor kan komen doen we een uitspraak over de de werkelijke verwachting. Is de kans dat het gemeten gemiddelde voor kan komen erg laag. Dan is
waarschijnlijk de veronderstelde verwachting niet correct, maar ligt deze dichter bij het gemeten
gemiddelde.
formuleren van hypothesen: De eerste stap in een significantietoets is een bewering te
formuleren waartegen we bewijsmateriaal proberen te vinden. De bewering die in een significantietoets wordt getoetst, heet de nulhypothese. De significantietoets is ontworpen om de
sterkte van het bewijs tegen de nulhypothese vast te stellen. Gewoonlijk is de nulhypothese een
bewering van de vorm ‘geen effect’ of ‘geen verschil’.
Hypothesen in deze vorm doen uitspraken over populatieparameters. Alternatieve hypothesen
geven een vermoeden aan over een uitspraak die wel juist is. We houden vast aan de nulhypothese totdat het bewijs sterk afwijkt van de nulhypothese ten gunste van de alternatieve
hypothese.
H0 : µ = x
Ha : µ > x
de vorm van de toets:
• De toets is gebaseerd op een grootheid die een in hpothese voorkomende parameter schat.
• Waarden van de schatter die ver van de in H0 gespecificeerde parameterwaarde liggen,
vormen een bewijs tegen H0 . De alternatieve hypothese bepaalt welke richtingen tegen
H0 spreken.
Een toetsingsgrootheid meet de overeenstemming tussen de nulhypothese en de gegevens.
25
overschrijdingskansen: De kans, berekend onder de aanname dat H0 waar is, dat de toetsingsgrootheid een waarde zou aannemen die even extreem is als of nog extremer is dan de feitelijk waargenomen uitkomst wordt de overschrijdingskans van de toets genoemd. Hoe kleiner
de overschreidingskans, hoe sterker het door de data tegen H0 geleverde bewijs.
statistische significantie: De beslissende waarde van de overschrijdingskans wordt het significantieniveau genoemd. Het wordt aangeduid met α. Als we α = 0, 05 kiezen, eisen we dat de
data een zo sterk bewijs tegen de H0 moet leveren dat het niet meer dan 5% van de gevallen kan
voorkomen indien H0 waar is. Als de overschrijdingskans kleiner dan of gelijk is aan α, zeggen
we dat de data statistisch significant zijn op niveau α. De stappen bij alle significantietoetsen
zijn:
1. Formuleer de nulhypothese H0 en de alternatieve hypothese Ha . De toets wordt ontworpen
om de sterkte te meten van het bewijs tegen H0 . Ha is de uitspraak die wij zullen
accepteren als het bewijs ons toestaat H0 te verwerpen.
2. Specificeer het significantieniveau α. Dit drukt uit hoeveel bewijs tegen H0 wij als beslissend zullen beschouwen.
3. Bereken de waarde van de toetsingsgrootheid waarop de toets zich zal baseren. Deze is
een grootheid die meet hoe goed de data bij H0 zal aansluiten.
4. Bepaal de overschrijdingskans voor de waargenomen data. Dit is de kans, berekend onder
de aanname dat H0 waar is, dat de uitkomst van de toetsingsgrootheid ten minste even
sterk tegen H0 spreekt als bij de waargenomen data. Indien de overschrijdingskans kleiner
dan of gelijk is aan α, is het toetsresultaat significant op niveau α.
toetsen voor populatieverwachting:
Tim heeft in zijn rijbewijs staan dat 187 pond is. Dit rijbewijs is in de laatste
jaren niet veranderd. Wel heeft hij zichzelf in de laatste maand 4 keer gewogen
waarvan het gemiddelde 190,5 pond was. Zijn deze waarnemingen in overeenstemming met het verwachte gewicht van 187 pond? Daarvoor doen we een
significatietoets, oftwel een z-toets voor één populatieverwachting.
1. Hypothesen formuleren: H0 : µ = 187 en Ha : µ > 187.
2. Significatieniveau bepalen (niet persé nodig): α = 0, 05.
3. Toetsgrootheid bepalen: x = N (µ, √σn ).
z=
190, 5 − 187
3, 5
1
x−µ
=
=
=2
3
√
σ
1, 5
3
4
4. Overschrijdingskans bepalen: Tabel A zegt dat bij 2 31 een waarde van
0,9901 hoort. De overschrijdingskans is daarmee 1 - 0,9901 = 0,0099. De
overschrijdingskans is met ongeveer 0,01 kleiner dan 0,05 en het resultaat
is significant op niveau α. H0 is daarmee verworpen en omdat het bewijs
en gunste viel van Ha is deze aangenomen.
tweezijdige significantietoetsen en betrouwbaarheidsintervallen: Bij een tweezijdige
significantietoets op niveau α wordt een hypothese H0 : µ = µ0 precies dan verworpen als de
waarde µ0 buiten het betrouwbaarheidsinterval van niveau 1 − α voor µ ligt. Overeenstemming
tweezijdige significantietoetsen en betrouwbaarheidsintervallen.
26
toets
Ha
overschrijdingskans
rechtseenzijdig Ha : µ > µ0 P (Z ≥ z)
linkseenzijdig
Ha : µ < µ0 P (Z ≤ z)
tweezijdig
Ha : µ 6= µ0 2P (Z ≥ |z|)
Z = de stochast, de verdeling, echter nog niet gerealiseerd
z = de gerealiseerde stochast
|z| is absoluutstelling, kwadraat en dan wortel
Onthoud de relatie tussen z ∗ en α en tussen z en p. Dit is het verschil van plaats op de lijn en
oppervlakte in de standaardnormale verdeling.
6.3
gebruik en misbruik van toetsen
• Statistische significantie is wat anders dan praktische significantie en relevantie.
• Er is geen scherpe scheidingslijn tussen ‘significant’ en ‘insignificant’, maar slechts een in
sterkte toenemend bewijs als de overschrijdingskans afneemt.
• Vast significantieniveau of overschrijdingskansen laten staan zonder ze te vergelijken met
het significantieniveau.
• Neiging tot alleen vermelden van significante resultaten.
• Neiging tot zoeken naar significantie.
• Vooral als een toets gebaseerd op veel waarnemingen kunnen kleine effecten interessant
zijn.
27
7
inferentie voor verdelingen
7.1
inferentie voor de verwachting van een populatie
We gebruiken x als schatter voor µ. Zoals we nu weten hangt de steekproef verdeling af van σ.
Die zullen we moeten schatten als die niet bekend is. We willen uiteindelijk µ weten.
We schatten de standaardafwijking van de steekproef, niet van de populatie. s noemen we de
standaardfout. s is , niet de populatie.
s
SEx = √
n
De verdeling die uit de standaardfout z-formule komt is verdeeld naar een t-verdeling, geen
normale verdeling. t-verdeling is afhankelijk van de steekproefgrootte. De geschatte σ, s,
veroorzaakt extra onzekerheid, dit heeft zijn effect op de standaardnormale grafiek. De meer
onzekere s zorgt voor een bredere grafiek, immers de buiging van de curve ligt verder van de
verwachting. Hoe groter n, des te groter de overeenkomst van de t-verdeling met de normale
verdeling.
!
x−µ
t=
s
√
n
De t-verdeling heeft n - 1 vrijheidsgraden. t(n − 1) = t(k). De k kan opgezocht worden in tabel
D. Houd wel rekening met de staartkansen voor C, dus de kans is C2 .
Ook het betrouwbaarheidsinterval kan berekend worden aan de hand van een t-verdeling. Een
betrouwbaarheidsinterval van niveau C voor µ is:
s
x ± t∗ √
n
Hierbij is t∗ de waarde voor de t(k) verdeling waarbij er een oppervlakte C ligt tussen t∗ en
−t∗ . Dit interval is exact correct als de populatieverdeling normaal is, en is in andere gevallen
voor grote n bij benadering correct.
σ bekend
σ onbekend
verdeling en overschrijdingskans
z=
x−µ
!
t=
√σ
n
x−µ
!
√s
n
betrouwbaarheidsinterval
σ
x ± z∗ √
n
s
x ± t∗ √
n
gekoppelde paren: Paren worden gekoppeld door de resultaten van twee populaties met
elkaar te vergelijken. Er worden twee steekproeven gedaan, elk in een populatie.
robuustheid: Een statistische inferentieprocedure wordt robuust genoemd als de vereiste
kansberekeningen ongevoelig zijn voor afwijkingen van de gemaakte veronderstellingen. Aangezien
een t-procedure gebruik maakt van s en x zal deze amper robuust zijn. Deze beide parameters
zijn niet resistent. T-procedures zijn wel robuust ten aanzien van niet-normaliteit van de verdeling, mits er weinig uitschieters zien, geen grote scheefheid en veel waarnemingen. De volgende
richtlijnen kunnen gebruikt worden om te zien of een t-procedure gebruikt mag worden:
• n < 15: Als gegevens bij benadering normaal verdeeld zijn.
28
• n ≥ 15: T-procedures kunnen worden gebruikt, behalve bij sterke scheefheid of uitschieters.
• n ≥ 40: T-procedures kunnen worden gebruikt.
tekentoets: De tekentoets is een verdelingsvrije toets. Je kunt deze gebruiken voor rare
verdelingen en toch voorspellingen doen. De werkwijze voor de tekentoets voor gekoppelde
paren is als volgt. De toets bekijkt alleen of vooruitgang of achteruitgang is. De toets is dus
niet gevoelig voor uitschieters.
Je laat de paren met verschil 0 weg; het aantal pogingen n is het aantal resterende paren. De
toetsingsgrootheid is het aantal paren X met een positief verschil. Overschrijdingskansen voor
X zijn nu gebaseerd op de binomiale B(n, 12 )-verdeling.
7.2
inferentie voor twee verwachtingen
twee steekproeven-problemen:
• Het doel van inferentie is de reacties van twee groepen te vergelijken.
• Elke groep wordt besschouwd als een aselecte steekproef uit een bepaalde populatie.
• De reacties in de ene groep zijn onafhankelijk van die in de andere groep.
Anders dan bij gekoppelde paren bestaat er bij een twee steekproeven-probleem geen relatie
tussen beide groepen. De twee steekproeven kunnen bovendien in omvang verschillen. Wanneer
er twee steekproeven zijn, zijn er twee steekproefgemiddelden, twee verwachtingen en twee standaardafwijkingen. We hebben geleerd dat we verwachtingen mogen optellen en aftrekken en dat
we varianties altijd optellen.
verwachtingen van populaties en steekproeven:
µ1+2 = µ1 + µ2 & µ1−2 = µ1 − µ2
standaardafwijkingen van populaties:
2
2
σ1+2
= σ12 + σ22 & σ1−2
= σ12 + σ22
standaardafwijkingen van steekproeven met bekende σ:
2
σ2
σ1+2
σ2
σ2
σ2
σ2
= 1 + 2 & 1−2 = 1 + 2
n1+2
n1
n2
n1−2
n1
n2
twee-steekproevengrootheid z: Veronderstel dat x1 het gemiddelde is van een EAS van
omvang n1 , getrokken uit een N (µ1 , σ1 )-populatie en dat x2 het gemiddelde is van een onafhankelijke EAS van omvang n2 , getrokken uit een N (µ2 , σ2 )-populatie. Dan heeft de volgende
twee-steekproevengrootheid een standaardnormale steekproefverdeling N (0, 1).


(x
−
x
)
−
(µ
−
µ
)
1
2
1
2

q 2
z=
σ1
σ22
n1 + n2
twee-steekproevengrootheid t:
Als σ uit de populatie niet bekend is:


(x
−
x
)
−
(µ
−
µ
)
1
1
2 
q2 2
t=
s1
s22
n1 + n 2
Aangezien we twee standaardafwijkingen veranderen door twee schattingen, heeft de steekproefgrootheid t geen t-verdeling. Er zijn twee manieren om t-waarden toch te gebruiken voor
inferentie met twee steekproeven.
29
1. De verdeling van de t-grootheid wordt nauwkeurig benaderd door een t-verdeling met een
aantal vrijheidsgraden dat uit de gegevens wordt berekend. Dit ‘aantal vrijheidsgraden’ is
in het algemeen geen geheel getal.
2. Op de t-grootheid gebaseerde procedures kunnen worden gebruikt met kritieke waarden
uit een t-verdeling met als aantal vrijheidsgraden het minimum van n1 − 1 en n2 − 1. Deze
procedures zijn voor elk tweetal normale populaties steeds conservatief.
t-toets voor twee onafhankelijke steekproeven: Veronderstel dat een EAS van omvang n1
is getrokken uit een normale populatie met onbekende verwachting µ1 , en dat een onafhankelijke
EAS van omvang n2 is getrokken uit een andere normale populatie met onbekende verwachting
µ2 . Het betrouwbaarheidsinterval voor µ1 − µ2 , gegeven door:
s
s21
s2
+ 2
(x1 − x2 ) ± t∗
n1
n2
heeft een betrouwbaarheidsniveau dat ten minste gelijk is aan C, wat de standaardafwijkingen
van de populaties ook mogen zijn. Hier is t∗ de bovenste 1−C
2 -kritieke waarde voor de t(k)verdeling, met k gelijk aan het minimum van n1 − 1 en n2 − 1.
Om de hypothese H0 : µ1 = µ2 te toetsen, berekent men de twee-steekproevengrootheid t:


x1 − x2 
t = q 2
s1
s22
n1 + n 2
en gebruikt men overschrijdingskansen of kritieke waarden van de t(k)-verdeling. De werkelijke overschrijdingskans, of de waarde van het vaste significantieniveau, zal altijd kleiner dan
of gelijk zijn aan de waarde die uit t(k) berekend is, ongeacht de waarden die de onbekende
standaardafwijkingen van de populaties ook mogen hebben.
30
Voor een onderzoek naar de verbetering van een leesprogramma zijn er 2
groepen leerlingen. De eerste groep heeft een programma met extra activiteiten,
terwijl de tweede controlegroep dit niet heeft. De resulterende gegevens van
het onderzoek zijn na een toets:
groep
test (1)
controle (2)
n
21
23
x
51,48
41,52
s
11,01
17,15
De hypothesen zijn:
H0 : µ1 = µ2
Ha : µ1 > µ2
 

51,
48
−
41,
52
x
−
x
1
2 
 = 2, 31
= q
t = q 2
s22
s1
11,012
17,152
+ 23
21
n1 + n2

De overschrijdingskans komt van de t(k)-verdeling met een aantal vrijheidsgraden k gelijk aan het minimum van een van beide steekproefgrootten op 20.
Immers 21 − 1 = 20 en 23 − 1 = 22.
De overschrijdingskans voor de eenzijdige toets is P (T ≥ 2, 31). Vergelijking
van 2,31 en tabel D voor 20 vrijheidsgraden doet ons zien dat de overschrijdingskans ligt tussen 0,02 en 0,01.
Ook al is geen significantieniveau afgesproken, kan H0 wel verworpen worden
ten aanzien van Ha .
Het 95%betrouwbaarheidsinterval voor µ1 − µ2 is:
s
r
s21
11, 012
17, 152
s22
∗
(x1 − x2 )±t
+
= 9, 96±8, 99
+
= (51, 48 − 41, 52)±2, 086
n1
n2
21
23
Een gemiddelde verbetering van 10 punten met een foutmarge van bijna 9
punten. Goed bewijs voor verbetering, maar geen idee van de omvang van de
verbetering.
7.3
inferentie voor populatiespreiding
σ12
H0 :
= σ22 Ha : σ12 = σ22 Afhankelijk van de uitkomst van deze hypothese kiezen we voor een
bepaalde procedure uit 7.2. De toets daarvoor is niet erg robuust.
Noem de grootste s1 en de kleinste s2 . F is altijd groter dan 1.
F =
s21
s22
F is verdeeld met n1 − 1 vrijheidsgraden in de teller en n2 − 1 vrijheidsgraden in de noemer.
Bijvoorbeeld F (3, 6) vertelt iets over 3 vrijheidsgraden in de teller en 6 in de noemer. Afhankelijk
van de hypothese verdubbelen we de overschrijdingskans uit de tabel. In de tabel staan de enkele
overschrijdingskansen.
31
8
8.1
inferentie voor telgegevens
inferentie voor een enkele fractie
betrouwbaarheidsinterval: De onbekende populatiefractie p wordt geschat door de steekproeffractie p̂ = X
n . We weten dat als de n voldoende groot is de steekproeffractie bij benadering een
normale verdeling heeft met de verwachting µp̂ = p.
Om het betrouwbaarheidsinterval voor p te bepalen, moeten we de standaardafwijking van p̂ uit
de data schatten. De standaardfout van p̂ is:
r
p̂(1 − p̂)
SEp̂ =
n
Het betrouwbaarheidsinterval van een grote steekproef voor een populatiefractie verloopt als
volgt. Trek een EAS van omvang n (mintens 10 successen en 10 missers) uit een grote populatie
met een onbekende succesfractie p. Het interval is:
p̂ ± z ∗ SEp̂
Uiteindelijk gaan we naar een bepaalde vorm van de z-toets toe. Voor een bepaalde hypothese
die iets zegt over H0 : p = p0
p̂ − p0
z=q
p0 (1−p0 )
n
In tegenstelling tot het betrouwbaarheidsinterval maken we gebruik van p0 in plaats van p̂. We
toetsen namelijk in de toets de nulhypothese.
De gewenste steekproefomvang valt net zo te benaderen als in de vorige hoofdstukken:
n=
z∗
m
2
p∗ (1 − p∗ )
p∗ is een te verzinnen p-waarde, wat je zelf kiest om de steekproefgrootte te bepalen. Een
gemakkelijker en veiliger manier is de volgende formule, waarbij p = 0,5 is genomen.
n=
z∗
2m
2
Buffon gooit een muntje 4040 keer omhoog en bemerkt dat hij 2048 keer munt
heeft. Als hij de kans wil berekenen om munt te gooien met een bepaalde
betrouwbaarheid kan hij een betrouwbaarheidsinterval maken voor een fractie.
De standaardfout voor de fractie ‘munt’ is:
r
r
p̂(1 − p̂)
0, 5069 × 0, 4931
SEp̂ =
=
= 0, 00787
n
4040
Het interval wordt nu:
p̂ ± z ∗ SEp̂ = 0, 5069 ± 2, 576 × 0, 00787 = 0, 5069 ± 0, 0203
Dit is een normaal interval voor een muntje.
32
Buffon gaat ook toetsen of zijn muntje eerlijk is, of de resultaten die hij vindt
waarschijnlijk zijn of niet.
H0 : p = 0, 5 en Ha : p 6= 0, 5. Hij gaat dus tweezijdig toetsen.
µp̂ = 0, 5
r
p0 (1 − p0 )
0, 5(1 − 0, 5)
σp̂ =
=
= 0, 00787
n
4040
Je gebruikt bij het berekenen van de standaardafwijking van p̂ de vastgestelde
waarde voor p vanuit de nulhypothese, vandaar p0 .
r
z=
0, 50693 − 0, 5
pp̂ − µp̂
=
= 0, 88
σp̂
0, 00787
De kans die ik vind bij 0,88 is 0,8106. De overschrijdingskans die hierbij hoort
(0,1894) moet vermenigvuldigt worden met 2 omdat tweezijdig getoetst is. Dit
wordt nu 0,38 en dit is een normale overschrijdingskans.
8.2
vergelijken van twee fracties
Het vergelijken van twee fracties gaat op dezelfde wijze als twee variabelen vergeleken worden
door de t-toets. Er is een betrouwbaarheidsinterval en een toets.
betrouwbaarheidsinterval: Trek een EAS van omvang n1 uit een grote populatie met een
fractie successen p1 en een onafhankelijke EAS van omvang n2 uit een andere populatie met een
fractie successen p2 . Als n1 en n2 groot zijn, is een benaderend betrouwbaarheidsinterval van
niveau C voor p1 − p2 :
(p̂1 − p̂2 ) ± z ∗ SED
s
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
SED =
+
n1
n2
significantietoets: Bij de significantietoets beschouwen we de fracties aan elkaar gelijk (H0 :
p1 = p2 ) en daarom is de standaardfout als volgt, volgend met de methode om de samengestelde
schatter voor de fractie te bepalen:
s
1
1
SED = p̂(1 − p̂)
+
n1
n2
p̂ =
z=
X1 + X2
n1 + n2
p̂1 − p̂2
SED
33
9
inferentie voor kruistabellen
Net als in het vorige hoofdstuk worden nu ook fracties vergeleken.
9.1
kruistabellen
In een kruistabel staat elke observatie één keer in de tabel. De te verklaren variable komt op
de y-as, in rijen. De verklarende variabele komt op de x-as, de kolommen. Tabellen worden
beschreven volgens (r × c cellen). Een 2x2 tabel is op te vatten als twee fracties. Horizontaal
kunnen we fracties vergelijken en verticaal.
Om relaties tussen variabelen te beschrijven, berekenen we percentages en vergelijken die met
elkaar. Het aantal in een cel kan worden beschouwd als een percentage van het ‘totaal-generaal’,
het rijtotaal of het kolomtotaal.
relaties en hypotheses: Een interessante nulhypothese in een kruistabel is: er bestaat geen
samenhang tussen de rijvariabele en de kolomvariabele. De alternatieve hypothese stelt dat er
wel een relatie is maar kan niet zeggen wat die relatie is. Er wordt dus niet één- of tweezijdig
getoetst.
Om te toetsen of verdelingen gelijk zijn hebben we verwachte verdeling nodig. Bij het berekenen
van de verwachte (expected) verdeling gaan we er vanuit dat de nulhypothese waar is. De
verwachte waarde berekenen we door het rij en kolomtotaal te vermenigvuldigen en vervolgens
dit te delen door de totaal aantal observanten.
expected value =
rowtotal × columntotal
n
Wanneer de tabel van observaties te veel afwijkt van de tabel van verwachte waarden, neigen
we meer naar de alternatieve hypothese. Om nu te weten wanneer, is er een maat bedacht. De
maat is de chi-kwadraattoets. Deze meet hoe ver de waargenomen aantallen afwijken van de
verwachte celaantallen onder de aanname dat de nulhypothese waar is.
X2 =
X (observed value − expected value)2
expected value
Grote waarden voor X 2 leveren bewijs tegen de nulhypothese. De overschrijdingskans bepalen
we aan de hand van de chi-kwadraat verdeling die we aangeven met χ2 . Als H0 waar is, dan heeft
de toetsingsgrootheid X 2 bij benadering een χ2 -verdeling met (r − 1)(c − 1) vrijheidsgraden. De
overschrijdingskans voor de chi-kwadraattoets is:
P (χ2 ≥ X 2 )
Hier is χ2 een stochastische variabele met de X 2 (df )-verdeling waarbij df = (r − 1)(c − 1).
De 2x2 tabel is bijzonder omdat we ook via de twee populatiefracties ook kunnen vergelijken door
middel van een twee-steekproeven z toets. De toetsingsgrootheid chi-kwadraat is net zo groot
als het kwadraat van de grootheid z. Het voordeel van de z-toets is dat eenzijdige alternatieven
kunnen worden getoetst.
9.2
formules en modellen
Hier volgen de aanbevolen berekeningen voor de analyse van een kruistabel.
1. Bereken de beschrijvende steekproefgrootheden die de belangrijke informatie uit de tabel
overbrengen. Gewoonlijk zijn dat de rij- of kolompercentages.
2. Bepaal de verwachte aantallen en gebruik die om de toetsingsgrootheid X 2 te berekenen.
3. Gebruik tabel F om de benaderde overschrijdingskans te vinden.
4. Trek een conclusie omtrent de samenhang tussen de rij- en de kolomvariabelen.
34
Er worden twee voorbeelden gegeven nu, één waarbij er twee gelijke observaties zijn en één
waarbij alleen het totaalobservanten van tevoren bekend was.
raamisolatie
Dit zijn gegevens genomen uit twee populaties van 300.
observatie-gegevens:
geen
woonkamer
alles
huur
56
93
151
300
koop
47
78
175
300
Volgens de tabel zijn koopwoningen beter geı̈soleerd. De vraag is of deze
gegevens significant zijn (α = 0, 05).
verwachte gegevens:
geen
woonkamer
alles
huur
51,5
85,5
163
koop
51,5
85,5
163
De nulhypothese zegt dat de isolatie voor beide soorten woningen gelijk is.
(o−e)2
:
e
geen
woonkamer
alles
huur
0,39
0,66
0,88
koop
0,39
0,66
0,88
X 2 = 3, 87 bij een df = 2. De kritieke waarde voor χ2 bij zoveel vrijheidsgraden
is 5,99. De gevonden waarde van 3,87 is niet significant, de gevonden plus aan
isolatie van koopwoningen kan ook toevallig zijn.
35
dakisolatie
De gegevens komen uit 1 steekproef van 1000 mensen. observatie-gegevens:
geen
gemaakt
wel
niet verhuisd
328
9
574
911
wel verhuisd
11
3
75
89
Ook nu gaan we bekijken of de linker- en rechterkolom dezelfde verdeling
hebben. We maken de verwachte gegevens op basis van de aanname dat de
linker en rechter hetzelfde zijn.
verwachte gegevens:
geen
gemaakt
wel
niet verhuisd
308,8
10,9
591,2
wel verhuisd
30,2
1,1
57,8
Het criterium gemiddeld 5 per cel en per cel meer dan 1 wordt net gehaald. Te
zien is dat de afwijking bij ‘geen dakisolatie aangebracht’ en ‘wel verhuisd’ het
grootste is.
(o−e)2
:
e
geen
gemaakt
wel
niet verhuisd
1,19
0,33
0,50
niet verhuisd
12,2
3,28
5,12
X 2 = 22, 68 bij een df = 2. Deze waarde is wel significant, zelfs bij een lage
α. Er is geen verband tussen het wel- en niet verhuizen van mensen en het
aanbrengen van isolatie.
36
10
inferentie voor regressie
inleiding
In hoofdstuk 2 hebben we enkelvoudige lineaire regressie gehad. Niet regressiediagnostiek. Op
basis van een puntenwolk, willen we een richting weten. Op basis van x willen we y voorspellen.
Één lijn loopt er precies door (y = a + bx). a is de intercept en b de hellingshoek. Wanneer je
de formule standaardiseerd is het gedrag beter te voorspellen. De mate van spreiding rond de
lijn zegt iets over de mate waarin je kunt voorspellen. Is de spreiding hoog dan is het interval
waarbinnen de voorspelling valt ook hoger.
De kleinste kwadratenmethode, leidt tot de ideale lijn door een puntenwolk. Ook voor de
bepaling voor a en b zijn methoden, zie hoofdstuk 2. De kleinste-kwadratenregresslijn is
een schatting voor de werkelijke regressielijn van de populatie. De notatie voor de kleinstekwadratenregresslijn voor de populatie is: β0 + β1 x.
Bij correlatie spelen x en y eenzelfde rol, bij regressie niet. r2 is de fractie verklaarde variantie.
Twee bronnen van variatie.
1. vanwege x
2. residu.
r2 =
10.1
variantie ŷ
variantie y
enkelvoudige lineaire regressie
We gebruiken de kleinste-kwadratenregressielijn als schatting van een werkelijke maar onbekende
regressielijn van de populatie. Dit heeft relatie met correlatie, t-toets voor populatieverwachtingen en variantie-analyse.
Voor een bepaalde x zijn er verschillende y-waarden. De y heeft een verwachting maar ook een
spreiding. Voor elke x groep bestaat er een normale verdeling met een verwachting en spreiding,
een subpopulatie. Er zijn namelijk variaties van y voor een bepaalde x. Een t-toets kan daarom
toegepast worden, er worden populaties met elkaar vergeleken. De aanname is dat spreiding
voor elke combinatie hetzelfde is. Ook de populatiegrootte boeit niet.
Het statistische model voor de enkelvoudige lineaire regressie gaat uit van de veronderstelling
dat de waargenomen waarden van de te verklaren variabele y voor elke waarde van x normaal verdeeld zijn, met een verwachting die van x afhangt. De spreiding wordt zoals gezegd
veronderstelt gelijk te zijn voor elke waarde van x. We willen de verandering weten van de
verwachtingen µy bij een verandering in x. Bij enkelvoudige lineaire regressie gaan we ervan uit
dat de veranderingen op één lijn liggen:
µy = β0 + β1 x
Wanneer de verwachting van y waarden door de vorige vergelijking bepaald worden, worden
individuele y waarden door de volgende vergelijking bepaald. Dezelfde als de vorige, echter
nu bepaald de individuele afwijking van de verwachting. Het residu is normaal verdeeld:
i = N (0, σ).
yi = β0 + β1 xi + i
schatting voor regressieparameters: De methode der kleinste kwadraten beschrijft een
lineaire verwantschap tussen de waargenomen waarden van een verklarende variabele en een te
verklaren variabele.
ŷ = b0 + b1
sx
b1 = r
sy
b0 = y − b 1 x
37
ei = yi − b0 − b1 xi
Hierbij zijn b0 en b1 zuivere schatters van de gelijknamige β’s. De som van de residuen is 0,
omdat ze bepaald zijn door de kleinste kwadratenmethode. De standaardafwijking van y rondom
de populatie-regressielijn moet nog bepaald worden en wordt geschat door het gemiddelde van
de residuen.
P 2
P
ei
(yi − ŷi )2
2
=
s =
n−2
n−2
Er zijn betrouwbaarheidsintervallen voor β. Deze worden bepaald door de schatters van β, b.
De t∗ dienen gelijk te zijn. Ik weet dan waarin de ‘schuinten’ van de lijn kunnen variëren. Het
aantal vrijheidsgraden is n − 2. Ik wil een betrouwbaarheidsinterval voor de verwachte waarde
van y, µy bij een bepaalde waarde van x, x∗ . Daarvoor heb ik voor beide coëfficienten een
interval nodig.
µy = β0 + β1 x
µˆy = b0 + b1 x∗
µˆy ± t∗ SEµ̂
Dit interval zegt iets over de variabiliteit vanwege schattingsfouten in regressiecoëfficiënten (β0
en β1 ). Betrouwbaarheidsinterval voor de toekomstige waarde van y. De t∗ heeft een waarde
uit een t(n − 2)-verdeling.
ŷ ± t∗ sŷ
Variabiliteit ook vanwege residuele variantie. Dus groter interval dan verwachtingsinterval omdat
je de verwachting voor individuele gevallen ook meeneemt, niet het gemiddelde. De variatie
voor individuele gevallen zien we ook als het verschil tussen errorvariatie en modelvariatie bij
variantieanalyse.
10.2
details
De standaardfout voor de helling b1 van de kleinste-kwadraten regressielijn is:
s
SEb1 = pP
(xi − x)2
De standaardfout voor de constante b0 is:
s
SEb0 = s
1
x2
+P
n
(xi − x)2
38
Door technologische ontwikkelingen is de maı̈sopbrengst in de loop der jaren
sterk vergroot. Hier staan de gemiddelde opbrengstgegevens in kilogram per
vierkante decameter (fictief).
jaar
opbrengst
1966
73,1
1976
88,0
1986
119,4
1996
127,1
Jaar is de te verklaren variabele x en opbrengst de verklarende variabele y. Het
lineaire patroon duidt erop dat we lineaire regressie kunnen gebruiken om het
verband tussen tijd en opbrengst weer te geven.
Eerst berekenen we de verwachting, standaardafwijking en correlatie van de
gevens. De berekening hiervoor staan in hoofdstuk 1 en 2. Hier de samenvatting. Dit zijn de bouwstenen voor de regressieberekeningen.
x = 1981 sx = 12, 91 r = 0, 97584n = 4
y = 101, 9sy = 25, 586
P
Nog één bouwsteen is nodig: (xi −x)2 . Deze is al verkregen bij de berekening
van sx en dus is deze nu eenvoudig te vinden.
X
(xi − x)2 = (n − 1)s2x = 500
jaar
opbrengst
Nu kunnen we overgaan tot het bepalen van de kleinste-kwadraten regressielijn:
b1 = r
sy
25, 586
= 1, 934
= 0, 97584
sx
12, 91
b0 = y − b1 x = 101, 9 − (1, 934 × 1981) = −3729, 354
De kleinste-kwadraten regressielijn is dus:
y = −3729 + 1, 9x
Nu gaan we een schatting bepalen van de derde parameter σ, de standaardafwijking s om de aangepaste lijn. We doen dit door de gemeten waarden te
vergelijken met de voorspelde waarden in de kleinste-kwadraten regressielijn.
De individuele verschillen vormen de residuen en samen zijn ze gelijk aan 0. De
som van de gekwadrateerde residuen, gedeeld door het aantal vrijheidsgraden
vormt de schatter voor σ 2 .
P 2
ei
s2 =
= 46, 881
n−2
p
s = 46, 881 = 6, 847
Met deze gegevens kunnen we regressie inferentie uitvoeren. Toetsen kunnen uitgevoerd worden
en betrouwbaarheidsintervallen vastgesteld. De toetsing van b0 is gezien de context van een
opgave niet altijd zinvol. Bijvoorbeeld de maı̈sopbrengst in het jaar 0 is ridicuul. Let wel, ook
de steekproefgrootte is niet echt voldoende voor een zinvolle t-toets.
39
Als we de standaardfout van de helling berekenen, kunnen we een nulhypothese
voor de helling opstellen. Is er een toename, daling of een stilstand geweest?
s
6, 847
SEb1 = pP
= √
= 0, 3062
2
500
(xi − x)
H0 : β1 = 0
Ha : β1 6= 0
t=
b1
1, 934
=
= 6, 316
SEb1
0, 3062
df = n − 2 = 2 en t is 0,0242 bij een tweezijdige toetsing. Deze waarde is
significant voor α = 0, 05 en daarmee verwerp ik de nulhypothese. Er is bij
benadering een lineaire toename geweest in opbrengst.
Vervolgens kunnen we een 95%-betrouwbaarheidsinterval bepalen voor de
helling β1 , bij df = 2.
b1 ± t∗ SEb1 = 1, 934 ± (4, 303 × 0, 3062) = 1, 934 ± 1, 318
Over een periode van 1966 tot 1996 is er ongeveer een toename van 2 kilo per
vierkante decameter per jaar. De foutmarge hierbij is 1,3 kilo per vierkante
decameter per jaar.
De standaardfout voor µ̂ is:
s
SEµ̂ = s
1
(x∗ − x)2
+P
n
(xi − x)2
√
De standaardfout voor ŷ is s 1 hoger vanwege individuele variatie.
s
1
(x∗ − x)2
SEŷ = s 1 + + P
n
(xi − x)2
We willen nu de opbrengst voor 2006 voorspellen. Wanneer we 2006 als x∗
invullen in de formule hebben een voorspelde waarde maar nog geen interval.
y = b0 + b1 x∗ = −3729 + (1, 9 × 2006) = 150, 25
s
r
1
(x∗ − x)2
1 (2006 − 1981)2
P
SEŷ = s 1 + +
=
6,
847
1
+
+
= 10, 83
n
4
500
(xi − x)2
Het 95%-betrouwbaarheidsinterval wordt nu:
ŷ ± t∗ SEŷ = 150, 25 ± (4, 303 × 10, 83) = 150, 25 ± 46, 6
correlatie: De correlatie tussen -1 en 1, geeft mate van samenhang tussen twee variabelen.
H0 : ρ = 0 Om deze hypothese te toetsen berekent met de volgende toetsingsgrootheid:
√
r n−2
t= √
1 − r2
verdeeld met n − 2 vrijheidsgraden. Dit is echter beetje rare nulhypothese. We willen weten
of er een sterke samenhang is. Zwakke samenhang is zelfde als geen samenhang. De definitie
van sterke samenhang hangt af van vakgebied; bij sociologie is sterk al bij ρ = 0, 3. Interval is
nuttiger waarbij de steekproefgrootte, betrouwbaarheidsinterval en correlatie de variabelen zijn.
Interval zegt iets over de samenhang in de populatie aan de hand van de steekproefgegevens.
40
11
één-factor variantie-analyse
Tot nu toe hebben we slechts de gemiddelden van twee populaties met elkaar vergeleken. Wanneer we meer populaties met elkaar willen vergelijken gebruiken we variantie-analyse (ANOVA,
Analysis of Variance). We vergelijken namelijk variaties. Als er maar één manier is om de betrokken populaties te analyseren gebruiken we een één-factor ANOVA. We gebruiken de gegevens
van een EAS voor het toetsen van een nulhypothese dat alle populatieverwachtingen hetzelfde
zijn.
Er zijn bij verschillende populaties verschillende manieren om gegevens te verzamelen:
• experiment; data gerandomiseerd uit 1 grote populatie
• observerend onderzoek; de groepen van waaruit wordt gemeten worden binnen een grote
populatie aselect gekozen
Bij het vergelijken van verschillende populatieverwachtingen willen we weten of de verschillen
die we zien statistisch significant zijn en niet slechts toegeschreven kunnen worden aan populatievariaties (toeval). Wanneer de varianties van de verschillende groepen klein is, is er meer
kans dat er verschillen tussen de groepen zijn.
twee-steekproeven t-grootheid: De t-grootheid voor twee steekproeven vergelijkt de verwachtingen van twee populaties. Als verondersteld wordt dat de twee populaties gelijke maar onbekende
standaardafwijkingen hebben en de steekproeven gelijke omvang hebben is de t-grootheid gelijk
aan:
pn
x−y
2 (x − y)
=
t= q
sp
1
s
+1
p
n
t2 =
n
n
2 (x
− y)2
s2p
Als we de ANOVA gebruiken voor het vergelijken van twee populaties is de F -grootheid van
ANOVA precies gelijk aan deze t2 .
teller: De teller van de formule vertelt ons iets over de variatie tussen de verschillende
groepen. De teller kan groot worden door een groot verschil tussen de steekproefgemiddelden
of door grote steekproeven.
noemer: De noemer meet de variatie binnen door de samengestelde schatter voor de variantie. Als de interne groepsvariatie klein is, levert dezelfde variatie tussen de groepen een grotere
waarde op voor de grootheid en een significanter resultaat.
De relatie tussen teller en noemer geeft een mate waarin ik groepen van elkaar kan onderscheiden,
dus het aantonen van verschillen tussen groepen.
ANOVA-model:
Het één-factor ANOVA-model is:
xij = µi + ij
waarbij:
i
j
xij
µi
ij
aantal groepen
nummer in de steekproef
totale individuele waarde
populatieverwachting per groep
individuele variatie
1, 2, · · · , I
1, 2, · · · , ni
N (µi , σ)
N (0, σ)
De totale individuele waarde wordt bepaald door de groepsverwachting en de individuele variatie
van het groepsgemiddelde. Waarneming is gelijk aan aanpassing plus residu. µi wordt geschat
met xi . De assumptie is dat de individuele variatie normaal verdeeld is. De andere assumptie
is dat de varianties van de groepen aan elkaar gelijk zijn.
41
schatters en robuustheid:
De schatters voor µi en σ 2 zijn als volgt:
xi =
s2p =
ni
1 X
xij
ni j=1
(n1 − 1)s21 + (n2 − 1)s22 + · · · + (nI − 1)s2I
(n1 − 1) + (n2 − 1) + · · · + (nI − 1)
De t-toets is niet robuust bij een ongelijkheid van σ. De ANOVA werkt daarmee beter, zeker
als de steekproeven ongeveer gelijk zijn. De vuistregel voor robuustheid van de ANOVA luidt
(dan kunnen we samengestelde schatter van de standaardafwijking gebruiken):
smax
<2
smin
11.1
ANOVA procedure
De hypothesen voor een ANOVA zijn als volgt:
H0 : alle populatieverwachtingen zijn aan elkaar gelijk
Ha : de nulhypothese is niet waar
Het doen van een ANOVA geeft nog geen antwoord op de vraag waar de verschillen zich bevinden.
Om die verschillen te vinden zijn er twee methoden, contrasten en meervoudige vergelijkingen.
1. Reken per groep het gemiddelde uit en de standaardafwijking.
2. Bepaal
smax
smin .
Is deze kleiner dan 2, bepaal dan ook sp .
3. Maak per groep een normaal-kwantiel-diagram om te zien of je met normale verdelingen
te maken hebt. Je maakt dit diagram van de residuen, nadat je van het groepsgemiddelde
het individuele gemiddelde hebt afgetrokken.
4. Maak voor de hele groep een normaal-kwantiel-diagram, ook van de residuen.
5. Maak nu een ANOVA tabel. De ANOVA tabel wordt gemaakt door middel van de
kwadraatsommen, een som van gekwadrateerde afwijkingen. Hierbij zijn er 3 groepen,
SST, SSG en SSE (Sum of Squares Total, Group en Error).
P
SST P(xij − x)2
mate waarin totaal gem. varieert rond individueel gem.
SSG P(xi − x)2
mate waarin groeps gem. varieert rond totaal gem.
SSE
(xij − xi )2 mate waarin individuele gem. varieert rond groeps gem.
Met iedere kwadratensom hangt een grootheid samen die men het aantal vrijheidsgraden
noemt. Alle waarnemingen worden met één gemiddelde vergeleken. Elke Sum of Squares
heeft een bepaald aantal vrijheidsgraden.
DFT
DFG
DFE
N −1
I −1
N −I
alle waarnemingen worden met 1 gemiddelde vergeleken.
de groepsgemiddelden worden vergeleken met 1 totaal gemiddelde
alle waarnemingen worden vergeleken met de groepsgemiddelden
samenvatting: Voor elke bron van variatie is de gemiddelde kwadratensom gelijk
aan de kwadratensom gedeeld door het aantal vrijheidsgraden. Kwadratensommen geven
de variatie weer die in de gegevens aanwezig is. Ze worden berekend door gekwadrateerde
afwijkingen te sommeren. In de één-factor ANOVA zijn er drie bronnen van variatie;
groepen, error en totaal. De kwadratensommen hangen samen volgens de formule:
SST = SSG + SSE
De vrijheidsgraden hangen samen met de afwijkingen die in de kwadratensommen worden gebruikt. De vrijheidsgraden hangen op eenzelfde manier met elkaar samen als de
kwadratensommen.
DF T = DF G + DF E
42
De gemiddelde kwadratensom (Mean Square) berekent men door de kwadratensom te
delen door de bijbehorende vrijheidsgraden. De volgende formules leiden vervolgens tot
de F -waarde:
SSE
s2p = M SE =
DF E
SSG
M SG =
DF G
M SG
F =
M SE
6. Bepaal nu de conclusie. Als H0 waar is heeft de grootheid F de F (I − 1, N − 1)-verdeling,
deze is rechtseenzijdig. Als Ha waar is, heeft de grootheid F de neiging om groot te
worden. In tabel E staan de overschrijdingskansen van de F -grootheid. Het aantal vrijDF G
heidsgraden is DF
E.
R2 =
SSG
SST
R2 zegt iets over de verklaarde variatie van de gegevens. De overschrijdingskans kan je
vertellen dat er verschillen zijn maar de R2 vertelt hoeveel van de verschillen te wijten zijn
aan de verschillen tussen de groepen. De rest is namelijk te wijten aan verschillen tussen
personen. Wanneer je conclusie in het voordeel van de alternatieve hypothese beslist weet
je dat er verschillen zijn tussen de groepen. Daarna volgt de taak om uit te zoeken waar
die verschillen zich bevinden. Dit kan op twee manieren.
contrasten: Constrasten zijn krachtiger dan meervoudige vergelijkingen en flexibeler. Dit
omdat je vooraf al een verwachting kunt aangeven wat betreft de lokatie van de verschillen.
Een contrast is een lineaire combinatie van populatieverwachtingen, van de vorm:
X
ψ=
ai µi
waarin de coëfficiënten ai de som 0 hebben. Het corresponderende steekproevencontrast is:
X
c=
ai xi
De standaardfout van c is:
SEc = sp
s
X a2
i
ni
Voor het toetsen van de nulhypothese:
H0 : ψ = 0
gebruikt men de t-grootheid:
t=
c
SEc
met een aantal vrijheidsgraden DFE, behorend bij sp . De alternatieve hypothese kan eenzijdig
of tweezijdig zijn. Een betrouwbaarheidsinterval van niveau C voor ψ is:
c ± t∗ SEc
waar t∗ de waarde is voor de t(DF E)-verdeling met een oppervlak C tussen −t∗ en t∗ .
43
meervoudige vergelijkingen: Als H0 niet wordt verworpen, concluderen we dat de populatieverwachtingen op grond van de data niet zijn te onderscheiden. Als aan de andere kant
H0 wordt verworpen, zou men willen weten welke paren van verwachtingen verschillend zijn.
Meervoudige vergelijkingen worden gebruikt nadat de nulhypothese is verworpen.
Om een procedure van meervoudige vergelijking uit te voeren, berekent men grootheden t voor
alle paren gemiddelden, met de formule:
tij =
x − xj
qi
sp n1i + n1j
waarbij sp de wortel is uit MSE. Indien
|ti j| ≥ t∗∗
besluiten we dat de populatieverwachtingen µi en µj verschillend zijn. In het andere geval
concluderen we dat de gegevens die twee gemiddelden niet onderscheiden. De waarde van t∗∗
hangt af van de gebruikte methode voor meervoudige vergelijking.
11.2
voorbeeld
Er is een steekproefonderzoek verricht naar de studietijd (uren per week) onder een drietal
groepen studenten (aselect). De totale steekproef bestaat uit slechts 15 studenten. De studenten
zijn verdeeld over de groepen A (n=6), B (n=4) en C (n=5).
groep
A
B
C
totaal
40
40
25
35
25
30
35
25
35
50
30
35
40
40
40
n
6
4
5
15
x
40
30
33
35
s2
30
50
32,5
50
s
5,48
7,07
5,70
6,83
SS
150
150
130
700
De SS waarden bij elke groep zijn waarden voor de SSE. Ze zijn berekend door de individuele
afwijkingen van het gemiddelden te kwadrateren en op te tellen. Door de waarden te delen door
n − 1 verkrijgt men de variantie in de groep.
Voor berekening van de volgende waarden, kijk in de tekst hiervoor.
ANOVA
tussen groepen (G)
binnen groepen (E)
totaal (T)
SS
270
430
700
Df
2
12
14
MSS
135
35,83
50
F
3,768
p-waarde
p > 0, 10
R2 = SSG
SST = 0, 386. 38% van de variantieverschillen is verklaard door de variantie tussen
groepen. Echter is het resultaat niet significant.
12
sheets div.doc
h11: Elke verklarende variabele heeft een bepaalde invloed op voorspellend vermogen. Op basis
van een onderzoek verkrijg je gegevens. Op basis van die gegevens die je een voorspelling. De
schatters b0 , b1 , b2 , bp zodanig dat de som van de gekwadrateerde residuen minimaal wordt. De
σ
44
Download