Waarschijnlijkheidsrekening en Statistiek

advertisement
Vrije Universiteit Brussel
Faculteit Wetenschappen
Waarschijnlijkheidsrekening en Statistiek
P. de Groen
Syllabus voor het college in Waarschijnlijkheidsrekening en Statistiek in de Tweede Kandidaturen Wetenschappen,
Informatica, Toegepaste Informatica, Natuurkunde, Scheikunde, Biotechnologie, Biologie, Geologie en Geografie in het jaar 2003.
Inhoudsopgave
1
2
3
Inleiding
1.1 Waarschijnlijkheidsrekening versus statistiek . .
1.2 Beschrijvende statistiek . . . . . . . . . . . . . .
1.2.1 Variabelen en datatypen . . . . . . . . .
1.2.2 Het Histogram . . . . . . . . . . . . . .
1.2.3 Percentielen en de mediaan. . . . . . . .
1.2.4 Gemiddelde en standaarddeviatie. . . . .
1.2.5 Meerdimensionale data . . . . . . . . . .
1.2.6 Het rekenen met experimentele resultaten
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
6
6
7
8
10
11
15
Inleiding tot de Kanstheorie
2.1 Rekenen met kansen . . . . . . . . . . . . . . . . . . .
2.1.1 Inleiding . . . . . . . . . . . . . . . . . . . . .
2.1.2 Het verzamelingsmodel . . . . . . . . . . . . .
2.1.3 Voorwaardelijke waarschijnlijkheid . . . . . . .
2.1.4 De formule van Bayes . . . . . . . . . . . . . .
2.2 Stochastische variabelen en hun kansverdeling . . . . . .
2.2.1 Stochastische variabelen . . . . . . . . . . . . .
2.2.2 Eigenschappen van een verdelingsfunctie . . . .
2.2.3 Continue en discrete verdelingen . . . . . . . . .
2.2.4 Percentielen . . . . . . . . . . . . . . . . . . . .
2.3 Kansvectoren en onafhankelijke stochastische variabelen
2.4 Verwachtingswaarde en standaardafwijking . . . . . . .
2.5 Kentallen van locatie, schaal en vorm . . . . . . . . . .
2.5.1 Kentallen van locatie . . . . . . . . . . . . . . .
2.5.2 Kentallen van schaal . . . . . . . . . . . . . . .
2.5.3 Kentallen van vorm . . . . . . . . . . . . . . . .
2.6 Covariantie en correlatiecoëfficiënt . . . . . . . . . . . .
2.7 Empirische en theoretische grootheden, een overzicht . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
18
19
20
21
22
22
24
25
26
27
32
37
37
39
40
42
44
Belangrijke Verdelingen
3.1 De Binomiaalverdeling . . . . . . . . . . . . . . . . .
3.1.1 Bernoulli-experimenten . . . . . . . . . . . .
3.1.2 Permutaties en de formule van Stirling . . . . .
3.1.3 Combinaties . . . . . . . . . . . . . . . . . .
3.1.4 De Binomiaalverdeling . . . . . . . . . . . . .
3.1.5 De wet van de grote getallen (de Moivre 1718)
3.2 De hypergeometrische verdeling . . . . . . . . . . . .
3.3 De Geometrische verdeling . . . . . . . . . . . . . . .
3.4 De Poissonverdeling en Poissonincidentenstromen . . .
3.4.1 De Poissonverdeling . . . . . . . . . . . . . .
3.4.2 Poissonincidentenstromen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
45
46
47
48
50
50
53
54
54
56
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
INHOUDSOPGAVE
3.5
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
60
61
62
62
63
63
64
64
65
66
67
71
72
74
77
77
80
83
4
Inleiding tot de Statistiek
4.1 Parameterschattingen en betrouwbaarheidsintervallen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Methoden voor het bepalen van schatters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Het schatten van de verwachtingswaarde van een normale verdeling als σ bekend is . . . . . . . . . . . . .
4.1.3 Het schatten van de variantie van een normale verdeling . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.4 Het schatten van het gemiddelde van een normale verdeling . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.5 Het schatten van een percentage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Hypothesetoetsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 De t-toets voor één groep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 De χ 2 -toets voor de variantie in één groep . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 De F-toets, het vergelijken van varianties in twee groepen . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.4 De t-toets voor het vergelijken van gemiddelden in twee groepen (Eng. two-group t-test) . . . . . . .
4.2.5 Verbonden steekproeven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 De macht van een toets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 voorbeeld 1: de tweezijdige t-toets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Voorbeeld 2: de paranormale begaafdheid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 De chi-kwadraat toets op een kansverdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 De chi-kwadraat toets op een kansverdeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.2 Toets op een verdeling met geschatte parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.3 Kruistabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 De Kolmogorov-Smirnov Toets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
86
87
89
91
94
95
96
97
99
101
103
106
107
107
111
112
112
114
115
117
5
Correlatie- en regressieanalyse
5.1 Kleinste-kwadratenproblemen . . . . . . . . . . . . . .
5.2 Meetkundige interpretatie . . . . . . . . . . . . . . . . .
5.3 Verbetering van de numerieke stabiliteit . . . . . . . . .
5.4 Een stochastisch model met één onafhankelijke variabele
119
121
122
123
124
3.6
3.7
3.8
De exponentiële verdeling . . . . . . . . . . . . . . . . . . . . .
3.5.1 De exponentiële verdeling . . . . . . . . . . . . . . . . .
3.5.2 De risico verhouding . . . . . . . . . . . . . . . . . . . .
3.5.3 De Gamma-verdeling . . . . . . . . . . . . . . . . . . . .
Uniforme verdelingen en random getallen . . . . . . . . . . . . .
3.6.1 De discrete uniforme verdeling . . . . . . . . . . . . . . .
3.6.2 De continue uniforme verdeling . . . . . . . . . . . . . .
3.6.3 Random getallen . . . . . . . . . . . . . . . . . . . . . .
De Normale Verdeling . . . . . . . . . . . . . . . . . . . . . . .
3.7.1 Inleiding . . . . . . . . . . . . . . . . . . . . . . . . . .
3.7.2 De standaard-normale verdeling N 0 1 . . . . . . . . . .
3.7.3 De algemene normale verdeling N µ σ . . . . . . . . .
3.7.4 Benaderingen met de normale verdeling . . . . . . . . . .
3.7.5 Transformatie van de dichtheidsfunctie van een kansvector
3.7.6 Normaal verdeelde random getallen . . . . . . . . . . . .
3.7.7 De normale verdeling in verscheidene dimensies . . . . .
De Chi-kwadraat, Student-t en Fisher-Snedecor Verdelingen . . .
3.8.1 De Chi-kwadraat verdeling . . . . . . . . . . . . . . . . .
3.8.2 De t-verdeling . . . . . . . . . . . . . . . . . . . . . . .
3.8.3 De Fmn -verdeling . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
Oefeningen
126
7
Software
153
7.1 SPSS, Een summier overzicht van een aantal faciliteiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
INHOUDSOPGAVE
7.2
8
7.1.1 Inleiding . . . . . . . . . . . . . . . . . . . . . .
7.1.2 Het werkblad (data editor) . . . . . . . . . . . . .
7.1.3 Het FILE-menu . . . . . . . . . . . . . . . . . . .
7.1.4 Aanmaken van kolommen en invoeren van data . .
7.1.5 Wegen en selecteren van data . . . . . . . . . . .
7.1.6 Transformatie van data . . . . . . . . . . . . . . .
7.1.7 Grafische weergave van de data . . . . . . . . . .
7.1.8 Beschrijvende statistiek . . . . . . . . . . . . . .
7.1.9 t-Toetsen . . . . . . . . . . . . . . . . . . . . . .
7.1.10 Toetsen met de χ 2 –verdeling . . . . . . . . . . . .
7.1.11 Regressie en correlatieanalyse . . . . . . . . . . .
7.1.12 De Kolmogorov-Smirnov toets . . . . . . . . . . .
7.1.13 Het Syntax Window . . . . . . . . . . . . . . . .
Statistische faciliteiten in Excel . . . . . . . . . . . . . . .
7.2.1 Inleiding . . . . . . . . . . . . . . . . . . . . . .
7.2.2 Het invoeren van data . . . . . . . . . . . . . . . .
7.2.3 Beschrijvende Statistiek . . . . . . . . . . . . . .
7.2.4 F- en t-Toetsen . . . . . . . . . . . . . . . . . . .
7.2.5 Kruistabellen en de χ 2 -toets op een kansverdeling
7.2.6 Het berekenen van statistische functies . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Tabellen
8.1 Inleiding, afrondfouten en lineaire interpolatie . . . . . . . . . . . . . . . . . .
8.1.1 Afrondfouten, afwijkingen tussen de exacte waarde en de tabelwaarden
8.1.2 Lineaire interpolatie . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 De binomiaalverdeling X Bn p . . . . . . . . . . . . . . . . . . . . . . .
8.3 De Poissonverdeling X Pλ . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 De standaard normale verdeling Z N 0 1 . . . . . . . . . . . . . . . . . . .
8.5 De χ 2 -verdeling X χn2 ; n is het aantal vrijheidsgraden . . . . . . . . . . .
8.6 De t-verdeling T tn ; n is het aantal vrijheidsgraden . . . . . . . . . . . . .
8.7 De F-verdeling F Fnm . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Index
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
153
153
153
154
154
154
155
156
156
157
158
158
158
159
159
159
160
161
161
161
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
162
162
162
162
164
171
173
174
176
177
181
Hoofdstuk 1
Inleiding
1.1 Waarschijnlijkheidsrekening versus statistiek
Waarschijnlijkheidsrekening is een wiskundige discipline, ontwikkeld als abstract model en gebaseerd op
axioma’s; conclusies worden deductief afgeleid uit de basisprincipes. In de statistiek gaan we inductief na of
een zeker kanstheoretisch model toepasbaar is op onze waarnemingen; absolute zekerheid hierbij kunnen we
nooit bereiken. Als we bijvoorbeeld onze winstkansen berekenen voor een dobbelspel met “eerlijke” stenen
(iedere uitkomst heeft kans 16 ) zijn we bezig met waarschijnlijkheidsrekening. Als we echter tijdens het spel
merken dat de zes te vaak uitkomt en gaan twijfelen aan de eerlijkheid van een dobbelsteen, behandelen we
een statistisch probleem.
Kansrekening geeft antwoorden op vragen als:
wat is de kans dat ik een zes gooi bij het dobbelen?
wat is de kans dat ik met een munt de elfde maal “kop” gooi als ik al tien maal “kop” gegooid heb?
wat is de kans dat ik slaag voor mijn examen statistiek (=1 als ik goed studeer)?
De volgende vragen zijn van meer statistische aard:
ik heb 100 maal met een munt gegooid en vond 60 maal “kop”. Is die munt “eerlijk” (kans op “kop”
of “munt” is 12 )?
een met kunstmest behandelde akker brengt 5.8 ton per hectare op en een zonder maar 4.9 ton/ha. Is
dit verschil significant?
zijn de geconstateerde leukemiegevallen in de dorpen rond Sellafield (GB) en La Hague (F) te wijten
aan toevallige (overal voorkomende) oorzaken of is er daar sprake van een statistisch significant groter
risico op deze ziekte?
Voor een degelijk antwoord op een statistische vraag is het noodzakelijk een goed kanstheoretisch
model ter beschikking te hebben voor het berekenen van een antwoord en voor het inschatten van de mate
van relevantie ervan, zoals blijkt uit het volgende voorbeeld. Twee docenten, Stef en Pieter, beoordelen
beide onafhankelijk van elkaar hetzelfde statistiekexamen van twaalf studenten met het volgende resultaat:
Jan
Veerle
Wim
Monique
Kees
Tanja
Pieter
7
10
16
12
14
12
Stef
8
9
18
13
13
13
Rudger
Eva
Herwig
Ivo
Fred
Dirk
4
Pieter
16
14
12
11
10
14
Stef
18
16
11
13
12
16
HOOFDSTUK 1. INLEIDING
5
Bij het zien van deze uitslagen komt de vraag op of Pieter (gemiddeld) even hoge cijfers geeft als Stef.
We kunnen niet verwachten dat de beoordeling van ieder examen apart een gelijk resultaat zal opleveren als
beiden even streng zijn. We kunnen wel verwachten dat (in dat geval) de kansen op een positief of negatief
verschil gelijk zullen zijn. M.a.w. het experiment, “Laat Pieter en Stef ieder het examen van een student
beoordelen en kijk of het verschil 0 dan wel 0 is”, is te modelleren met het werpen van een “eerlijke”
munt met kans 12 op “kop”. De kans op de gebeurtenis “Pieter geeft bij 12 examens driemaal of minder
een cijfer groter of gelijk aan dat van Stef” is dan gelijk aan de kans op het gooien van drie of minder maal
“kop” bij twaalf worpen met een munt. De kans hierop is (zoals we later zullen zien):
12 1211 121110
212 1 1
2
23
299
73%
4096
We concluderen dat kennelijk de kans, dat Pieter examens even streng als of milder dan Stef beoordeelt,
7.3% is. Met vrij grote zekerheid (92.7%) geeft hij dus lagere cijfers.
In dit voorbeeld hebben we alleen gekeken naar de keren dat het cijfer groter of gelijk dan wel kleiner was en daarop ons model gebouwd zonder te letten op de grootte van de verschillen; we hebben een
zogenaamde “verdelingsvrije” statistiek gebruikt. We zouden ook kunnen kijken naar de grootte van de
verschillen en een uitspraak proberen te doen over het “gemiddelde verschil” maar dan moeten we veronderstellingen gaan maken over de kansen op alle mogelijke verschillen. De statistische uitspraken kunnen
dan veel preciezer worden, maar misschien zijn ze gebouwd op los zand doordat de veronderstellingen niet
kloppen!
Dit voorbeeld laat zien dat een statistische uitspraak gedaan wordt aan de hand van een (abstract) model
uit de waarschijnlijkheidsrekening. De geldigheid van van de uitspraak staat of valt met de toepasbaarheid
van het model, maar zonder model zijn er helemaal geen uitspraken te doen. Het gevolg is dat een groot
deel van deze syllabus (tweederde) gewijd is aan modellen uit de kansrekening die we nodig hebben in
statistische toepassingen uit het laatste deel.
HOOFDSTUK 1. INLEIDING
6
1.2 Beschrijvende statistiek
1.2.1 Variabelen en datatypen
De methoden om systematisch empirische kennis te verwerven zijn in alle wetenschappen dezelfde. We
doen waarnemingen aan of experimenten met het object van onze studie en trachten er met mathematische
en statistische methoden uitspraken over te doen, classificaties te maken en verbanden te zoeken. De verzamelde gegevens kunnen zeer verschillend van aard zijn.
Neem bijvoorbeeld een groep 2K studenten. We noteren naam (X0 ), geboortejaar (X1 ), een aantal
fysieke kenmerken zoals geslacht (X2 ), kleur haar (X3 ), kleur ogen (X4 ), gewicht (X5 ), lengte (X6 ), een aantal
studiekenmerken zoals studierichting (X7 ), gemiddeld examencijfer in 1K (X8 ), gemiddeld examencijfer bij
het eindexamen HSO (X9 ), en nog veel meer. Deze gegevens kunnen we ordenen in een tabel van de vorm:
X0
naam
Jan Janssen
Irma Douce
..
.
X1
X2
X3
X4
X5
X6
X7
X8
X9
geboorte
jaar
sexe
haarkleur
kleur ogen
gewicht
lengte
studie
gem. 1K
gem. HSO
V=0
M=1
zwart=0
bruin=1
blond=2
rood=3
bruin=0
blauw=1
grijs=2
groen=3
kg
cm
info=0
nat=1
sch=2
bio=3
op 20
op 100
1983
1985
..
.
1
0
..
.
0
2
..
.
0
3
..
.
83.7
62.1
..
.
187
165
..
.
0
3
..
.
18
12
..
.
75
62
..
.
Tabel 1.1: Een multivariate dataset
De gegevens in deze tabel zijn zeer verschillend van aard. De eerste kolom X0 bevat een rij karakters, die
de menselijke lezer associeert met de naam van een persoon maar die voor de statistische verwerking betekenisloos is. De kolommen (of variabelen) X1 X4 en X7 hebben discrete waarden (duiden categorieën
aan) maar alleen de waarden van X1 hebben een natuurlijke ordening, bij de anderen is de keuze van de
waarden 0 1 of 0 1 2 3 volledig arbitrair. We noemen X2 X3 X4 en X7 daarom nominale variabelen of categorale variabelen en X1 een ordinale variabele. De variabelen X5 X6 (lengte en gewicht) en
X8 X9 (gemiddelde examencijfers) kunnen als continu beschouwd worden (eventueel binnen een gegeven
interval). Er is echter een verschil tussen X5 X6 enerzijds en X8 X9 anderzijds. De uitspraak dat “een man
gemiddeld 15% zwaarder is dan een vrouw” of dat “Jan 22 cm groter is dan Irma” zijn zinvol, maar de
uitspraak dat “het gemiddelde examencijfer van Jan 50% beter is dan dat van Irma” is nonsens. Continue
variabelen zoals X8 X9 noemen we interval variabelen en X5 X6 noemen we schalende variabelen of ratio
variabelen. Samenvattend, in de statistiek onderscheiden we de volgende datatypen:
nominaal of categoraal
ordinaal . . . . . . . . . .
interval . . . . . . . . . . .
ratio of schalend . . . .
de waarden duiden een klein aantal categorieën aan zonder natuurlijke ordening,
er is een klein aantal waarden met een natuurlijk ordening,
maar de verschillen hebben geen betekenis,
de waarden variëren continu binnen een interval, de verschillen hebben een
kwantitatieve betekenis, maar verhoudingen niet
de waarden variëren continu en verschillen zowel als verhoudingen zijn zinvol.
In deze cursus zullen we vrijwel uitsluitend ratio variabelen gebruiken.
HOOFDSTUK 1. INLEIDING
7
1.2.2 Het Histogram
Stel, we hebben de lengten van 100 personen gemeten en de resultaten, afgerond tot op hele centimeters,
afgedrukt in tabel 1.2. We hebben dus een steekproef uit de verzameling van lengten (b.v. van volwassen
mannelijke inwoners van België) met een steekproefomvang n 100.
1.74
1.74
1.75
1.65
1.77
1.84
1.50
1.86
1.45
2.01
1.62
1.70
1.70
1.75
1.72
1.85
1.81
1.80
1.90
1.59
1.97
1.42
1.77
1.77
1.52
1.53
1.70
1.84
1.63
1.67
1.86
1.63
1.58
1.68
1.68
1.90
1.58
1.82
1.84
1.47
1.62
1.72
1.62
1.73
1.65
1.65
1.88
1.79
1.78
1.75
1.87
1.83
1.87
1.55
1.67
1.80
1.80
1.67
1.89
1.96
1.94
1.67
1.99
1.73
1.74
1.49
1.77
1.77
1.68
1.81
1.47
1.62
1.62
1.86
1.62
1.86
1.79
1.57
1.57
1.77
1.81
1.45
1.57
2.00
1.69
1.91
1.61
1.79
1.77
1.77
1.88
1.57
1.79
1.76
1.57
1.66
1.71
1.75
1.68
1.50
1.50
1.91
1.57
1.52
1.78
1.90
1.53
1.56
2.15
1.64
Tabel 1.2: Honderd lengtemetingen
Erg veel informatie geeft zo’n tabel van ruwe gegevens niet; met name is het uit deze tabel moeilijk
af te lezen wat de meest voorkomende lengte is en waar de uitersten liggen. Dezelfde gegevens, maar nu
gesorteerd op grootte zoals in tabel 1.3, geeft veel meer informatie. We zien onmiddellijk dat alle metingen
in het interval 142 215 liggen en dat waarden in de buurt van 1.75 het meest voorkomen.
1.42
1.45
1.45
1.47
1.47
1.49
1.50
1.50
1.52
1.52
1.53
1.53
1.55
1.56
1.57
1.57
1.57
1.57
1.57
1.58
1.58
1.59
1.61
1.62
1.62
1.62
1.62
1.62
1.62
1.63
1.63
1.64
1.65
1.65
1.66
1.67
1.67
1.67
1.67
1.68
1.68
1.68
1.69
1.70
1.70
1.71
1.72
1.72
1.73
1.73
1.74
1.74
1.75
1.75
1.75
1.75
1.76
1.77
1.77
1.77
1.77
1.77
1.78
1.78
1.79
1.79
1.79
1.79
1.80
1.80
1.81
1.81
1.81
1.82
1.83
1.84
1.84
1.84
1.85
1.86
1.86
1.86
1.86
1.87
1.87
1.88
1.88
1.89
1.90
1.90
1.90
1.91
1.91
1.94
1.96
1.97
1.99
2.00
2.01
2.15
Tabel 1.3: Dezelfde honderd lengtemetingen gesorteerd
Voor een overzicht is het beter de gegevens in een aantal klassen (meestal 5 tot 30) in te delen. Hiertoe
kiezen we een klassebreedte, b.v. 0.1, we verdelen het relevante interval in halfopen deelintervallen van deze
lengte, b.v. 140 150 ; 150 160 ; en we tellen de frequenties, d.w.z. het aantal keren dat een meting
in een bepaald deelinterval valt, zie tabel 1.4.
Klasse
1
2
3
4
5
6
7
8
Ondergrens ()
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
Bovengrens ()
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
Frequentie
8
14
23
25
21
7
1
1
Percentage
8%
14%
23%
25%
21%
7%
1%
1%
modale klasse
Tabel 1.4: 100 lengtemetingen verdeeld in 8 klassen, klassebreedte 0.1
Grafisch kunnen we deze klassenindeling weergeven in een histogram. Op ieder deelinterval richten
we een rechthoek op waarvan het oppervlak evenredig is met de frequentie van de betreffende klasse. In
HOOFDSTUK 1. INLEIDING
8
figuur 1.1 zijn histogrammen afgebeeld, behorend bij de data van tabel 1.2. Links is klassebreedte 0.1 gekozen en rechts 0.05. Zoals U ziet kan de vorm van het histogram vrij sterk van de keuze van de klassebreedte
afhangen.
Voor de gegeven dataset van tabel 1.2 kunnen we ook de empirische verdelingsfunctie tekenen. Bij
gegeven dataset x1 x2 xn van n metingen wordt deze gedefinieerd door
Fn x :
#xi xi x
n
(1.1)
in woorden : het aantal metingen x gedeeld door het totale aantal. In figuur 1.2 is deze weergegeven voor
de data van tabel 1.2. Deze functie is een “trapfunctie” die in de punten xi een sprong maakt. Als we alle
metingen op een briefje schrijven, alle briefjes in een hoed stoppen en er (ongezien) een uit trekken, dan is
Fn x de kans dat het briefje een getal bevat x.
klassebreedte 0.1
klassebreedte 0.5
30
15
20
10
10
5
0
1.4
1.6
1.8
2
0
2.2
1.4
1.6
1.8
2
2.2
Figuur 1.1: Histogrammen van de 100 lengtemetingen met klassebreedten 0.1 resp 0.05.
1
0.8
0.6
0.4
0.2
0
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2
2.1
2.2
2.3
Figuur 1.2: De empirische verdelingsfunctie voor de lengtemetingen van tabel 1.2.
1.2.3 Percentielen en de mediaan.
In de praktijk willen we vaak een antwoord op de omgekeerde vraag: “voor welke waarde van x is 25%
(of 50% of 90%) van de metingen kleiner dan of gelijk aan x”. We maken bijvoorbeeld deuren zo hoog dat
(minstens) 99.9% van de mensen zijn hoofd niet zal stoten en we moeten dus weten waar die grens ligt. Bij
gegeven α zouden we het α %-percentiel met 0 α 100 willen definiëren als het punt ξα waarbeneden
α % van de metingen liggen; we zoeken dus de inverse funktie van de funktie Fn uit (1.1).
Omdat we maar een eindig aantal metingen hebben en Fn constant is tussen ieder tweetal opeenvolgende metingen, bestaat zo’n inverse funktie echter niet (of minstens niet overal). Als we bijvoorbeeld
HOOFDSTUK 1. INLEIDING
9
de mediaan (dit is het 50%-percentiel) van de 100 metingen van tabel 1.3 willen bepalen, dan vinden we
x50 173 en x51 174, zodat voor iedere x tussen deze twee waarden het percentage metingen ter linker
zijde gelijk is aan 50%. Voor een eenduidige waarde kiezen we in dit geval het midden tussen deze twee
punten als mediaan. Als we echter in deze dataset de laatste meting x100 215 schrappen, omdat deze
lengte zeer uitzonderlijk is en het getal in deze tabel dus waarschijnlijk een meet- of typefout is, dan houden
we 99 metingen over; 50% ervan geeft aanleiding tot het beschouwen van schimmige “halve” metingen.
Bovendien is er geen punt ξ te vinden zo, dat precies 50% van de metingen kleiner dan of gelijk aan ξ is en
ook 50% groter dan ξ . In dit geval definiëren we de mediaan dan als het punt waar de sprong van kleiner
dan 50% naar groter gemaakt wordt: Dus, als x1 x2 xn dan definiëren we
x
n
med : 1 2 x nx
1
2
1
2
1
2
1
2n
1
als n oneven
als n even
(1.2)
De mediaan is dus in feite de “middelste” waarneming, waarbij we dit begrip middelste interpreteren als het
gemiddelde van de twee middelsten als het aantal waarnemingen even is.
Voor een definitie van het (empirische) α %-percentiel ξα doen we in feite hetzelfde. We definiëren
α n 1-de waarneming. Als p : α n 1 geheel is, is dit dus x . Als dit getal niet geheel
dit als de 100
p
100
α n 1 en het “overschot” ρ : α n 1 p van bepalen. Het
is kunnen we er het gehele deel p : 100
100
punt ξα zal dan ergens tussen xp en x p1 in liggen en wel zo dat de afstand tussen deze punten “eerlijk”
verdeeld wordt naar rato van het overschot ρ . We definiëren het α %-percentiel ξα dus als
α n 1 en ρ : α n 1 p ξα : x p ρ x p1 x p met p : 100
100
100 n
Merk op, dat het geen zin heeft om te spreken van een α %-percentiel met α n100
1 of α n1 . Tenslotte
kunnen we in plaats van procenten ook fracties (tussen nul en een) beschouwen; we spreken dan van quantielen. Het 0.2–quantiel is dus het 20%–percentiel.
1.42
1.62
1.735
1.838
2.15
Figuur 1.3: Boxplot voor de data van tabel 1.2
De meest gebruikte empirische percentielen zijn die op 50% (de mediaan), 25% en 75% (het linkerresp. rechter kwartiel). Het verschil tussen het linker en rechter kwartiel heet het “(empirische) interkwartiel” en is een maat voor de spreiding van de metingen. Grafisch kunnen we deze tesamen met het totale
bereik van de metingen samenvatten in een “box-plot”. Hierbij wordt (horizontaal of vertikaal) een as getekend gaande van de kleinste meting naar de grootste (dit is de totale variatiebreedte), op deze as worden
de mediaan en de 25%– en 75%–percentielen aangegeven met een dwarse streep en van het stuk tussen de
25%– en 75%–percentiel wordt een doosje gemaakt, zie figuur 1.3. Hiermee geven we op zeer compacte
wijze visueel weer wat de totale variatiebreedte is tegenover de breedte van de middelste 50% (het empirische interkwartiel). Vooral als we verscheidene datasets met elkaar willen vergelijken, zoals in figuur 1.4,
kan dit een goed visueel hulpmiddel zijn voor het weergeven van plaats en schaal van de verschillende datasets. In SPSS en andere softwarepakketten, wordt dit nog iets verfijnd. De doorgetrokken assen rechts
HOOFDSTUK 1. INLEIDING
10
en links van het doosje, omvatten alleen de datapunten die minder dan 1.5 maal het interkwartiel verwijderd zijn van het rechter resp. het linker kwartiel. Metingen buiten dit gebied (ter lengte van vier maal
het interkwartiel) worden als “uitschieters” (of “uitbijters”; Eng. “outliers” of “extremes”) beschouwd en
afzonderlijk aangeduid.
Tenslotte vermelden we, dat de modus van een steekproef de meest voorkomende waarneming is. De modale
klasse bij een frequentieverdeling of een histogram is de klasse die de meeste waarnemingen bevat.
1.2.4 Gemiddelde en standaarddeviatie.
Meer nog dan mediaan en interkwartiel worden gemiddelde en standaarddeviatie gebruikt voor het geven
van compacte informatie over de ligging van de data en de schaal ervan. In publicaties beperkt men zich
meestal tot het geven van gemiddelde en standaardafwijking, zodat de lezer de afzonderlijke metingen niet
eens kent. Gemiddelde en standaardafwijking worden zo vaak gebruikt wegens hun prettige rekenkundige
eigenschappen, zoals lineariteit, zie 1.2.6. Naderhand zullen we ook zien dat de meest gebruikte verdeling,
de “normale verdeling” volledig gekarakteriseerd is door gemiddelde en spreiding en dat steekproefgemiddelde en standaarddeviatie de natuurlijke schatters voor normaal verdeelde data zijn.
Definitie: Het gemiddelde x (steekproefgemiddelde) van de gegevens x1 x2 xn is
x :
1 n
xi
n i∑
1
(1.3)
In het voorbeeld van tabel 1.3 is de modus 1.62, de mediaan 1.735 en het gemiddelde 1.724. De
modus behoeft niet eenduidig te zijn; het kan voorkomen dat verscheidene waarden even vaak voorkomen.
Het gemiddelde is het gemakkelijkst te berekenen maar erg gevoelig voor fouten of uitschieters. Voor het
bepalen van de mediaan moeten we onze gegevens sorteren, maar deze grootheid is wel het meest robuust.
Als we bijvoorbeeld in tabel 1.3 een fout maken en de decimale punt in de laatste waarneming vergeten, dan
verschuift het gemiddelde onmiddelijk naar 3.853 terwijl de mediaan niet verandert.
Om de schaal van de gegevens (of de grootte van de “puntenwolk” rond gemiddelde of mediaan) weer
te geven gebruiken we meestal de variantie (of de wortel daarvan, de standaardafwijking). De (empirische)
variantie (Eng. sample variance) of steekproefvariantie van een steekproef x1 x2 xn is
s2 :
1 n
xi x2
n 1 i∑
1
x
1 n
xi
n i∑
1
(1.4)
waarbij x het steekproefgemiddelde is zoals gedefinieerd in (1.3). Om een grootheid te hebben, die een
gelijke dimensie heeft als de gegevens zelf gebruiken we vaak de standaardafwijking, standaarddeviatie of
spreiding s (Eng. standard deviation) , welke de wortel is uit de variantie s2 . Als bijvoorbeeld onze gegevens
lengten zijn, uitgedrukt in “inch”, dan wordt s (de standaardafwijking) een lengte eveneens uitgedrukt in
“inch” terwijl de variantie dan een oppervlak is; als we de gegevens vervolgens herschalen naar “cm” door
ze te vermenigvuldigen met 2.54 moeten we s met dezelfde factor vermenigvuldigen, terwijl de variantie
met het kwadraat van 2.54 vermenigvuldigd moet worden.
Een slechte maar veelgebruikte alternatieve manier om de steekproefvariantie te berekenen is
s :
2
immers,
1
n
1
n
2
2
∑ xi n x i1
n
n
n
n
n
i1
i 1
i1
i 1
i1
(1.5)
∑ xi x2 ∑ x2i 2x ∑ xi ∑ x2 ∑ x2i 2xnx nx2 In sommige boeken wordt deze formule zelfs aangeprezen als superieur aan (1.4), omdat er minder optellingen voor nodig zijn. Zij heeft echter een probleem, dat het resultaat zeer onnauwkeurig kan zijn ten gevolge
HOOFDSTUK 1. INLEIDING
11
x x d de afronding van het gemiddelde noteren en deze afgeronde waarde
van afronding. Als we met gebruiken om de steekproefvariantie te berekenen dan vinden we
x2
∑ni1 xi 2
x ∑ni1 x2i n ∑ni1 xi x d 2 ∑ni1 xi x2 2d ∑ni1 xi x nd 2
∑ni1 x2i n x d 2 ∑ni1 x2i x2 2nxd nd2
a b De tweede term in het rechterlid van (a) is nul, zodat de fout in de som ten gevolge van de afronding nd2 is.
De tweede term in het rechterlid van (b) is niet nul (tenzij x 0 en kan zeer groot zijn als het gemiddelde
x groot is t.o.v. de steekproefvariantie. Alleen al de afronding van x geeft in (b) dus extra bijdrage aan de
fout t.o.v. (a). Maar zelfs als je het gemiddelde exact kunt berekenen, heb je in (b) nog altijd het cijferverlies
ten gevolge van de aftrekking van twee grote positieve en bijna gelijke getallen als het gemiddelde groot is
t.o.v. de steekproefvariantie. Formule (b) is dus altijd inferieur aan (a) en kan beter niet gebruikt worden in
de praktijk.
Een belangrijke eigenschap van het koppel formules voor gemiddelde x en steekproefvariantie s2 , is de
“kleinste kwadraten”–eigenschap, dat het gemiddelde x de som van gekwadrateerde afwijkingen
J g :
1 n
xi g2
n 1 i∑
1
(1.6)
minimaliseert en dat dit minimum precies gelijk is aan s2 . Omdat de afgeleide in het minimum nul is, vinden
we door differentiatie inderdaad
2 n
dJ
g xi g 0
dg
n 1 i∑
1
g
1 n
xi n i∑
1
We kunnen dit ook bewijzen door het gewoon uit te schrijven xi g xi x x g,
n
n
n ∑ xi g2 ∑ xi x2 2xi xx gx g2 ∑ xi x2 nx g2 ;
i1
i 1
i1
de som van de dubbele producten is nul en x g2 is altijd positief en nul in het minimum g x .
Andere gebruikelijke kentallen van schaal zijn het bovenvermelde (empirische) interkwartiel, de afstand tussen het 25%– en het 75%–kwartiel, en de mediane absolute afwijking (“Median Absolute Deviation” of MAD) en de gemiddelde absolute afwijking (“mean absolute deviation” of MeanAD), de mediaan
resp. het gemiddelde van de (absolute) afwijkingen t.o.v. de steekproefmediaan:
MAD : mediaanxi medni1
en
MeanAD :
1 n
xi med n i∑
1
(1.7)
Ga na dat de helft van de waarnemingen tussen med MAD en med MAD ligt en dat ook de MAD
dezelfde dimensies heeft als de data.
1.2.5 Meerdimensionale data
In tabel 1.5 staan de cijfers die studenten Informatica (I1–I31) en Biotech (B1–B22) behaalden bij het
schriftelijk examen en bij de computerproef in april ’98. Deze data zijn tweedimensionaal omdat er voor
iedere student twee cijfers zijn; bovendien betreft het twee groepen studenten. In 4.2 zullen we methoden
behandelen om de twee cijferreeksen en de twee groepen met elkaar te kunnen vergelijken. De kentallen
bij deze dataset vinden we in tabel 1.6. De resultaten van de groepen Informatica en Biotech uit deze tabel
kunnen we kwalitatief snel met elkaar vergelijken door er een boxplot van te maken, zie figuur 1.4:
Tot onze verbazing zien we dat de informaticastudenten juist de computerproef gemiddeld veel slechter
deden dan de biotechstudenten en dat ook de resultaten van het schriftelijk examen iets lager lagen. In 4.2
HOOFDSTUK 1. INLEIDING
St
B01
B02
B02
B04
B05
B06
B07
B08
B09
B10
B11
CP
7
17
5
15
6
15
14
14
10
14
10
SE
11
10
6
15
12
18
16
14
9
12
11
12
St
B12
B13
B14
B15
B16
B17
B18
B19
B20
B21
B22
CP
17
17
14
11
15
18
13
12
14
16
15
SE
7
13
16
16
15
16
9
11
13
13
17
St
I01
I02
I02
I04
I05
I06
I07
I08
I09
I10
I11
CP
11
10
16
17
18
9
15
6
12
11
15
SE
8
15
16
15
16
10
13
11
12
11
13
St
I12
I13
I14
I15
I16
I17
I18
I19
I20
I21
I22
CP
8
13
11
15
7
15
8
13
14
4
4
SE
12
10
11
14
7
16
11
14
8
6
7
St
I23
I24
I25
I26
I27
I28
I29
I30
I31
CP
17
7
13
11
10
6
14
8
14
SE
14
14
14
13
9
5
13
10
13
Tabel 1.5: Geanonymiseerde resultaten van het schriftelijk examen (SE) statistiek en de computerproef (CP) in april ’98 voor studenten Informatica en Biotech.
Info
CP
SE
11.4
11.6
3.91
3.05
11 & 15 13 & 14
4
5
8
10
11
12
15
14
18
16
gemiddelde
standaarddeviatie
modus
minimum
25%-percentiel
mediaan
75%-percentiel
maximum
BioIr
CP
SE
13.1
12.7
3.62
3.27
14
16
5
6
10.75 10.75
14
13
15.25
16
18
18
Algemeen
CP
SE
12.1
12.1
3.86
3.16
14 & 15
13
4
5
9.5
10
13
13
15
14.5
18
18
Tabel 1.6: Kentallen voor de data in tabel 1.5.
zullen we technieken behandelen om te kunnen beslissen of de verschillen significant zijn, d.w.z. niet te
wijten aan het toeval.
Tussen de cijfers die eenzelfde student behaalt voor het schriftelijk examen en de computerproef, verwachten we een verband. In figuur 1.5 is voor iedere student het cijfer van het schriftelijk examen uitgezet
tegen dat van de computerproef. We zien grofweg een verband; studenten die goede cijfers behaalden voor
het een, behaalden ook goede cijfers voor het ander. Numeriek kunnen we dit verband uitdrukken door
de (empirische) covariantie en de correlatiecoëfficiënt (Eng. sample covariance, sample correlation). Als
x : xi i 1 n en y : yi i 1 n twee series van n metingen zijn (we kunnen ze beschouwen
als vectoren in de n-dimensionale ruimte IRn ) met gemiddelden x en y en standaarddeviaties sx resp. sy ,
zie (1.4), dan zijn
covx y :
n
x xyi y
n1 ∑ i
1
i1
en
ρ x y :
covx y
sx sy
(1.8)
de empirische covariantie resp. correlatie tussen x en y. Twee datasets x en y heten ongecorreleerd als
ρ x y 0; anders heten ze gecorreleerd. Op dezelfde manier als in stelling 2.6.2 kunnen we laten zien dat
ρ 1 ; dit is niets anders dan de ongelijkheid van Cauchy-Schwartz in de lineaire algebra. Meetkundig is
de correlatie ρ gewoon de cosinus van de hoek tussen de vectoren x x en y y (in IRn ). In 5 zullen we
laten zien hoe we bij deze data de “best passende” rechte y a bx (regressierechte) kunnen bepalen zo,
dat de residuele (empirische) variantie ∑ni1 yi a bxi 2 minimaal is.
Analoog aan (1.5) kunnen we de covariantie ook berekenen met de alternatieve formule
n
x y nxy covx y :
n1 ∑ i i
1
i1
Om dezelfde reden als tevoren is het gebruik hiervan af te raden.
(1.9)
HOOFDSTUK 1. INLEIDING
13
CP-Info
SE-Info
CP-Bir
SE-Bir
18
18
18
16
16
15.25
15
14
14
13
12
11
10.75
10.75
10
8
6
5
5
4
Figuur 1.4: Boxplot van de cijfers van het schriftelijk examen (SE) statistiek in april ’98 en de
computerproef (CP) voor de studenten Informatica (Info) en Biotech (Bir).
20
x: Info
18
+: Bir
16
14
12
10
8
6
4
2
2
4
6
8
10
12
14
16
18
Figuur 1.5: Cijfers van het schriftelijk examen statistiek in april ’98 (verticaal) uitgezet tegen die
van de computerproef (horizontaal) voor de studenten Informatica () en Biotech ();
correlatiecoëfficiënt ρ 060 .
Meer algemeen kunnen we de situatie tegenkomen waarin we n onafhankelijke waarnemingen hebben
van p grootheden. Als voorbeeld geven we hier de bekende historische dataset van Bumpus uit 1898 met
metingen van lichaamskarakteristieken van een aantal (volwassen) mussen. tabel 1.7 hieronder bevat een
deel van deze gegevens. Van iedere mus zijn vijf lichaamskarakteristieken gegeven.
We noteren deze waarnemingen als een n p–matrix X met componenten xi j i 1 n j 1 p .
Dus de rij xi 1 xi p bevat de p componenten van de i–de meting en de kolom x1 j xn j bevat de
n (onafhankelijke) metingen van de j–de component. Als we simultaan een uitspraak willen doen over p
componenten van een (p–dimensionale) grootheid, zullen we meer dan p metingen moeten doen; dus n p .
Het gemiddelde berekenen we per kolom,
x j :
1 n
xi
n i∑
1
j
(1.10)
De empirische covariantiematrix definiëren we als de p p–matrix S, waarvan het j k–element de (empirische) covariantie bevat tussen de j–de en k–de kolom van de datamatrix X,
S jk : covx j xk :
1 n
xi j x j xik xk n 1 i∑
1
(1.11)
HOOFDSTUK 1. INLEIDING
nummer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
14
tot.lengte
155
156
160
152
160
155
157
165
153
162
162
159
159
155
162
152
159
155
163
163
156
159
161
155
162
153
162
164
spanwijdte
240
240
242
232
250
237
245
245
231
239
243
245
247
243
252
230
242
238
249
242
237
238
245
235
247
237
245
248
kop+bek
31.4
31.5
32.6
30.3
31.7
31.0
32.2
33.1
30.1
30.3
31.6
31.8
30.8
30.9
31.9
30.4
30.8
31.2
33.4
31.0
31.7
31.5
32.1
30.7
31.9
30.6
32.5
32.3
humerus
18.0
18.2
18.8
17.2
18.8
18.5
19.5
19.8
17.3
18.0
18.8
18.5
18.1
18.5
19.1
17.3
18.2
17.9
19.5
18.1
18.2
18.4
19.1
17.7
19.1
18.6
18.5
18.8
sternum
20.7
20.6
21.7
19.8
22.5
20.0
21.4
22.7
19.8
23.1
21.3
21.7
19.0
21.3
22.2
18.6
20.5
19.3
22.8
10.7
20.3
20.3
20.8
19.6
20.4
20.4
21.1
20.9
Tabel 1.7: Lichaamskarakteristieken van een aantal mussen volgens Bumpus (1898)
We zien dat S een symmetrische matrix is, Sjk Sk j of ST
de empirische variantie van de j–de kolom van X bevat,
S j j : s2j S en dat het j–de diagonaalelement Sj j van S
1 n
xi j x j 2 n 1 i∑
1
De empirische correlatiematrix R krijgen we door de elementen van S te herschalen met de standaarddeviaties van rij en kolom,
S jk
(1.12)
R jk : S j j Skk
tot.lengte
spanwijdte
kop+bek
humerus
sternum
gemiddelden
158.4
241.6
31.5
18.4
20.9
15.07
17.19
2.24
1.75
1.24
covariantiematrix
17.19 2.24 1.75
32.55 3.38 2.95
3.38 0.73 0.47
2.95 0.47 0.43
3.91 0.74 0.63
1.24
3.91
0.74
0.63
5.00
1.000
0.776
0.674
0.682
0.143
correlatiematrix
0.776 0.674 0.682
1.000 0.692 0.785
0.692 1.000 0.834
0.785 0.834 1.000
0.306 0.388 0.431
0.143
0.306
0.388
0.431
1.000
Tabel 1.8: Gemiddelden, covariantiematrix en correlatiematrix van Bumpus’ data uit tabel 1.7
In het voorbeeld van Bumpus, tabel 1.8, zien we, dat de eerste vier variabelen sterk met elkaar correleren en dat de correlatie van de afmetingen van het sternum met de andere afmetingen vrij klein is.
In tabel 1.8 merken we op, dat alle getallen in de covariantiematrix boven de diagonaal onder de
diagonaal terugkomen vanwege de symmetrie en dat in de correlatiematrix bovendien de diagonaal uit enen
bestaat. In publicaties wordt daarom de ruimte in de covariantiematrix onder de diagonaal vaak gebruikt om
de niet-triviale elementen van de correlatiematrix neer te schrijven, zoals in tabel 1.9.
HOOFDSTUK 1. INLEIDING
15
gemiddelden
tot.lengte
spanwijdte
kop+bek
humerus
sternum
158.4
241.6
31.5
18.4
20.9
15.07
0.776
0.674
0.682
0.143
covariantiematrix
correlatiematrix cursief
17.19 2.24
1.75
32.55 3.38
2.95
0.692 0.73
0.47
0.785 0.834 0.43
0.306 0.388 0.431
1.24
3.91
0.74
0.63
5.00
Tabel 1.9: Gemiddelden, covariantiematrix en correlatiematrix (cursief) van Bumpus’ data uit tabel 1.7
1.2.6 Het rekenen met experimentele resultaten
In de praktijk hebben we vaak het probleem, dat we de resultaten van een of meerdere series metingen
moeten gebruiken in een berekening. Noteer met X en Y de te meten grootheden en met
x : xi i 1 n en y : yi i 1 n
de metingen ervan. Eigenlijk zijn we alleen geı̈nteresseerd in de gemiddelden x en y en standaarddeviaties
sx resp. sy van onze metingen. In het dagelijkse laboratoriumwerk willen we de individuele metingen het
liefst zo gauw mogelijk vergeten en ons beperken tot “de waarde x van X met fout sx ” (in 4.1.2 — 4.1.5
zullen we als preciezere terminologie het betrouwbaarheidsinterval introduceren). Het is dus wel nuttig om
te weten wat er gebeurt met “de fout”, als we de som of het verschil x y, het product x y of een functie f x
van de meetresultaten willen berekenen.
Om met het laatste te beginnen, we wensen f x te gebruiken in plaats van het gemiddelde f van
fi : f xi i 1 n om niet f xi te hoeven uitrekenen voor iedere afzonderlijke meetwaarde. Wat is
dus de relatie tussen f en f x?
Voor het verschil geldt:
1 n f f x ∑ f xi f x
n i 1
Als f tweemaal differentieerbaar is, kunnen we f xi met een stukje Taylorontwikkeling benaderen,
f xi f xxi x f x 12 xi x2 f ξi ξi tussenpunt tussen xi en x (1.13)
1 n 1 n 1 n f
x
f
x
f
x
x
x
(1.14)
∑
∑ f ξixi x2 i
i
n i∑
n
2
n
1
i1
i1
De eerste term van het rechterlid is per definitie nul. Als de tweede afgeleide van f begrensd is door M op het
relevante interval (tussen mini xi en maxi xi ), dan is de tweede term begrensd door 12 M maal de empirische
variantie:
f f x 12 M s2x M : max f ξi (1.15)
zodat
f f x i
van f1 fn te bepalen, rekenen we liever de som van
In plaats van de (echte) steekproefvariantie
gekwadrateerde afwijkingen t.o.v. f x uit, ten eerste omdat we deze waarde willen gebruiken in plaats van
het (echte) gemiddelde f en ten tweede omdat het een eenvoudiger expressie geeft. Volgens (1.6) kan deze
som nooit kleiner zijn dan s2f . Met de middelwaardestelling vinden we een tussenpunt ηi tussen xi en x ,
zodat f xi f x xi x f ηi . Met D : maxi f ηi vinden we dan de ongelijkheid
s2f
s2f
2 1 n 2
n 1
f xi f x xi x f ηi D2 s2x ∑
∑
n 1 i1
n 1 i1
(1.16)
Als we voor D het maximum nemen van f x op een interval dat alle datapunten omvat, dan is deze
bovengrens voor de standaarddeviatie, sf D sx , meestal meer dan voldoende.
Onder enige beperkende voorwaarden kunnen we een preciezer verband vinden, namelijk dat de verandering van de standaarddeviatie door het toepassen van f op de data (ongeveer) evenredig is met de helling
HOOFDSTUK 1. INLEIDING
16
van f in x , s f f x sx . Als we de tweede orde Taylorontwikkeling (1.13) gebruiken, vinden we de
preciezere formule (zie ook het tweede bewijs van (1.6))
s2f 2
n 1
f
x
f
i
n 1 i∑
n1
2 n
1
f
x
f
x
f f x2
i
n 1 i∑
n
1
n1
2 n
1
xi x f x 12 xi x2 f ξi f f x2
∑
n 1 i1
n
1
(1.17)
f x2 s2x Als nu xi x f ξi veel kleiner is dan f x voor alle i, dan is de som van kwadraten vrijwel gelijk
aan f x2 s2x . De tweede term in het laatste rechterlid is verwaarloosbaar t.o.v. de eerste volgens (1.15), als
M 2 s2x klein is t.o.v. f x2 .
We concluderen dat meestal voldaan is aan de gebruikelijke vuistregels, gemiddelde van f xi is
gelijk aan f x en standaarddeviatie van f xi is gelijk aan f x sx . Je moet je er wel van bewust zijn
dat er uitzonderingen zijn, met name als f x klein en/of sx groot is.
Als we de mediaan prefereren als kental van locatie en de gemiddelde absolute afwijking t.o.v. de
mediaan als kental van schaal, kunnen we eenzelfde analyse doen als f monotoon is op het interval dat alle
data bevat. Onder deze voorwaarde van monotonie is de mediaan van f xi gelijk aan f med, omdat f de
volgorde niet verandert (of omdraait). Met gebruik van D uit (1.16) vinden we dat de gemiddelde afwijking
van f xi t.o.v. f med begrensd is door D maal de gemiddelde afwijking in xi ,
1 n
f xi f med n i∑
1
n
n
i1
i1
1n ∑ xi med f ηi D n1 ∑ xi med (1.18)
Zoals in (1.17) kunnen we – onder voorwaarden – laten zien dat de gemiddelde afwijking van f xi ongeveer gelijk is aan f med maal de gemiddelde afwijking in xi (doe zelf).
Vraag: wat is het verband tussen de MAD van f xi en die van xi ?
Betreffende optellen en vermenigvuldigen zullen we alleen gemiddelde en standaarddeviatie beschouwen voor de tweedimensionale dataset xi yi i 1 n. Als we niets over de relatie tussen de volgorden
van xi en yi weten, kunnen we niets zeggen over de volgorde van som/verschil xi yi en product
xi yi (ga na!). Som en verschil van gemiddelde is gelijk aan het gemiddelde van som resp. verschil (zoals
je allang weet),
1 n
1 n
1 n
x y ∑ xi yi ∑ xi ∑ yi x y (1.19)
n i1
n i1
n i1
Voor de steekproefvarianties van som en verschil geldt
s2xy
1 n
xi yi x y2
n 1 i∑
1
n
n
1 n
1
2
2
2
x
x
y
y
xi xyi y
i
i
n 1 i∑
n 1 i∑
n 1 i∑
1
1
1
s2x s2y 2 covx y
(1.20)
Aangezien het rechterlid altijd positief is (zoals het linkerlid), is 2 covx y s2x s2y . Dus vinden we in
alle gevallen de bovengrens
(1.21)
s2xy 2s2x s2y Als x en y niet gecorreleerd zijn, is er gelijkheid:
s2xy s2x s2y (1.22)
HOOFDSTUK 1. INLEIDING
17
Als x en y niet gecorreleerd zijn, is het product van de gemiddelden gelijk aan het gemiddelde van het
product, want
n
n
n
n
i1
i1
i1
i1
0 ∑ xi xyi y ∑ xi yi y x ∑ yi y ∑ xi yi n x y Om een idee te krijgen van de variantie van het product gebruiken we de identiteit
xi yi x y xyi y yxi xxi xyi y
en nemen we aan dat de derde term xi xyi y hierin te verwaarlozen is t.o.v. de andere twee (d.w.z. de
standaarddeviaties van x en y zijn klein t.o.v. x en y). Voor de empirische variantie van het product vinden
we dan:
2 2 2 2 2
1 n
1 n
2
x
y
x
y
x
y
y
y
x
x
x sy y sx s2xy i i
i
i
n 1 i∑
n 1 i∑
1
1
De som van het dubbele product is nul onder de voorwaarde dat x en y niet gecorreleerd zijn. Dus
s2x y x2 s2y y2 s2x als x en y niet gecorreleerd zijn en hun standaarddeviaties klein zijn t.o.v. hun gemiddelden.
Zie ook de analoge formules (2.46)-(2.47)-(2.48).
(1.23)
Hoofdstuk 2
Inleiding tot de Kanstheorie
2.1 Rekenen met kansen
2.1.1 Inleiding
U heeft een intuı̈tief idee van het begrip “kans”. De weerman zegt dat de kans dat het morgen regent 25%
is; de sportjournalist zegt dat “wij” (of “ons” elftal) 40% kans hebben om van de Hollanders te winnen; u
gooit met een dobbelsteen en zegt dat de kans op een “6” gelijk is aan 1/6; u trekt een knikker uit een hoed
met vijf witte en 11 zwarte knikkers en zegt dat de kans op een witte 5/16 is.
In de hoed van het laatste voorbeeld kunnen we knikkers toevoegen tot we er nW witte, nR rode, nZ zwarte,
etc... hebben. Als N nW nR nZ dan kunnen we uitrekenen dat de kans om een witte knikker te trekken
gelijk is aan nW N en de kans op een rode nR N. Het trekken van een rode knikker is een “gebeurtenis” die
plaats grijpt met kans nR N en evenzo voor zwart en wit met resp. kansen nZ N en nW N. De kans op een
“witte of zwarte” knikker is kennelijk
nW nZ
nW nZ
(2.1)
N
N
N
en dus gelijk aan de som van de kansen afzonderlijk.
Het optellen van kansen mag niet altijd: in een groep van 50 studenten, waarvan er 15 biologie en 35
scheikunde studeren, zijn er 20 meisjes; wat is de kans dat een (willekeurig gekozen) student uit deze groep
vrouwelijk is of biologie studeert? Het enige wat we kunnen zeggen is, dat deze kans minstens 2/5 en
hoogstens 7/10 is; zomaar optellen van de kans op een biologiestudent en de kans op een meisje is er niet
meer bij omdat vrouwelijke biologiestudenten (de doorsnede van beide groepen) dan dubbel geteld zouden
worden.
We kunnen hier de terminologie van de verzamelingenleer toepassen. Als Ω de betreffende groep studenten
is met M en V de verzamelingen van mannelijke en vrouwelijke studenten en met S en B resp. de scheikundeen biologiestudenten, dan geldt
S B M V Ω
Als x Ω een willekeurig gekozen student is, dan is de kans, dat x een scheikunde student is, gelijk aan
35/50; we noteren de kans dat x S (dus, dat x een scheikunde student is) met:
PS 07
en evenzo:
PM 06
PV 04
PB 03
De kans uit Ω een student te trekken is kennelijk 1 en de kans op een niet-student nul (wat is de kans dat
x Ω niet studeert?), zodat
(2.2)
PΩ 1 P0/ 0
18
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
19
De deelverzamelingen M en V zijn elkaars complement (evenals S en B) en we zien
PM 1 PV (2.3)
Om de kans Px V B uit te rekenen moeten we het aantal studenten in deze verzameling kunnen bepalen:
dit hangt af van het aantal vrouwelijke biologiestudenten NV B :
NV B NV NB NV B
Hieruit volgt de algemene optelregel
Px V B Px V Px B Px V B
(2.4)
In het bijzondere geval (2.1) hebben W en Z een lege doorsnede.
2.1.2 Het verzamelingsmodel
Zoals boven gesuggereerd kunnen we het rekenen met kansen modelleren met verzamelingen waarop een
kansfunctie P is gedefinieerd. Laat Ω de verzameling van uitkomsten of elementaire gebeurtenissen zijn van
een experiment (b.v. bij het werpen met een dobbelsteen: Ω 1 2 3 4 5 6), dan is een “gebeurtenis” A
een deelverzameling van Ω A Ω. Voor iedere gebeurtenis A is er een kans(functie) PA gedefinieerd met
waarden tussen 0 en 1. We hebben de volgende eigenschappen (axioma’s) nodig:
(een collectie deelverzamelingen van Ω) zo, dat
1. Er is een collectie gebeurtenissen
a. 0/ en Ω zijn gebeurtenissen: 0/ en Ω ,
b. als A een gebeurtenis is, dan is ook zijn complement een gebeurtenis,
A
Ac Ω A c. A en B gebeurtenissen, dan is ook A B een gebeurtenis,
A B 2. Er is een kansfunctie P op
gedefinieerd met de eigenschappen:
a. 0 PA 1 voor alle A b. P0/ 0 en PΩ 1,
c. A B AB ,
en A B 0/ PA B PA PB.
Voorbeeld 2.1.1 Bij een worp met een dobbelsteen is Ω 1 2 3 4 5 6 de verzameling uitkomsten. De
kans op een elementaire gebeurtenis, b.v. P3, gelijk aan 1/6. Ga zelf na dat dit model voldoet aan de
boven gegeven regels.
Opmerking 2.1.2 Als Ω oneindig veel elementen bevat zal de collectie
in het algemeen niet alle mogelijke deelverzamelingen van Ω bevatten. We moeten dan uitbreiden tot aftelbare verenigingen:
1c . Ai 2c . Ai i 1 2 3 i∞1 Ai ,
en Ai A j 0/ i j 1 2 i j P
∞ Ai
i1
Uit genoemde eigenschappen of axioma’s volgt:
1. Als A en B gebeurtenissen zijn, dan ook A B Ac Bc c ,
∞
∑ PAi.
i1
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
20
2. Een bewijs van de optelregel gaat als volgt:
AB
A B A B met A B A B 0/
A B B met A B B 0/
P A B PA B PB PA PB PA B
A
zodat
3. Een bewijs van de complementregel gaat als volgt:
Ω A Ac en A Ac 0/ zodat 1 PΩ PA PAc
Voorbeelden 2.1.3 1) Een kaart trekken uit een kaartspel:
4
131 Paas 52
4
1
4
Pharten of boer Pharten Pboer Phartenboer 13
52 52 52 13 2) Werpen met twee dobbelstenen: Ω 1 11 22 16 6 en bevat 36 elementen.
5
Psom der ogen = 6 P1 52 43 34 25 1 36
Psom der ogen is even of een drievoud ?
2.1.3 Voorwaardelijke waarschijnlijkheid
Hoe groot is de kans dat een student uit de reeds vermelde groep van 50 biologie- en scheikundestudenten
een meisje is als ik al weet dat ze biologie studeert? Kennelijk moet ik mijn telwerk nu beperken tot de
(deel-)groep van 15 biologiestudenten. Om de kans te weten moet ik het aantal vrouwelijke biologiestudenten delen door het totale aantal; we noteren:
PV B :
PV B
PB
vrouwelijke biologiestudenten
aantal
totale aantal biologiestudenten
(2.5)
We noemen dit de voorwaardelijke kans op het optreden van gebeurtenis V als de gebeurtenis B plaats heeft
gevonden (en PB 0).
Voorbeeld 2.1.4 We werpen met twee dobbelstenen; wat is de kans op een even aantal ogen als een van
beide dobbelstenen een 1 toont?
Antwoord:
Peen van beide dobbelstenen toont een 1
1136
Peen steen toont een 1 en de som is even P1 11 33 11 55 1 536
zodat
Paantal ogen even een steen toont 1 511
Bij een voorwaardelijke kans PAB PA BPB beperken we de verzameling van gebeurtenissen in feite tot de deelverzameling B. Aangezien weer moet gelden PBB 1 moeten we alle kansen
hernormaliseren door te delen door PB.
Definitie 2.1.5 Twee gebeurtenissen A en B heten (stochastisch) onafhankelijk als het voor de kans op A
niet uitmaakt of B al dan niet gebeurd is:
A en B onafhankelijk PA B PA PB
(2.6)
Bewijs zelf dat A en B onafhankelijk zijn als en alleen als
PA PAB PAB c Let wel, dat afhankelijkheid in principe géén oorzakelijk verband impliceert: b.v.
(2.7)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
21
- In het begin van de 20ste eeuw (toen er nog veel ooievaars waren in de Lage Landen) nestelden de
meeste ooievaars op het platteland, waar ook de gemiddelde gezinsgrootte het grootst was.
- De kans dat een willekeurig gekozen getal uit 1 2 100 deelbaar is door 4 is 14 ; de kans dat het
1
1
. De kans dat het deelbaar is door 4 en 10 is 20
; er is dus afhankelijkheid,
deelbaar is door 10 is 10
waarom?
Voorbeeld 2.1.6 In een hoed stop ik drie identiek gevormde kaarten, waarvan de eerste aan beide zijden
rood is, de tweede aan beide zijden wit en de derde aan een zijde rood en aan de andere wit is. Vervolgens
trekken we er een willekeurige kaart uit en leggen deze op tafel. Als de bovenkant rood is, wat is dan de
kans dat de onderkant ook rood is?
Antwoord 1: De kans op het trekken van de witte (ww), de wit-rode (wr) of de rode kaart (rr) is 13 . De
kans dat rood boven ligt is 12 . Volgens (2.5) vinden we de voorwaardelijke kans
Prr rood boven Prr en rood boven 13
1 2
Prood boven
23
(2.8)
Antwoord 2: Een alternatieve manier is de volgende beschouwingswijze: we trekken uit de hoed niet alleen
een kaart maar ook een zijde die boven komt te liggen. Als we dus de voor- en achterzijde van iedere kaart
nummeren met 1 en 2 moeten we willekeurig trekken uit de volgende verzameling:
r2
r
w
w1
w2
boven r1
onder r2
r1
w
r
w2
w1
Als er een rode zijde boven ligt, beperken we ons tot de eerste drie elementen en we zien dat er met
kans 23 ook rood onder ligt.
Opmerking: Een intuı̈tief acceptabele maar misleidende redenering is de volgende: omdat rood boven
ligt, ligt de rode of de roodwitte kaart op tafel, ieder met kans 12 en dus is de kans dat de achterzijde rood is,
slechts 12 ! Waar zit de fout?
Voorbeeld 2.1.7 Wat is de kans dat twee of meer personen in een groep van N dezelfde verjaardag hebben?
Antwoord: Draai de vraagstelling om en definieer pn als de kans dat géén twee personen in een groep
van n dezelfde verjaardag hebben. Kennelijk geldt p1 1; de eerste heeft alle dagen van het jaar tot zijn
beschikking voor zijn verjaardag. De tweede heeft alle dagen min een tot zijn beschikking en dus p2 364
365 .
Voegen we een derde aan de groep toe, dan heeft deze alle dagen min twee tot zijn beschikking zodat
p3 363
365 p2 . Voegen we aan een groep van n personen, met onderling verschillende verjaardagen n 365,
er een toe, dan zijn er nog 365 n dagen onbezet, zodat
pn1 pn
365 n
365
en dus
p23 364 363 343
365 365 365
04927
(2.9)
De kans dat er in een groep van 23 personen minstens twee dezelfde verjaardag hebben is dus 1 p23
05073 en is groter dan een half!
2.1.4 De formule van Bayes
Met het toenemen van de medische diagnose-technieken keert herhaaldelijk de discussie terug of het houden van een globaal bevolkingsonderzoek, b.v. naar baarmoederhalskanker, naar seropositiviteit, ..., nuttig,
kosteffectief en/of sociaal aanvaardbaar is. De gebruikelijke HIV-testen zijn zeer betrouwbaar met
Ppositief geı̈nfecteerd 0999
Ppositief niet geı̈nfecteerd 001
Naar schatting is 1ÆÆÆ van de Belgische bevolking geı̈nfecteerd.
(2.10)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
22
Bij een bevolkingsonderzoek is het van belang te weten hoe vaak een vals positieve diagnose gesteld
wordt; immers een persoon, bij wie een vals positieve diagnose wordt gesteld, wordt zonder reden opgezadeld met een immens sociaal probleem. We willen dus berekenen P(niet geı̈nfecteerd positief). Uit (2.10)
kunnen we berekenen:
Ppositief en geı̈nfecteerd Ppositief geı̈nfecteerd Pgeı̈nfecteerd 0000999 (2.11)
Analoog rekenend voor de andere drie mogelijkheden geeft dit de tabel:
positief
negatief
geı̈nfecteerd
0000999
0000001
niet geı̈nfecteerd 000999 099 0999
We leiden hieruit af: P(positief) = 0.000999 + 0.00999 = 0.010989, zodat
Pniet geı̈nfecteerd positief 000999
91%
0010989
We kunnen dit resultaat ook afleiden door herhaald gebruik te maken van (2.5):
P A B PB A
PB
PB APA
PB A PB Ac
PB APA
PB APA PB A c PAc (2.12)
Dit resultaat heet “de regel van Bayes”. Voor een generalisatie gebruiken we het “theorema van de totale
waarschijnlijkheid”:
Laat A1 A2 een partitie van Ω zijn, d.w.z.
Ai A j 0/
Dan geldt voor iedere gebeurtenis B Ω dat
voor i j
PB P
∞
B A i i 1
en
Ai Ω
∞
(2.13)
i1
∞
∞
i1
i1
∑ PB Ai ∑ PB AiPAi (2.14)
Als Ω opgesplitst wordt in een aantal disjunkte delen, dan is de totale kans op B gelijk aan de som van de
kansen op B binnen zo’n deel vermenigvuldigd met de kans op zo’n deel. Nu kunnen we ook eenvoudig de
generalisatie van (2.12) neerschrijven:
PAi B PAi B
PB
∑∞PPAiAPBPBAiA j 1
j
(2.15)
j
2.2 Stochastische variabelen en hun kansverdeling
2.2.1 Stochastische variabelen
Men kan aan elk element van de steekproefruimte Ω een (reële) getalwaarde toekennen, bv.
- bij het werpen met een dobbelsteen het aantal ogen dat we gooien,
- bij het werpen van een munt, 0 voor kop en 1 voor munt,
- bij een onderzoek van de inwoners van België, de lengte of het gewicht of het jaarinkomen enz... van
iedere persoon.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
23
Zo’n getalwaarde is een reële functie op Ω en we noemen zo’n functie X van Ω naar een stochastiek (of
een stochastische variabele of toevalsveranderlijke) als deze afbeelding compatibel is met de struktuur van
de collectie
van deelverzamelingen in Ω: voor ieder reëel getal a is de verzameling ω Ω X ω a
een deelverzameling van Ω. Voor de genoemde compatibiliteit wordt geëist dat deze deelverzameling een
element is van de collectie ,
ω Ω X ω a (2.16)
Als Ω eindig is en
de collectie van alle deelverzamelingen is, is hieraan automatisch voldaan. Een
stochastiek X op Ω projecteert de klasse
dus op een klasse van deelverzamelingen van .
De kansen, gedefinieerd op de elementen van
projecteren gewoon mee:
PX a Pω Ω X ω a
(2.17)
Meestal interesseren we ons meer voor de getalwaarde X ω dan voor de elementen ω van de onderliggende
verzameling Ω. Als ik schoenen wil verkopen in dit land, is de “verdeling” van voetlengten (en breedten) het
enige wat ik van zijn inwoners wil weten om de goede hoeveelheden van de verschillende maten te kunnen
inkopen; ik wil dus iets weten over de getallen X ω voor iedere inwoner ω Ω.
Definitie 2.2.1 Als X een stochastische variabele is, dan heet de functie FX ,
FX a PX a
(2.18)
de verdelingsfunctie van X (ook wel cumulatieve verdelingsfunctie genoemd).
Ω
Voorbeeld 2.2.2 : de dobbelsteen
X
P
1
X
1
6 etc
2 etc
Voor de kansen PX a vinden we
PX
1 0
PX 1 16 PX 2
PX 2 26 PX 3 etc
en we vinden een verdelingsfunctie FX zoals geschetst in figuur 2.1. Dit is een trapfunctie die in de punten
1, 2, 3, 4, 5 en 6 een sprong van 1/6 maakt. Deze verdeling is duidelijk “discreet”.
Voorbeeld 2.2.3 De verdeling van lichaamslengten van volwassen mannelijke inwoners van België is in
figuur 2.1 geschetst. Neem een willekeurige volwassen mannelijke inwoner X en lees in de tabel de kans af
dat deze kleiner is dan 190 cm. In theorie is ook deze verdeling discreet, maar de groep mannen (en dus Ω)
is zo groot dat we doen alsof deze continu is.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
24
1
1
0.5
0.5
0
0
0
5
200
150
Figuur 2.1: De verdelingsfunctie van een dobbelsteen, en de verdelingsfunctie van de lengteverdeling van
mannen.
2.2.2 Eigenschappen van een verdelingsfunctie
Vooreerst merken we op dat
0 FX a 1
(2.19)
Alle kansen liggen immers tussen nul en een. Bovendien is FX monotoon niet dalend:
a b FX a FX b
(2.20)
Immers, bij vergroting van de verzameling gebeurtenissen kan de kans niet afnemen.
De kans op een half-open interval wordt gegeven door
Pa X b PX b PX a FX b FX a
PX
a 1 PX a 1 FX a
(2.21)
(2.22)
De volgende eigenschappen verdienen wel een serieus bewijs. Eerst onderzoeken we de continuı̈teit van FX .
Stelling 2.2.4 FX is rechts continu: lim FX a ε FX a
ε 0
Bewijs. Kies een rij εn die naar nul daalt. Dan is
∞ a n∞1 ∞ a εn
zodat, vanwege de σ -additiviteit :
FX a PX ∞ a lim PX ∞ a εn lim FX a εn n∞
n∞
Stelling 2.2.5 FX is niet noodzakelijk overal linkscontinu: bij nadering van links kunnen we tegen een
sprong oplopen. Als PX a 0, dan is FX wel continu in a. Algemeen hebben we
lim FX a ε PX a FX a
ε 0
(2.23)
Bewijs. Neem εn een naar nul dalende rij zoals in het vorige bewijs. Dan is
∞ a n∞1 ∞ a εn
zodat
FX a PX
a P X ∞ a nlim
PX ∞ a εn lim FX a εn ∞
n∞
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
25
Stelling 2.2.6 De limieten naar ∞ en ∞ zijn:
lim FX x 1 en
lim FX x 0
x∞
(2.24)
x∞
Bewijs. Neem een stijgende rij Mn zodanig dat lim Mn ∞, dan is
n∞
∞
n1
∞ Mn
lim FX x P 1 zodat
x∞
De andere bewering wordt op analoge manier bewezen.
Stelling 2.2.7 Als we een lineaire (eigenlijk affiene) transformatie uitvoeren op een stochastiek X, dan transformeert de verdelingsfunctie mee: als Y aX b, dan geldt met a 0:
y
b
FY y PY y PaX b y P X a
Als a 0, dan draait de ongelijkheid om:
y
b
FY y P X a
1
P
X
y
b
a
1 FX
FX
y b
a
P
y b
(2.25)
a
X
y
b
a
(2.26)
Opmerking: Voor het vervolg van deze syllabus zullen we bij het gebruik van het begrip “stochastische
variabele” abstraheren van de onderliggende verzameling gebeurtenissen Ω. Een stochastiek X staat voor
een reële variabele (zoals x in de definitie f x : x sin x); als we in een experiment voor X een willekeurige
waarde x trekken, is de kans, dat de getrokken waarde kleiner dan of gelijk aan a is, gegeven door FX a.
2.2.3 Continue en discrete verdelingen
Bij een diepgaande mathematische behandeling van verdelingsfuncties zouden we geen verschil hoeven te
maken tussen discrete en continue verdelingsfuncties, voor de eenvoud zullen we dit wel doen.
Definitie 2.2.8 We noemen een stochastiek X discreet als X slechts een eindig of aftelbaar oneindig aantal
verschillende waarden kan aannemen. Dat wil zeggen dat er een verzameling (reële) getallen
xi i 1 2 is, zo dat
PX
xi pi
∞
en
∑ pi 1
i1
(2.27)
We kunnen de kansen dan grafisch weergeven door een staafdiagram; op het punt xi richten we een
staafje op van lengte pi . De verdelingsfunctie FX is dan stuksgewijs constant met sprongen in de punten
xi i 1 2 van grootte pi . Als voorbeeld is in figuur 2.2 links een staafdiagram op 10 punten geschetst
met rechts de bijbehorende verdeling.
Definitie 2.2.9 We noemen een stochastische variabele X continu als de verdelingsfunctie FX een continue
en overal1 differentieerbare functie is (behalve eventueel in een eindig aantal punten). Dit is een vrij zware
eis, maar zij maakt het ons wel mogelijk om de kansdichtheid (of dichtheidsfunctie) fX te definiëren als de
afgeleide van FX ,
x
d
f t dt
(2.28)
fX x : FX x en dus ook FX x dx
∞ X
Omdat FX monotoon is, moet gelden fX x 0 x en moet het oppervlak onder de staarten van fX
naar nul gaan:
A
∞
fX t dt 0 en
lim
fX t dt 0
(2.29)
lim
A∞
∞
B∞ B
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
26
0.15
1
0.1
0.5
0.05
0
0
0
1
0
1
Figuur 2.2: Een staafdiagram op 10 punten en de bijhorende verdelingsfunctie
1.2
1
0.8
0.6
0.4
0.2
0
-0.2
0
1
2
3
4
5
6
Figuur 2.3: Grafiek van een vrij kunstmatige continue verdeling —— met haar kansdichtheid - - - -
Voorbeeld van een continue verdeling: zie figuur 2.3
Opmerking: fX kan een vrij wild gedrag hebben, maar door de eis van differentieerbaarheid (en dus continuı̈teit) van FX voor continue verdelingen sluiten we de sprongen in FX expliciet uit, zodat PX a PX a voor alle beschouwde continue verdelingen.
functies van stochastieken en hun verdelingsfunctie kunnen we definiëren analoog aan (2.17). Als g
een reële continue functie is en X een stochastiek (continu of discreet), dan is gX de stochastiek met de
verdelingsfunctie
(2.30)
FgX a : PgX a Pω Ω gX ω a
is.
Ga zelf na, wat de kansdichtheid van FgX is, als X continu en g monotoon stijgend en differentieerbaar
2.2.4 Percentielen
In de praktijk willen we voor een stochastiek X vaak een antwoord op de omgekeerde vraag: “voor welke
waarde van x is 25% (of 50% of 90%) van de uitkomsten kleiner dan of gelijk aan x?” (zie ook 1.2).
α , voor
De algemene vraag luidt dus: “gegeven een percentage α 0 α 100 of een kans p : 100
1 Dit
is een vrij sterke beperking, maar verdelingen die hieraan niet voldoen en ook niet discreet zijn, zijn voornamelijk van
wiskundig belang.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
27
welke x geldt FX x PX x p?”. In de figuur betekent dit dat we grafiek van FX op zijn kant moeten
zetten, d.w.z. dat we abcis en ordinaat moeten verwisselen, oftewel het plaatje moeten spiegelen om de lijn
y x, zoals in figuur 2.4, waar de percentielen (d.i. de inverse functie) van de (vrij kunstmatige) continue
kansverdeling van figuur 2.1 wordt geschetst. De intervallen waar de verdeling constant is, geven een sprong
in de inverse funktie.
6
5
4
3
2
1
0
*
0
0.2
0.4
0.6
0.8
1
Figuur 2.4: Kwantielen van de verdeling van figuur 2.3
Als in een punt x met p : FX x geldt p FX y als x y en p FX y als x y, d.w.z. dat FX strikt
stijgend is in x, dan is x het enige punt met FX x p en dan definiëren we x als het 100 p %-percentiel van
X (dit is dus het p–de quantiel). Dit percentiel is dus gewoon de waarde van de inverse funktie FX1 p in p.
Als er geen punt x is waarvoor FX x p, dan is FX discontinu en maakt deze ergens een sprong van
een waarder kleiner dan p naar een waarde groter dan p. Het 100 p %-percentiel van X is dan het punt waarin
FX deze sprong maakt.
Als echter FX x p constant is voor alle x in een interval a b, dan zouden we ieder element van dat
interval het p-de percentiel van X kunnen noemen. Voor en eenduidige definitie maken we dan de volgende
afspraak:
1o . Als FX x 0 voor alle x a en FX x 0 voor alle x a, dan heet a het 0%-percentiel van X; a is
dus het punt vanaf waar FX niet triviaal is.
2o . Als FX x 1 voor alle x b en FX x 1 voor alle x b, dan heet b het 100%-percentiel van X; b
is dus het punt vanaf waar FX weer triviaal is.
3o . Als FX x p voor alle x c d , FX x p voor alle x c en FX x p voor alle x d, dan kiezen
we het midden 12 c d als het 100 p %-percentiel van X.
Deze definitie lijkt niet consistent met die van empirische percentielen in 1.2. Dit is echter maar
schijn, omdat de empirische percentielen gebaseerd zijn op slechts eindig veel waarnemingen. Op grond
van de wet van de grote getallen, stelling 3.1.2, kunnen we het volgende laten zien: Als x1 x2 xn onafhankelijke waarnemingen zijn van een stochastiek X, dan convergeert de empirische verdelingsfunktie
van deze waarnemingen naar FX voor n ∞ en convergeren de empirische percentielen naar de hierboven
gedefinieerde percentielen van X.
2.3 Kansvectoren en onafhankelijke stochastische variabelen
In vele gevallen kan men aan een element van een steekproefruimte Ω meer dan één reële getalwaarde
toekennen. Bijvoorbeeld, bij een onderzoek van de inwoners van België is men zowel geı̈nteresseerd in de
lengte als het gewicht van elke inwoner.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
28
Als we n eigenschappen gelijktijdig beschouwen, hebben we een vectorfunctie Z : Ω n . Indien
de componenten X1 X2 Xn van deze vectorfunctie stochastische variabelen zijn, dan noemen we Z een
n-dimensionale stochastische variabele, of kansvector. Voor de eenvoud zullen we ons in wat volgt beperken
tot het geval n 2.
De verdelingsfunctie FZ van een tweedimensionale kansvector Z X Y wordt gedefinieerd als volgt:
FZ a b
PX a en Y b
Pω Ω : X ω a en Y ω b
(2.31)
Net zoals in het voorgaande hoofdstuk zullen we onderscheid maken tussen continue en discrete kansvectoren. We noemen Z discreet, indien er een eindig of aftelbaar aantal punten z1 x1 y1 , z2 x2 y2 ,
z3 x3 y3 in 2 bestaat, zodat PZ zi pi , voor zekere pi 0 1, met ∑i pi 1 en PZ z 0
voor alle andere punten z x y 2 . Aan continue kansvectoren zullen we in deze syllabus steeds de extra eis opleggen, dat alle tweede (n-de in n dimensies) gemengde partiële afgeleiden van de verdelingsfunctie
continu moeten zijn. De dichtheidsfunctie fZ wordt dan gegeven door de tweede partiële afgeleide:
fZ ∂ 2 FZ
∂x ∂y
(2.32)
Indien fZ bekend is, kunnen we de verdelingsfunctie FZ terugvinden door integratie:
x
y
du
fZ u v dv;
FZ x y ∞
∞
bijgevolg kunnen we voor iedere (meetbare) deelverzameling A 2 de kans bepalen, dat Z A:
fZ x y dx dy
PZ A (2.33)
A
Veronderstel nu dat Z X Y een kansvector is, en dat de verdelingsfunctie FZ bekend is. Dan kunnen we
voor a de kans op X a ongeacht de waarde van Y uitrekenen als de limiet:
FX a PX a PX a en Y
∞ y
lim FZ a y
∞
(2.34)
De verkregen verdeling heet de marginale kansverdeling van X. Analoog vinden we voor b de marginale
kansverdeling van Y :
FY b lim FZ x b
x∞
Voor een continue verdeling kunnen we de dichtheidsfuncties van de marginale verdeling gemakkelijk terugvinden:
x
∞
du
fZ u v dv
FX x lim FZ x y y∞
∞
∞
en dus is de marginale kansdichtheid
fX x ∞
d
F x f x v dv
dx X
∞ Z
(2.35)
Voorbeeld 2.3.1 We werpen met twee dobbelstenen en beschouwen de volgende stochastische variabelen:
X: het aantal enen dat gegooid wordt;
Y : het aantal zessen dat gegooid wordt.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
29
Z X Y is dan een kansvector, die enkel paren gehele waarden i j met 0 i j 2 kan aannemen.
Verifieer, dat
P0 0
42
62
P1 0
P1 1
P2 0
1 4
P0 1 2 6 6
2
36
1
P0 2 36
16
36
368
De grafiek van de verdelingsfunctie wordt gegeven in figuur 2.5
4
3
25/36 35/36 F = 1
2
24/36 34/36 F = 35/36
1
16/36 24/36 F = 25/36
0
F=0
-1
0
2
4
Figuur 2.5: Driedimensionale tekening en hoogtelijnen van de kansverdeling
Voorbeeld 2.3.2 We hernemen voorbeeld 1, maar we werpen nu met drie dobbelstenen in plaats van twee.
Z X Y is nu een kansvector, die enkel paren gehele waarden i j met 0 i j 3 kan aannemen.
Verifieer dat
P0 0
43
63
P1 0
P1 1
P2 0
P2 1
P3 0
1 4 4
P0 1 3 6 6 6
24
63
1 1 4
P0 2 3 6 6 6
1 1 1
P1 2 3 6 6 6
1
P0 3 3
6
48
63
12
63
633
Aanwijzing: het aantal mogelijke gevallen is steeds 63 ; zoek met behulp van kombinatieleer steeds het aantal
gunstige gevallen.
Voorbeeld 2.3.3 Men kiest willekeurig en onafhankelijk van elkaar twee getallen tussen 0 en 1. Laat X het
eerste getal, Y het tweede en Z de kansvector X Y zijn. Dan is duidelijk
fZ x y 1
0
als 0 x y 1
anders
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
30
De verdelingsfunctie wordt gegeven door de formules
0
xy
FZ x y x
y
1
als x 0 of y 0
als 0 x y 1
als 0 x 1 en y 1
als 0 y 1 en x 1
als x 1 en y 1
1
0.8
1
0.6
0.8
0.6
0.4
0.4
0.2
0.2
0
2
0
2
1
0
-1
-1
-0.5
0
0.5
1
1.5
2
1
0
-1
-1
-0.5
0
0.5
1
1.5
2
Figuur 2.6: Dichtheidsfunctie en verdelingsfunctie van de uniforme verdeling
In bovenstaand voorbeeld lieten we het woord “onafhankelijk” vallen. In formule (2.6) definiëerden
we onafhankelijkheid van gebeurtenissen. Wat betekent het, dat twee stochastische variabelen onafhankelijk
zijn?
Definitie 2.3.4 Twee stochastische variabelen X en Y heten onafhankelijk als de gebeurtenissen
a1 X b1 en a2 Y b2
onafhankelijk zijn voor alle ai bi , of, equivalent, als
Pa1 X b1 a2 Y b2 Pa1 X b1 Pa2 Y b2 (2.36)
De stochastische variabelen uit voorbeeld 2.3.3 hierboven zijn onafhankelijk, maar die uit voorbeeld 2.3.2
niet! Immers,
75
15
3
PX 1 3 PY 2 3 maar PX 1 en Y 2 3
6
6
6
Stelling 2.3.5 De componenten van een tweedimensionale kansvector Z X Y zijn onafhankelijk als en
slechts als de verdelingsfunctie van Z het product is van de marginale verdelingsfuncties.
Bewijs. Veronderstel dat X en Y onafhankelijk zijn. Door in de definitie (2.36) de limiet te nemen voor
a1 ∞ en a2 ∞ volgt dat
FZ b1 b2 FX b1 FY b2 Omgekeerd, veronderstel dat voor alle b1 b2 ,
FZ b1 b2 FX b1 FY b2 dan geldt (maak zelf een tekening om dit te zien)
Pa1 X b1 a2 Y b2 PX b1 Y b2 PX b1 Y a2 PX a1 Y b2 PX a1 Y a2 FZb1 b2 FZb1 a2 FZa1 b2 FZa1 a2 FX b1 FY b2 FX b1 FY a2 FX a1 FY b2 FX a1 FY a2 FX b1 FX a1 FY b2 FY a2 Pa1 X b1 Pa2 Y b2 HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
31
en X en Y zijn dus inderdaad onafhankelijk.
In het continue geval hebben we een gelijkaardige eigenschap van de dichtheidsfuncties.
Stelling 2.3.6 De componenten van een tweedimensionale continue kansvector zijn onafhankelijk als en
slechts als de dichtheidsfunctie het product is van de marginale dichtheidsfuncties.
Bewijs. Oefening.
Toepassing: De som van twee onafhankelijke stochastische variabelen
Bij een halte passeert om de tien minuten een tram. U neemt elke dag deze tram op een willekeurig tijdstip.
De wachttijd T op de eerstvolgende tram bezit dan de volgende dichtheidsfunctie:
fT t 1
10
als 0 t 10
0
anders
We noemen zo’n T uniform verdeeld over 0 10, zie 3.6. Als U nu tweemaal de tram neemt, hoelang
moet U dan in het totaal wachten; m.a.w. wat is de dichtheidsfunctie fT1 T2 van de som T1 T2 , als T1 en T2
de eerste resp. tweede wachttijd aan de halte zijn.
Dit probleem is een speciaal geval van het volgende: veronderstel dat X en Y twee onafhankelijke
continue stochastische variabelen zijn, met dichtheidsfuncties fX en fY . Hoe vinden we fX Y ? Dit gebeurt
als volgt; we bepalen eerst de verdelingsfunctie FX Y van de som:
∞ xu
fZ u v du dv f u v dv du
FX Y x PX Y x uvx
∞ ∞ Z
∞
xu
f X u fY v dv du
∞
∞
(maak een tekening van het integratiegebied). Afleiden naar x geeft (in de veronderstelling dat we differentiatie en integratie mogen verwisselen):
∞
∞
xu
d
f u
f v dv du f u fY x u du
fX Y x dx ∞ X
∞ Y
∞ X
fX fY x
(2.37)
In deze formule is fX fY de gebruikelijke notatie voor het convolutieproduct.
Hieruit kunnen we besluiten:
Stelling 2.3.7 Als X en Y twee onafhankelijke stochastische variabelen zijn met continue verdeling, dan is
de dichtheidsfunctie van X Y de convolutie van de dichtheden van X en Y ,
fX Y
fX fY
(2.38)
Keren we nu terug naar de toepassing hierboven. Met behulp van bovenstaande stelling 2.3.7 kunnen
we de dichtheidsfunctie van T1 T2 bepalen:
∞
1 10
fT1 u fT2 t u du f t u du
fT1 T2 t 10 0 T2
∞
We onderscheiden nu vier gevallen:
1. t 0. Voor 0 u 10 geldt dan dat fT t u 0, zodat
2
fT1 T2 t 0 Dit is uiteraard wat we verwachten: een negatieve wachttijd kan nooit optreden.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
32
2. 0 t 10. Dan is t u 10. Voor u gelegen tussen 0 en t hebben we bovendien dat t u 0, zodat
1 t 1
t
du fT1 T2 t 10 0 10
100
3. 10 t 20. Nu is t u 0, en bovendien geldt voor u gelegen tussen t 10 en 10 dat t u 10, zodat
fT1 T2 t 1 10 1
20 t
du 10 t 10 10
100
4. t 20. Dan is t u 10, zodat fT2 t u 0 voor u tussen 0 en 10 zodat, net als in het eerste geval
fT1 T2 t 0 Inderdaad is het onmogelijk dat we een totale wachttijd hebben die langer duurt dan 20 minuten. De
grafiek van fT T wordt gegeven in figuur 2.7. Bepaal zelf de verdelingsfunctie FT T en teken de grafiek.
1
2
1
2
0.12
0.1
0.08
0.06
0.04
0.02
0
-0.02
0
5
10
15
20
Figuur 2.7: Kansdichtheid voor de som van de wachttijden van twee tramritten.
2.4 Verwachtingswaarde en standaardafwijking
Bij een loterij zijn er 1000 loten van 1 Euro. Het winnende nummer is goed voor 400 Euro en er zijn 5
troostprijzen van 20 Euro. Wat is de waarde die U aan zo’n lot kunt toekennen? Op voorhand weten we
natuurlijk niet op welk lot de hoofdprijs gaat vallen en dus welk lot een grote waarde heeft. We kunnen wel
een soort “gemiddelde” waarde van een lot bepalen. Stel, dat we alle loten zouden kopen, dan zijn we 1000
Euro kwijt en we winnen 500 Euro aan prijzen; het verlies is dus gemiddeld 0.50 Euro per lot. Aan ieder lot
kunnen we dus een “waarde” toekennen van 050 Euro. We noemen dit de verwachtingswaarde van een
lot uit de betreffende loterij. Dit voorbeeld suggereert de definitie:
Definitie 2.4.1 Voor een gegeven stochastische variabele X definiëren we de verwachtingswaarde E X (Eng.: expectation) door
E X indien X discreet verdeeld
∑j xj pj
∞
∞ x fX x dx indien X continu verdeeld
(2.39)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
33
Merk op dat E X niet altijd bestaat; het is inderdaad mogelijk dat de reeks of oneigenlijke integraal
divergeert.
Voorbeeld 2.4.2 Bij de boven vermelde loterij is Ω de verzameling van de 1000 loten en X ω is de winst
die U maakt bij het kopen van één ervan:
4000 10
X ω 200 10
voor het winnende lot
voor de troostprijzen
10
Bijgevolg is
E X voor de andere loten
∑ x j p j 4000 10 1000 200 10 1000 10 1000 5
1
5
994
j 1
en vinden we een negatieve verwachtingswaarde.
Voorbeeld 2.4.3 Men werpt een dobbelsteen. X is het aantal ogen dat bovenaan komt te liggen. Dan is
E X 6
∑6
j
j 1
21
6
35
Neem nu een (continue) functie g : , dan kunnen we een nieuwe stochastische variabele gX definiëren voor een gegeven stochastiek X als de stochastiek met de verdelingsfunctie
FgX z : PgX z
zie formule (2.30). Voor X discreet vindt men gemakkelijk dat
E gX ∑ gx j p j
(2.40)
j
Inderdaad, voor y heeft men
PgX y ∑ p j : gx j y
j
Sommatie over alle verschillende gxj geeft het resultaat.
Voor een continu verdeelde stochastische variabele X heeft men, op analoge manier
∞
gx fX x dx
E gX ∞
Opgave: Bewijs zelf de volgende eigenschappen:
1. E aX a E X , voor elke a met a 0;
2. E X b E X b, voor elke b ;
3. E b b, voor elke b ;
4. E X E X .
(2.41)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
34
Veronderstel dat we E X en E Y kennen van twee stochastische variabelen X en Y . Wat is dan E X Y ?
Om hier een antwoord op te kunnen geven hebben we een veralgemening van de eigenschappen (2.40) en
(2.41) nodig. Veronderstel dat X en Y twee stochastische variabelen zijn en dat g : 2 een (continue)
functie is. Dan is
∞ ∞
gx y fX Y x y dx dy
E gX Y E gX Y ∞ ∞
∑ ∑ gxi y j PX xi Y y j i
(2.42)
j
in het continue respectievelijk het discrete geval. Net zoals voor (2.40) en (2.41) is het bewijs eenvoudig in
het discrete geval. Het bewijs in het continue geval laten we hier achterwege.
Met deze formule (2.42) kunnen we eenvoudig laten zien, dat de verwachtingswaarde van de som van
twee stochastieken altijd de som van de verwachtingswaarden is:
Stelling 2.4.4
E X Y E X E Y (2.43)
Bewijs.
E X Y E X E Y ∞ ∞
∞ ∞
∞
∞
∞
∞
x y fX Y x y dx dy
x fX x dx y fY y dy ∞ ∞
∞ ∞
∞ ∞
∞ ∞
x fX Y x y dx dy
y fX Y x y dx dy
Optellen van de laatste twee vergelijkingen geeft de eerste.
Voor onafhankelijke veranderlijken X en Y geldt een analoge gelijkheid voor het product, zie (2.46),
E XY E X E Y Definitie 2.4.5 De variantie van X is de verwachtingswaarde van het kwadraat van de afwijking t.o.v. het
gemiddelde E X VarX E X E X 2
(2.44)
Zij bestaat alleen, als de bijbehorende integraal of oneindige som (zie (2.39)) niet divergeert,
∞
∞
x E X 2 fX x dx ∞ of ∑ pk xk E X 2 ∞ ∞
k 0
De standaardafwijking van X is de vierkantswortel van de variantie:
σX
VarX (2.45)
De variantie geeft aan hoe snel X varieert rond zijn verwachtingswaarde. Hoe groter de kans is, dat
X ω dicht bij E X ligt, hoe kleiner VarX is. Merk ook op dat σX en X dezelfde dimensies hebben.
In voorbeeld 2.4.2 (de loterij) hebben we
VarX 39952 1952 5 52 994
1000
Opgave: Bewijs zelf de volgende eigenschappen:
1) VaraX a2 VarX (voor a 0)
16175
en σX
1272
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
35
2) VarX b VarX 3) Varb 0
Analoog aan (2.43) kunnen we variantie van de som en het product van twee stochastieken in verband
proberen te brengen met de som en het product van de varianties. Dit is echter alleen mogelijk onder de
extra voorwaarde, dat beide stochastieken onafhankelijk zijn.
Stelling 2.4.6 Als X en Y onafhankelijke stochastische variabelen zijn, dan geldt:
1
E XY E X E Y 3
VarXY VarX VarY E X VarY VarX E Y 2
(2.46)
VarX Y VarX VarY 2
(2.47)
2
(2.48)
Bewijs. Veronderstel dat X en Y continu verdeeld zijn. Het discrete geval laten we als oefening.
∞ ∞
∞ ∞
xy fX Y x y dx dy xy fX x fY y dx dy
E XY ∞ ∞
∞ ∞
∞
∞
x fX x dx
y fY y dy E X E Y ∞
VarX Y want
∞
E X Y E X Y 2 E X E X Y E Y 2
E X E X E Y E Y 2E X E X Y E Y VarX VarY 2
2
E X E X Y E Y E X E X E Y E Y 0
als X en Y onafhankelijk zijn.
De derde eigenschap bewijzen we op analoge manier.
Opmerking: Analoog aan (1.5) kunnen we de variantie ook met de volgende formule berekenen:
VarX E X 2 E X 2
want
E X E X 2 E X 2 2E X E X E X 2 E X 2 E X 2 Voorbeelden 2.4.7 1) Werp met een dobbelsteen en beschouw volgende stochastische variabelen
X
Y
aantal
ogen dat geworpen wordt
1 als het aantal ogen even is,
0
als het aantal ogen oneven is.
Dan zijn X en Y afhankelijk:
P X
3 en Y 1 0
terwijl PX
3 PY 1 16 12 121
Voor de verwachtingswaarde van de som geldt inderdaad
E X Y E X E Y 4
(2.49)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
36
(verifieer door beide leden uit te rekenen). Voor de verwachtingswaarde van het product en voor de variantie
van de som hebben we echter
E XY 2 E X E Y 35 05
en
VarX Y 22
35 1
VarX VarY 6
12 4
196 2) We werpen met twee dobbelstenen en kiezen de stochastieken X en Y als volgt:
X
Y
aantal
ogen van de eerste dobbelsteen
1 als het aantal ogen van dobbelsteen 2 oneven is
0
als het aantal ogen van dobbelsteen 2 even is
X en Y zijn nu onafhankelijk. Verifieer dat
E X Y E X E Y 4 E XY E X E Y 175
VarX Y VarX VarY 38
12
Momenten
In de mechanica worden bij een gegeven object bestaande uit massapunten xi met gewichten pi de
begrippen totale massa, zwaartepunt en traagheidsmoment (t.o.v. het zwaartepunt) gedefinieerd als
m ∑ pi g ∑ pi xi
i
en
i
∑xi g2 pi i
Deze begrippen zijn volledig analoog met de definities van totale kans (=1), verwachtingswaarde en variantie
in de waarschijnlijkheidsrekening. Algemeen kunnen we (zoals in de mechanica) het ruwe moment en het
centrale moment van orde k definiëren alsvolgt:
Definitie 2.4.8 Voor elke k 0 1 2 definiëren we het ruwe moment αk en het centrale moment
µk van orde k door
αk X E X k en µk X E X E X k (2.50)
Opgave: Bewijs zelf de volgende eigenschappen:
1
2
3
4
α1 X E X µ1 X 0
µ2 X VarX α2 X α1 X 2
µ3 X α3 X 3α1 X α2 X 2α1 X 3
(2.51)
(2.52)
(2.53)
(2.54)
De momenten van orde drie en vier worden verder behandeld in 2.5.
De variantie geeft een maat voor de grootte van het gebied, waar we het grootste deel van de “kansmassa” kunnen verwachten. Dit wordt geı̈llustreerd door het volgende belangrijke resultaat:
Stelling 2.4.9 (formule van Chebyshev)
Als X een stochastische variabele is met gemiddelde α1 en variantie µ2 σ 2 , dan geldt voor elke λ
PX α1 λ σ2
λ2
0:
(2.55)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
37
Bewijs. We bewijzen enkel het geval waarin X continu verdeeld is. Het geval waarin X discreet verdeeld is
laten we als oefening.
σ2 ∞
x α12 fX x dx
∞
α λ
1
∞
x α12 fX x dx ∞
α1 λ
x α12 fX x dx
Voor x α1 λ zowel als voor x α1 λ geldt x α1 2 λ 2 . Bovendien is fX x nergens negatief. Dus:
σ2 λ2
α λ
1
∞
fX x dx λ 2
∞
α1 λ
fX x dx
λ 2 PX α1 λ λ 2 PX α1 λ λ 2 PX α1 λ 2.5 Kentallen van locatie, schaal en vorm
De verwachtingswaarde van een stochastische variabele geeft ons informatie over de locatie of ligging van
de kansverdeling; de variantie vertelt ons iets over de spreiding, of schaal van de verdeling. In dit hoofdstuk
bespreken we deze en enige andere grootheden die informatie geven over de locatie, de schaal en de vorm
van de kansverdeling: de mediaan, de modus, het interkwartiel, de mediane absolute afwijking (MAD of
median absolute deviation), de scheefheidscoëfficiënt en de kurtosis.
2.5.1 Kentallen van locatie
a. Het rekenkundig gemiddelde
Dit is niets anders dan de verwachtingswaarde. Deze grootheid bezit prettige eigenschappen voor een wiskundige analyse, zoals lineariteit2 , maar heeft verder enkele nadelen: het is mogelijk dat E X niet bestaat.
Zo heeft de Cauchy-verdeling FX ,
FX x :
1 1
1
arctanx met kansdichtheid fX x :
2 π
π π x2
(2.56)
geen verwachtingswaarde, omdat de volgende integraal divergeert:
lim
a∞ b∞
a
b
x dx
bestaat niet
1 x2
Verder kan de waarde van E X sterk beı̈nvloed worden door een relatief kleine hoeveelheid kansmassa die
op grote afstand ligt van het centrum van de kansmassa. Men zegt dat het gemiddelde niet “robuust” is en
gevoelig is voor uitschieters (Eng: outliers), vergelijk de opmerking op pagina 10 over robuustheid van het
steekproefgemiddelde.
b. De mediaan
De mediaan is het 50%-percentiel (zie 2.2.4). Dit is (ruwweg) het punt op de x-as dat zo gelegen is, dat er
aan weerszijden een even grote kansmassa ligt (vergelijk met de empirische mediaan (1.2)). Om precies te
zijn onderscheiden we drie gevallen:
2 de
verwachtingswaarde van een som is de som van de verwachtingswaarden, zie (2.43).
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
38
1. Er is precies één punt m zodat FX m 12 , zoals geschetst in figuur 2.8. In dat geval definiëren we:
medX : FX1 1
2
(2.57)
2. Er is géén punt m zodat FX m 12 , zoals geschetst in figuur 2.9 (linker grafiek). In dat geval is FX
discontinu en maakt deze ergens een sprong van een waarde kleiner dan 12 naar een waarde groter dan 12 .
We definiëren medX dan als het punt, waar FX die sprong maakt.
3. De verzameling punten xFX x 12 , ook wel aangeduid met FX1 12 , bevat meer dan één punt. Omdat
FX stijgend (niet dalend) is, is FX1 12 dan een interval. De mediaan is dan niet eenduidig bepaald volgens
bovenstaande definitie en we definiëren hem dan als het middelpunt van het interval FX1 12 , zie figuur 2.9
(rechter grafiek).
1
0.3
0.8
0.6
0.2
0.4
0.1
0.2
50%
0
-5
0
50%
0
5
mediaan=0
-5
0
5
Figuur 2.8: Dichtheidsfunctie en mediaan van de Cauchy-verdeling.
1
1
0.5
0.5
mediaan=1.5
mediaan=1
0
-1
0
1
0
2
3
0
2
4
Figuur 2.9: Mediaan van de binomiale verdelingen B2 05 en B3 05, zie (3.12) voor de definitie.
De mediaan bezit niet de aangename eigenschappen van het gemiddelde, zoals de lineariteit, en het
berekenen ervan kost i.h.a. veel meer werk. Hij is wel veel robuuster: de aanwezigheid van kleine kansmassas op een grote afstand beı̈nvloedt de mediaan niet al te veel. In voorbeeld 2.4.2 (de loterij) is de
verwachtingswaarde gelijk aan 5 en de mediaan 10; als we de hoofdprijs verhogen tot 800 Euro, stijgt
de verwachtingswaarde naar 1, terwijl de mediaan onveranderd op 10 blijft staan (reflecterend dat de
meeste deelnemers aan de loterij inderdaad 10 F verliezen).
Voorbeelden 2.5.1
1) Neem de uniforme discrete verdeling op 1 5, d.w.z. PX i 15 voor i 1 2 3 4 5. Dan is
medX 3, immers, met FX 3 35 , en lim FX x 25 maakt FX in x 3 een sprong van 25 naar 35 . Teken
x3
zelf de verdelingsfunctie van X. We zijn hier in het tweede geval.
2) Neem nu de uniforme discrete verdeling op 1 2 3 4 5 6 met PX i 16 .
Ditmaal is FX1 12 3 4, zodat medX 3 12 . Dit is het derde geval.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
39
Opmerking: Indien de verdeling van X symmetrisch is, d.w.z. indien er een c is zodat
fX c x fX c x
PX c x PX c x
als X continu
als X discreet
dan is medX c. Bovendien geldt dan in dat geval E X c, indien E X bestaat.
continue functie is, dan is gmedX medgX (ga na).
(2.58)
Als g een monotone
c. De modus
Dit is de “meest voorkomende waarde”. Voor X discreet is dit de xj waarvoor p j PX x j maximaal is. Voor X continu is modX het punt waarbij fX zijn absolute maximum bereikt. De modus is
niet steeds eenduidig! fX kan meerdere absolute maxima hebben en pj kan zijn maximum aannemen voor
verscheidene waarden van j (zoals bijvoorbeeld bij de dobbelsteen). Indien de modus uniek is, dan zeggen
we dat de verdeling unimodaal is. De Cauchy-verdeling in fig. 7.1 is duidelijk unimodaal evenals de verdeling B2 05 in fig. 7.2a. De verdeling B3 05 in fig. 7.2b is bimodaal en de dobbelsteen (fig. 4.1) is
multimodaal.
2.5.2 Kentallen van schaal
a. De variantie en de standaardafwijking
Deze werden ingevoerd in 2.4. Ze hebben dezelfde voor- en nadelen als het rekenkundig gemiddelde:
wiskundig het eenvoudigst, maar weinig robuust. Als de verwachtingswaarde van een kansverdeling niet
bestaat, zal de variantie zeker niet bestaan. Het is echter wel mogelijk, dat het gemiddelde bestaat, maar de
standaardafwijking niet; b.v. de t2 -verdeling met kansdichtheid f2 x : 12 1 x2 3 2 heeft verwachtingswaarde 0 maar de integraal voor de variantie divergeert.
b. Het interkwartiel
1.2
mediaan: 4.098
MAD: 0.804
interkwartiel: 4.548 - 2.52 = 2.028
1
verwachtingswaarde: 3.408
0.8
0.6
0.4
0.2
0
-0.2
0
1
2
3
4
5
6
Figuur 2.10: Mediaan, interkwartiel en MAD van de verdeling van figuur 2.3 met bijhorende dichtheid
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
40
Dit is het verschil tussen het 75%-percentiel en het 25%-percentiel (zie 2.2.4). Als de verdelingsfunctie
continu en strikt stijgend (en dus bijectief) is, dan vinden we voor het interkwartiel
interkwartiel : FX1
3
4
FX1
1
(2.59)
4
Een voorbeeld is geschetst in figuur 2.10 (zie ook figuur 2.3):
c. De mediane absolute afwijking
(Eng: median absolute deviation of MAD) Dit is de mediaan van de absolute afwijking ten opzichte van de
mediaan van de verdeling (zie fig. 7.3):
MADX med X medX (2.60)
Uit de definitie volgt, dat 50 % van de kansmassa zich bevindt tussen med MAD en med MAD, of
FX med MAD FX med MAD 12
(2.61)
Voor een verdeling met bijectieve verdelingsfunctie kan (2.61) bewezen worden als volgt.
Stel Y X medX , dan is MADX FY1 12, zodat
FY MADX PX medX MADX P
MADX X medX MADX P med
X MADX X medX MADX FX medX MADX FX medX MADX 1
2
Merk op dat de MAD nog robuuster is dan het interkwartiel. Voor symmetrische kansverdelingen zijn
2 MAD en interkwartiel aan elkaar gelijk.
2.5.3 Kentallen van vorm
a. De scheefheid
Veronderstel dat de verdeling van de stochastische variabele X symmetrisch is t.o.v. E X , d.w.z.
fX E X x fX E X x
PX E X x PX E X x
1
1
0.9
0.9
0.8
verwachtingswaarde: 1
voor een continue verdeling
voor een discrete verdeling
verwachtingswaarde: 1
0.8
0.7
variantie: 1/3
0.7
variantie: 1/3
0.6
standaardafwijking: 0.5774
0.6
standaardafwijking: 0.5774
0.5
scheefheidscoefficient: -1.155
0.5
scheefheidscoefficient: 1.155
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
-3
-2
-1
0
1
2
3
0
-1
(2.62)
0
1
2
3
4
5
Figuur 2.11: Voorbeelden van verdelingen met negatieve (links) en positieve(rechts) scheefheidscoëfficiënt
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
41
dan is het centrale moment van orde 3 gelijk aan nul (als het bestaat):
µ3 X E X E X 3 0
(bewijs zelf als oefening). Deze eigenschap geldt voor een symmetrische verdeling trouwens voor elk centraal moment van oneven orde. Indien de dichtheidsfunctie niet symmetrisch is en een brede lange staart
naar rechts heeft, dan zullen de positieve afwijkingen in X E X 3 overwegen en zal µ3 positief zijn.
Omgekeerd, indien de grafiek van de dichtheidsfunctie een langere en bredere staart naar links vertoont, dan
zal µ3 X negatief zijn. Als voorbeeld zijn in figuur 2.11 verdelingen geschetst met de kansdichtheden:
27
x 22 e3x2
2
27
frechts x : x2 e3x
2
flinks x :
voor x 2 voortgezet met nul elders
voor x 0 voortgezet met nul elders
Beide hebben ze verwachtingswaarde 1 en variantie 13 .
We kunnen het derde centrale moment µ3 X dus als een maat voor de scheefheid beschouwen. Omdat deze grootheid µ3 X de dimensie van X 3 heeft en omdat we de voorkeur geven aan een dimensieloze
grootheden voor dit soort maten, herschalen we µ3 door deze te delen door de derde macht van de standaarddeviatie. (Ga na, dat dit hetzelfde is als het derde centrale moment van de genormaliseerde verdeling
X σX berekenen). We definiëren de scheefheidscoëfficiënt (Eng. coefficient of skewness) γ1 dus door:
γ1 X :
µ3 X σX3
(2.63)
Voorbeeld 2.5.2 In voorbeeld 2.4.2 (de loterij) hebben we de volgende kentallen:
E X 5
xj
pj
-10
190
3990
0.994
0.005
0.001
VarX 3
∑ x j 52 p j 16 175
j 1
12723
µ3 X ∑ x j 53 p j 63 797 250
j 1
γ1 3101
σ
b. De kurtosis
Vanwege de vermenigvuldigingsfactor x E X 4 in de integraal voor het vierde centrale moment is de
bijdrage van de staarten veel groter dan in lagere momenten zoals de variantie. Als de staart “dik” is,
zoals b.v. bij de eerste verdeling in figuur 2.12, zal µ4 relatief groot zijn, en als de staart “dun” is, zoals
bij verdeling 3 in dezelfde figuur, zal ze relatief klein zijn. De “ideale” staartdikte is die van de normale
verdeling, geschetst in verdeling 2.
Om evenals bij de scheefheid hierboven een dimensieloze grootheid te krijgen, delen we µ4 door de
vierde macht van de standaardafwijking. De parameter om dit verschijnsel te meten wordt b2 genoemd:
µ4 X σX4
(2.64)
µ4 X 3
σX4
(2.65)
b2 X :
Deze grootheid is uiteraard altijd positief. De coëfficiënt van kurtosis3 γ2 X voor de verdeling van X verkrijgen we dan door van dit quotiënt het overeenkomstige quotiënt voor de normale verdeling af te trekken.
Aangezien dit laatste altijd 3 is vinden we:
γ2 X 3 Kurtosis
is Grieks voor “welving”.
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
42
Een verdeling met positieve γ2 heeft “dikke” staarten en wordt ook wel “platycurtic” genoemd; een verdeling
met negatieve γ2 heeft “dunne” staarten en wordt ook wel “leptocurtic” genoemd:
γ2 0 : leptocurtic
γ2 0 : mesocurtic
γ2 0 : platycurtic
1.2
1
0.8
0.6
0.4
0.2
0
-3
-2
-1
0
1
2
3
Figuur 2.12: Drie kansverdelingen en hun dichtheid met coëfficiënten van kurtosis positief, nul en negatief.
Alle drie zijn geschaald, zodat de varianties gelijk zijn aan 1.
2.6 Covariantie en correlatiecoëfficiënt
Neem twee stochastische variabelen X en Y . Als X en Y onafhankelijk zijn, dan geldt, zoals we gezien
hebben, dat σX2 Y σX2 σY2 . In het algemeen (voor afhankelijke stochastieken) hebben we:
σX2 Y
E X Y αX αY 2 E X αX 2 Y αY 2 2X αX Y αY σX2 σY2 2E X αX Y αY (2.66)
Het verschil, de term 2E X αX Y αY , geeft dus een idee van de mate van onderlinge afhankelijkheid
van X en Y . Dit leidt tot de begrippen covariantie en correlatie:
Definitie 2.6.1 De covariantie van X en Y wordt gegeven door
covX Y E X αX Y αY (2.67)
de correlatiecoëfficiënt definiëren we door
ρ
covσXσ Y (2.68)
X Y
Stelling 2.6.2 De correlatiecoëfficiënt ρ is begrensd:
1 ρ 1
(2.69)
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
43
Bewijs. Beschouw de volgende semidefiniet positieve kwadratische vorm in a en b:
a b :
0 E aX αX bY αY 2 a2 σX2 b2 σY2 2 ab covX Y De discriminant van deze kwadratische vorm moet dus negatief zijn :
covX Y 2 σX2 σY2 0
ρ2 1
oftewel
Opmerking. Analoog aan formule (2.49) kunnen we de covariantie op een alternatieve (en potentieel
numeriek instabiele) manier berekenen door de formule
covX Y E XY E X E Y (2.70)
want
covX Y E X αX Y αY E XY E X αY E Y αX αX αY
E XY E X E Y Definitie 2.6.3 Twee stochastische variabelen X en Y heten niet gecorreleerd als
covX Y 0
of
E XY E X E Y of
σX2 σY2
σX2 Y
(2.71)
Merk op dat twee onafhankelijke stochastische variabelen niet gecorreleerd zijn. Het omgekeerde geldt
echter niet, zoals blijkt uit het volgende voorbeeld:
Voorbeeld 2.6.4 covX Y 0 impliceert niet dat X en Y onafhankelijk zijn. Neem voor Z X Y de
tweedimensionale uniforme verdeling over de cirkel, d.w.z.
fZ x y 1
als x2 y2 1
π
als x2 y2 1
0
X en Y zijn niet gecorreleerd want E X E Y 0 en:
E XY 1
π
xydxdy 1
π
2π
0
cos ϑ sin ϑ d ϑ
Anderzijds zijn X en Y niet onafhankelijk, want
P X
2
Y
2
2
0 en P X
2
1
0
2
P Y
2
r3 dr 0
2
0
2
HOOFDSTUK 2. INLEIDING TOT DE KANSTHEORIE
44
2.7 Empirische en theoretische grootheden, een overzicht
Nogal wat studenten verwarren de begrippen
gemiddelde van een dataset en verwachtingswaarde van een (theoretische) kansverdeling
empirische variantie en variantie van een kansverdeling.
In de volgende tabel worden deze begrippen tegenover elkaar geplaatst.
EMPIRISCHE GEGEVENS
THEORETISCHE VERDELING
x1 x2 xn IR
discrete verdeling Y :
continue verdeling Y :
gesorteerd:
Er zijn reële getallen
x1 x2 xn
∞
yi ∞
i1 en kansen pi i1
met kansdichtheid fY
∞
fY t dt 1
empirische verdelingsfunctie
met ∑ pi 1
Fn x :
#xi x
n
zodat PY
yi pi
∞
VERWACHTINGSWAARDE
∞
n
E Y : ∑ pi yi
1
xi
n i∑
1
E Y :
i1
EMPIRISCHE VARIANTIE
s2x :
en kansverdeling
x
FY x :
fY t dt
i1
GEMIDDELDE
x :
∞
∞
n
1
xi x2
n 1 i∑
1
VARIANTIE
∞
VarY : ∑ pi yi E Y 2
VarY :
i1
MODUS
EMPIRISCH PERCENTIEL
ξα of
empirisch QUANTIEL qp
als k : p n 1
en ρ : p n 1 k dan
q p : xk ρ x p1 x p
EMPIRISCHE MEDIAAN
1
medx : ξ50 q 1
x x 1 als n is even,
2
2
n
2
n
2
x n1 als n is oneven,
2
∞
∞
∞
∞
t fY t dt
t E Y 2 fY t dt
MODUS
meest voorkomende meting
ξα
langste staaf in staafdiagram
THEORETISCH PERCENTIEL
maximum van fY
ξα of QUANTIEL q p (α 100 p
q p : FY1 p als dit punt uniek is,
ab
als a b FY1 p , d.w.z.
qp :
2
als FY x p constant is op het interval a b ,
q p : a als FY a p en FY x p x a , d.w.z. als FY in a
springt van een waarde p naar een waarde p.
MEDIAAN
medY : ξ50 q 1 .
2
Hoofdstuk 3
Belangrijke Verdelingen
3.1 De Binomiaalverdeling
3.1.1 Bernoulli-experimenten
Bij ieder binair kenmerk, zoals kop/munt – geslaagd/gezakt – roker/niet-roker – man/vrouw – wit/zwart –
nul/een – winst/verlies kunnen we de kans bestuderen, dat het ene dan wel het andere alternatief optreedt.
We noemen de bijbehorende kansruimte een Bernoulli-experiment; dit is een kansruimte met slechts twee
uitkomsten, d.w.z. Ω bevat slechts twee elementen, die we meestal aangeven met de codes 0 en 1: Ω 0 1. Wanneer 1 optreedt met kans p, dan treedt het alternatief 0 op met kans q : 1 p. We hebben zo
dus een (discrete) stochastische variabele X op Ω, die alleen de waarden 0 of 1 kan aannemen:
Ω 0 1 PX
1 P1 p
en PX
0 P0 q 1 p
(3.1)
We zeggen dat X een Bernoulli-verdeling heeft met kans op “succes” p en we noteren dit door
X B1 p
(3.2)
De grafiek van de verdelingsfunctie en het staafdiagram is getekend in figuur 3.1:
0.8
1
0.6
0.4
0.5
0.2
0
0
-0.2
-0.5
0
0.5
1
1.5
-0.5
0
0.5
1
1.5
Figuur 3.1: De Bernoulli verdeling met p 23 en het bijhorende staafdiagram
Opgave: Verifieer de volgende formules voor de Bernoulli-stochastiek X B1 p:
1
2
E X p en VarX p1 p
1
als p : medX 0 en modX 0
2
1
1
als p : medX en modX 0 1 niet eenduidig
2
2
45
(3.3)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
als p 46
1
: medX 1 en modX 1
2
Opmerking 3.1.1 In iedere kansruimte Ω P kan men een Bernoulli-experiment creëren door een gete nemen en het optreden van deze gebeurtenis als een “succes” te beschouwen. Voor
beurtenis A ω Ω heeft men dus:
1 als ω A,
X ω A.
0 als ω Voor X geldt dus: p : PX 1 PA en PX 0 PAc 1 p, zodat X B1 p.
Voorbeelden:
1. Ω verzameling van stemgerechtigden in een land en A ja-stemmers bij een referendum.
2. Ω = de groep van 12 studenten uit het voorbeeld van 1.1 en A is de deelgroep van studenten die
van Pieter een hoger cijfer kregen dan van Stef.
3.1.2 Permutaties en de formule van Stirling
Op hoeveel manieren kan je n voorwerpen op een rij zetten? Antwoord: n! (zeg n-faculteit), waarbij n!
gedefinieerd is als het product:
n! : n n 1 n 2 2 1 oftewel : n! n n 1! met 0! 1! 1 (3.4)
We bewijzen dit met volledige inductie: 1o : Een voorwerp kun je op een manier op een rij zetten. 2o : Als we
een rij van n 1 voorwerpen hebben, dan kunnen we het n-de voorwerp ervoor, erachter of op n 2 plaatsen
ertussen zetten; voor n voorwerpen vinden we dus n maal zoveel mogelijkheden als voor n 1 voorwerpen.
In plaats van het aantal mogelijke volgordes spreken we ook wel van het aantal permutaties. Om n! uit
te rekenen bestaat er de formule van Stirling die een zeer goede benadering geeft voor n 10:
1
2nπ nn en n! 2nπ nn en 1 (3.5)
n! 2nπ nn en of beter :
4n
Een elementair bewijs is hetvolgende. Beschouw het quotient
an :
n!
nn 2 en
en laat zien, dat dit convergeert naar een positief getal ρ . De waarde van deze constante volgt onder andere
uit het bewijs van de stelling van DE M OIVRE, zie stelling 3.7.2.
Voor twee opeenvolgende quotienten geldt
1
n!
n 1n3 2 en1
1 n 1
1 n
e n 1!
nn1 2 en
Met behulp van de Taylorontwikkeling log1x x 12 x2 13 x3 Ox4 vinden we
1
2
an
an1
an
log an log an1 log
a
n1
n 12 1n 2n12
n 12 log1 1n 1
3n13
O n14 1 121n2
O n13 (3.6)
hetgeen positief is voor voldoend grote n, zeg als n no . Hieruit volgt dat log an log an1 , zodat de rij
log an op den duur monotoon daalt. Bovendien is het verschil tussen twee opeenvolgende termen van de
rij zo klein, dat de rij niet naar ∞ kan weglopen. Omdat
∞
∞
∞
∞
dx
1
dx 1
1
1
1
1
en
dus
ook
O 2 (3.7)
∑
∑
2
2
2
2
n1
n
n
n
n1 x
n x
kn1 k
kn k
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
47
heeft de rij een limiet β en geldt:
1
1
O 2 log an β 12 n
n
zodat
an ρ
1
1
1
O 2 12 n
n
met ρ : eβ .
(3.8)
3.1.3 Combinaties
Op hoeveel manieren kunnen we k voorwerpen kiezen uit een collectie van n (k n) voorwerpen?
Antwoord: We kunnen de n voorwerpen op n! manieren op een rij zetten en de eerste k elementen van
deze rij nemen. Als we de eerste k echter onderling van plaats wisselen (dit kan op k! manieren), blijven
we dezelfde verzameling van k objecten houden; evenzo kunnen we de laatste n k objecten op n k!
manieren onderling verwisselen. Het aantal mogelijk verschillende manieren om k uit n te kiezen vinden
we dus door het totale aantal permutaties te delen door alle mogelijke interne permutaties in de deelgroepen
van k en n k elementen:
n
n!
(3.9)
: Cnk :
k!n k!
k
Het getal nk (spreek uit: n over k) noemt men het aantal combinaties van k elementen uit n. Voor dit getal
vond Pascal de volgende recursie:
n n
0
n
1
en
n 1 n k1
k1
k
n
als 0 k n
(3.10)
Met formules (3.4) en (3.9) kunnen we de juistheid van (3.10) eenvoudig uitrekenen. Een alternatieve manier
is de volgende. Een greep van k 1 elementen uit n 1 kunnen we op twee manieren samenstellen, nl. door
k uit n te kiezen en het n 1-ste element aan de eerste groep toe toe voegen, of door k 1 uit n te kiezen en
het n 1–ste element aan de rest toe te voegen. Hieruit volgt
n 1 n k1
k
k1
n
De zo verkregen getallen heten de binomiaalcoëfficiënten. Ze kunnen geordend worden in de welbekende
driehoek van Pascal, waarin ieder element de som is van de twee elementen uit de rij erboven, die er links
en rechts boven staan:
1
1
1
1
1
1
2
3
4
5
1
3
6
10
1
1
4
10
etc
1
5
1
Figuur 3.2: De driehoek van Pascal
Deze Binomiaalcoëfficiënten komen ook voor bij de berekening van de machten van een som, het
zogenaamde Binomium van Newton:
a b2 a2 2ab b2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
a b3
a b4
a bn
48
a3 3a2 b 3ab2 b3
a4 4a3 b 6a2b2 4ab3 b4
n
∑ nk ak bnk
k0
(3.11)
Voor het bewijs (met inductie) schrijven we a bn1 a ba bn en passen we formule (3.11) toe op
de n-de macht. We zien, dat de coëfficiënt van ak1 bnk de som is van de coëfficiënten van ak1 bnk1 en
ak bnk in de ontwikkeling van de n-de macht. De coëfficiënten voldoen dus precies aan de recursie (3.11)
voor de binomiaalcoëfficiënten.
Opgave. Ga de volgende gelijkheden na:
a.
b.
n k
0
n
n
k
n n
n
1
voor elke k.
en
n 1
n
n
1
n.
3.1.4 De Binomiaalverdeling
We kunnen het Bernoulli-experiment, b.v. het gooien van een munt, n maal herhalen en ons dan afvragen,
wat de kans is op k maal kop in die serie van n worpen. Als we na n 1 worpen k 1 maal kop gegooid
hebben, kunnen we k maal kop uit n worpen krijgen door in de n-de beurt nog eens kop te gooien; als we in
n 1 beurten reeds k maal kop hadden gegooid, kunnen we k maal kop uit n worpen krijgen door in de n-de
beurt munt te gooien. De kans op k maal kop uit n worpen is dus gelijk aan de kans op kop maal de kans
op k 1 maal kop uit n 1 worpen plus de kans op munt maal de kans op k maal kop uit n 1 worpen. We
zien dus ook hier weer de binomiaalcoëfficiënten terug.
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
Figuur 3.3: Het bord van Galton
Een bekend experiment is het ”bord van Galton”, zie figuur 3.3. Op een vertikaal geplaatst bord zijn
in een gelijkbenige driehoek pinnen geplaatst in horizontale rijen van 1, 2, 3, ... lang, zodat een pin in rij
n precies in het midden boven twee pinnen in rij n 1 staat. Aan de bovenzijde kunnen balletjes door een
trechter geworpen worden, zodat ze precies midden op de bovenste pin vallen. Vandaar vallen ze naar links
of rechts precies midden op een pin van een rij lager, enzovoorts, tot ze in een van de opvangbakken aan de
onderzijde terechtkomen. Als de kans om naar links of rechts te vallen even groot is (en dus gelijk aan 12 ),
is de kans om op pin k op niveau n te vallen gelijk aan 12 maal de kans om vanaf niveau n 1 op een van de
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
49
pinnen
k 1 of k te vallen. Als er n niveaus zijn, is de kans dat een balletje in het k-de bakje valt dus gelijk
aan nk 12 n . Zo’n vallend balletje voert dus een rij Bernoulli-experimenten uit, door bij iedere volgende pin
weer te kiezen voor rechts of links met kans p 12 .
Als we n onafhankelijke Bernoulli-experimenten (met uitkomsten 0 of 1) met kans p doen en de uitkomsten optellen krijgen we een som Y van n Bernoulli-stochastieken X1 , X2 , , Xn , alle verdeeld volgens
dezelfde theoretische verdeling B1 p. Deze som-stochastiek geeft het aantal “successen” in n pogingen.
Zij neemt dus gehele waarden aan tussen 0 en n. We noemen deze stochastiek binomiaal of Bn p verdeeld:
Y
X1 X2 Xn
en Y Bn p
(3.12)
Voor deze discrete stochastiek geldt dus:
1
2
3
4
n
k k pk 1 pnk k 0 1 2 n
E Y E X1 X2 Xn E X1 E X2 E Xn np
VarY VarX1 X2 Xn VarX1 VarXn npq
ϕY t peit qn
PY
(3.13)
(3.14)
(3.15)
(3.16)
In tabel 1 achteraan vinden we tabellen voor de kansen
PY
k n
0.25
k
pk 1 pnk
1
0.2
0.15
0.5
0.1
0.05
0
0
0
5
10
0
5
Figuur 3.4: Staafdiagram en verdelingsfunctie van B10 05
10
De modus (de getallen j met grootste pj ) kunnen we vinden door naar de quotiënten pj p j1 te kijken:
n!
j 1!n j 1! p j 1 pn j p n j 1
p j1
j!n j!
n!
p j1 1 pn j1
1
p
j
Hieruit volgt, dat p j p j1 als j n 1 p. We zien dus, dat p j de grootste is, als np p niet geheel is en
j het grootste gehele getal kleiner dan np p is (notatie: j np p). Als j np p geheel is, dan zijn
pj
p j en p j1 gelijk en zijn ze beiden modi. Dus
modY np p
j 1 j als np p niet geheel is,
als j : np p geheel is.
(3.17)
In de figuren 3.4 en 3.5 zijn voorbeelden van een binomiale verdeling geschetst. In figuur 3.4 met p 12
zien we een verdeling die symmetrisch is rond de verwachtingswaarde terwijl figuur 3.5 met p 15 nogal
scheef is.
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
50
1
0.3
0.2
0.5
0.1
0
0
0
5
10
0
5
Figuur 3.5: Staafdiagram en verdelingsfunctie van B10 02
10
3.1.5 De wet van de grote getallen (de Moivre 1718)
Als er een referendum wordt uitgeschreven over een brandende politieke kwestie, dan zullen opiniepeilers vooraf in een steekproef onder de bevolking het percentage ja-stemmers (= de kans p op een ja-stem)
proberen te bepalen. In zo’n peiling zal niet iedereen ondervraagd (kunnen) worden, maar we hebben
het idee, dat we een goed beeld kunnen krijgen van de waarde van p als we voldoende veel personen
ondervragen. Ieder antwoord in de peiling kunnen we opvatten als een onafhankelijk Bernoulli-experiment
X met kans p op ja, dus X B1 p. Een peiling Y X1 X2 Xn onder n personen is dan binomiaal
Bn p-verdeeld en Y n geeft de fractie van ja-stemmen met verwachtingswaarde p. Wat is de kans dat de
werkelijke uitkomst van een steekproef onder n personen hiervan sterk afwijkt? De wet van de grote getallen
zegt dat deze kans willekeurig klein is als n voldoende groot is.
Stelling 3.1.2 Als de stochastische variabelen X1 X2 Yn X1 X2 Xn , dan geldt
lim P
n∞
Yn
n
Xn onafhankelijk en B1 p-verdeeld zijn en als
p ε
0
(3.18)
p1nε
2 p
(3.19)
Bewijs. Uit de formule (2.55) van Chebyshev volgt:
P
Yn
n
p ε
Var Ynn ε2
voor alle n en voor alle (vaste) ε 0. Voor n ∞ gaat het rechterlid naar nul.
3.2 De hypergeometrische verdeling
We nemen een vaas met N knikkers, waarvan P rode en Q : N P witte. Wanneer we hieruit n maal een
willekeurige knikker trekken, de kleur ervan noteren en de knikker vervolgens weer terug leggen, doen we n
opeenvolgende Bernoulli-experimenten. Het aantal rode knikkers na n trekkingen zal dus Bn p-verdeeld
zijn, met p : PN.
Als we echter in een greep n knikkers trekken, of (wat hetzelfde is) n knikkers achtereen trekken
zonder teruglegging, zal de uitkomst anders zijn. Bij het trekken van de tweede en volgende knikkers zal
de verhouding rood/wit in de vaas zich steeds wijzigen, naar gelang de de vorige uitkomsten. Noem de
uitkomst van de trekking van de j-de knikker Xj met X j 1 als de knikker rood is en Xj 0 als de knikker
wit is. Het aantal rode knikkers noemen we Y : X1 X2 Xn . Als P n en Q n, dan kan Y alle
waarden 0 1 n aannemen. Om de kans PY j uit te rekenen
P verdelen we de P rode knikkers uit
de vaas in een groep van j en een restgroep van P j; dit kan op j manieren, zie (3.9). Evenzo kunnen
we de Q witte knikkers in groepen van n j en Q n j knikkers verdelen op nQ
j manieren en kunnen
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
51
we uit de gehele verzameling van N knikkers op Nn manieren n knikkers afzonderen. De gevraagde kans is
dus:
P Q n N n
j
n
j
j
N NP
j
(3.20)
PY j n
P
Als we de binomiaalcoëfficiënt mj de waarde 0 geven voor j 0 en j m, blijkt deze formule ook geldig
voor de gevallen P n en Q n; immers, als P n, dan is PY j 0 voor j P.
Definitie 3.2.1 De kansverdeling van Y , die voldoet aan (3.20), noemen we de hypergeometrische verdeling,
notatie:
P
(3.21)
Y H N p n met p : N
Stelling 3.2.2 De verwachtingswaarde en variantie van Y H N p n worden gegeven door:
E Y np VarY npq NN n1 (3.22)
Bewijs. Het bewijs voor de verwachtingswaarde is eenvoudig:
E Y E X1 X2 Xn E X1 E X2 E Xn np
omdat de verwachtingswaarde van een som gelijk is aan de som van de verwachtingswaarden, ook als er
afhankelijkheid is, zie formule (2.43).
Het bewijs voor de variantie gaat als volgt: als X H N p n, en q : 1 p dan geldt
N p Nq n N p N p1 Nq E X ∑ k k N nk ∑ k k N k1N 1 nk
k0
k1
n
n n1
N p1
n1
n1
Nq
nNN p ∑ m N1n1m np ∑ PY m n
m0
m0
n1
np
waar Y een stochastische variabele is die H N 1 NNp11 n 1-verdeeld is.
Om de variantie te berekenen herleiden we op analoge wijze:
N p Nq E X X 1 ∑ k k 1 k N nk
n
k0
N p2 Nq k2 nk
∑ k k 1 N2
N N 1
k2
n n1
N p2 n2 Nq n2
nNN p n1NN1p1 ∑ m N2n2m
n
Np
k
n
Nkp11 m0
nN p
N
n1N p1 N 1
n2
n2
Np
1
∑ PY m n 1np N 1
m0
waar Y een stochastische variabele is die H N 2 NNp22 n 2-verdeeld is.
Uit de gelijkheid E X X 1 E X 2 E X vinden we
VarX E X 2 E X 2 E X X 1 E X E X 2
n 1np NNp
11 np n2 p2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
52
np
N p 1n 11 npN 1
N 1
np
N pn 11 np n 1 1 np
N 1
np
N 1 p n1 p
N 1
N n
npq
N 1
Voorbeeld 3.2.3 Een lampenwinkel koopt bij groothandel dozen van 100 lampen. Bij levering worden uit
iedere doos 5 willekeurig gekozen lampen getest. Stel dat er in een gegeven doos 5 kapotte exemplaren zijn,
wat is de kans dat er minstens een van gevonden wordt. Antwoord:
5
95
PY
1 PY
2 5
92 93 94 95
234
1 4
5 5 92 93 94 95 2114%
196 97 1 98
100
99 100
96 97 98 99 100
12345
5
5 5 8 93 94 95
184% PY 3 01%
96 97 98 99 100
zodat PY 1 23%. Eenvoudiger is het uit te rekenen:
PY 1 1 PY
0
met PY
95
0 9691979298939994100
Dit vindt zijn toepassing bij kwaliteitscontrole van massaprodukten. In het bovengenoemde voorbeeld is het
ondoenlijk om iedere lamp in iedere doos afzonderlijk te testen. We nemen een steekproef van n lampen uit
een doos; als er geen defekte lamp in zit accepteren we deze doos. In figuur 3.6 is de kans op acceptatie
uitgezet tegen het percentage defekte lampen.
Voorbeeld 3.2.4 Een ecoloog wordt nogal eens geconfronteerd met het probleem, het aantal dieren te schatten in een habitat, b.v. het aantal vissen in een vijver. Hierbij kan gebruikt gemaakt worden van de zogenaamde “capture/recapture” techniek. Laat de vijver N vissen bevatten. We vangen n vissen, merken ze
1
kans dat steekproef geen defekte lampen bevat
0.9
0.8
test van 5 exemplaren per partij van 100
0.7
test van 10 exemplaren per partij van 100
0.6
0.5
0.4
0.3
0.2
0.1
0
0
10
20
30
40
50
60
aantal defekte exemplaren in een partij van 100 lampen
Figuur 3.6: Percentage defekte lampen in een doos vs. de kans op geen defekten in een steekproef.
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
53
en zetten ze weer uit in de vijver. Enige dagen later vangen we m vissen waarvan er k gemerkt zijn. Op
voorwaarde dat de tweede vangst willekeurig is, is het aantal gemerkte vissen bij de tweede vangst hypergeometrisch verdeeld met verwachtingswaarde mp, waar p de verhouding nN van gemerkte vissen t.o.v. het
totaal is. We kunnen mp schatten met de waargenomen waarde k, zodat mp mnN k. Hieruit vinden we
N nmk.
Opmerking 3.2.5 De kansen, gegeven in formule (3.20), zijn coëfficiënten in een “hypergeometrische”
reeks. Hieraan dankt de verdeling zijn naam.
3.3 De Geometrische verdeling
Op een atol in de Stille Oceaan is de leefruimte en de hoeveelheid voedsel beperkt. Om overbevolking
te voorkomen wil de stammoeder het aantal kinderen beperken. Om de andere vrouwen, die allen graag
dochters zouden hebben, niet de mogelijkheid te ontnemen om een dochter te baren, bepaalt zij, dat een
vrouw na het baren van een dochter niet meer zwanger mag worden. Zal zij in haar opzet slagen en hiermee
het totale aantal geboorten beperkt houden?
Laten we voor het beantwoorden van deze vraag veronderstellen, dat de kans op het baren van een zoon
of een dochter even groot is en laten we kindersterfte e.d. verwaarlozen. De kans dat een vrouw als eerste
kind een dochter baart, is een half. De kans dat zij een tweede kind mag baren en dat dit een dochter is, is
dus een kwart. De kans dat zij een derde kind mag baren en dat dit een dochter is, is een achtste, etc. In het
algemeen vinden we dus voor k 0 1 2 :
Pk1-ste kind is een dochter en de eerste k kinderen zijn zonen
1 k1
2
(3.23)
Het gemiddelde aantal kinderen per vrouw (= verwachtingswaarde, zie (3.27)) komt dus uit op
m 1
1
2 14 3 18 4 161 5 321 2
2
(3.24)
De maatregel werkt dus perfekt (onder de gegeven vereenvoudigingen).
Een kansverdeling zoals gegeven in (3.23) waarvan de kansen afnemen als een meetkundige rij heet een
geometrische verdeling. Bij een gegeven oneindige rij Bernoulli-experimenten X1 , X2 , X3 , , die alle
onafhankelijk en B1 p-verdeeld zijn (met dezelfde p), kijken we naar het eerste “succes” na k keer falen.
Aangezien de kans op k keer falen gelijk is aan qk met q : 1 p, zal er vroeg of laat een “succes” optreden.
De kans hierop noemen we pk k 0 1 2 ,
PY
k pk : PXk1 1 en X1 0 X2 0 Xk 0
pqk (3.25)
Deze kansen vormen een meetkundige rij en hun som voldoet aan de voorwaarde
∞
∑
k0
qk p
p
1
1
q
1
In figuur 3.7 is een voorbeeld van een geometrische verdeling geschetst.
De kansverdeling FY is een trapfunctie met
FY j
j
∑
k0
qk p
p
1 q j1
1
q
1 q j1 j 0 1 2 Verwachtingswaarde en variantie kunnen we alsvolgt bepalen. Als we de meetkundige reeks
∞
∑ xk 1 x
k0
1
met x 1
(3.26)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
54
1
0.3
0.2
0.5
0.1
0
0
0
10
0
10
Figuur 3.7: Kansverdeling en staafdiagram van een geometrische verdeling met p 03.
term per term afleiden, dan vinden we met een- en tweemaal differentiëren
∞
∑ kxk1 k1
∞
1
1 x2
∑ kk 1xk2 1 x3 en
2
k 2
We verkrijgen voor de verwachtingswaarde
E Y ∞
∞
k0
k1
∑ kpqk pq ∑ kqk1 pq
1 q2
qp (3.27)
Evenzo vinden we
E Y Y 1 zodat
∞
∞
k0
k2
∑ kk 1 pqk pq2 ∑ kk 1qk2 2pq2
1 q3
2
2qp2 2q2 q q2
q
2 2
2
p
p p
p
Uit de figuur 3.7 zien we onmiddelijk in, dat modY 0. Bepaal zelf de mediaan van Y !
VarY E Y 2 E Y 2 E Y Y 1 E Y E Y 2 (3.28)
3.4 De Poissonverdeling en Poissonincidentenstromen
3.4.1 De Poissonverdeling
Per dag worden er in België N ( 400?) kinderen geboren. Laten we aannemen dat de kans om op een
bepaalde dag geboren te worden niet afhangt van het seizoen en voor iedere dag hetzelfde is. Kunnen we
dan iets zeggen over de fluctuaties in de dagelijkse aantallen? D.w.z., als Y de stochastische variabele is,
die het aantal geboorten op een dag geeft met E Y N, kunnen we dan de spreiding σY bepalen? Op
het eerste gezicht lijkt dit een gekke vraag, immers als we alleen het gemiddelde van een grootheid zoals
de lengte van alle inwoners kennen, kunnen we onmogelijk iets zeggen over de spreiding erin. Voor het
aantal geboorten per dag is de situatie echter anders. Het tijdstip van iedere geboorte is een onafhankelijke
stochastische gebeurtenis, waarvan we weten, dat er per dag gemiddeld N gebeuren, per week dus gemiddeld
7N en per uur N 24; m.a.w. het gemiddelde aantal is evenredig met de lengte van de observatietijd. Laat
τ een fractie van de dag zijn, dan is de stochastiek Xτ het aantal geboorten dat in zo’n fractie plaats vindt
en er geldt: E Xτ τ N. Kies nu de observatietijd τ zo klein, dat er in die periode hoogstens één geboorte
plaats vindt, dan neemt Xτ alleen de waarden 0 en 1 aan en is dus (ongeveer) binomiaal B1 p-verdeeld met
p E Xτ τ N en VarXτ τ N 1 τ N . Als Y het aantal geboorten op een dag is en een dag is opgedeeld
in n stukjes van lengte τ 1n dag, dan geldt:
n
Y
∑
k 1
Xτ k
als nτ
1
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
55
Hierbij is Xτ k het aantal geboorten in het k-de tijdsinterval met lengte τ . De stochastische variabelen
Xτ 1 Xτ 2 Xτ n zijn onafhankelijk, en hebben allen dezelfde verdeling. Bijgevolg geldt:
E Y nE Xτ nτ N N
VarY nVarXτ nτ N 1 τ N N 1 τ N en
Nemen we nu de limiet voor τ 0 en dus (tegelijk)
voor n ∞, dan wordt de gelijkheid exact en vinden
we VarY N. De gezochte spreiding is dus N. Er is nog meer: we kunnen alleen op grond van de
aannamen, dat de verwachtingswaarde per tijdsinterval constant in de tijd is en dat de aantallen gebeurtenissen in twee tijdsintervallen met lege doorsnede onafhankelijke stochastieken zijn, de kansverdeling volledig
karakteriseren.
Deze kansverdeling heet de Poissonverdeling naar Simon Poisson, 1781-1840, hoewel deze verdeling waarschijnlijk al bekend was aan De Moivre een eeuw eerder.
De Poissonverdeling Pλ (met intensiteit λ ) kunnen we dus vinden uit Bn λ n door de limiet voor n ∞
te nemen; dus als Y Pλ , dan
PY
k nlim
∞
n λ k
1
n
k
λ nk
n
λ n λ k
n!
λk
1
1
k
k! n n k!
n
n
nlim
∞
Als we nu de volgende limieten (geldig voor vaste k) gebruiken:
lim
n ∞
1
λ n
n
eλ
en
lim
n∞ nk
n!
n k!
1
λ k
n
1
dan vinden we de kansen voor de Poissonverdeling:
PY
k λ k λ
e k!
(3.29)
Hun som is inderdaad gelijk aan 1:
∞
∑
k0
PY
k eλ
∞
λk
∑
k0 k!
eλ eλ 1 De verdelingsfunctie van de Poissonverdeling wordt gegeven in tabel 2 achteraan.
De verwachtingswaarde is (zoals we al weten)
E Y ∞
∑
k0
kPY
∞
k eλ ∑ k λ 1! k1
k
eλ λ eλ
λ
(3.30)
Om de variantie uit (3.29) af te leiden gebruiken we:
E Y Y 1
zodat
∞
∞
∑ kk 1PY k eλ ∑ k λ 2! k 0
k2
VarY k
eλ λ 2 eλ
E Y 2 E Y 2 E Y Y 1 E Y E Y 2 λ λ2
(3.31)
Een belangrijke eigenschap van de Poissonverdeling is:
Stelling 3.4.1 Als X en Y onafhankelijk en Poissonverdeeld zijn met parameters λ resp. µ , dan is hun som
opnieuw Poissonverdeeld met parameter λ µ :
X Pλ en Y Pµ onafhankelijk X Y Pλ µ (3.32)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
56
0.3
1
0.2
0.5
0.1
0
0
0
10
0
10
Figuur 3.8: Kansverdeling en staafdiagram van een Poissonverdeling met λ =2.5.
Bewijs. Bij definitie geldt (met het binomium van Newton):
PX Y n n
λ k µ nk λ µ
e
k0 k! n k !
n
∑ PX k & Y n
k ∑
k0
λ n!µ n
eλ µ waaruit (3.32) volgt..
Voorbeeld 3.4.2 In figuur 3.8 is een Poissonverdeling geschetst.
Voorbeeld 3.4.3 Het Rutherford-Geiger-Marsden experiment (1910)
Dit is een beroemd experiment uit de begindagen van de studie van de radioactiviteit waarbij gedurende 2608
tijdsintervallen van 8 minuten aantallen alfa-deeltjes uit een stukje (radioactief) polonium werden waargenomen. De data zijn verzameld in tabel tabel 3.1 en in een histogram in figuur 3.9: Verderop in deze syllabus
aantal alfa-deeltjes per
tijdsinterval van 8 minuten
0
1
2
3
4
5
6
7
8
9
10
11 en meer
waargenomen aantal
tijdsintervallen
57
203
383
525
532
408
273
139
45
27
10
6
verwachte aantal op grond
van de Poissonverdeling
54
211
407
526
508
394
254
140
68
29
11
6
Tabel 3.1: Het Rutherford-Geiger experiment en de best-bijpassende Poissonverdeling met λ = 3.87.
zullen we zien hoe we met een χ2 -toets de mate van overeenstemming tussen theorie en experiment kunnen
beoordelen.
3.4.2 Poissonincidentenstromen
We zullen nu de Poisson-verdeling op een andere manier invoeren. Veronderstel dat een bepaald incident
zich in de loop der tijd een aantal keer voordoet :
- een huis, verzekerd door een verzekeringsmaatschappij met zeer veel polissen, brandt af;
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
57
600
600
400
400
200
200
0
-5
0
5
10
0
-5
15
0
5
10
15
Figuur 3.9: Histogram van de waarnemingen van Rutherford-Geiger (links) en de best bijpassende Poissonverdeling
met λ
3 87 (rechts).
- een radioaktief deeltje valt in een Geigerteller;
- in een gegeven winkel komt een klant binnen;
- een wagen rijdt voorbij een bepaald punt op een autosnelweg;
- etc. . . .
Met elk tijdsinterval s t kunnen we dan een stochastische variabele Xs t laten overeenstemmen. Laat Xs t
het aantal incidenten zijn dat zich voordoet tijdens het tijdsinterval s t . We definiëren voor n N de kans
gn s t , dat zich tijdens het interval s t juist n incidenten voordoen:
gn s t PXs t
n
Veronderstel nu dat we de volgende hypothesen kunnen maken, die plausibel zijn voor bovenstaande voorbeelden:
/ dan zijn Xs t en Xu v onafhankelijke stochastische variabelen.
1. Als s t u v 0,
2. Als t s v u, dan zijn de verdelingsfuncties van Xs t en Xu v dezelfde.
PXs sh 1
0. Ruwweg betekent deze veronderstelling dat de tijdsduur tussen twee opeenh
volgende incidenten strikt groter dan nul is.
3. lim
h0
Hypothese 2 heeft als gevolg:
∂ gn s t is constant onafhankelijk van t ∂ t st
want
∂ gn s t ∂ t st
1
PXs t h n PXs t
h 0 h
lim
n st
1
∂ gn u v
PXu vh n PXu v n h 0 h
uv
∂ v uv
lim
Voor n 1 zullen we deze constante λ noemen,
λ :
∂ g1 s t ∂ t st
(3.33)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
58
Ruwweg betekent dit, dat de kans dat er zich tussen t en t h een incident voordoet gelijk is aan hλ voor
voldoend kleine h. Hypothese 3 heeft als gevolg:
∂ gn s t ∂ t st
0
voor n 1 en
∂ g0 s t ∂ t st
λ
(3.34)
Dit laatste volgt door de identiteit ∑k gk s t 1 naar t te differentiëren en vervolgens s t te stellen.
Definitie 3.4.4 Een incidentenstroom die voldoet aan hypothesen 1, 2 en 3 noemen we een Poissonincidentenstroom.
We zullen nu het verband aantonen met de Poissonverdeling. Om de verdeling van de stochastische
variabelen Xs t te kennen, volstaat het vanwege hypothese 2 om de functies
pn t : gn 0 t PX0 t
n
te kennen. We zullen er een differentiaalvergelijking voor afleiden. De pn voldoen aan de beginvoorwaarden
p0 0 1 en pn 0 0 voor n 0 (3.35)
want de kans dat zich op het tijdstip 0 minstens één incident voordoet is 0. We zullen eerst p0 bepalen.
Vanwege hypothese 1 geldt voor t u:
g0 0 u g0 0 t g0 t u of p0 u p0 t g0 t u
Neem in beide leden de afgeleide naar u en stel dan t u, dan vinden we:
d p0
t λ p0t dt
(3.36)
Rekening houdend met de beginvoorwaarden p0 0 1 vinden we de oplossing:
p0 t eλ t
(3.37)
Om pn te bepalen gaan we op analoge manier te werk:
n
pn u ∑ pni t gi t u ;
i0
afleiden naar u en u gelijkstellen aan t geeft:
d pn
t λ pnt λ pn1 t dt
(3.38)
De vergelijkingen (3.36) en (3.38) vormen een oneindig stelsel differentiaalvergelijkingen, dat eenvoudig
recursief is op te lossen. Voor n 1 krijgen we:
d p1
λ p1 λ eλ t
dt
en rekening houdend met de beginvoorwaarde geeft dit:
p1 λ teλ t
(3.39)
Voor n 2 vinden we vervolgens:
d p2
dt
λ p2 λ 2teλ t
met als oplossing
1
p2 λ 2t 2 eλ t
2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
Algemeen geldt:
59
λ t n eλ t
pn (3.40)
n!
Bewijs per inductie: Voor n 0 1 2 is de formule al bewezen. Veronderstel dat ze geldt voor n 1, dan
voldoet pn aan
d pn
λ nt n1 λ t
λ pn dt
n 1! e
De oplossing van de homogene vergelijking is pn hom t Ceλ t en er bestaat een partikuliere oplossing
van de vorm: pn At n eλ t . Substitutie in de vergelijking geeft:
nAt n1 eλ t
n n1
λn t 1! eλ t dus A λn! , en pn λn!t eλ t . Invullen van de beginvoorwaarden geeft nu het gewenste resultaat.
Besluit: De stochastische variabelen Xt u behorende bij een Poisson-incidentenstroom zijn Poisson verdeeld
met parameter λ u t . Hierbij is λ het gemiddelde aantal incidenten per tijdseenheid.
n
n
3.5 De exponentiële verdeling
3.5.1 De exponentiële verdeling
In een winkel komen gemiddeld 20 klanten per uur binnen. Veronderstel, dat dit een z.g. Poissonincidentenstroom is. Het aantal klanten dat per τ minuten binnenkomt is dan Poisson verdeeld met parameter λ : τ 3.
Wat is nu de kans, dat de winkel 5 min. leeg blijft, nadat de vorige klant vertrokken is? Algemener, wat is
de kans dat de winkelier T minuten moet wachten op de volgende klant? Deze grootheid T , de wachttijd,
is weer een stochastische variabele, die (in principe) alle reële waarden tussen 0 en ∞ kan aannemen. Om
de bijbehorende kansen te vinden, kijken we naar het aantal klanten Xt t τ dat gedurende een periode van
t t τ binnenkomt. De duur van dit tijdsinterval is τ minuten, zodat Xt t τ Pλ τ -verdeeld is. De kans,
dat er in een tijdsinterval van lengte τ minuten k klanten binnen komen is dus gelijk aan
PXt t τ
k λ k τ k eλ τ k!
In het bijzonder is de kans dat er géén klanten binnenkomen dus PXt t τ 0 eλ τ . Voor de kans
PT τ , dat er geen klanten binnenkomen gedurende een periode van t t τ , vinden we dus:
PT
zodat
τ PXt t τ 0 eλ τ
PT τ 1 PT
τ 1 eλ τ
T is dus continu met verdelingsfunctie FT en kansdichtheid fT :
FT t 1 eλ t
voor t 0,
0
voor t 0,
fT t voor τ 0
λ eλ t
voor t 0,
0
voor t 0,
(3.41)
(3.42)
We noemen T exponentieel verdeeld met parameter λ . De argumenten hierboven tonen aan dat de tussentijd
tussen twee opeenvolgende incidenten van een Poissonincidentenstroom exponentieel verdeeld is. Merk op
dat er een schijnbare paradox is: het is hierboven niet van belang, wanneer het laatste incident vóór het
begintijdstip t zich heeft voorgedaan: de verdeling van T blijft dezelfde. M.a.w. op een tijdstip t is de
tijdsduur tot aan het volgende incident onafhankelijk van de tijdsduur tussen het paatsvinden van het vorige
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
60
incident en het begin van het beschouwde tijdsinterval t. Men noemt deze eigenschap de “vergeetachtigheid”
van de exponentiële verdeling; in formule, voor s 0 en t 0 geldt:
PT
s t T t PT PsT tent T t e eλ t eλ s PT s
λ st (3.43)
Uit het voorbeeld zal het duidelijk zijn, dat de bestudering van de Poisson-verdeling, de exponentiële verdeling en verwante verdelingen (zoals de Gamma-verdeling) een grote vlucht heeft genomen in de “wachtrijtheorie” (Eng. queueing theory) voor de bestudering van capaciteitsproblemen van telefooncentrales, wegennetten, computeronderdelen, loketdiensten, etc. Een ander voorbeeld van een stochastische variabele die
exponentieel verdeeld is, is de levensduur van een radioactief atoom.
Als T exponentieel verdeeld is met parameter λ , dan worden verwachtingswaarde en variantie als volgt
gevonden:
∞ ∞
∞
1
λt
λt λ te
dt te eλ t dt (3.44)
E T λ
0
0
0
∞ ∞
∞
2
2
2 λ t
2 λ t λt e
dt t e 2teλ t dt 2 E T λ
0
0
0
VarT E T 2 E T 2 1
(3.45)
λ2
Opmerking. In (3.43) is de “vergeetachtigheid” of “geheugenloosheid” van de exponentiële verdeling gedefiniëerd. De enige continue verdeling waarvoor deze eigenschap geldt is de exponentiële verdeling, want
f continu en f x y f x f y x y f x eµ x voor zekere µ 3.5.2 De risico verhouding
Beschouw een hoeveelheid radioactief materiaal. Zoals we al gezien hebben is de levensduur T van elk
atoom in het materiaal exponentieel verdeeld met parameter λ . Als N N t de hoeveelheid radioactief
materiaal op tijdstip t voorstelt, dan hebben we dus
N t N 0eλ t
(3.46)
Immers, de kans dat een deeltje vervalt vóór het tijdstip t is FT t 1 eλ t , en hieruit volgt onmiddellijk
dat N t 1 1 eλ t N 0 N 0eλ t . Hieruit volgt onmiddellijk dat
dN
dt
λ N
(3.47)
Integratie van (3.47) levert ons opnieuw (3.46). Merk op dat de mediaan in dit geval een bijzondere betekenis
krijgt: dit is het getal m waarvoor
FT m PT m N m
N 0
12 met andere woorden, de mediaan is de tijd die nodig is om de hoeveelheid materiaal tot de helft te herleiden.
In dit geval noemen we de mediaan daarom de halfwaardetijd. Reken zelf uit dat
m
ln 2
λ
Laten we nu een ander voorbeeld bekijken: in plaats van de levensduur van een atoom, beschouwen we de
levensduur van een mens. Er is nu een belangrijk verschil. De levensverwachting van een radioactief atoom
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
61
is onafhankelijk van de ouderdom van het atoom (dit is de vergeetachtigheid van de exponentiële verdeling).
Deze eigenschap geldt niet voor de levensduur van een mens: de levensverwachting van een mens van 70
jaar oud is kleiner dan die van een mens van 18 jaar oud! We kunnen ons model nu als volgt aanpassen:
neem opnieuw (3.47), maar vervang hierin λ door een functie van de tijd, zeg rt :
dN
dt
Integratie van (3.48) geeft nu
rt N
N t N 0 exp
t
0
(3.48)
rsds
(3.49)
Op tijdstip t is de verhouding van het aantal overgebleven deeltjes (of het aantal overlevende mensen) ten
opzichte van het oorspronkelijke aantal
t
exp
rsds
0
Als T de levensduur is van een deeltje, dan is dus
FT t PT t 1 exp
en dus is
fT t rt exp
0
t
t
0
rsds
rsds
(3.50)
(3.51)
rt noemen we de risicoverhouding (Eng. hazard rate of failure rate). Als FT gegeven is, dan kunnen we
rt gemakkelijk bepalen met behulp van de formule
rt fT t 1 FT t (3.52)
De risicoverhouding rt is heel belangrijk voor verzekeringsmaatschappijen die leveringsverzekeringen
afsluiten. Immers, hoe kleiner rt , hoe groter de levensverwachting van de klant, en hoe kleiner de verzekeringspremie die zal aangerekend worden. Er bestaan tabellen met de risicoverhouding afhankelijk van de
leeftijd.
3.5.3 De Gamma-verdeling
Bij de afleiding van de exponentiële verdeling gingen we uit van een Poisson-verdeling Pλ en keken we
naar de wachttijd voor de eerste gebeurtenis. Algemener, kunnen we kijken naar de wachttijd Tk vóór de
k-de gebeurtenis. Analoog aan (3.41) vinden we:
1 FT τ k
k 1
λ j τ j λ τ
e
j!
j 0
PTk τ PXt t τ k ∑
Door differentiatie vinden we de kansdichtheid:
fTk τ d
1 FTk τ dτ
k 1
λ j τ j1 λ τ k1 λ j1 τ j λ τ
e
e
∑
∑
j!
j 1 j 1!
j 0
k 2
λ j1 τ j λ τ k1 λ j1 τ j λ τ
e
e
∑
j!
j!
j 0
j 0
λ k τ k1 λ τ
k 1! e
∑
(3.53)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
zodat
fTk τ 62
λ k τ k1 λ τ
k 1! e
(3.54)
Hieruit zien we, dat de kansverdeling voor t 0 precies gegeven wordt door de incomplete Gammafunctie:
Γλk
waar Γx de Gammafunctie is, met Γk 1 k! .
k
FT t k
t
0
τ k1 eλ τ d τ
(3.55)
3.6 Uniforme verdelingen en random getallen
3.6.1 De discrete uniforme verdeling
Hierbij is de uitslagenruimte eindig en hebben alle uitkomsten dezelfde kans:
Ω 1 2 n
PX
en
k 1n k 1 2 n
en n (3.56)
Voorbeelden (voor de spelers onder ons):
n 6: dobbelsteen,
n 37: roulette,
n 52: kaartspel.
n 2: muntworp,
De verdelingsfunctie en staafdiagram van een discrete uniforme verdeling op 9 punten is geschetst in
figuur 3.10.
0.15
1
0.1
0.5
0.05
0
0
1 2 3 4 5 6 7 8 9
0
5
10
0
5
10
Figuur 3.10: Kansverdeling en staafdiagram van een discrete uniforme verdeling op 9 punten.
Voor de verwachtingswaarde vinden we:
E X n
∑ nj n 2 1 (3.57)
j 1
Gebruik makend van de som (ga na!)
n
∑
j 1
j2
nn 16 2n 1
vinden we E X 2 n
j2
j 1 n
∑
n 162n 1 De variantie is dus:
VarX 2
E X 2 E X 2 n 162n 1 n 4 1 Opgave: Bepaal mediaan en modus van een discrete uniforme verdeling.
n2 1
12
(3.58)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
63
3.6.2 De continue uniforme verdeling
Bij deze verdeling is de kansdichtheid constant over een zeker reëel interval a b en nul daarbuiten. Aangezien de totale kansmassa een is, zijn de kansdichtheid en de verdelingsfunctie alsvolgt:
fX x 1
ba
als a x b,
0
elders.
0
a
FX x bx
a
(3.59)
als x a,
als a x b,
(3.60)
1
als b x.
Verwachtingswaarde en variantie vinden we eenvoudig door integratie:
b
b
xdx
ab
a b 2 dx
en VarX x
E X 2
2
b
a
a b
a
a
2
b 12a (3.61)
In figuur 3.11 is deze verdeling geschetst voor het interval [0, 4].
0.3
1
0.2
0.5
0.1
0
0
0
2
4
-0.1
0
2
4
Figuur 3.11: Kansverdeling en kansdichtheid van een continue uniforme verdeling op het interval [0, 4].
Opgave: Bepaal mediaan, modus, scheefheid en kurtosis van een continue uniforme verdeling.
3.6.3 Random getallen
Als we 20 maal achtereen een (eerlijke) munt werpen en de uitkomsten 0 of 1 op een rij zetten, vinden we
een rij “willekeurige” of “random” bits, b.v.
00111011001100101011
Omdat de kans op 0 of 1 even groot is, vormt de rij random getallen een serie onafhankelijke uniform
verdeelde trekkingen van een stochastische variabele op de verzameling 0 1. Hetzelfde kunnen we doen
met een LOTTO-machine die balletjes met de cijfers 0 t/m 99 bevat; het getrokken balletje leggen we na
iedere trekking onmiddellijk terug. We zouden dan als uitkomst kunnen krijgen:
53 - 9 - 65 - 42 - 70 - 91 - 76 - 26 - 5 - 74 - 33 - 63 - 76 - 99 - 37 - 25 - 98 - 72 - 75 - 65
Deze tweede rij bevat cijfers, die onafhankelijke trekkingen zijn uit de verzameling 0 1 99; de
kans op ieder van die getallen is even groot en dus is ook deze rij (discreet) uniform verdeeld, maar nu op
0 1 99. Als we tijd genoeg hebben, kunnen we zulke rijen van willekeurige lengte produceren.
Voor vele statistische toepassingen (Monte-Carlomethoden) en simulaties hebben we zeer lange rijen van
zulke getallen nodig, soms wel van een miljard lang en willen we ze met de computer genereren. Het
produceren van willekeurige getallen met de deterministische machine bij uitstek lijkt een onmogelijke
opgave, immers ieder algoritme zal met dezelfde beginvoorwaarden steeds hetzelfde resultaat moeten opleveren (tenzij hardware en/of programmatuur fouten bevat). Toch wordt bij statistische simulaties op grote
schaal gebruik gemaakt van random getallen en noemen we de computercode, waarmee we ze maken een
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
64
“pseudo-randomgetallen generator”. Het meest gebruikt is de lineair congruentiële methode. Deze werkt
alsvolgt:
- aan het begin van het programma wordt een integer variabele geı̈nitialiseerd,
- voor iedere keer dat het programma een nieuw getal uit de random rij vraagt, worden (bij voorbeeld)
de volgende statements uitgevoerd:
: mod : In dit algoritme is een positief geheel getal tussen 0 en 65535 ( 216 1); in iedere slag wordt dit
vermenigvuldigd met een multiplier (25173 in dit voorbeeld) en wordt er een shift (13849 in dit voorbeeld)
bij opgeteld. Vervolgens wordt het geheel gereduceerd modulo 216 . Afgeleverd wordt het reële getal 0 1. Bij geschikt gekozen multiplier en shift (een kunst op zich) gedraagt een hiermee geproduceerde
rij pseudo-randomgetallen zich inderdaad alsof het willekeurige resultaten zijn van een rij onafhankelijke
loterijen uit telkens 216 (in dit voorbeeld) getallen. Daar de resultaten gedeeld zijn door 216 en dus tussen 0
en 1 liggen, zijn de getallen (bij goede benadering) te beschouwen als onafhankelijke trekkingen uit een uniform op [0, 1] verdeelde stochastische variabele. De hierboven gegeven generator heeft een periode van 216 ,
d.w.z. na 216 trekkingen herhaalt de rij zichzelf. Dit is niet bijzonder goed. In de meeste rekenprogramma’s
zijn veel betere generatoren beschikbaar, sommige met een periode groter dan 264 . Het is vrijwel standaard,
dat de afgeleverde rij pseudo-randomgetallen uniform verdeeld is op het interval [0, 1]. Als we een rij met
een andere verdeling (b.v. de normale) willen hebben zullen we zelf de transformatie moeten doen.
100
100
gemiddelde: 0.4871
variantie : 0.08448
80
60
60
40
40
20
20
0
********************
0
0.5
gemiddelde: 0.5073
variantie : 0.07923
80
1
0
********************
0
0.5
1
Figuur 3.12: Histogrammen van twee verschillende rijen van 1000 random getallen.
In figuur 3.12 zijn histogrammen van twee van zulke rijen random getallen getekend. Het gemiddelde aantal per klasse is 50, maar t.g.v. statistische fluctuaties bevat niet iedere klasse evenveel elementen.
De verwachtingswaarde en variantie van een uniforme verdeling op [0, 1] zijn 0.5 resp. 1/12=0.0833. De
werkelijke waarden van beide steekproeven wijken enigszins af. In 4.4 zullen we laten zien hoe je met een
χ 2 -toets aannemelijk kunt maken, dat de geproduceerde getallen inderdaad onafhankelijke trekkingen zijn
uit een uniforme verdeling op [0, 1].
3.7 De Normale Verdeling
3.7.1 Inleiding
Als X1 X2 Xn onafhankelijke B1 p-verdeelde Bernoulli-experimenten
zijn, dan is hun som Yn : X1 X2 Xn binomiaal BÆ
n p-verdeeld met gemiddelde np en spreiding np1 p. De genormaliseerde
np1 p heeft dus gemiddelde 0 en spreiding 1. Als we het staafdiagram van
verdeling Zn : Yn np
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
0.4
65
0.4
n= 10 p= 0.2
n= 20 p= 0.2
0.2
0.2
0
0
0
5
0.4
0
5
0.4
n= 40 p= 0.2
n= 80 p= 0.2
0.2
0.2
0
0
0
5
-5
0
Figuur 3.13: Staafdiagrammen van Zn voor n 10 20 40 en 80.
5
Zn voor een aantal waarden van n tekenen, zoals in figuur 3.13, dan zien we convergentie naar een mooie
symmetrische klokvormige kromme voor n ∞, ondanks de asymmetrie van Xi .
Dit was al opgemerkt door de Moivre (1718), die (als uitbreiding van de wet van de grote getallen, zie
stelling 3.1.2 bewees, dat de limiet de vorm heeft van de functie exp
12 x2 . Laplace (1812) liet zien dat
deze limieteigenschap geldt voor een veel grotere klasse verdelingen. Deze limieteigenschap heeft de naam
centrale-limietstelling gekregen en de limietverdeling heet de normale verdeling. Omdat ook Gauss er veel
over geschreven heeft en zelfs de ontdekking ervan geclaimd heeft, wordt deze verdeling ook vaak naar hem
genoemd.
3.7.2 De standaard-normale verdeling N 0 1
De dichtheidsfunctie ϕ en de verdelingsfunctie Φ van de standaard normale verdeling worden gedefinieerd
door:
x
1 2
1 2
1
1
ϕ x : e 2 x
en Φx : e 2 t dt
(3.62)
2π
2π ∞
1 2
We kunnen alsvolgt controleren, dat de totale kansmassa 1 is. Als I : ∞∞ e 2 x dx, dan kunnen we het
kwadraat als een integraal over het gehele platte vlak beschouwen en dan overgaan op poolcoördinaten
(x r cos ϕ , y r sin ϕ , dxdy rdrd ϕ ):
∞ ∞
2π ∞
1 2
1 2
2
x y2 2
e
dxdy e 2 r rdrd ϕ 2π
I ∞ ∞
0
0
De grafieken zijn geschetst in figuur 3.14. De integraal in Φ is niet exact uit te drukken in termen van
elementaire functies en de waarde van Φx voor een gegeven x zal dan ook uitgerekend moeten worden
via numerieke integratie of opgezocht moeten worden in een tabel (zie tabel 3 achteraan). In de meeste
statistische handboeken is hiervoor een tabel opgenomen. In computerprogramma’s is voor Φ of voor de
z.g. Errorfunctie Erfx meestal een standaard procedure beschikbaar:
x
2
2
1
Erfx : et dt zodat Φx 1 Erf x2 (3.63)
2
π 0
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
66
0.5
1
0.4
0.3
0.2
0.5
68 %
0.1
0
-4
0
0
2
4
-2
0
2
4
-4
Figuur 3.14: De kansdichtheid en de verdelingsfunctie van de normale verdeling N 0 1.
-2
De kansen op de kwantielen X 1, X 2 en X 3 zijn:
P
1 X
1 0683
P
2 X
2 0955
P
3 X
3 0997
Vrijwel alle kansmassa ligt dus tussen -3 en 3. Als de stochastische variabele X standaard-normaal verdeeld
is, dan noteren we
X N 0 1
Vanwege de symmetrie van ϕ zijn de verwachtingswaarde en alle andere oneven momenten nul:
∞
1 2
1
xe 2 x dx 0
E X 2π ∞
De variantie kunnen we uitrekenen met partiële integratie:
∞
∞
1 2
x e 2 x dx 2
zodat
∞
∞
VarX ∞
∞
1 2
x e 2 x dx 4
∞
∞
1 2
2x
dx 2π ∞
1 2
1
x2 e 2 x dx 1
2π ∞
Analoog geldt
∞ ∞
∞ ∞ e
1 2
1 2
x de 2 x xe 2 x ∞
1 2
1 2
x de 2 x x3 e 2 x 3
∞
3
(3.64)
(3.65)
∞
∞
1 2
x2 e 2 x dx 3 2π
zodat het vierde moment µ4 en de kurtosis γ2 , zie (2.65) gegeven worden door:
∞
1 2
µ
1
µ4 X x4 e 2 x dx 3 en γ2 44 3 0 σ
2π ∞
(3.66)
3.7.3 De algemene normale verdeling N µ σ We zeggen dat een stochastische variabele X algemeen normaal verdeeld is en we noteren
X N µ σ X µ
N 0 1
σ
als
(3.67)
Uit de definitie volgt onmiddelijk, dat X gemiddelde µ en standaardafwijking σ heeft. Voor de verdelingsfunctie vinden we de formule
FX x PX x P
X µ
σ
x µ x
µ Φ
σ
σ
(3.68)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
67
zodat de percentielen van X eenvoudig uit een tabel voor Φ berekend kunnen worden. De dichtheidsfunctie
wordt gegeven door de formule
fX x d x µ 1
xµ e 2σ 2
Φ
dx
σ
σ 2π
2
(3.69)
Een belangrijke eigenschap van de normale verdeling is, dat een som van onafhankelijke normaal verdeelde
stochastieken weer normaal verdeeld is:
Stelling 3.7.1 Als X N µ1 σ1 en Y N µ2 σ2 onafhankelijk en normaal
verdeeld zijn, dan is hun som
opnieuw normaal verdeeld met gemiddelde µ1 µ2 en standaardafwijking
X N µ 1 σ1 Y N µ 2 σ2 σ12 σ22 :
onafhankelijk X Y N µ1 µ2 σ12 σ22
(3.70)
Bewijs. We weten reeds, dat E X Y µ1 µ2 , zie (2.43), en VarX Y σ12 σ22 , zie (2.46), zodat we
alleen nog hoeven te laten zien, dat FX Y de vorm (3.69) heeft. Met W : X µ1 Y µ2 volgt uit (2.37):
∞
1 z s2 s2
exp ds fW z 2
σ12
σ22
∞
De som van twee kwadraten in de exponent kunnen we herschrijven als de som van een kwadraat met s en
een zonder s :
z s2 s2 1 z2 σ22z2 2zs σ12 σ22 s2 σ12 σ222 σ2
σ2 σ2 σ2
σ2
σ2
σ 2σ 2
1
2
1
2
1
1
σ2 z
σ1
1
2
2
2 2
s σ1σσσ2
1 2
Het eerste kwadraat hangt niet van s af en de exponent ervan heeft de gewenste vorm (3.69); de exponent
van het tweede kwadraat integreert tot een constante onafhankelijk van z. Omdat we a priori weten, dat
fW een kansdichtheid is, heeft deze constante automatisch de goede waarde en hoeven we hem niet uit te
rekenen.
3.7.4 Benaderingen met de normale verdeling
In de inleiding tot de normale verdeling, 3.7.1, hebben we een resultaat van de Moivre vermeld, dat
Xn Bn p naar een normale verdeling convergeert voor n ∞. We willen dit nu iets preciezer formuleren.
Bekijk een rij stochastische variabelen Xn . We zeggen dat Xn in verdeling naar de stochastische variabele
X convergeert indien
lim FXn x FX x
n∞
in elk punt x waarin de verdelingsfunctie FX continu is. We kunnen nu eenvoudig aantonen dat de binomiaalverdeling voor grote waarden van n naar een normale verdeling convergeert.
Stelling 3.7.2 (de Moivre, 1718)
Als Xn Bn p binomiaal verdeeld is en
Xn np
Yn : npq
met
q 1 p
dan convergeert de rij Yn en de limiet is standaard-normaal verdeeld; hiermee bedoelen we dat
voor elke x .
lim F
n∞ Yn
x FZ x
met
Z N 0 1
(3.71)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
68
Bewijs. (met de formule van Stirling (3.5)):
We zullen laten zien dat voor iedere x de (genormaliseerde) binomiale kans PYn x convergeert naar
de normale,
PYn x Φx 12 π
x
∞
exp
12 t 2 dt
als n ∞ 1
Voor gegeven n delen we het integratie-interval ∞ x op in stukjes van lengte dy npq
. Voor de kans
dat Yn in zo’n stukje terecht komt geldt
1
wy Py npq
k nk
Yn y Pnp ynpq 1 Xn np ynpq k!n!pn q k!
als k : np y npq , het gehele deel van np y npq; d.w.z. k np y npq δ met 0 δ
de formule van Stirling (3.5) vinden we dan
ρ nn 2 en pk qnk
1
wy ρ kk 2 ek ρ n knk 2 enk
1
1
1
ρ npq
np k 1
2
k
nq
n
k
nk
1
2
1 . Met
waar het symbool erop duidt, dat we een factor 1 O 1n verwaarloosd hebben. Als we nu k np y npq δ invullen, dan vinden we
np
k
np ynpnpq δ 1q
1y
np
δ
np
en evenzo
zodat de logaritme log wy voldoet aan
log wy log ρ 12 lognpq nq
n
k
1 p
1
y
nq
nqδ
np ynpq δ 12 log 1 y npq npδ
nq ynpq δ 12 log 1 y nqp nqδ Met behulp van de Taylorontwikkeling log1x x 12 x2 13 x3 Ox4 vinden we
log wy log ρ 12 lognpq
q
q
δ
np
y2 2np
On 23 np y npq δ 12 y np
nq ynpq δ 12 y nqp nqδ y2 2nqp On log ρ 12 lognpq 12 y2 On 3
2
1
2
zodat
e 2 y
wy ρ npq
1 2
ρ1 e
1 2
2y
dy De som van wy over alle deelintervalletjes van een verdeling van ∞ x in deelintervallen van lengte dy is
1 2
dus een Riemann-som voor de integraal x ∞ ρ1 e 2 y dy en convergeert ernaar voor n ∞. Tenslotte kunnen
we hieruit concluderen dat de constante ρ in de formule van Stirling (3.5) gelijk is aan 2π , omdat de
integraal naar 1 moet convergeren voor x ∞ .
We zien dat de verdeling van een som van n Bernoulli-experimenten convergeert naar een normale
verdeling ongeacht de waarde van p. De ervaring heeft reeds lang uitgewezen, dat de kansverdeling van
fouten in het gemiddelde van een groot aantal onafhankelijke metingen van eenzelfde (fysische) grootheid
bij benadering normaal verdeeld zijn en dat deze benadering beter wordt, naarmate het aantal metingen
groter is ongeacht de kansverdeling van de individuele fouten. Het resultaat (3.71) is dan ook uit te breiden
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
69
tot een veel grotere klasse van kansverdelingen en is een van de basisresultaten uit de kansrekening. Het
idee bij het bewijs is hetzelfde als dat bij het bewijs van de voorgaande stelling van de Moivre. Omdat de
technische details heel wat ingewikkelder zijn, gaan we er verder niet op in, en beperken we ons tot het
formuleren van de centrale-limietstelling.
Stelling 3.7.3 (De Centrale-Limietstelling)
Als X1 X2 Xn onafhankelijke stochastische variabelen zijn, die (willekeurige) kansverdelingen bezitten waarvoor verwachtingswaarde en variantie bestaan en uniform begrensd zijn,
µn : E Xn µn M met
σn2 : VarXn met
n σn V
als Yn hun som is met verwachtingswaarde µn en variantie σ 2n ,
Yn :
n
∑ X j
µ n :
j 1
n
∑ m j
j 1
σ 2n :
n
∑ σ 2j j 1
dan convergeert Zn : Yn µ n σ n en de limiet is standaard-normaal verdeeld:
Yn µ n
n∞
σn
lim Zn lim
n∞
W
met W N 0 1
(3.72)
Het resultaat (3.71) kunnen we gebruiken om de tamelijk moeilijk berekenbare percentielen van de
binomiale verdeling voor voldoend grote n te benaderen met de normale verdeling. In de praktijk blijkt dit
meestal reeds voor n 30 voldoend goed te zijn, mits p of 1 p niet te klein is. Voor de eenvoud gebruiken
we meestal niet (3.71), maar de variant
Bn p N np
np1 p
(3.73)
Omdat B een discrete verdeling is en N een continue is het niet onmiddellijk duidelijk hoe we in een concreet
geval de benadering zouden moeten uitrekenen. We kunnen bijvoorbeeld voor X B36 02 de benadering
Y N 72 24 gebruiken volgens (3.73). Als we echter de complementaire kansen
PX 6 04007 en PX 7 PX
6 05993
benaderen met de kansen
PY 6
PY 7 6 72
24
7 7 2
Φ
24
Φ
Φ
05 03085
Φ00833 05332
hebben we een grote fout gemaakt. De som van beide benaderingen is niet gelijk aan een! Bij de discrete
binomiale verdeling X is de kans P6 X 7 gelijk aan nul, maar bij de continue benadering Y is de kans
P6 Y 7 01582 niet nul. We kunnen dit probleem oplossen door het gewraakte interval eerlijk te
verdelen tussen beide zijden en dus door de volgende benaderingen te gebruiken:
65 72
24
65 72
Φ
24
PX 6 PY 65 Φ
PX 7 PY 65 03853
06147
We noemen dit de continuı̈teitscorrectie.
Analoog, het heeft geen zin om de kans PX 6 01543 te benaderen met de kans PY 6, omdat
de kans op een gegeven uitkomst bij een continue verdeling altijd nul is. Voor een correcte benadering
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
70
zullen we de discrete kans op X 6 moeten benaderen met een continue kans voor Y op een interval rond
de waarde 6. Omdat X discreet is en alleen de waarden 5 6 7 kan aannemen, ligt het opnieuw voor
de hand om de intervallen [5, 6] en [6, 7] eerlijk te verdelen en PX 6 te benaderen met
P55 Y
65 Φ 6 5247 2 Φ 5 5247 2 03085 02394 01459
In het algemeen moeten we dus voor X Bn p en Y N np
gebruiken:
P j X k P j 05 Y
PX 0 PY 05
en
np1 p
de volgende benadering
k 05
PX n PY n 05
(3.74)
1
0.15
0.1
0.5
0.05
0
0
0
10
0
10
Figuur 3.15: Staafdiagram van B36 02 en kansdichtheid van de benaderende N 72 24 en hun kansverdelingen.
0.15
0.5
0.1
0.05
0
0
4
6
8
4
6
8
Figuur 3.16: Detail rond de kans P(X=6).
In figuur 3.15 en figuur 3.16 zien we grafieken van X B36 02 en Y N 72 24. Uit de linkerfiguur zien we, dat
PX
6 oppervlak van de gestippelde rechthoek rond de staaf op x 6
goed benaderd wordt door het oppervlak onder de continue kromme tussen 5.5 en 6.5. Uit de rechterfiguur
zien we, dat we de continue verdeling 0.5 naar links moeten schuiven om in de gehele punten 0 1 2 een
goede benadering te krijgen van PX k.
De benadering (3.74) is natuurlijk niet perfect, maar zij wordt beter naarmate n groter is en zij heeft de
eigenschap dat de som van de benaderingen van complementaire kansen steeds gelijk is aan een.
Bij de benadering van Bn p moeten we er wel op letten, dat Bn λ n naar de Poissonverdeling Pλ convergeert voor n ∞ en dus, dat de benadering (3.73) slechter wordt, naarmate het produkt np (of het
complement n1 p) kleiner wordt. Als np te klein is, is een benadering van Bn p door Pnp beter. Als
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
71
vuistregel nemen we, dat we Bn p voor n 30 en np 3 voldoend goed kunnen benaderen met Pnp:
als n 30 X Bn p Y Pnp en Z Pn1 p dan
np 3
PX k PY k
n1 p 3 PX n k PZ k
(3.75)
Omdat de Poissonverdeling eveneens diskreet is, hebben we hierbij natuurlijk geen problemen met de bovenvermelde continuı̈teitscorrectie.
Op grond van de centrale-limietstelling en de eigenschap Pλ µ Pλ Pµ voor onafhankelijke
Poissonverdelingen (zie (3.32)), weten we, dat we de Poissonverdeling zelf voor grote waarden van λ naar
de normale verdeling convergeert. Als Xλ Pλ , dan geldt E Xλ λ en VarXλ λ (zie (3.30-3.31)),
zodat
X λ
N 0 1 oftewel Pλ N λ λ als λ voldoend groot
(3.76)
lim λ
λ ∞
λ
Als vuistregel nemen we opnieuw, dat we Pλ in een tabel opzoeken voor λ 30 en anders benaderen met
formule (3.76). Aangezien de Poissonverdeling diskreet en de normale continu is, moeten we ook hier aan
de continuı̈teitscorrectie denken, dus:
k 0 5λ λ
k 0 5 λ k 0 5 λ Φ
Φ
PXλ k Φ
PXλ
k
λ
(3.77)
λ
3.7.5 Transformatie van de dichtheidsfunctie van een kansvector
In deze korte paragraaf geven we een algemeen resultaat dat van belang zal zijn in de twee hiernavolgende
paragrafen. Onderstel dat U V een kansvector is met een continue verdeling die waarden aanneemt in een
gebied g 2 gelegen in het uv-vlak. Onderstel verder dat G 2 een gebied is in het xy-vlak, en
T
ϕ ψ :
g 2 G 2
een transformatie.
v
π
y
afbeelding T
in het geval van
poolcoördinaten
g
0
1
u
x u cos v
y u sin v
ººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººº
ºººººººººººººº
ººººººººººº
ºººººººººººº
ºººººººººº
ºººººººººº
ººººººººº
ººººººº
ººººººº
ººººººº
ººººº
ººººº
ººººº
ººººº
ºººº
ºººº
º
ººº
º
ºººº
ººº
ºººº
ºººº
º
ººº
º
ººº
ººº
º
º
ººº
º
ººº
ººº
º
º
ººº
ºº
ººº
ººº
º
ººº
º
ººº
ººº
º
ººº
º
ºº
ººº
º
ººº
ºº
ººº
ºº
º
ºº
ºº
ºº
ºº
ºº
º
º
ºº
ºº
ºº
º
ºº
ºº
ººº
ºº
ºº
ººº
ºººº
ºº
º
ºº
ººº
ºº
ºº
ºº
ºº
ºº
ºº
º
ºº
ºº
ºº
ºº
º
ººº
ºº
ºº
ºº
º
ºº
ºº
ºº
ºº
ººº
ºº
ºº
ººº
ººº
ººº
ºº
ººº
ººº
ººº
ººº
ººº
º
º
ººº
ººº
ººº
ººº
ººº
ººº
ººº
ººº
ººº
ººº
ºººº
ºººº
ºººº
ºººº
ººº
ºººº
ººººº
º
º
º
ºº
ººººº
ººººº
ºººººº
ºººººº
ºººººººº
ººººººº
ººººººººº
ººººººººº
ºººººººººº
ººººººººººº
ººººººººººººº
ºººººººººººººººººº
ºººººººººººººº
ººººººººººººººººººººººººººººººººººººººººººººººººººººººººººº
x
G
π
Figuur 3.17: Poolcoördinaten als voorbeeld van een coördinatentransformatie
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
T is gegeven door de formules
72
x ϕ u v
y ψ u v
We veronderstellen verder dat T bijectief is, en dat de functies ϕ en ψ en hun partiële afgeleiden continu
zijn over g. We onderstellen ook dat de Jacobiaanse determinant
∂ ϕ ψ 0
∂ u v
verschillend van nul is over het inwendige van het gebied g. Stel nu
ϕ U V Y ψ U V X
Als de dichtheidsfunctie fU V gekend is, wat is dan de dichtheidsfunctie fX Y ? Neem een (meetbaar) deel
A g, en laat B T A het corresponderende deel van G zijn. Dan hebben we enerzijds
fX Y x ydxdy
P X Y B B
∂
ϕ
ψ
A fX Y ϕ u v ψ u v ∂ u v dudv
en anderzijds
P X Y B
en we kunnen besluiten dat
P U V A
fU V u vdudv
A
∂ u v f
u v
fX Y x y ∂ x y U V (3.78)
Uiteraard kan (3.78) uitgebreid worden tot n-dimensionale kansvectoren.
3.7.6 Normaal verdeelde random getallen
In 3.6.3 hebben we laten zien, hoe we een rij uniform verdeelde random getallen kunnen maken. In
statistische simulaties hebben we echter vaak een standaard-normaal verdeelde rij nodig. Om zulk een rij te
genereren gebruiken we de zogenaamde Box-Muller transformatie. Deze zet het eenheidsvierkant om in het
vlak. We kunnen deze als volgt opstellen: neem eerst de transformatie
ρ ϑ 2 log u 2π v
waarbij u v varieert over het eenheidsvierkant 0 1 0 1. Het eenheidsvierkant wordt afgebeeld op de
strook
ρ ϑ 2 ρ 0 en 0 ϑ 2π Deze strook wordt gemakkelijk getransformeerd op het volledige vlak (via poolcoöordinaten) als volgt:
x y ρ cos ϑ ρ sin ϑ 2 log u cos 2π v 2 log u sin 2π v
De samengestelde transformatie is de Box-Muller transformatie.
Veronderstel nu dat de rij u0 u1 u2 un uniform verdeeld is over het interval 0 1, dan is de rij
koppels
!
"
u0 u1 u2 u3 u2n u2n1 HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
73
100
150
100
50
50
0
0
********************
0
0.5
1
********************
-2
-4
0
2
4
Figuur 3.18: Histogrammen van 1000 uniform verdeelde (pseudo-)randomgetallen in 20 klassen (links) en de BoxMuller transformatie ervan naar een normale verdeling.
uniform verdeeld over het eenheidsvierkant. We passen op deze rij koppels de Box-Muller transformatie
toe:
(3.79)
w2 j : 2 logu2 j cos2π u2 j1 en w2 j1 : 2 logu2 j sin2π u2 j1 We zullen aantonen dat de rij w1 w2 wn standaard normaal verdeeld is. Noteer de Box-Muller
transformatie door T : 0 12 2 . Veronderstel dat U V een kansvektor is die uniform verdeeld is over
het eenheidsvierkant, en transformeer deze met T , X Y T U V . Om fX Y te bepalen gebruiken we
formule (3.78). Voor het berekenen van de Jacobi-determinant gebruiken we de partiële afgeleiden:
∂x
∂u
∂y
∂u
∂x
∂v
∂y
∂v
zodat
cos 2π v
u 2 log u
sin 2π v
u 2 log u
2π
2π
y
2u log
u
2 log u sin2π v 2π y
x
2u log u
∂ x y
2π ∂ u v
y
x
2u log
u
2 log u cos2π v 2π x
x y
x2 y2
2π
2
π
2
π
e
2u log u
u
y 2
2
2
x
2u log u
waarbij we gebruikten dat x2 y2 2 log u . Zo vinden we de absolute waarde van de Jacobi-determinant
∂ u v 1 e x y ∂ x y
2π
2
2
2
en de kansdichtheid wordt gegeven door
fX Y x y y
x
e 2 e 2
2π 2π
2
2
Voor de marginale dichtheden geldt:
e 2
fX x fY x 2π
X en Y zijn dus onafhankelijk en standaard normaal verdeeld.
x2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
74
Conclusie
Indien de rij getallen u1 u2 uniform verdeeld is over het interval 0 1, dan is de Box-Muller getransformeerde rij w1 w2 met
w2 j :
2 logu2 j cos2π u2 j1 en w2 j1 :
2 logu2 j sin2π u2 j1 standaard normaal verdeeld.
3.7.7 De normale verdeling in verscheidene dimensies
We noemen een kansvector Z Z1 Z2 Zn standaard normaal verdeeld is, als de componenten Z1 , Z2 ,
, Zn onafhankelijk en standaard normaal verdeeld zijn. We zien onmiddellijk dat de dichtheidsfunctie van
de n-dimensionale standaardnormaalverdeling gegeven wordt door de formule
fZ z1 zn 1
2 π n
exp 1 n 2
zi 2 i∑
1
1
2 π n
e 2 z
1 T
z
(3.80)
waarbij zT z : ∑ni1 z2i het inproduct van de vector z met zichzelf is.
Figuur 3.19: verdelingsfunctie van de tweedimensionale standaard normale verdeling.
We zeggen dat de kansvector X X1 X2 Xn T normaalverdeeld is, als er een vector m n en
een reguliere n n–matrix A bestaat zodat Z A1 X m standaard normaalverdeeld is.
De dichtheidsfunctie van X bepalen we met behulp van transformatie-formule (3.78). X wordt gevonden uit
Z met behulp van de transformatie
x Az m
en
z A1 x m
Er is duidelijk aan de voorwaarden uit 3.7.5 voldaan. Bovendien is
∂ x1 x2 xn ∂ z1 z2 zn detA
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
75
zodat
fX x1 x2 xn 1
f z z zn detA Z 1 2
1
1
T
1 T 1
exp x m A A x m 2
detA 2π n
We stellen nu B : A1 T A1 en vinden
fX x #
1
detB
T
exp
x
m
B
x
m
2π n
2
Het is duidelijk dat
E X m (3.81)
(3.82)
Merk ook op dat B een symmetrische, positief definiete1 matrix is. Immers,
BT
en voor elke x n geldt
en
A1T A1T A1T A1 B
xT B x A1 xT A1 x 0
xT Bx 0 A1 x 0 x 0 We merken ook op, dat de componenten van X onafhankelijk zijn, als A een orthogonale matrix is, immers
AT A I, zodat FX het product is van n marginale kansverdelingen. In het bijzonder volgt hieruit, dat
twee orthogonale lineaire combinaties van onafhankelijke normaalverdeelde stochastische variabelen weer
onafhankelijk zijn.
Herleiden tot de diagonaalvorm
Onderstel nu dat X een normaal verdeelde kansvector is. Per definitie weten we dat X standaard normaal
verdeeld wordt na toepassing van een gepaste affiene transformatie. Hoe eenvoudig wordt de verdeling als
we in plaats van affiene slechts isometrische transformaties toelaten? Herhaal dat een isometrie steeds kan
geschreven worden als de samenstelling van een orthogonale transformatie en een verschuiving. Door een
verschuiving toe te passen kunnen we er steeds voor zorgen dat E X 0, en dus
fX x #
1 T detB
2π n exp 2 x B x
Uit de Lineaire Algebra weten we, dat er een orthogonale matrix U bestaat zodat
UBU T
D
een diagonaalmatrix is. U orthogonaal betekent, dat zijn inverse gelijk is aan zijn getransponeerde U1 U T , of, met andere woorden, dat de rijen (of de kolommen) van U een orthonormale basis van n vormen.
De determinant van een orthogonale matrix is steeds 1.
1 Een
matrix A IRnn heet positief definiet als er een γ
0 is zodat xT Ax γ xT x voor alle vectoren x IRn .
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
76
De elementen op de diagonaal van D zijn de eigenwaarden van B, en die zijn strikt positief omdat B positief
definiet is. We kunnen dus schrijven:
1
σ
0
D .
..
0
1
σ22
0
0
2
1
0
.. . 0
..
.
Y : U X 1
σn2
Gebruik makend van (3.78) vinden we dat
fY y1 yn en
#
1
detU 1
σ1 σn
detB
1
exp yT U T DU y
n
2π 2
2π n
y2i 2
i1 2 σi
n
exp ∑
In figuur 3.20 wordtde dichtheidsfunctie van de tweedimensionale normale verdeling geschetst in het geval
dat σ1 1 en σ2 3.
Figuur 3.20: verdelingsfunctie van een tweedimensionale normale verdeling met σ 1 1 en σ2 3.
De covariantiematrix
We zullen nu de varianties VarXi en de covarianties covXi X j uitrekenen. Voor elke i j
hebben we
E Xi mi X j m j #
detB
2π n
Ên
xi mix j m j exp
1 2 n
1
x mT A1 T A1 x m dx1 dx2 dxn
2
Om deze integraal te berekenen voeren we weer een lineaire substitutie uit, namelijk
z A1 x m
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
77
Door in te vullen xi mi ∑nk1 aik zk en x j m j ∑nl1 a jl zl vinden we
E Xi miX j m j n n
1 n Ên ∑ ∑ aik a jl zk zl exp 12 z21 z2n dz1 dz2 dzn
2π k1 l 1
n
n
∑ ∑ aik a jl E Zk Zl k1 l 1
Omdat de Zi onafhankelijk en standaard-normaal verdeeld zijn, is de covariantie van Zk en Zl nul als k l ,
d.w.z. E Zk Zl δkl , en dus is
E Xi miX j m j en dit is juist de i j-component van de matrix
Besluit
AAT
VarX 1
covX2 X1
AAT B1 ..
.
covXn X1 n
∑ aik a jk
k 1
1
B , de covariantiematrix van de kansvector X.
covX1 X2 VarX2 ..
.
covXn X2 covX2 Xn ..
.
covX1 Xn VarXn In 2.6 hebben we gezien dat twee onafhankelijke stochastieken niet gecorreleerd zijn. Voor de componenten van een meerdimensionale normaalverdeling geldt de omgekeerde eigenschap: als de covarianties nul
zijn, dan zijn de componenten ook onafhankelijk.
3.8 De Chi-kwadraat, Student-t en Fisher-Snedecor Verdelingen
Het is algemeen gebruikelijk om bij het meten van een grootheid, b.v. de lading van een electron of de concentratie PCB’s in vetweefsel, de procedure een aantal malen te herhalen en de meetresultaten te middelen.
Dit is zinvol op grond van de “wet van de grote getallen”, die zegt dat het gemiddelde convergeert naar
de verwachtingswaarde (= gewenste resultaat als de meetfouten een willekeurig karakter vertonen en geen
systematische component bevatten). Hiermee zijn we echter niet tevreden. We willen ook de kwaliteit van
de meting kennen en deze kunnen vergelijken met die van de concurrentie. Aangezien de verdeling van het
gemiddelde convergeert naar een normale is het voor de kwaliteit voldoende om de variantie te kennen of om
deze te schatten met een som van kwadraten van de afwijkingen. Hiertoe worden de volgende verdelingen
ingevoerd: De Chi-kwadraat, Student-t en Fisher-Snedecor verdeling. In deze eerder technische paragraaf
bespreken we de eigenschappen van deze drie verdelingen.
3.8.1 De Chi-kwadraat verdeling
Definitie 3.8.1 (K. Pearson)
Als Z1 , Z2 , , Zn onafhankelijk en standaard-normaal verdeeld zijn, dan heeft de som van kwadraten X,
X : Z12 Z22 Zn2
Zk N 0 1 k 1 n
(3.83)
een chi-kwadraat verdeling met n vrijheidsgraden en we noteren:
X χn2
(3.84)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
78
Voorbeeld: Een schutter mikt op een roos en treft het punt x y. Als
de kans op afwijkingen t.o.v. het midden 0 0 van de roos zowel in
x-richting als in y-richting (standaard-) normaal verdeeld zijn (en onafhankelijk), dan heeft d : x2 y2 een χ22 -verdeling met twee vrijheidsgraden. Als een tweede (even goede) schutter het punt ξ η treft, dan is δ : ξ 2 η 2 eveneens χ22 -verdeeld. Het quotiënt d δ is
dan F2 2 verdeeld met twee vrijheidsgraden in teller en noemer; zoals
we later zullen zien, is de verwachtingswaarde voor dit quotiënt ongedefinieerd. Als de schutters ieder twee keer schieten en de punten
xi yi , resp. ξi ηi (i 1 2) raken, dan heeft d : x21 y21 x22 y22
een χ42 -verdeling en het overeenkomstige quotiënt d δ een F4 4 verdeling. Kennelijk kun je de χn2 -verdeling gebruiken bij sommen
van kwadraten van afwijkingen van een serie metingen en de Fm n verdeling voor het vergelijken van twee series metingen.
Y-as
y+
o
o
+
x
d=x*x+y*y
X-as
Stelling 3.8.2 De χn2 -verdeling heeft de volgende eigenschappen. Onderstel dat X χn2 en Y χm2 onafhankelijk zijn. Dan geldt
1 E X n
(3.85)
2 VarX 2n
3 X Y (3.86)
χn2m
4 voor grote n geldt :
χn2
(3.87)
N n 2n 5 De kansdichtheid en de verdeling van X zijn nul voor x 0 en worden gegeven door
x
1
1
1
1
t 2 n1 e 2 t dt f χ 2 x Cn x 2 n1 e 2 x en Fχ 2 x Cn
n
n
(3.88)
(3.89)
0
voor x 0, waar Cn : 2 2 n Γ 12 n een constante is zodat Fχ 2 x 1 als x ∞ .
1
n
Bewijs. 1. E X ∑ E Zi2 n n
i1
2. VarX ∑ VarZi2 ∑ E Zi4 E Zi22 n3 1 2n n
i1
n
i1
3. Als X Z12 Zn2 en Y Zn21 Zn2m , dan ook X Y Z12 Zn21 Zn2m χn2m 4. X is een som van n stochastieken, ieder met verwachtingswaarde
1 en variantie 2. Op grond van de
centrale-limietstelling convergeert de verdeling van X n 2n naar een standaard-normale.
5. wordt aan het einde van deze paragraaf bewezen.
0.6
1
n = 1, 2, 3, 4, 5
0.4
0.5
0.2
0
0
n = 1, 2, 3, 4, 5
5
Figuur 3.21: Grafieken van
10
χn2
0
0
5
10
verdelingen (rechts) en dichtheden (links) voor n 1, 2, 3, 4 en 5.
Grafieken van de verdeling en bijbehorende kansdichtheid voor n 1, 2, 3, 4 en 5 zijn gegeven in
figuur 3.21. We zien, dat de dichtheden monotoon dalend zijn voor n 1 en n 2 en dat ze een uniek
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
79
maximum (de modus) hebben voor grotere n. Door differentiëren van fχ 2 vinden we dat de plaats van dit
n
maximum het punt x n 2 ( mod X ) is voor n 2.
Voor het handmatig berekenen van deze verdeling doen we meestal beroep op een tabel. Deze staat
vrijwel altijd in inverse vorm, d.w.z. in plaats van de waarde van Fχ 2 x te geven bij gegeven x, wordt bij
n
gegeven α de waarde van x gegeven, waarvoor PX x α . De tabel geeft dus bij een aantal waarden van
α (meestal 0.01, 0.05, 0.10, 0.90, 0.95 en 0.99) de kwantielen
χn2 α : Fχ21 α PX χn2 α α
zodat
n
(3.90)
In de volgende tabel vinden we bijvoorbeeld χ42 0 95 9488, zodat de kans PT 9488 gelijk is aan 95%
als T χ42 (zie ook tabel 4 achteraan).
n
2
3
4
5
$
α
0.010
0.020
0.115
0.297
etc.
0.050
0.103
0.352
0.711
0.100
0.211
0.584
1.064
0.900
4.605
6.251
7.779
0.950
5.991
7.815
9.488
0.990
9.210
11.345
13.277
Tabel 3.2: Stukje van een χn2 -tabel, waarin voor gegeven aantal vrijheidsgraden n en kans α het kwantiel x gegeven
is, zodat PX
x α .
Bewijs. van (3.89)
We bewijzen de formule met behulp van volledige inductie op n. Voor n 1 en x 0 is (volgens (3.83)) de
verdelingsfunctie gegeven door
Fχ 2 x PZ12 x P
x Z1 x 1 2PZ1 x 1 2FZ x
1
1
Afleiden naar x geeft de dichtheid:
d x
f χ 2 x 2 fZ1 x
1
dx
1
2π
e 2 x 2 1
x
1
Veronderstel nu dat de formule waar is voor n-1 :
fχ 2
x Cn1e x x
2
n 1
n 1
2
1
Aangezien χ12 en χn21 onafhankelijk zijn en χn2 χn21 χ12 , hebben we :
f χ 2 x n
∞
∞
fχ 2
n 1
x y fχ ydy Cn1 0 x y
2
1
2π
x
n 1
2
1 e x 2 y y 12 1 e 2y dy
Voeren we nu de substitutie y xu met dy xdu uit, dan krijgen we
Cn1 x n 1 1 1 1
n 1
1
n
x
2x
1 u 2 1 u 2 du Cn x 2 1 e 2
f χn2 x e 2 x 2
0
2π
zodat de constante Cn gevonden kan worden uit de recursieve formule
Cn1 1
1 u n 2 1 1u 12 du
Cn 2π 0
Het is echter eenvoudiger om Cn rechtstreeks te bepalen door de integraal van de dichtheid 1 te maken,
∞
∞
n
x
f χ 2 xdx Cn x 2 1 e 2 dx 1
(3.91)
∞
n
0
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
80
Voor de volledigheid herhalen we de definitie en enkele eigenschappen van de Γ-functie :
∞
xt 1 ex dx
Γt (3.92)
0
Γt 1 tΓt Γn 1 n! voor n 1
Γ π
2
n n2 1!
Γ
n n 1 2
1
2 π
2
2
2
(3.93)
(3.94)
(3.95)
als n2 even
(3.96)
als n2 oneven
Als we in (3.91) de substitutie y x2 doen, vinden we met de definitie (3.92):
∞
∞
n
x
n
n
n
Cn x 2 1 e 2 dx Cn 2 2
ey y 2 1 dy Cn 2 2 Γ n2 1
0
0
waaruit de gezochte waarde van Cn volgt.
3.8.2 De t-verdeling
Definitie 3.8.3 (W. Gosset, pseudoniem: Student)
Als X chi-kwadraat verdeeld is met n vrijheidsgraden en als Z standaard-normaal verdeeld en onafhankelijk
van X is, dan heeft het quotiënt T ,
T :
Z X n
Z N 0 1 en X χn2
(3.97)
een t-verdeling met n vrijheidsgraden en we noteren:
T tn
(3.98)
Stelling 3.8.4 De tn -verdeling heeft de volgende eigenschappen. Onderstel dat T tn .
1 De kansverdeling van T is symmetrisch;
2 De kansdichtheid wordt gegeven door de formule
x2 21 n1
Γ 12 n 12 Cn nπ Γ 1 n
ftn x Cn 1 n
2
(3.99)
Omdat xk ftn x Cn xkn1 voor x groot, zijn alleen de eerste n
1 momenten van T gedefinieerd.
3 De verwachtingswaarde E T bestaat niet voor n1 en voor n 2 geldt E T 0
n
4 De variantie VarT bestaat niet voor n 1 of n 2. Voor n 3 geldt VarT n
2
5 Voor grote waarden van n geldt de benadering tn N 0 1
(3.100)
(3.101)
(3.102)
Bewijs. 1. Met Z is ook Z normaal verdeeld en onafhankelijk van X, zodat Z X n en Z X n
eenzelfde verdeling moeten hebben, die dus symmetrisch moet zijn.
2. wordt bewezen aan het einde van deze paragraaf.
3. volgt onmiddellijk uit 1. en 2.
4. gaat buiten het bestek van deze syllabus.
1 x2 21 n 12
1 2
in (3.99) convergeert naar e 2 x voor n ∞.
5. de factor 1 21
2n
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
81
1
inf
3
2
1
0.4
0.8
0.3
0.6
0.2
0.4
0.1
0
-4
0.2
-2
0
2
1
0
-4
4
23
inf
-2
0
2
4
Figuur 3.22: Grafieken van tn verdelingen (rechts) en dichtheden (links) voor n 1, 2 en 3. Ter vergelijking zijn
verdeling resp. dichtheid van de normale verdeling ingetekend en aangeduid met “inf”.
Grafieken van de kansdichtheid en van de verdelingsfunctie voor n 1, 2, 3, 4 en 5 zijn getekend in
figuur 3.22. We zien, dat de dichtheid geprononceerder wordt rond 0 en dat de staarten dunner worden, als
n groter wordt.
Voor het berekenen van kwantielen van een tn -verdeling gebruiken we meestal een tabel (zie tabel 5
achteraan). Evenals de χn2 -verdeling wordt de tn -verdeling in het algemeen invers getabelleerd en lezen we
bij gegeven α het kwantiel tn α af,
1
α tn α : Ft
n
PT tn α α
zodat
(3.103)
dit is dus die waarde van x, waarvoor de kans PT x α . Vanwege de symmetrie hoeven we tn α alleen
te tabelleren voor α 12 .
Een bijzonder geval is de t1 -verdeling, ook wel bekend als de Cauchy-verdeling. Deze heeft de volgende verdeling en dichtheid:
1 1
1 x
dt
F
1 1 arctanx
(3.104)
ft1 x :
t1
π 1 x2
π ∞ 1 t 2 2 π
x
1
voor x ∞ niet integreerbaar is
x
1 x2
op oneindig.
We willen nu een bewijs geven van (3.99). Omdat de t-verdeling gedefinieerd is als een quotiënt,
hebben we, analoog aan (2.38) eerst het verband nodig tussen de kansdichtheid van twee onafhankelijke
verdelingen en hun quotiënt.
Voor deze verdeling bestaat er geen enkel moment omdat
Stelling 3.8.5 Als X en Y twee onafhankelijke continue stochastieken zijn, en Z YX , dan wordt de dichtheidsfunctie van Z gegeven door de formule
∞
x fX x fY xzdx
(3.105)
fZ z ∞
Bewijs. De kans FZ z PY X z vinden we door fX x fY y te integreren over het gebied
y
x y z
x
2
In figuur 3.23 zien we, dat dit gebied bestaat uit twee componenten,
x y x 0
en y zx
en
x y x 0
en y zx
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
82
2
y
1.5
1
y=zx
0.5
0
x
-0.5
-1
-1.5
-2
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Figuur 3.23: Het integratiegebied yx z voor z 05.
We vinden dus,
FZ z
P YX z 0
∞
∞
xz
x yÊ2 yx z
fX x fY y dx dy fX x fY y dx dy
∞ xz
∞
0
fX x fY y dx dy
Als we deze formule afleiden naar de parameter z, dan verkrijgen we de gewenste dichtheid:
0
∞
∞
fX x fY xz x dx fX x fY xz x dx x fX x fY xzdx
fZ z ∞
Bewijs. van (3.99)
Als T tn , dan is T
∞
0
ZXn , met Z en X onafhankelijk. De dichtheidsfunctie van Zn wordt gegeven door
fZ n x e 2n
2π n
x2
Deze dichtheid fX bepalen we als volgt:
FX x P X x PX x2 zodat, voor x 0 geldt:
x2
0
fX t dt
fX x 2x fX x2 2Cn xn1 e 2
x2
Toepassing van stelling 3.8.5 geeft :
∞
∞
2
2 2
x2
t2
1
2Cn
n1 x2 t 2nx
2xCn x e e
dx xn e 2 1 n dx fT t 2π n 0
2π n 0
We voeren nu volgende substitutie uit:
w
x2
t2
1 2
n
x
2w
1
t2
n
en
dx dw
2w1 tn 2
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
We krijgen nu :
83
n
fT t 2 n1
π n1 tn 2
Cn 2 2
Aangezien
∞
w
n 1
2
0
∞
w
n 1
2
ew dw
0
ew dw Γ
n1
2
vinden we zo de dichtheid van de t-verdeling
x2 12 n1
ftn x Kn 1 n
Kn met
2 2 Γ n2 1 n
π n2 2 Γ n2 n
n1
ΓπnΓ2 n 2
3.8.3 De Fmn -verdeling
Definitie 3.8.6 (R. Fisher & G. Snedecor)
Als X en Y onafhankelijk en chi-kwadraat verdeeld zijn met m respectievelijk n vrijheidsgraden, dan heeft
het quotiënt F,
1
X
(3.106)
F : m1 X χm2 en Y χn2
nY
een Fm n -verdeling met m vrijheidsgraden in de teller en n in de noemer en we noteren:
F Fm n
(3.107)
Stelling 3.8.7 De F-verdeling heeft de volgende eigenschappen. Onderstel dat X Fm n .
1 De kansdichtheid is nul voor x 0 en wordt voor x 0 gegeven door
1
1
1
1
1 Γ 1 m 1 n
2
fm n x : Cm n x 2 m1 n mx 2 m 2 n Cm n : m 2 m n 2 n 12
Γ 2 mΓ 12 n
2 E X k en dus ook het k-de moment bestaat alleen maar voor k n2.
3 Voor n 3 bestaat de verwachtingswaarde, en is gegeven door
E X n
n
2
2n2 m n 2
4 Voor n 5 bestaat de variantie, en is gegeven door VarX mn 4n 22
1
5 De verdelingsfunctie voldoet aan de symmetrieFm n x 1 Fn m x
2
6 Voor m 1 is er de relatie met tn : T tn T F1 n
7 Voor n ∞ convergeert F naar X m zodat Fm n x χm2
mx.
(3.108)
(3.109)
(3.110)
(3.111)
(3.112)
Bewijs. 1. wordt bewezen op het einde van deze paragraaf.
1
2. Omdat fm n x Cm n x 2 n1 1 O 1x voor x ∞, is xk fm n x alleen integreerbaar op ∞ als k 12 n en
bestaan er alleen momenten voor die waarden van k.
3. en 4. vallen buiten het bestek van deze syllabus.
5. Bij defintie geldt
Fm n x
nX
mY
1
PF x P mY
x P
nX
x
1 P
mY
1
1
1 Fn m nX
x
x
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
%
X n, zodat T 2 Y
%
X n met Y Z 2 χ12 .
7. X χm2 en Y χn2 en dus E Y n 1 en VarY n 2nn2 2n. Als gevolg van de ongelijkheid van
Chebyshev geldt P 1n Y 1 ε ε 2 VarY n 2ε 2 n1 , hetgeen naar nul gaat voor n ∞ voor alle
ε 0 (vast). Bijgevolg convergeert Y n naar 1 en vinden we
X m Fm n x P
x PX m x χm2 mx voor n ∞
Y n
6. T
Z
84
1.5
1.5
n=1
m = 1, 2, 3, 4, 5
1
n=2
m = 1, 2, 3, 4, 5
1
0.5
0.5
0
0
1
2
0
3
1
0
1.5
2
3
1.5
n=3
m = 1, 2, 3, 4, 5
1
n=4
m = 1, 2, 3, 4, 5
1
0.5
0
0.5
0
1
2
0
3
1
0
2
3
Figuur 3.24: Kansdichtheden van Fm n -verdelingen voor een aantal waarden van n en m.
In figuur 3.24 zijn grafieken van de kansdichtheid geschetst voor een aantal waarden van m en n. We
zien dat deze monotoon dalend zijn voor m 1 en m 2 en dat deze naar oneindig gaan voor x 0 als
m 1. Voor m 2 is er een (uniek) maximum (voor x modF ). Door differentiatie vinden we:
modF m
2 n
m n2
als m 2
(3.113)
Voor het handmatig berekenen van kwantielen van de Fm n -verdeling gebruiken we in het algemeen een
tabel (zie tabel 6 achteraan), waarin Fm n evenals tn en χn2 invers getabelleerd is. We noteren het α -kwantiel
als Fm n α ,
zodat
PF Fm n α α
(3.114)
Fm n α : Fmn1 α De tabel bevat 3 variabelen: n, m en α . Om de omvang enigszins beperkt te houden kunnen we wegens
(3.111) volstaan met het bereik α 12 , immers uit (3.111) volgt (ga na!):
Fm n α
F
1
nm1α
(3.115)
HOOFDSTUK 3. BELANGRIJKE VERDELINGEN
85
Voorbeeld: Bepaal F3 2 0 05 , d.w.z. bepaal het kwantiel x, waarvoor PF x 005 als F F3 2 . Antwoord:
uit de tabel vinden we F2 3 0 95 955, zodat F3 2 0 05 1955 0105.
Bewijs van (3.108)
X m
Stel Z X1 n , waarbij X1 en X2 onafhankelijke stochastieken zijn met respectievelijk χm2 - en χn2 -verdeling.
2
Dan hebben we
m
mx m
fX m x m fX1 mx m 2 Cm e 2 x 2 1
1
en
fX
2
n
x n fX nx n
n
2
2
Cn e 2 x 2 1 nx
n
We krijgen dus :
f Z z m 2 n 2 CnCm z 2 1
m n CnCm z 1
m
n
m
2
m
n
2
m
2
∞
0 ∞
xe 2 x 2 1 e
nx
n
e 2 nmz x
x
mxz
2
mn
2
x 2 1 dx
m
1 dx
0
Substitueer w 2x n mz. Onze formule wordt nu :
fZ z m 2 n 2 CnCm z 2 1
m
n
m
2 m2 n
n mz
∞
ew w
mn
2
0
1 dw Na invulling van de formules voor Cn en Cm volgt:
m
fZ z mn n 2 m z 2 1
n
m 2 n2 Γ
2 2 Γ
m
2
n
2
2
Γ
2
m
n mz
mn
2
2
mn
2
Tenslotte vinden we na vereenvoudiging de gewenste formule:
mn 2
fZ z n
m
m
n
m 2 n2 Γ
Γ
2
Γ
2
z 2 1
m
n mz
mn
2
Hoofdstuk 4
Inleiding tot de Statistiek
4.1 Parameterschattingen en betrouwbaarheidsintervallen
Een veel voorkomend probleem in de experimentele wetenschappen is het volgende. We willen de waarde
van een grootheid X, b.v. de pH van een oplossing, door metingen bepalen. Hiertoe doen we een aantal (zeg
20) onafhankelijke metingen x1 x2 en we bepalen er met formule (1.4) het steekproefgemiddelde xn en
de standaardafwijking s voor. We vragen ons nu af: “Wat betekenen deze getallen?” en “Hoe betrouwbaar
is het gemiddelde xn als benadering van de echte waarde?”
5.68
5.59
5.23
5.52
5.32
5.07
5.23
5.39
5.16
5.03
5.52
5.20
5.30
5.15
5.17
5.34
5.36
5.46
5.51
5.84
Tabel 4.1: Voorbeeld van 20 onafhankelijke metingen van de pH van een oplossing
met steekproefgemiddelde xn 535 en de standaardafwijking s 021.
Hiertoe moeten we een aanname maken over de meetgegevens xi ni1 , nl. dat het onafhankelijke trekkingen zijn uit een stochastische variabele X met verwachtingswaarde µ en spreiding σ en dat µ de exacte
waarde van de te meten (beter: te schatten) grootheid is. Een meting is de uitkomst van een “kansspel”,
waarvan de uitkomst een zekere kansverdeling heeft. We zullen aannemen, dat de verdeling van X de normale N µ σ is en dat µ onbekend is; voorlopig zullen we aannemen dat σ wel bekend is.
Onze n experimenten vormen een steekproef X1 X2 Xn van n onafhankelijke stochastieken, alle
met verdeling volgens N µ σ , en de metingen x1 xn vormen een trekking hieruit (of realisatie; Xi
is het meetproces en xi het toevallige resultaat, de meting). In het vervolg zullen we steeds de stochastiek
aanduiden met een hoofdletter en de verkregen getalwaarde of realisatie met een kleine letter. Als xi een
trekking is uit Xi, dan is het gemiddelde xn kennelijk een trekking uit Xn : X1 Xn n en zal een
uitspraak over de betrouwbaarheid van xn afhangen van de kansverdeling van Xn , die een functie is van de
steekproef.
Definitie 4.1.1 Een statistiek is een stochastische variabele, die alleen een functie is van de steekproef
X1 X2 Xn en niet van onbekende parameters (zoals µ en σ ).
Voorbeeld 4.1.2 De grootheden ∑i Xi en ∑i Xi X n 2 zijn statistieken, maar ∑i Xi µ 2 niet.
Definitie 4.1.3 Een schatter is een statistiek, die gebruikt wordt om een onbekende parameter te benaderen.
Een schatting is de getalwaarde van de schatter in een concreet experiment.
86
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
87
Voorbeeld 4.1.4 Het steekproefgemiddelde
X n :
1 n
Xi
n i∑
1
is een schatter voor µ , immers E Xn 1n ∑i E Xi µ . De getalwaarde xn 535 is een schatting voor de
exacte waarde µ van de pH in bovengenoemd experiment. Omdat xn een getal is, spreekt men ook wel over
een puntschatting.
Voorbeeld 4.1.5 Ook W :
n
k E Xk is een schatter voor µ (maar minder goed). De bijbehorende
n n 1 ∑
2
k1
schatting van de pH in tabel 4.1 levert de getalwaarde 5.37 op.
Definitie 4.1.6 Een schatter T van de parameter µ heet zuiver (Eng. unbiased), als E T µ , dus als de
verwachtingswaarde van de schatter gelijk is aan de (gezochte) parameter.
Voorbeeld 4.1.7 Het steekproefgemiddelde Xn en het gewogen gemiddelde W ,
X n :
1 n
Xi
n i∑
1
W :
en
n
2
nn 1 k∑
1
k Xk
zijn beide zuivere schatters van µ , immers voor beide geldt
E X n 1 n
E Xi µ n i∑
1
E W n
n
k E Xk kµ µ
nn 1 ∑
n n 1 ∑
2
2
k1
k1
maar de eerste is beter omdat de tweede een grotere variantie heeft:
n
& Xi '
i1
n
VarX n ∑ Var
VarW σn
2
(4.1)
n
& 2kX ' n 2kσ 2 4n 2 σ 2 1
∑ Var nn k1 ∑ nn 1 3 n n 1 n σ 2
k 1
k1
4.1.1 Methoden voor het bepalen van schatters
Van een stochastische variabele X wil je de kansverdeling te weten komen en daartoe doe je een aantal, zeg n,
onafhankelijke waarnemingen van X. Deze waarnemingen x1 xn beschouw je als een trekking uit de
steekproef X1 Xn van n onderling onafhankelijke kopieën van X. Je kunt natuurlijk niet verwachten,
dat je de verdeling precies kunt bepalen uit eindig veel waarnemingen. Dus ga je uit van een model, b.v.
X B1 p of X N µ σ of X Uniforma b, en probeer je de onbekende parameters te schatten uit je
waarnemingen.
Als X B1 p binomiaal verdeeld is (met uitkomsten 0 en 1), ligt het voor de hand om de onbekende
fractie p te schatten met de relatieve frequentie van het aantal waarnemingen xi 1 i 1 n. We
gebruiken dus als schatter
#Xi 1 i 1 n 1 n
n ∑ Xi F :
n
i1
We weten dat Y : X1 Xn BN p en E Y np. De schatter F heeft dus verwachtingswaarde
E F p en is dus zuiver en we vinden zo de schatting p( : 1n x1 xn . Op grond van onze kennis
van de binomiale verdeling kunnen we dan betrouwbaarheidsgrenzen berekenen voor de afwijking tussen de
schatting p( en de (onbekende) parameter p, zie 4.1.5. Analoog kunnen we zo voor een discrete verdeling
steeds de relatieve frequentie van een waarde gebruiken als schatting voor de kans op die waarde.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
88
In het bovenstaande voorbeeld kunnen we de schatting p( : 1n x1 xn ook interpreteren als het
gemiddelde of het eerste moment van de waarnemingen x1 xn , dat we gebruiken voor het schatten
van het eerste moment van X (die als binomiale verdeling daarmee volledig bepaald is). Dit idee — het
schatten van momenten van een verdeling om daaruit de onbekende parameters te schatten — kunnen
we ook toepassen als X een continue verdeling heeft. Als X N µ σ normaal verdeeld is, kunnen we
het eerste moment van de data (dit is het gemiddelde x : 1n ∑ni1 xi ) gebruiken als schatting voor het eerste
moment µ van de verdeling. Evenzo kunnen we het tweede moment α2 E X 2 van de verdeling, zie (2.50),
schatten met met het tweede moment van de data a2 : 1n ∑ni1 x2i . Via de formule (2.53) σ 2 α2 µ 2 vinden
we dan de schatting
1 n
1 n
σ( 2 a2 x2 ∑ x2i x2 ∑ xi x2 (4.2)
n i1
n i1
De bijbehorende schatter 1n ∑ni1 Xi X 2 is evenwel niet zuiver, zie (4.15).
Hoewel de methode in het algemeen goed werkt, kan het gebruik van momenten ook tot foutieve
resultaten leiden. Als X uniform verdeeld is op 0 b, dan kunnen we de verwachtingswaarde 12 b schatten
b : 2 x een goede schatting zijn van b. Het
met het eerste empirische moment x : 1n ∑ni1 xi en dus zou (
is gemakkelijk in te zien dat de bijbehorende schatter zuiver is. Deze schatter geeft echter hetvolgende
probleem. Als 1 2 9 drie waarnemingen zijn van X Uniform0 b, dan verwachten we b 9 op grond
b heeft echter de te kleine waarde (
b 23 1 2 9 8 . Een
van de derde waarneming; de schatting (
schatter die wel rekening houdt met de grootste waarneming, vinden we via de “ordestatistiek” van X. De
verdelingsfunctie van X is PX x FX x xb als 0 x b , zie (3.60). Voor de grootste waarneming
in X1 Xn geldt dus wegens de onderlinge onafhankelijkheid
Pmax Xi x PX1 x & X2 x & & Xn x x n
zodat
E maxX1 Xn b
nx
x n1 dx
0
b
b
nnb1
en
als
b
i
0 x b
(b : n 1 maxx1 xn n
(4.3)
(4.4)
Uit het eerste moment van maxX1 Xn vinden we dus wel een bevredigende schatter voor b.
Opgave: Bepaal op analoge wijze schatters voor a en b als X Uniforma b is.
Een andere gebruikelijke methode voor het afleiden van schatters is de “maximum likelihood” methode
van Gauss (1822). Het idee zullen we uitleggen aan de hand van de normale verdeling, voor X N µ σ .
De kans dat de i-de waarneming in een omgeving van het punt xi terecht komt is gelijk aan fX xi (vermenigvuldigd met de grootte van de omgeving), waarbij fX de kansdichtheid van X is. Voor de n onafhankelijke
waarnemingen is de gezamenlijke kans dat X1 Xn de waarde x1 xn heeft dus het product van
al deze kansen. De meest waarschijnlijke (Eng: most likely) waarden van de parameters zijn die waarden, waarbij deze (product)kans zo groot mogelijk is. Op grond van de waarnemingen x1 xn van
X N µ σ definiëren we dus de “likelihood function”
Ln µ σ :
1
σ n 2π n
exp
∑ni1 xi µ 2
2σ 2
(4.5)
en we zoeken de waarden van µ en σ waarvoor deze functie maximaal is. Omdat het maximum van de
logaritme gelijk is an de logaritme van het maximum, bepalen we liever het maximum van de logaritme van
Ln , hetgeen minder rekenwerk is. We vinden
n
∂ log Ln µ σ ∂µ
log Ln µ σ : 12 n log2π n log σ ∑
∑ xiσ
2µ 0
i 1
2σ 2
n
x µ 2
∂ log Ln µ σ n
∑ i 3
∂σ
σ i1 σ
i1
n
en
xi µ 2 0
(4.6)
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
89
zodat we als schattingen vinden:
( : x µ
1 n
xi
n i∑
1
en
σ( 2 :
1 n
xi x2 n i∑
1
(4.7)
Dit zijn dezelfde schattingen als die we eerder vonden via de momenten. We zien dat ook de maximum
likelihood schatter voor σ2 niet zuiver is.
Dit voorbeeld toont aan, dat het schatten van µ en σ met gemiddelde en standaarddeviatie van nature
verbonden is met de veronderstelling dat X normaal verdeeld is. Dit wordt anders als we voor X met een
tweezijdige exponentiële verdeling modelleren. We nemen nu dus aan dat
fX x 1
x
µ exp 2σ
σ
(4.8)
en we zoeken opnieuw de maximum likelihood schattingen voor µ en σ . De likelihood functie en de
logaritme ervan zijn nu
x µ Ln µ σ 2n σ n exp ∑ i
σ
i1
n
x µ log Ln µ σ n log 2 n log σ ∑ i
σ
i1
n
(4.9)
Voor vaste σ is de logaritme maximaal, als ∑ni1 xi µ minimaal is (wegens de absolute waarden mogen
we niet differentiëren naar µ ), d.w.z. als µ medx1 xn gelijk is aan de mediaan van de waarnemingen
(ga na). Door differentiëren naar σ vinden we vervolgens de schatting voor σ :
∂ log Ln µ σ ∂σ
σn ∑ xiσ
2µ 0
n
i1
zodat σ( :
1 n
xi medx1 xn n i∑
1
We zien hieruit, dat de mediaan en de gemiddelde absolute afwijking, zie (1.7), de natuurlijke schatters zijn
bij modelleren met de tweezijdige exponentiële verdeling.
Tenslotte komen we terug op de uniforme verdeling van hierboven. Als X Uniform0 b, wat is
dan de maximum likelihood schatter voor b? De kansdichtheid fX van X is gelijk aan 1b op 0 b en nul
elders. Als b dus zo gekozen is, dat er (minstens) een waarneming, zeg xk , buiten het interval 0 b ligt, dan
is fX xk 0 en is ook de likelihood functie nul. Als alle waarnemingen binnen 0 b liggen, is de waarde
van de likelihoodfunctie Ln b : ∏ni1 fX xi bn . Dit is maximaal als b de kleinste waarde aannneemt
b : maxi xi is de maximum likelihood schatting van
waarvoor alle waarnemingen nog in 0 b liggen. Dus (
b.
Opgave: Bepaal maximum likelihood schatters voor a en b als X Uniforma b verdeeld is.
4.1.2 Het schatten van de verwachtingswaarde van een normale verdeling als σ bekend is
We zien, dat X n weer een stochastiek is. Omdat het een som van normalen is, is deze zelf ook normaal
verdeeld. Uit (4.1) zien we, dat
σ
X n N µ n
oftewel
Xn µ
N 0 1
σ n
(4.10)
De variantie neemt af met groeiende n. Dit betekent, dat de verdeling van Xn zich met groeiende n steeds
meer concentreert rond µ , zoals we ook kunnen zien uit figuur 4.1:
Formule (4.10) kunnen we ook lezen als
rσ
PX n µ Φr
n
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
90
1.6
1.4
1.2
n=160
1
0.8
0.6
n=40
0.4
0.2
n=10
0
-3
-2
-1
0
1
2
3
Figuur 4.1: Kansdichtheden van het steekproefgemiddelde X n µ voor n 10, 40 en 160.
of meer symmetrisch,
rσ
PX n µ Φr Φ
r 2Φr 1
n
r 0
(4.11)
Als we deze kans gelijk aan 90% willen hebben, zie figuur 4.2, moeten we r zo kiezen, dat 2Φr 1 090
en dus met gebruik van de inverse functie, r Φ1 095 1645. De kans dat de schatting xn ten hoogste
1 645
n σ afwijkt van de echte waarde µ is dus 90% en dit is natuurlijk gelijk aan de kans dat de onbekende µ
n σ afwijkt van de gemeten waarde:
ten hoogste 1 645
&
P µ xn 1645σ
1645σ '
xn 09 n
n
Dit interval heet het 90%-betrouwbaarheidsinterval van de schatting xn voor de onbekende parameter µ ; in
90% van de gevallen zal dit interval de werkelijke waarde van µ bevatten.
0.45
0.4
0.35
0.3
0.25
90%
0.2
0.15
0.1
0.05
0
-4
5%
-3
-2
5%
-1
0
1
2
3
4
Figuur 4.2: Kansdichtheid voor de standaard normale verdeling en het gebied tussen de 5% en
95% percentielen. Het gearceerde gebied bevat 90% van de kansmassa.
We kunnen natuurlijk ook een andere betrouwbaarheid(sdrempel) dan 90% kiezen. In het algemeen
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
91
kiezen we een (onzekerheids-) niveau α of een betrouwbaarheid(sdrempel) 1 α . Als we de kans in het
rechterlid van (4.11) gelijk aan 1 α willen hebben, moeten we r Φ1 1 12 α kiezen (ga na!).
Definitie 4.1.8 Het betrouwbaarheidsinterval (BI) voor µ op het niveau α of het betrouwbaarheidsinterval
met betrouwbaarheid 1 α (Eng. confidence interval, afgekort CI) is het interval
&
1
σ
1
σ '
I : xn Φ1 1 α xn Φ1 1 α 2
n
2
n
(4.12)
Dit is een symmetrisch interval rond de schatting xn . Het geeft de betrouwbaarheid van onze metingen
aan en is direkt te berekenen als we σ kennen. Dit laatste is echter vrijwel nooit het geval. We zullen het
dus eveneens met een schatting van σ moeten doen, zoals gegeven in (1.4).
Voorbeeld 4.1.9 Stel dat de gegevens uit tabel 4.1 metingen zijn van een pH met µ 545 en σ
95%–betrouwbaarheidsinterval is dus
535 196 02 20 535 196 02 20 526 544
02. Het
(4.13)
De exacte waarde µ 545 ligt dus (net) niet in dit interval. Met Φ258 0995 ligt µ wel in het (grotere)
99%–betrouwbaarheidsinterval
535 258 02 20 535 258 02 20 523 547
(4.14)
4.1.3 Het schatten van de variantie van een normale verdeling
Zoals in de vorige paragraaf vertrekken we weer van een steekproef X1 X2 Xn van n onafhankelijke
stochastieken, allen verdeeld volgens N µ σ . Ditmaal zullen we echter veronderstellen dat de beide parameters, zowel µ als σ , onbekend zijn. We zullen een betrouwbaarheidsinterval opstellen voor de parameter
σ . In (4.2) vonden we de schatter 1n ∑ni1 Xi X n 2 , maar deze schatter is niet zuiver. Voor n 1 geeft deze
formule zelfs nul als antwoord, terwijl we in dat geval (van één enkele meting) juist helemaal geen idee hebben van mogelijke fluctuaties in de uitkomst en we dus juist een onbepaalde uitkomst zouden verwachten.
Het
dat we niet
& blijkt
' door n maar door n 1 moeten delen om een zuivere schatter te vinden. We berekenen
n
2
E ∑i1 Xi X n alsvolgt. Er geldt:
E Xi2 µ 2 σ 2
en
E XiX j µ 2 voor i j en bijgevolg geldt ook
E Xi X n 1 n
σ2
E XiX j µ 2 ∑
n i1
n
zodat
E
&n
'
∑ Xi X n2 i1
E
en
E X n 2
1 n
σ2
E Xi X n µ 2 ∑
n i1
n
)n 2
* n 2
2
X
2X
X
X
∑ E Xi 2E XiX n E X 2n
∑ i
n
i n
i1
n
2σ 2
i1
n
∑ µ 2 σ 2 2µ 2 i1
µ 2 σn n 1σ 2
2
Hieruit volgt, dat de schatter
Sn2 1 n
Xi X n2
n 1 i∑
1
(4.15)
wel zuiver is. Men noemt Sn2 de steekproefvariantie van de steekproef X1 X2 Xn (of de empirische
variantie). De noemer n 1 in het quotiënt is afkomstig van het feit dat we µ E Xi niet kennen en dat we
deze schatten met X n .
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
92
Omdat de steekproef X1 X2 Xn bestaat uit n onafhankelijke kopieën van X N µ σ , is
de som van kwadraten T ∑ni1 Xi µ 2 een som van kwadraten van onafhankelijke N 0 σ -verdeelde
stochastieken en dus is T σ 2 chi-kwadraat verdeeld met n vrijheidsgraden volgens definitie (3.83). We
kunnen T n echter niet als schatter voor σ2 gebruiken omdat deze grootheid afhangt van de parameter µ .
In plaats daarvan gebruiken we de schatter Sn2 , waarvan boven de zuiverheid is aangetoond. Ook deze is
chi-kwadraat verdeeld, maar heeft slechts n 1 i.p.v. n vrijheidsgraden; door het schatten van µ met Xn
introduceren we in de termen Xi X n 2 van de som Sn2 een afhankelijkheid, die het aantal vrijheidsgraden
met 1 doet afnemen.
Stelling 4.1.10 Als X1 X2 Xn een steekproef is van n onafhankelijke kopieën van X N µ σ , dan
is de stochastiek n 1Sn2 σ 2 chi-kwadraat verdeeld met n 1 vrijheidsgraden :
n 1Sn2 χ 2
n1
σ2
(4.16)
Bovendien zijn de statistieken Sn2 en X n onafhankelijk.
Bewijs. In het geval n 2 hebben we
S22
σ2
σ12
X1 X1 X2 2 X X2 2 X1 X2 2
X2 1
2
2
2σ
X X
Omdat 1 2σ 2 standaard normaal verdeeld is het kwadraat ervan χ12 -verdeeld met een vrijheidsgraad.
Om het algemeen geval te bewijzen maken we gebruik van de resultaten uit 3.7.7 over de hogerdimensionale normaalverdeling. Onderstel even dat Z Z1 Zn standaard normaal verdeeld is, en dat U
een willekeurige orthogonale matrix is. Uit formule (3.81) volgt dan onmiddellijk dat ook Y UZ standaard normaal verdeeld is; in het bijzonder zijn de stochastische variabelen Y1 Y2 Yn standaard normaal
verdeeld en onafhankelijk.
Neem nu X1 X2 Xn zoals in de opgave van de stelling, en stel
Zi Z Z1 Zn is standaard normaal verdeeld, en
Zn Xi µ
σ
1 n Xi µ
n i∑
1 σ
(4.17)
σ1 X n µ (4.18)
Neem nu een willekeurige orthogonale matrix U waarvan de eerste rij
1
1
n
1
1
is. Met behulp van het orthogonalisatieprocédé van Gram-Schmidt kan men steeds zulk een matrix construeren. Stel
Y UZ
Dan is
en
Y1 n 1Sn2 σ2
1
n
Z1 Z2 Zn nZ n X n µ n
σ
1 n
Xi X n 2
σ 2 i∑
1
n
∑ Zi Zn 2
i1
n
n
2 n
2
Z
Z
∑ i n ∑ i ∑ Z j nZ n 2
i1
i 1
j 1
n
∑ Zi2 2nZ n2 nZn 2
(4.19)
i1
n
n
n
i1
i1
i1
∑ Zi2 nZ n2 ∑ Zi2 Y12 ∑ Yi2 Y12 Y22 Yn2
χn21
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
93
Omdat Y1 en Y22 Yn2 onafhankelijk zijn, zijn ook Xn en Sn2 onafhankelijk. Merk tenslotte op dat uit
(4.19) nogmaals volgt dat
σ2
E Y22 Yn2 σ 2
E Sn2 n
1
Met behulp van bovenstaande stelling kunnen we een betrouwbaarheidsinterval (BI) met betrouwbaarheid 1 α voor σ 2 construeren. Sluiten we aan beide uiteinden van de verdeling α2 kansmassa buiten, dan
hebben we als totale kans voor de resterende interval, zie figuur 4.3,
P
n 1Sn2 χ 2
χn21 α
2
n11 α2
σ2
We kunnen deze formule als volgt herschrijven:
n 1Sn2
n 1Sn2
2
σ
P
χn21 1 α
χn21 α
2
2
1
α
1
α 0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
5%
0
0
95%
2
4
6
Figuur 4.3: Kansdichtheid voor de
8
10
12
14
16
18
20
χ 52 -verdeling en
het gebied tussen de 5% en 95% percentielen.
Het gearceerde gebied bevat 90% van de kansmassa.
Definitie 4.1.11 Het betrouwbaarheidsinterval voor σ2 met betrouwbaarheid 1 α is het interval
+
n 1s2n n 1s2n ,
χn21 1 α
2
χn21 α
(4.20)
2
Merk op dat dit betrouwbaarheidsinterval niet symmetrisch is rond s2n omdat de χ 2 -verdeling niet symmetrisch is. Een 1 α -BI voor σ zelf vinden we door in (4.20) de wortel te nemen:
+# n 1s2 # n 1s2 ,
n
n
χn21 1 α
2
χn21 α
(4.21)
2
Voorbeeld 4.1.12 De steekproefvariantie van de lengte van 16 willekeurig gekozen soldaten van de lichting
1992 is 518cm2 . We construeren een 90%-betrouwbaarheidsinterval voor σ .
n 1 15
2
χ15
0 05 7261
2
χ15
0 95 24996
+- 15 518 - 15 518 ,
BI α 01
24996
;
7261
558 1035
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
94
4.1.4 Het schatten van het gemiddelde van een normale verdeling
We beschouwen nu opnieuw de situatie van 4.1.2; we willen nu een betrouwbaarheidsinterval voor het
gemiddelde µ construeren terwijl σ onbekend is en geschat wordt met sn .
Stelling 4.1.13 De stochastiek T
SX µn is Student-t verdeeld met n 1 vrijheidsgraden,
n
n
XS n
µn tn1
T
(4.22)
n
Bewijs. Uit (4.10) en (4.16) weten we
Z
Xn µ
N 0 1
σ n
n σ12 Sn χn21 2
en
Y
Bovendien zijn Sn en X n , en dus ook Y en Z onafhankelijk, zodat uit de definitie van de Student-t verdeling
(3.97) volgt:
Z Xσn
nµ Sσ XS n
µn T tn1
Y
n
n
n1
Zoals in de vorige paragraaf hebben we de kans
X µ n
tn1 1α 2 1 α
P S
n
n
zodat
Sn
P X n tn1 1α
n
2
Sn
µ X n tn1 1α
n
2
1
α
Definitie 4.1.14 Het betrouwbaarheidsinterval voor µ met betrouwbaarheid 1 α is het interval
&
sn
xn tn1 1α
n
s
n
2 xn n tn1 1α 2
'
(4.23)
Het is duidelijk, dat dit interval breder is dan het overeenkomstige interval (4.12) voor het geval σ wél
bekend is. Het verschil neemt echter af met toenemende n (en het verdwijnt geheel in de limiet voor n ∞).
Voorbeeld 4.1.15 In figuur 4.4 zien we de betrouwbaarheidsintervallen op het 10%-niveau voor µ en σ
voor tweemaal tien experimenten met N 0 1-verdeelde random getallen. De intervallen zijn weergegeven
door horizontale lijnstukken. De verticale lijn representeert de plaats van de werkelijke µ en σ . Door de
keuze van het niveau α 10% zijn de betrouwbaarheidsintervallen zo groot, dat de kans, dat µ resp. σ er
buiten ligt, gelijk is aan 10%. Het verwachte aantal keer in deze 40 experimenten, dat µ of σ buiten het BI
ligt, is dus 4; in het voorbeeld van figuur 4.4 is dit 3.
Voorbeeld 4.1.16 We voeren twaalf metingen uit van het gewicht van een bol en vinden de volgende waarden (in gram)
170 183 185 175 177 173 172 181 183 177 176 180 We zullen de 90%-BI’s voor µ en σ opstellen. We hebben achtereenvolgens
x12 zodat
1232
12
17766g
s12 4774g
en
en
s212 2
1 12 xi x12 22787g2 ∑
11 i1
s
4774
12 t11 0 95 1796 24751 12
12
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
95
Betrouwbaarheidsheidsintervallen op het 10%-niveau. 6 metingen per experiment, N(0,1)-verdeeld
10
10
5
5
0
-2
0
0
2
1
0
gemiddelde
2
3
standaardafwijking
Betrouwbaarheidsheidsintervallen op het 10%-niveau.20 metingen per experiment, N(0,1)-verdeeld
10
10
5
0
5
-1
0
0
1
1
0
gemiddelde
2
standaardafwijking
Figuur 4.4: Betrouwbaarheidsintervallen van tweemaal 10 experimenten met N 0 1verdeelde random getallen.
Een 90%-betrouwbaarheidsinterval voor µ is dus 175 180. Verder hebben we
#
11s212
χ11 0 95
-
11 22787
19675
35693
#
en
11s212
χ11 0 05
-
11 22787
4575
74019 Een 90%-betrouwbaarheidsinterval voor σ is dus 36 74.
4.1.5 Het schatten van een percentage
We beschouwen een binair kenmerk, bijvoorbeeld:
man / vrouw , roker / niet-roker , wit / zwart , kruis / munt .
Hiermee is een Bernoulli-experiment geassociëerd, een stochastiek X, die de waarden 0 en 1 aanneemt met
PX 1 p en PX 0 1 p q. Aan de hand van een steekproef X1 X2 Xn wensen we p te
schatten. Het is duidelijk dat Xn 1n ∑ni0 Xi een zuivere schatter voor p is. Voor n 30 en 01 p 09
mogen we Bn p benaderen door een normale verdeling, zie (3.71),
nX n Bn p N np npq
Voor n voldoend groot is
-
pq n
-
en dus
X n 1 X n n
- pq Xn N p
n
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
96
en dus hebben we bij benadering,
Z
X n p N 0 1
X 1X n
P Z Φ1 1 en dus ook
n
α 1
α
2
n
Voor X n p leiden we hieruit de (benaderde) kans af,
1 P X n p Φ
of
-
α
1
2
X n 1 X n n
-
1
α
-
α X n 1 X n α X n 1 X n p X n Φ1 1 P X n Φ1 1 2
n
Conclusie: Het interval
.
2
-
n
-
α xn1 xn
xn Φ1 1 xn Φ1 1 α xn1 xn
2
n
2
1
α
/
n
(4.24)
is een (benaderend) BI voor p met betrouwbaarheid 1 α .
Voorbeeld 4.1.17 Enkele dagen voor een landelijke verkiezing tussen de twee kandidaten A en B wordt
door een populair magazine een opiniepeiling georganiseerd. Hierbij vraagt men 200 willekeurig gekozen
en willekeurig over het land verspreide personen naar hun mening. In de steekproef waren 110 personen
voor kandidaat A. Gevraagd wordt een 95% BI voor het globale percentage kiezers, dat op kandidaat A zal
stemmen.
We hebben achtereenvolgens:
xn 110
200
055 -
xn 1 xn n
00352
en
Φ1 1 α
Φ10975 196
2
zodat het 95% BI gegeven wordt door
BI 055 196 00352 055 196 00352 048 062
Op dezelfde manier vinden we 046 064 voor het 99%-BI.
4.2 Hypothesetoetsen
Een firma produceert batterijen voor draagbare radios, en beweert in haar advertenties dat elke batterij goed
is voor 30 uur muziek. Een consumentenorganisatie wil deze bewering nagaan, en test 40 batterijen die op
diverse plaatsen in het land gekocht werden. De gemiddelde speelduur over deze 40 batterijen is 28 uur met
een spreiding van 2 uur. Kunnen we hieruit besluiten dat de reclame van de firma overdreven is?
In een contra-expertise laat de batterijenproducent het experiment herhalen met 50 batterijen en vindt
een speelduur van 29.5 uur met een spreiding van 2.5 uur. Op grond hiervan concludeert de firma, dat de
consumentenorganisatie teveel belegen exemplaren gebruikte bij de test. Is deze bewering gerechtvaardigd?
Dit is het type problemen dat we in dit hoofdstuk bestuderen. Eerst vergelijken we het resultaat vanéén
steekproef met een gepostuleerde waarde; vervolgens vergelijken we de resultaten van twee verschillende
steekproeven met elkaar. Uiteraard kunnen we hier nooit zekere uitspraken verwachten; we zullen enkel
uitspraken kunnen doen die een zekere kans van waarheid bevatten. Met een toets zullen we nooit een
bewijs van een bewering kunnen leveren; we zullen er alleen een bewering mee kunnen verwerpen als deze
op grond van de waarnemingen te onwaarschijnlijk is om waar te zijn.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
97
4.2.1 De t-toets voor één groep
(Eng. one-group t-test) We hebben n (onafhankelijke) metingen x1 xn van een (normaal verdeelde)
grootheid X met verwachtingswaarde µ . Beweerd wordt dat deze verwachtingswaarde gelijk is aan een
bepaalde concrete waarde µ0 , zoals in het voorbeeld hierboven µ 30 uur. We willen de waarheid van
deze bewering toetsen aan de hand van de metingen. We veronderstellen, dat de metingen onafhankelijke
trekkingen zijn uit een normaal verdeelde stochastiek X N µ σ . Zoals in het vorige deel van dit hoofdstuk over schatters, 4.1, kunnen we nu rond het gemiddelde xn een betrouwbaarheidsinterval op het niveau
α construeren, zie formule (4.23), en zien of de vooropgestelde waarde µ0 in dit interval ligt. Zo ja, dan
accepteren we de bewering (op het niveau α ); zo nee, dan is de kans, dat de bewering waar is, kleiner dan
α en verwerpen we de bewering.
We kunnen dit ook op een andere (equivalente) manier formuleren. De metingen zijn trekkingen uit n
onafhankelijke stochastieken X1 Xn N µ σ , waarbij zowel µ als σ onbekend zijn. Als de bewering
waar is, dan zijn het steekproefgemiddelde Xn en de standaarddeviatie Sn zuivere schatters voor µ en σ
en heeft het quotient een t-verdeling, zie (4.22). Aan de hand van de steekproef X1 Xn wensen we te
beslissen of we de hypothese µ µ0 aanvaarden of verwerpen.
De tweezijdige t-toets (Eng. one-group two-tail t-test): De veronderstelling µ µ0 noemen we de nulhy µ0 , de alternatieve hypothese
pothese, gewoonlijk met H0 genoteerd. Het alternatief is natuurlijk dat µ genaamd. We noteren deze met H1 . Er zijn dus twee mogelijkheden:
H
µ0
H1 : µ µ0
0
(nulhypothese) :µ
(alternatieve hypothese) (4.25)
De alternatieve hypothese omvat hier zowel de gevallen µ µ0 als µ µ0 en daarom spreken we hier van
de tweezijdige t-toets. Indien de nulhypothese waar is, dan hebben we, met de notaties van (4.22):
T
XSn µn0 tn1
n
H0 (4.26)
Met H0 bedoelen we: “in de veronderstelling dat de nulhypothese waar is”. In dit geval is het dus onwaarschijnlijk dat T zeer groot is. Kiezen we een significantieniveau α , dan geldt:
PT tn1 1 1 α 1 α
2
H0 (4.27)
Uit de waarnemingen of metingen volgt een schatting t voor de waarde van T :
t :
xn µ0
sn n
(4.28)
De kans op een serie metingen met t tn1 1 1 α is α ; het voorkomen van een dergelijke serie metingen
2
is dus des te onwaarschijnlijker naarmate α kleiner is: we noemen α het significantieniveau.
Dit leidt tot de volgende beslissingsregel:
Als t ligt in het interval tn1 1 1 α tn1 1 1 α , dan aanvaarden we de H0 op niveau α ;
2
2
Als t buiten dit interval ligt, dan verwerpen we H0 op niveau α .
Het interval tn1 1 1 α tn1 1 1 α noemen we het aanvaardingsgebied, het complement van dit interval
2
2
noemen we de kritieke zone en α noemen we het significantieniveau. Als we de nulhypothese H0 verwerpen,
dan zeggen we dat het verschil tussen xn en µ0 significant is. Anders zeggen we dat het verschil niet
significant is. Gebruikelijke waarden voor α zijn 5% en 1%.
Opmerking: We merken op, dat het aanvaarden van de nulhypothese, precies hetzelfde is als het feit, dat µ0
in het betrouwbaarheidsinterval (4.23) ligt.
De eenzijdige t-toets (Eng. one-group one-tail t-test): We bekijken opnieuw het voorbeeld uit het begin van
dit hoofdstuk, 4.2.1. We zullen ons hierbij vooral zorgen maken over de kwaliteit van de batterijen, indien
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
98
de gemiddelde speelduur beduidend minder dan 30 uur is; indien we een gemiddelde speelduur van meer
dan 30 uur vinden, des te beter. Daarom krijgen we nu de volgende situatie:
H
µ0
H1 : µ µ0
0
:µ
(nulhypothese)
(4.29)
(alternatieve hypothese)
In de veronderstelling dat H0 waar is geldt formule (4.26) natuurlijk nog steeds, zodat we hebben:
PT tn1 1α 1 α
H0 en we krijgen dus volgende beslissingsregel: indien t tn1 1α , dan wordt H0 aanvaard; anders wordt H0
verworpen. Het aanvaardingsgebied is dus tn1 1α ∞ en de kritieke zone ∞ tn1 1α .
Op volledig analoge manier kunnen we natuurlijk de volgende situatie bekijken:
H
µ0 (nulhypothese)
(alternatieve hypothese)
H1 : µ µ0
Het aanvaardingsgebied voor H0 wordt nu ∞tn1 1α .
0
:µ
(4.30)
Overschrijdingskans, significantie of P-waarde.
Een alternatieve manier van toetsen (die nogal eens gebruikt wordt in statistische software) is het berekenen
van de overschrijdingskans, significantie of P-waarde bij de t-waarde van de metingen. Als we een tweezijdige t-toets doen, berekenen we bij de t-waarde (4.28) van de metingen de kans P T t . Als we een
eenzijdige toets doen met µ µ0 als alternatief, dan berekenen we de kans PT t en anders PT t .
Als deze overschrijdingskans kleiner is dan het niveau α , verwerpen we de nulhypothese, t ligt dan immers
buiten het aanvaardingsgebied. Als deze kans groter dan α is ligt t erbinnen en aanvaarden we de nulhypothese. Het aanvaardingsgebied hoeven we dan natuurlijk niet meer op te zoeken. Met de gebruikelijke
tabellen voor de t-verdeling is deze methode niet te gebruiken; in software is het echter handiger, omdat
een routine voor het berekenen van tn x eenvoudig te schrijven is en omdat dan aan de gebruiker niet bij
iedere toets opnieuw het gewenste niveau moet worden gevraagd. Bovendien geeft de P-waarde veel gedetailleerder informatie over het resultaat van de toets: ieder lezer/gebruiker kan afzonderlijk beslissen over
het gewenste niveau.
De overschrijdingskans is dus de grootste α, waarvoor de toets nog significant is, d.w.z. waarvoor de nulhypothese aanvaard wordt.
Voorbeeld 4.2.1 Een machine maakt staalplaat die een gemiddelde dikte van 05 mm zou moeten hebben.
Men wil toetsen of de machine goed afgeregeld is op basis van een steekproef van 10 metingen en vindt
x10 053 mm en s10 003 mm. We hebben dus:
H
05 mm H1 : µ 05 mm 0
:µ
Een eenvoudige berekening levert de t-waarde van de steekproef:
t
x10 05 mm
s10 10
3162 Bij een significantieniveau α 5% vinden we t9 0 975 2262 zodat het aanvaardingsgebied het interval
2262 2262 is. Op het niveau 5% wordt H0 dus verworpen.
Voor α 1% krijgen we (aangezien t9 0 995 3250) als aanvaardingsgebied 3250 3250. Op het
niveau 1% wordt H0 wel aanvaard.
De overschrijdingskans is PT t PT 3162 116%, zodat de nulhypothese op het 5%niveau wordt verworpen en op het 1%-niveau (nipt) wordt aanvaard.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
99
Voorbeeld 4.2.2 Een fabrikant produceert touw voor bergbeklimmers en beweert dat zijn touwen een breekpunt van 8000 kg hebben. Een sportvereniging bepaalt het breekpunt van zes touwen en vindt
x6 7750 kg
s6 145 kg
en
zodat t x6 8000kg
s6 6
4223 Aangezien het touw best sterker mag zijn dan opgegeven, voeren we een eenzijdige t-toets uit met hypothesen:
H0 : µ 8000 kg H1 : µ
8000 kg Bij de keuze α 5% vinden we t5 0 95 2015; het aanvaardingsgebied is dus 2015∞, zodat de
nulhypothese wordt verworpen; het verschil tussen de opgegeven en de gemeten waarde voor het breekpunt
is significant.
Voor α 1% is het aanvaardingsgebied 3365∞. Zelfs op niveau α 1% is het verschil dus
significant.
De overschrijdingskans is PT t PT 4223 042%, zodat de nulhypothese zowel op het
5%-niveau als op het 1%-niveau wordt verworpen.
Opmerking 4.2.3 De aanvaardingsgebieden zijn
voor de tweezijdige toets (4.25) : tn1 α 2 tn1 1α 2 en
voor de eenzijdige toets (4.30) : ∞tn1 1α .
Omdat tn1 1α tn1 1α 2 , kan het voorkomen, dat we met de eenzijdige toets de nulhypothese verwerpen
(d.w.z. we stellen vast dat µ groter is dan gesteld), terwijl we met de tweezijdige toets de nulhypothese
aanvaarden (d.w.z. we kunnen niet vaststellen of µ veranderd is).
Opmerking 4.2.4 Als n groot is, dan kunnen we een benaderde toets opstellen. We hebben dan s2 σ 2,
n
zodat we, net zoals in 4.1.2, kunnen veronderstellen dat σ bekend is. Als de nulhypothese waar is, dan
hebben we dat
X n µ0
N 0 1
σ n
(zie (4.10)). Het aanvaardingsgebied voor
)
X n µ0
is dus
σ n
Φ1 1 α
α *
Φ1 1 2
2
in het geval van een tweezijdige toets. Vergelijk dit ook met (3.102).
4.2.2 De χ 2 -toets voor de variantie in één groep
We hebben opnieuw n (onafhankelijke) metingen x1 xn van een (normaal verdeelde) grootheid X
met verwachtingswaarde µ en variantie σ2 . Beweerd wordt dat deze variantie gelijk is aan een bepaalde
concrete waarde σ02 . We willen de waarheid van deze bewering toetsen aan de hand van de metingen.
We veronderstellen weer, dat de metingen trekkingen zijn uit n onafhankelijke stochastieken X1 Xn N µ σ , waarbij zowel µ als σ onbekend zijn. Voor de standaardafwijking stellen we nu een waarde σ0
voorop en we willen aan de hand van de metingen toetsen of σ σ0 ; we kiezen dit dus als nulhypothese.
Met formule (4.16), weten we dat onder de nulhypothese geldt:
Y :
n 1Sn2 χ 2
σ02
n1
H0
zodat
PY
χn21 α α
(4.31)
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
100
Het is dus onwaarschijlijk, dat Y (zeer) groot of (zeer) klein is (Y is altijd positief). Uit de metingen berekenen we de schatting χ van Y ,
n 1s2n
χ :
(4.32)
σ02
De beslissingsregel, of we de nulhypothese aanvaarden of verwerpen, hangt af van het alternatief. We
onderscheiden twee gevallen. Als we gelijkheid σ2 σ02 toetsen tegen het alternatief ongelijkheid σ2 σ02
en dus zowel grote als kleine waarden van Y niet acceptabel vinden onder de nulhypothese, spreken we van
een tweezijdige toets. Als we gelijkheid σ2 σ02 toetsen tegen het alternatief dat σ2 groter dan wel kleiner
is dan gesteld en dus alleen grote of alleen kleine waarden van Y onverenigbaar vinden met de nulhypothese,
spreken we van een eenzijdige toets.
De tweezijdige χ 2 -toets: We kiezen de hypothesen
H0 : σ 2 σ02
H1 : σ 2 σ02
(nulhypothese) (4.33)
(alternatieve hypothese) We aanvaarden
& de nulhypothese 'op het niveau α , als de χ -waarde (4.32) van de metingen in het aanvaardingsgebied χn21 1 α χn21 1 1 α ligt en we verwerpen H0 als χ erbuiten ligt.
2
2
De eenzijdige χ 2 -toets: In het geval toetsen tegen het alternatief dat σ groter is, kiezen we:
&
H0 : σ 2 σ02
H1 : σ 2 σ02
'
(nulhypothese) (4.34)
(alternatieve hypothese) Het aanvaardingsgebied is nu 0 χn21 1α en we verwerpen de nulhypothese als χ χn21 1α .
Analoog, als we toetsen tegen het alternatief dat σ kleiner is, kiezen we:
&
H0 : σ 2 σ02
H1 : σ 2 σ02
(nulhypothese) (4.35)
(alternatieve hypothese) Het aanvaardingsgebied is nu χn21 α ∞ en we verwerpen de nulhypothese als χ χn21 α .
Overschrijdingskansen
Ook hier kunnen we met overschrijdingskansen i.p.v. aanvaardingsgebieden werken. De overschrijdingskans p is gelijk aan de grootste α waarvoor de nulhypothese aanvaardt wordt; d.w.z. de toetsgrootheid χ
ligt op de rand van het aanvaardingsgebied. Voor een tweezijdige toets loopt dit aanvaardingsgebied van het
1
1
2 α –quantiel tot het 1
2 α –quantiel en dit interval zal altijd de mediaan bevatten. Als χ kleiner is dan de
mediaan en op de rand van het aanvaardingsgebied ligt, dan moet dit de linkerrand zijn, zodat PY χ α2 .
Als χ groter is dan de mediaan, dan moet dit de linkerrand zijn, zodat PY χ α2 . Dit geeft dus de tweezijdige overschrijdingskans
(4.36)
p : 2 minPY χ PY χ Bij een eenzijdige toets berekenen we p : PY χ bij het alternatief σ2 σ02 en p : PY χ bij het
alternatief σ 2 σ02 . Als de zo berekende p groter is dan het gewenste niveau aanvaarden we de nulhypothese
en anders verwerpen we deze.
Voorbeeld 4.2.5 De standaardafwijking van het gewicht van blikjes groenten van 500 g is altijd 25 g
geweest, maar men vreest dat de variabiliteit groter zou kunnen zijn geworden, omdat de machines oud
zijn. Een steekproef van 20 blikjes levert s20 320 g. Is deze stijging significant op niveau α 5%? En
op niveau α 1%?
De hypothesen zijn nu de volgenden:
H0 : σ 2 25 g2 H1 : σ 2 25 g2 HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
Uit de metingen volgt de χ -waarde:
χ
101
n σ 12 sn 3113 2
0
Aangezien
30144 3113 wordt H0 verworpen op het 5%-niveau. Anderzijds geldt χ192 0 99 36199 3113, zodat H0 aanvaard wordt op het 1%-niveau.
2 3113 39%, zodat de nulhypothese wordt aanvaard op
De overschrijdingskans is PY χ 1 χ19
het 1%-niveau en verworpen op het 5%-niveau.
2
χ19
095
Opmerking 4.2.6 Als we in dit voorbeeld een tweezijdige toets hadden uitgevoerd en ons alleen de vraag
hadden gesteld of de variabiliteit veranderd was, dan hadden met het aanvaardingsgebied
χ19 0 025 χ19 0 975 8907 32852
de nulhypothese wel aanvaard!
4.2.3 De F-toets, het vergelijken van varianties in twee groepen
In het tweede voorbeeld van de aanhef van 4.2.1 (de contra-expertise) worden twee steekproeven met
elkaar vergeleken. Neem de onafhankelijke steekproeven
X1 Xm en Y1 Yn beide normaal verdeeld met onbekende parameters. We hebben dus nu m n onafhankelijke normaal verdeelde stochastieken X1 Xm Y1 Yn met
Xi N µ1 σ1 i 1 m
j 1 n
De parameters µ1 , µ2 , σ1 en σ2 hierin zijn onbekend. We willen nu toetsen of σ1 σ2 . We schatten daartoe
en
Y j N µ2 σ2 eerst σ12 en σ22 met behulp van de steekproefvarianties :
S12 2
1 m
Xi X m
∑
m 1 i1
en
S22 2
1 n Yj Y n ∑
n 1 j1
Hun quotiënt heeft een F-verdeling:
Stelling 4.2.7 Met notaties zoals hierboven geldt:
S12 σ22
Fm1 n1
σ12 S22
(4.37)
Bewijs. Uit (4.16) weten we, dat
m 1S12 χ 2
m1
σ12
en
n 1S22 χ 2
n1
σ22
Het resultaat volgt nu onmiddellijk uit de definitie (3.106) van de F-verdeling.
Voor de toets op gelijkheid van σ12 en σ22 nemen we nu als nulhypothese H0 : σ12 σ22 dan geldt (onder
deze nulhypothese)
F
S12
Fm1 n1
S22
H0
zodat
PF Fm1 n1 α α Hierop kunnen we dus de F-toets voor de vergelijking van varianties baseren:
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
De tweezijdige F-toets: Kies de hypothesen
102
H0 : σ12 σ22 (4.38)
H1 : σ12 σ22 en bereken de f -waarde van de steekproef,
s21
s22
Het aanvaardingsgebied op niveau α voor f is dan het interval
f :
&
Fm1 n1
1
α
2
Fm1 n1 1
(4.39)
'
1
2α
;
(4.40)
we aanvaarden de nulhypothese als f in dit interval ligt en verwerpen haar als f erbuiten ligt.
De overschrijdingskans (of p-waarde) is
p : 2 minPF f 1 PF f 2 minFm1 n1 f 1 Fm1 n1 f (4.41)
De eenzijdige F-toets: Bereken de f -waarde van de steekproef,
f :
s21
s22
kies een niveau α en kies een van beide mogelijkheden:
Hypothesen :
H0 : σ12 σ22 H1 : σ12 σ22 of
Hypothesen :
met aanvaardingsgebied :
&
0 Fm1 n1 1α
'
en overschrijdingskans : p : 1 Fm1 n1 f (4.42)
H0 : σ12 σ22 met aanvaardingsgebied :
H1 : σ12 σ22 &
Fm1 n1 α ∞
enoverschrijdingskans : p : Fm1 n1 f (4.43)
We aanvaarden de nulhypothese als f in dit interval ligt en verwerpen hem als f erbuiten ligt.
Opmerking: Formule (4.40) suggereert, dat je voor de tweezijdige toets steeds twee F-waarden moet bepalen. Dit is echter niet nodig. Als je X en Y zo kiest, dat σ2 σ1 , dan geldt automatisch dat de toetsgrootheid
groter dan een is, f 1 . Omdat de mediaan dan niet teveel van 1 verschilt, zal de linkergrens veel kleiner
dan 1 zijn en ligt f automatisch aan de rechterzijde van Fm1 n1 1 α , zodat we alleen hoeven na te gaan of
f kleiner is dan de rechtergrens. Het is dan dus alsof je een eenzijdige toets doet met alternatief σ12 σ22 en
met de helft van het niveau.
2
Voorbeeld 4.2.8 We willen nagaan of twee voltmeters dezelfde nauwkeurigheid bezitten. De variantie is
hier een maat voor de nauwkeurigheid. Met elk toestel wordt een bepaalde meting een aantal malen uitgevoerd met resultaat:
toestel 1 : s1 4 µV m 16
s2 4 2
en f -waarde: f 12 1777 s2
3
toestel 2 : s2 3 µV n 21
De hypothesen zijn
H0 : σ12 σ22 H1 : σ12 σ22 Laten we toetsen op niveau α 5%. Uit de tabellen halen we dat
2176 0362 en Fm1 n1 1 α 257 Het aanvaardingsgebied is dus 0362 257; op het 5%-niveau wordt de nulhypothese aanvaard.
Fm1 n1
1
2α
1
2
Er is dus
geen significant verschil tussen beide voltmeters. Bedenk dat je wegens de voorgaande opmerking de waarde
van Fm1 n1 1 α eigenlijk helemaal niet nodig hebt.
2
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
103
4.2.4 De t-toets voor het vergelijken van gemiddelden in twee groepen (Eng. two-group t-test)
Zoals in de vorige paragraaf nemen we twee onafhankelijke steekproeven X1 Xm en Y1 Yn . We
zullen nu echter veronderstellen dat we mogen aannemen dat de variantie voor beide steekproeven dezelfde
is (eventueel na het toepassen van de F-toets), dus σ1 σ2 σ en
Xi N µ1 σ1 i 1 m
en
Y j N µ2 σ2 j 1 n
Net zoals in vorige paragraaf zijn µ1 , µ2 en σ onbekend. Ditmaal wensen we na te gaan of µ1 µ2 . Hiertoe
zoeken we eerst een zuivere schatter voor σ2 . We weten reeds dat S12 en S22 zuivere schatters zijn voor σ2 .
Elk gewogen gemiddelde α S12 β S22 , met α β 0 1 en α β 1 is dus een zuivere schatter voor σ2 . In
het bijzonder is
m 1S12 n 1S22
(4.44)
S
2 mn
2
een zuivere schatter (met minimale variantie) voor σ2 . Deze schatter S
2 wordt ook de gemengde variantie
genoemd. Analoog aan (4.22) geldt nu het volgende.
Stelling 4.2.9 Onder de nulhypothese geldt:
T
Bewijs. We weten dat
Xm 1 Y n1 tm1n1
S
m n
σ X m N µ1 m
H0
(4.45)
σ
en Y n N µ2 n
Omdat X m en Y n onafhankelijk zijn geldt onder de nulhypothese µ1 µ2 voor hun verschil
-σ2
X m Y n N 0
σ
m
n
2
zodat schaling een standaard-normale verdeling geeft:
U
Xm 1 Y n1 N 0 1
σ mn
De varianties zijn χ 2 -verdeeld,
m 1S12 χ 2
m1
σ2
en
n 1S22 χ 2
σ2
n1
en dus ook de gemengde variantie is χ2 -verdeeld,
n 1S2
m 1S1σ
χm2 n2
2
2
V
2
Vanwege de definitie (3.97) van de t-verdeling vinden we dus, dat
T
U
tmn2
V m n 2
en dit bewijst onze stelling.
Met behulp van deze stelling bekomen we nu onmiddellijk de volgende t-toetsen:
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
104
Bereken de t-waarde van de steekproef,
xm yn
s
m1 1n
t
(4.46)
kies een niveau α en kijk of t al dan niet binnen het aanvaardingsgebied ligt.
De tweezijdige t-toets: Neem als hypothesen
H
Hypothesen:
0
: µ1 µ2 H1 : µ1 µ2 De eenzijdige t-toets:
H
Hypothesen:
en analoog
0
: µ1 µ2 H1 : µ1 µ2 H
Hypothesen:
aanvaardingsgebied :
0
: µ1 µ2 H1 : µ1 µ2 &
'
tmn2 1 1 α tmn2 1 1 α
aanvaardingsgebied :
aanvaardingsgebied :
2
2
∞ tmn2 1α
'
&
tmn2 1α ∞
(4.47)
(4.48)
(4.49)
Voorbeeld 4.2.10 Een boer wil toetsen of het gebruik van een bepaalde soort kunstmest een verbetering
van de graanoogst geeft. Daartoe kiest hij 15 stroken akker met dezelfde oppervlakte, waarvan er 8 worden behandeld met de meststof en de overige 7 niet (deze laatsten vormen de zogenaamde controlegroep).
De gemiddelde graanopbrengst x8 op de behandelde akkers is 58 ton met een standaardafwijking σ1 van
036 ton. Voor de controlegroep is de gemiddelde opbrengst x7 49 ton met een standaardafwijking σ2 van
040 ton. Is de produktie op het niveau α 1% significant hoger op de behandelde akkers? De hypothesen
zijn (eenzijdig)
H : µ µ 0
1
2
H1 : µ1 µ2 Veronderstel, dat we met de F-toets reeds hebben nagegaan dat s21 en s22 niet significant verschillen. Voor de
gemengde variantie vinden we dan
s
2 Bijgevolg is
1 2
7s1 6s22 01436 ton2
13
t
zodat
s
0379 ton x8 x7
459
s
18 17
Het aanvaardingsgebied voor t is ∞ t13 0 99 ∞ 26503. De verhoging van de opbrengst is dus significant.
Voorbeeld 4.2.11 In de inleiding voor 4.2.1 gaven we een voorbeeld van twee steekproeven betreffende
de speelduur van batterijen. In dit voorbeeld hebben we de waarnemingen x1 x40 van de consumentenorganisatie en y1 y50 van de fabrikant. We veronderstellen dat dit onafhankelijke trekkingen zijn
uit X N µ1 σ1 resp. Y N µ1 σ1 . De gemiddelden en standaarddeviaties zijn:
x40 28 s40 2 y50 295 s50 25 De vraag is, of het steekproefgemiddelde x40 van de consumentenorganisatie significant kleiner is dan dat
van de fabrikant y50 . Hiertoe toetsen we eerst de gelijkheid van de varianties. De f -waarde van de steekproef
is
s2
252
15625
f 50
s240
22
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
H
en de hypothesen zijn
0
105
: σ1 σ2 H1 : σ1 σ2 Het aanvaardingsgebied op het 5%-niveau voor de F-toets op de varianties is (19.11c)
&
F49 39 0 025 F49 39 0 975
'
0554 183
zodat de nulhypothese σ1 σ2 aanvaard wordt. De gemengde variantie s
vinden we nu uit
s
2 1
49s250 39s240 5253
88
zodat s
229 Voor het vergelijken van de gemiddelden hebben we de hypothesen
H
0
: µ1 µ2 H1 : µ1 µ2 De t-waarde van de steekproef is
en het aanvaardingsgebied is
t
x40 y50 309
s
140 150
t88 0 95 ∞ 1665 ∞
zodat de nulhypothese verworpen wordt op het niveau 5%. De waarde van de consumentenorganisatie is dus
significant kleiner dan die van de fabrikant. De toets zegt natuurlijk niets over de oorzaak van het verschil;
zolang de fabrikant geen houdbaarheidsdatum op zijn batterijen zet, kan deze de consumentenorganisatie
niet verwijten, dat ze belegen batterijen gebruikt heeft bij de test.
Een benaderende toets voor twee gemiddelden
Bij de afleiding van deze vergelijkende t-toets hebben we aangenomen dat σ1 σ2 . Het meest algemene
geval is natuurlijk dat waarbij σ1 σ2 . Voor m en n (zeer) groot kunnen we dan een benaderende toets
opstellen: we hebben dan dat s21 σ12 en s22 σ22 en we kunnen aannemen dat σ1 en σ2 bekend zijn. Onder
de nulhypothese µ1 µ2 geldt dan in goede benadering:
Z
X mσ Yσn
2
1
m
2
2
N 0 1
H0
n
We berekenen weer de actuele z-waarde van de steekproef,
z :
xms yns
(4.50)
m n
2
1
2
2
en krijgen dan als aanvaardingsgebied voor z op het niveau α :
tweezijdig :
eenzijdig :
& 1 1
'
Φ 1 2 α Φ1 1 12 α '
& 1
1
∞ Φ
1 α of
Φ
1 α ∞
(4.51)
Opmerking 4.2.12 Als we een t-toets willen doen voor de vergelijking van de gemiddelde van twee groepen, moeten we dus altijd eerst een F-toets doen (zoals boven beschreven) om te testen of de varianties
gelijk mogen worden verondersteld.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
106
In de literatuur wordt het gebruik van robustere alternatieven voor deze test aanbevolen, met name de varianten van Bartlett en van Levene. In SPSS wordt de F-toets van Levene uitgevoerd. Deze toets gaat uit van
de absolute variaties t.o.v. de groepsgemiddelden
Vi : Xi X Wi : Yi Y en
en vergelijkt het verschil V W met de variaties binnen de beide groepen. Als dit verschil excessief groot
is (en dus niet aan het toeval is toe te schrijven) wordt gelijkheid van de varianties verworpen.
Zoals gebruikelijk definieren we de groepsgemiddelden V en W en het globaal gemiddelde G door
V :
1 m
1 n
V j W : ∑ W j
∑
m j1
n j1
Het idee is, dat onder de nulhypothese σX
G :
en
mV nW
mn
σY de grootheden
m
σ 2 ∑ V j V 2
j 1
m
en
σ 2 ∑ W j W 2
j 1
(bij benadering) χ2 –verdeeld zijn met m
1 resp. n
1 vrijheidsgraden en dat
mσ 2 V G2 nσ 2 W G2
(bij benadering) χ2 –verdeeld is met één vrijheidsgraad. Het quotient is dus F-verdeeld met een vrijheidsgraad in de teller en mn
2 in de noemer.
Zo vinden we dus uit de meetwaarden vj : x j x en w j : y j y met groepsgemiddelden x en y
en globaal gemiddelde g de toetsgrootheid
f : m n 2
mv g2 nw g2 ∑mj1 v j v2 ∑mj1 w j w2
(4.52)
De overschrijdingskans is PF f met F F1 mn2 ; we verwerpen de nulhypothese op het niveau α als
f F1 mn2 1α .
4.2.5 Verbonden steekproeven
In de voorgaande paragrafen waren de steekproeven X1 Xm en Y1 Yn onafhankelijk. In de twee
laatste voorbeelden kan dat moeilijk anders. Indien we twee benzinemerken met elkaar willen vergelijken
met bovenstaande strategie, dan gaan we als volgt te werk. We laten (bijvoorbeeld) 10 auto’s rijden met
merk X en meten het verbruik. Vervolgens laten we (bijvoorbeeld) 12 auto’s rijden met merk Y en meten
weer het verbruik. Op de resultaten passen we de toetsen toe uit de vorige paragraaf toe. Een probleem hierbij is, dat het verbruik van twee auto’s, zelfs van hetzelfde merk en type, aanzienlijk kan verschillen en dat
deze verschillen waarschijnlijk veel groter zijn dan die ten gevolge van kwaliteitsverschillen in de benzine.
Een andere strategie is de volgende: eerst meten we het verbruik van 10 auto’s, allemaal met merk X, en
dan allemaal met merk Y. Met elke Xi komt dan een Yi overeen; als er geen kwaliteitsverschil is, zullen de
verschillen Xi Yi een verwachtingswaarde nul hebben. We spreken dan van verbonden waarnemingen. Andere voorbeelden van gelijksoortige experimenten: vergelijkingen van metingen in linkeroor en rechteroor,
vergelijken van eigenschappen van eeneiige tweelingen, .
In het algemeen hebben we nu dus n koppels stochastieken Xi Yi met Xi N µ1 σ1 en Yi N µ2 σ2 .
Onze nulhypothese zal zijn:
H0 : µ1 µ2 Stel nu Di Xi Yi . Dan is
Di N µ1 µ2 σ12 σ22
(4.53)
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
107
We voeren nu de t-toets (4.25), (4.29) of (4.30) uit op Di met nulhypothese H0 : µ 0. Het enige verschil
met de situatie in (4.25) is, dat de waarde van µ0 nu niet uit de lucht komt vallen. We weten dat
Dn n
tn1
T
S
in de veronderstelling dat
Dn 1 n
Di
n i∑
1
S2 en
2
1 n
Di Dn
∑
n 1 i1
Voorbeeld 4.2.13 Keren we terug naar het voorbeeld met de benzinemerken. Men laat 10 wagens rijden
met 8 liter benzine van beide merken. Laat Xi het aantal afgelegde kilometers zijn, afgelegd door wagen i
bij gebruik van brandstofmerk X en Yi is het aantal kilometers afgelegd bij gebruik van brandstofmerk Y .
Men vraagt zich af of het merk Y beter is dan het merk X. Men bekomt volgend resultaat:
1
2
3
4
5
6
7
8
9
10
i
X i 99 110 105 101 90 92 104 100 101 100
Yi 100 110 111 110 91 97 106 100 104 96
0
-6
-9
-1 -5
-2
0
-3
4
Di -1
We rekenen nu gemakkelijk uit, dat
d 10 10
2
2
d 10 23 km s10 13444 km s10 36530 km zodat t 199
s10
H
De hypothesen zijn:
0
H1 : µ 0 Het aanvaardingsgebied voor t is tn1 1α ∞.
Voor α 5% wordt dit 1833∞, zodat het verschil significant is op niveau 5%.
Voor α 1% wordt dit 2821∞, zodat het verschil niet significant is op niveau 1%.
0
:µ
4.3 De macht van een toets
4.3.1 voorbeeld 1: de tweezijdige t-toets
Beschouw opnieuw de tweezijdige t-toets (4.25); we kunnen deze als volgt samenvatten:
Kansmodel: X1 Xn N µ σ onafhankelijk; σ en µ zijn onbekend.
nulhypothese: H0 : µ
µ0 .
alternatieve hypothese: H1 : µ µ0 .
We stelden de volgende toets op voor de schatter T (en schatting t):
T
X n µ0
tn1
Sn n
en
t t
n11 α2
t tn1 1 α
2
tn1 1 tn1 1 α
2
H0 wordt aanvaard,
α
2
H0 wordt verworpen.
De betekenis van het significantieniveau α hierin is de volgende: de kans dat we de nulhypothese ten
onrechte verwerpen is α :
(4.54)
PH0 verworpen H0 waar α
Zoals we in het diagram hieronder zien, is dit echter niet de enige mogelijke fout die we kunnen maken. Het
zou kunnen dat H0 niet waar is, maar toch wordt aanvaard. We noemen deze gebeurtenis
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
108
H0 aanvaard H0 onwaar
een fout van de tweede soort terwijl de gebeurtenis, dat de nulhypothese ten onrechte verworpen wordt, een
fout van eerste soort wordt genoemd.
H0 aanvaard
juist
fout van de tweede soort
H0 waar
H0 onwaar
H0 verworpen
fout van de eerste soort
juist
De kans op een fout van de tweede soort is afhankelijk van de werkelijke waarde van de onbekende parameter µ .
Definitie 4.3.1 De macht van een toets is de functie
β x 1 PH0 aanvaard µ x
(4.55)
Merk op dat β µ0 α .
Laten we bij wijze van voorbeeld de macht van de tweezijdige t-toets (4.25) bepalen. Zoals gezegd is
het aanvaardingsgebied I tn1 1 1 α tn1 1 1 α . De macht wordt dus gegeven door de formule
2
2
β x 1 PT I µ x
Als µ
x, dan geldt
Xn x
tn1
Sn n
Xn x
Sn n
en dus ook
Definieer de verschuiving D :
in de toets:
PT I XSn µn0 Sµ0
xn T Sµ0
xn tn1 n
n
µ0 x
, dan geldt onder de voorwaarde µ
Sn n
x voor de schatter T gebruikt
P T D tn1 1 1 α D tn1 1 1 α D
Ftn
1
2
(4.56)
n
2
tn1 1 α D Ft tn1 1 α D
1
2
n 1
1
2
20.05%
5%
95%
99.3%
-f
-f+D
+f
+f+D
Figuur 4.5: Kansdichtheid van de t-verdeling onder de nulhypothese met aanvaardingsgebied f f .
Het oppervlak onder de kromme tussen f en f is 90%. Het aanvaardingsgebied in het geval
µ x is het interval f D f D. Het gearceerde oppervlak tussen f D en f D in
de tekening is 99.3-20.05=80.2%. Uit de figuur zien we dat het oppervlak tussen f D en
f D afneemt als D toeneemt.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
109
Hieruit volgt, dat de macht van de tweezijdige t-toets (4.25) wordt gegeven door formule:
µ x
β x 1 Ftn 1 tn1 1 1 α d Ftn 1 tn1 1 1 α d waarbij d 0 s
2
2
n n
(4.57)
We kunnen dit grafisch interpreteren in figuur 4.5. De kromme is de kansdichtheid van de tn1 -verdeling
en het oppervlak onder de kromme tussen f en f met f : tn1 1 1 α is 1 α . Het oppervlak van het
nn ).
gearceerde gebied tussen f d en f d is juist 1 β x (met x µ0 DS
2
Als x µ0 , dan is D 0. Zoals we reeds opmerkten is dan β x α . Voor x zeer ver van µ0 is D zeer
groot. Het risico dat we de fout van de tweede soort maken is dan zeer klein. De grafiek van β ziet er in dit
geval dan ook uit zoals geschetst in figuur 4.6:
100%
macht van de toets als funktie van x
4n
80% +
2n
n
60% +
40% +
20% +
niveau van de toets: 10%
0%
µ0
Figuur 4.6: De machtsfunctie β x voor de tweezijdige t-toets als functie van x voor n, 2n en 4n. De put
wordt nauwer bij toenemende n; het onderscheidingsvermogen van de toets wordt dus groter.
In dit voorbeeld zien we, dat, hoe groter β x, hoe kleiner het risico is dat we de fout van de tweede
soort maken, en hoe beter de toets. Bovendien wordt de put nauwer bij toenemende n, zodat dan ook de
nauwkeurigheid (bij gelijkblijvende x) toeneemt.
Voor elke toets voor de hypothese H0 : µ µ0 met significantieniveau α kunnen we zo’n machtsfunctie
opstellen. In het algemeen zijn er veel toetsen mogelijk. De volgende intervallen I1 I2 I3 I4 zijn allen
aanvaardingsgebieden voor toetsen met significantieniveau α :
I t
t
1
I ∞n1t 1 α n1 1 α
2
n1 1α
I
t
3
n
1
1α ∞
1
2
1
2
I4 tn1 1 1 α tn1 1 2 α 3
3
Meer algemeen is elke (meetbare) deelverzameling I waarvoor geldt I ftn 1 xdx 1 α het aanvaardingsgebied behorende bij een toets met niveau α . Indien voor de machtsfuncties β1 x en β2 x van twee
toetsen van niveau α geldt dat β1 x β2 x voor elke waarde van x, dan zeggen we dat de eerste toets
machtiger is dan de tweede. Dit legt geen totale orde op de verzameling van alle toetsen van niveau α , het
kan immers zijn dat β1 x0 β2 x0 en β1 x1 β2 x1 voor zekere waarden van x0 en x1 . We zien dit
verschijnsel bijvoorbeeld, als we de macht van de tweezijdige (4.25) en de eenzijdige (4.30) t-toetsen met
elkaar vergelijken. Het aanvaardingsgebied voor de eenzijdige t-toets is I2 ∞ tn1 1α . Als µ x, dan
geldt, zoals in (4.56),
µ x
Xn x
T D tn1 met D 0 Sn n
Sn n
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
en dus geldt
110
PT I2 P T D ∞ tn1 1α D
zodat
β2 x 1 Ftn
Ft tn1 1α D
n 1
tn1 1α D
(4.58)
De situatie is weergegeven in figuur 4.7. In de linkerfiguur is x µ0 (en dus D 0) en in de rechter is x µ0
(en dus D 0). De gearceerde oppervlakte stelt 1 β2 x voor en f : tn1 1α .
1
69.15%
90%
90%
98.21%
f
f+D
f-D f
Figuur 4.7: Kansdichtheid van de t-verdeling onder de nulhypothese met aanvaardingsgebied ∞ f voor de eenzijdige t-toets. Het oppervlak onder de kromme tussen ∞ en f omvat 90% van de
totale kansmassa. De aanvaardingsgebieden in het geval µ µ 0 dSn n12 zijn de intervallen
∞ f d . De gearceerde oppervlakken tussen ∞ en f d in de tekening omvatten 98.2%
resp. 69.15% van de totale kansmassa. Uit de figuur zien we dat het oppervlak tussen ∞ en
f d afneemt (naar 0) en tussen ∞ en f d toeneemt (naar 1) als d toeneemt.
Bijgevolg is
lim β
x∞ 2
x 1
en
lim β
x∞ 2
x 0 De grafiek van β2 is geschetst in figuur 4.8: Voor x µ0 is de eenzijdige toets dus slechter dan de tweezijdige. Voor x µ0 is de tweezijdige toets slechter.
100%
macht van de toets als funktie van x
80% +
60% +
40% +
20% +
niveau van de toets: 10%
0%
µ0
Figuur 4.8: De machtsfunctie β x voor de eenzijdige t-toets als functie van x (continue lijn). Ter vergelijking is de machtsfunctie voor de tweezijdige t-toets gestippeld ingetekend.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
111
Definitie 4.3.2 Indien voor een toets geldt dat β x α voor elke x, dan noemt men de toets zuiver. Indien
er onder alle toetsen van niveau α een toets bestaat die machtiger is dan alle andere, dan noemt men deze
een uniform machtigste toets (Eng. uniformly most powerful test of UMP). Indien er onder alle zuivere
toetsten van niveau α een toets bestaat die machtiger is dan alle andere zuivere toetsen, dan noemen we
deze een uniform machtigste zuivere toets (Eng. uniformly most powerful unbiased test of UMPU).
4.3.2 Voorbeeld 2: de paranormale begaafdheid
Een circusartiest beweert te beschikken over een paranormale gave: onder meer beweert hij door zuivere
concentratie een kansproces te kunnen beı̈nvloeden. Om dit te testen zet men volgend experiment op: men
laat iemand uit 100 kaartspelen telkens een kaart trekken, waarbij aan de artiest gevraagd wordt om ervoor
te zorgen dat er zoveel mogelijk rode kaarten (harten en ruiten) getrokken worden. Welke conclusie kunnen
we trekken uit de uitslag van dit experiment? Schrijf X voor de stochastische variabele die het aantal rode
kaarten aangeeft. Dan hebben we de volgende situatie:
– Kansmodel: X B100 p;
– nulhypothese: H0 : p 05;
05.
– alternatieve hypothese: H1 : p Ons voorbeeld illustreert het feit dat de fout van de eerste soort veel belangrijker is dan die van de tweede
soort: we kunnen het ons zeker niet veroorloven om ongegrond te besluiten dat onze artiest paranormale
begaafdheden bezit (fout van de eerste soort). Concluderen dat hij niet paranormaal begaafd is, terwijl hij
het toch is (fout van de tweede soort), vinden we minder erg.
We leggen een significantieniveau vast, bijvoorbeeld α 10%, en stellen een betrouwbaarheidsinterval voor
X op. Als de nulhypothese waar is, hebben we (onder aanname van deze nulhypothese):
X B100 05 N 50 5
zodat, in benadering:
H0
X 50
N 0 1
5
We kunnen nu gemakkelijk berekenen dat
P X 50 8 P X 550
655 1 Φ13 01936
P X 550 755 1 Φ15 01336
P X 550 855 1 Φ17 00892
P X 50 7
P X 50 9
We nemen dus 42 58 als 10%-aanvaardingsgebied voor X. We bepalen nu de fout van de tweede soort.
Veronderstel dat p x met 01 x 09 (voor de benadering van de binomiale door de normale). Dan geldt
(bij benadering):
X B100 x N 100x
en dus vinden we
P415 X
100x1 x
58 5100x 585 Φ
X 100x
zodat
100x1x
100x1 x
Φ 41 5100x
100x1x
N 0 1
We verkrijgen dus de volgende formule voor de machtsfunctie:
β x 1 Φ 58 5100x
100x1x
41 5100x Φ
100x1x
Voor x 052 055 en 0.60 geeft dit bijvoorbeeld de volgende getalwaarden:
β 052 1 089 011 β 055 1 075 025
en
β 060 1 038 062 We zien, dat β snel toeneemt en dus dat de kans op een fout van de tweede soort snel afneemt, naarmate de
x verder van de H0 -waarde 0.5 verwijderd is.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
112
4.4 De chi-kwadraat toets op een kansverdeling
4.4.1 De chi-kwadraat toets op een kansverdeling
In 3.6-3.7 hebben we gezien, hoe we rijen uniform- en normaalverdeelde random getallen kunnen maken.
In de histogrammen van de voorbeelden in figuur 3.12 en figuur 3.18 zien we echter een vrij grote fluctuatie
in de resultaten. We stellen ons de vraag, of deze fluctuaties verklaard kunnen worden als gewone schommelingen van een eindige steekproef binnen ons kansmodel of niet. In tabel 3.1 staan de resultaten van het
Rutherford-Geiger experiment. Hoe kunnen we ons ervan overtuigen, dat de Poissonverdeling hiervoor een
goed model is?
Voor een binomiale verdeling hebben we deze vraagstelling al eerder gezien. We herhalen: we gooien
100 maal met een munt en vinden 55 maal kop. Als de munt “eerlijk” is, wordt zijn gedrag beschreven door
de stochastiek X B100 12 N 50 5, zodat de kans op een afwijking van 5 of meer van het verwachte
aantal maal kop gegeven wordt door
PX 50 5 PX 50 45 P
X 50
09 2Φ
09 03682 5
zodat we geen reden hebben om de nulhypothese, dat de munt eerlijk is, te verwerpen.
In het algemeen kunnen we de volgende werkwijze volgen: Gegeven is een stochastische variabele Y .
We postuleren voor de verdelingsfunctie FY een bepaalde functie F. We voeren dan het bij Y behorende
experiment n maal op onafhankelijke wijze uit (we nemen dus een zogenaamde aselecte steekproef), en we
bekomen n uitkomsten y1 yn voor n onafhankelijke stochastische variabelen Y1 Yn . De vraag die
zich nu stelt is de volgende:
Hoe goed passen de gegevens y1 yn bij de gepostuleerde verdelingsfunctie F?
Om deze vraag te beantwoorden gaan we als volgt te werk: neem een partitie ∆ van :
∆ : ∞ ξ1 ξ2 ξk1 ∞
We verdelen dus in k disjunkte deelintervallen:
∆1 ∆2 ∆k1 ∆ k
∞ ξ1 ξ1 ξ2
(4.59)
ξk2 ξk1 ξk1 ∞
Voor i 1 k nemen we nu de stochastische variabelen Xi en de bijbehorende waarnemingen xi gedefinieerd door
!
"
en xi : # y1 yn ∆i (4.60)
Xi : # j 1 n Y j ∆i
Xi is dus het aantal keer dat de uitslag van het experiment in het interval ∆i ligt. Als de waarnemingen van Y
verdeeld zijn volgens de gepostuleerde verdeling, dus als FY F, dan is de kans, dat een waarneming van
Y in het interval ∆i ligt, gegeven door
pi PY ∆i F ξi F ξi1 Het aantal waarnemingen Xi , dat in ∆i ligt, zal dus binomiaal verdeeld zijn met kans pi ,
Xi Bn pi en E Xi npi Om een idee te krijgen van de mogelijke statistische fluctuaties tussen de verdeling van de waarnemingen yi en de gepostuleerde verdeling, gaan we feitelijke aantallen xi in de verschillende deelintervallen
vergelijken met de verwachte aantallen.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
113
Stelling 4.4.1 Met bovenstaande gegevens geldt voor elke x en vaste k:
lim F
n∞ Un
k
x Fχ x
waarbij
k
Æ
2
k 1
∑ Xi npi 2
Met andere woorden, voor n groot is
i1
vrijheidsgraden.
Un : ∑
Xi npi
npi
i1
2
(4.61)
npi bij benadering chi-kwadraat verdeeld met k 1
Bewijs. We zullen deze eigenschap enkel bewijzen in het geval dat k 2. Merk op dat de Xi niet onafhankek
lijk zijn, aangezien ∑ Xi n. Dit is de reden waarom we k 1 vrijheidsgraden in de opgave van de stelling
i1
hebben in plaats van k. Voor k 2 stellen we ξ1 ξ . We hebben dan
X1 # j Y j ξ X2 # j Y j ξ Un
2 2 X1 np1
np1
X1 np1
n
X2 np2
np2
1
p1
2
p2 PY j ξ ;
X1 X2 n
We rekenen nu gemakkelijk uit, dat
p1 PY j ξ ;
p1 p2 1
;
2 2
X1 np1
np1
1
1 1 p npX1 1 np
p
1
1
1
2
n X1 1 p1 n
n1 p1 Aangezien X1 binomiaal Bn p1 -verdeeld is, volgt uit de centrale-limietstelling, dat U n convergeert naar
een standaard-normale verdeling,
lim FU x Φx
n∞
n
waarbij Φ de verdelingsfunctie van N 0 1 is. Met andere woorden, voor n groot is Un bij benadering
chi-kwadraat verdeeld met 1 vrijheidsgraad; dit bewijst het gestelde voor k 2 .
Als toepassing van de voorgaande eigenschap kunnen we nu de χ2 -toets opstellen. Schrijf FY voor de
werkelijke verdelingsfunctie van Y , en F voor de gepostuleerde (theoretische) verdelingsfunctie. Stel
p(i : P Y ξi1 ξi pi : F ξi F ξi1 FY ξi FY ξi1 De nulhypothese en de alternatieve hypothese worden nu de volgende:
H0 : p(i pi
H1 : p(i pi
voor alle i 1 k voor minstens één i i 1 k Æ
Als de nulhypothese H0 waar is, dan is ∑ki1 Xi npi 2 npi χk21 . Dus hebben we de volgende beslissingsregel:
De χ 2 -toets: Bereken de χ -waarde c van de gegevens,
k
c : ∑
i1
xi npi
npi
2
en beslis
c χk21 1α
c χk21 1α
H0 wordt aanvaard H0 wordt verworpen
(4.62)
In feite gaat het hier om een benaderende toets; de benadering is alleen goed genoeg als n voldoend groot
is. Als vuistregel kiezen we de voorwaarde npi 5. Als voor sommige klassen niet aan deze voorwaarde
voldaan is, kunnen we dit proberen te verbeteren door klassen samen te voegen.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
114
Voorbeeld 4.4.2 In figuur 3.18 hebben we een histogram gegeven van 1000 random getallen, die uniform
verdeeld (zouden moeten) zijn op 0 1. De getallen zijn verdeeld in 20 klassen met breedte 0.05. Onder de
nulhypothese, dat de randomgetallen trekkingen zijn uit een uniforme verdeling op [0,1], is het verwachte
aantal per klasse 50. De feitelijke aantallen per klasse waren in dit experiment
57 50 58 55 45 49 54 54 40 56 33 62 42 51 45 62 38 60 45 44 zodat de χ -waarde van het experiment gelijk is aan c 2608. Vanwege de verdeling in 20 klassen zijn er 19
2
vrijheidsgraden. We kiezen een significantieniveau van 5% en lezen in de tabel de waarde χ19
0 95 30144
af, zodat c in het aanvaardingsgebied 0 30144 ligt. De nulhypothese wordt dus aanvaard.
4.4.2 Toets op een verdeling met geschatte parameters
Vaak zal het voorkomen, dat de gepostuleerde verdeling vrije parameters bevat (zoals de normale verdeling
N µ σ of de Poissonverdeling Pλ ), die geschat moeten worden uit de data zelf. Iedere parameter creëert
een extra afhankelijkheid tussen de Xi, gedefinieerd in (4.60) en vermindert het aantal vrijheidsgraden van
de χ 2 -verdeling met een eenheid.
Voorbeeld 4.4.3 We meten de snelheid van 256 auto’s op een weg, en wensen na te gaan of de snelheid
normaal verdeeld is. De metingen zijn samengevat in tabel 4.2.
snelheidsklasse
30 – 40
40 – 45
45 – 50
50 – 55
55 – 60
60 – 70
klassemidden
35
42.5
47.5
52.5
57.5
65
aantal
24
48
65
72
29
18
Tabel 4.2:
Uit dezetabel kunnen
we een gemiddelde snelheid berekenen van v : 4916kmu en een standaarddeviatie s : 753 kmu . We willen nu verifiëren, of de gemeten snelheden normaal N µ σ -verdeeld
zijn (eigenlijk “trekkingen uit een normale verdeling” zijn) met behulp van bovenstaande stelling, waarbij
we de gemeten waarden voor gemiddelde v en standaardafwijking s als parameters gebruiken. Met deze
waarden tabelleren we de gepostuleerde verdelingsfunctie F,
F 40
Φ
F 45
Φ
F 50
F 55
F 60
40 4916 45 753
4916
01119
02903
753
50 4916 Φ
05444
55 753
4916
Φ
07810
753
60 4916 Φ
09250
753
en we stellen tabel 4.3 op: Een eenvoudige berekening levert nu de χ -waarde van de data:
6
c : ∑
i1
xi n p(i
n p(i
2
47813 HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
snelheidsklasse
30 – 40
40 – 45
45 – 50
50 – 55
55 – 60
60 – 70
klassemidden
35
42.5
47.5
52.5
57.5
65
115
aantal
24
48
65
72
29
18
p(i
0.1119
0.1784
0.2541
0.2366
0.1440
0.0750
n p(i
28.6
45.7
65.0
60.6
36.9
19.2
Tabel 4.3:
Dit moet in het betrouwbaarheidsinterval liggen van een χ2 -verdeling met drie vrijheidsgraden; we hebben
immers in 6 deelintervallen opgedeeld en we hebben twee parameters uit de data geschat zodat het aantal
vrijheidsgraden 6 1 2 3 is. We kiezen een significantieniveau, bijvoorbeeld 5% en uit de tabellen lezen
we dan af, dat χ32 0 95 7815 zodat het interval 0 7815 het aanvaardingsgebied is. Aangezien 4.17 in dit
interval ligt, mogen we de nulhypothese H0 aanvaarden op niveau 5%. De overschrijdingskans, significantie
of P-waarde voor dit voorbeeld is p PX 47813 01885 met X χ32 .
Voorbeeld 4.4.4 In tabel 3.1 hebben we het resultaat gezien van het klassieke Rutherford-Geiger experiment. We kunnen nu toetsen of deze waarnemingen inderdaad overeenkomen met een Poissonverdeling.
De nulhypothese is dus, dat deze waarnemingen (onafhankelijke) trekkingen uit een Poisson-verdeelde stochastiek zijn met parameter λ . Uit de waarnemingen schatten we de parameter λ 387 d.m.v. het steekproefgemiddelde. Hiermee kunnen we de theoretische verdeling van kolom 3 berekenen. De χ -waarde
van het experiment is c 12955 . Met een verdeling in 12 klassen en een geschatte parameter hebben we
12 1 1 10 vrijheidsgraden. We kiezen weer een significantieniveau van 5% en lezen in de tabel de
2
waarde χ10
0 95 1831 af, zodat c in het aanvaardingsgebied 0 1831 ligt. De nulhypothese wordt dus
aanvaard.
4.4.3 Kruistabellen
(Eng. Contingency tables of cross tabs) In de praktijk willen we vaak de onafhankelijkheid van twee binaire
eigenschappen toetsen, zoals in het volgende voorbeeld. Aan een faculteit van de VUB studeren 300 mannelijke en 150 vrouwelijke studenten en het academisch personeel van die faculteit (licentiaat en hoger) omvat
100 personen, onder wie 20 vrouwen en 80 mannen, zoals uitgezet in tabel 4.4:
man
Student
Academ. Pers.
Kolomsom
Verhouding
vrouw
A 300
B 150
Nm 380
Nv 170
C 80
pm Nm
N
380
550
D 20
pv Nv
N
170
550
rijsom
Ns 450
Na 100
N 550
verhouding
ps 450
550
pa 100
550
Ns
N
Na
N
Tabel 4.4:
Deze getallen suggereren een wanverhouding tussen de aantallen mannelijke en vrouwelijke studenten en AP-leden, die je sociologisch zou kunnen interpreteren als “vrouwen hebben minder kans op een
academische positie” maar ook als “vrouwen ambiëren in mindere mate een academische positie”. Met
statistische methoden kun je deze interpretatieverschillen niet wegpraten. Wel kun je je neutraal afvragen,
of beide eigenschappen onafhankelijk van elkaar zijn en de verhoudingsverschillen toe te schrijven zijn aan
statistische fluctuaties.
Uit de tabel schatten we de fracties mannen en vrouwen, pm en pv 1 pm , en de fracties studenten
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
116
en AP-leden, ps en pa 1 ps . We toetsen de nulhypothese
H0 : De eigenschappen Man/Vrouw en Student/Acad.Personeel zijn onafhankelijk
tegen het alternatief
H1 : De eigenschappen Man/Vrouw en Student/Acad.Persononeel zijn wel afhankelijk
op het niveau α (b.v. α 01).
Onder de nulhypothese zou voor de aantallen in de verschillende groepen moeten gelden
aantal mannelijke studenten
aantal vrouwelijke studenten
aantal mannelijke Acad.Pers.
aantal vrouwelijke Acad.Pers.
:
:
:
:
A N pm ps B N pv ps C N pm pa D N pv pa en dus zou de kans dat een persoon uit de steekproef mannelijk en student is BN pm ps -verdeeld moeten
zijn. Voor C etc. gelden dan overeenkomstige binomiale verdelingen. Met een χ2 -toets kunnen we dus
toetsen of de data een trekking zijn uit deze verdeling. In de tabel hebben we vier gegevens waaruit we drie
parameters, N, pm en pa schatten. Evenals hierboven houden we nog één vrijheidsgraad over en moeten dus
een χ12 -toets doen.
Stelling 4.4.5 Onder de nulhypothese convergeert de verdeling van ZN ,
ZN :
A N pm ps 2 C N pm pa 2 B N pv ps2 D N pv pa2 χ 2
N pm ps
N pm pa
N pv ps
N pv pa
1
naar een χ12 -verdeling met één vrijheidsgraad.
Bewijs. Een strikt bewijs ligt buiten het bereik van deze syllabus. Wel kunnen we het resultaat acceptabel
maken alsvolgt. De aantallen A , B , C en D zijn onderling afhankelijk en voldoen aan de relaties
A B C D N
A C N pm
A B N ps
B D N pv N 1 pm C D N pa N 1 ps Als we dit invullen in de expressie voor ZN , dan vinden we
ZN
2
N p pA
1 N ppmps1 p m s
m
s
Het aantal A is volgens de aanname H0 binomiaal verdeeld met verwachtingswaarde N pm ps . Als N naar
oneindig gaat, convergeert deze dus naar een normale verdeling. Het kwadraat A N pm ps 2 convergeert
dan naar de χ12 -verdeling, als dit kwadraat correct geschaald wordt door deling door de variantie. Wegens
afhankelijkheid tussen A, pm en ps mogen we hiervoor echter niet N pm ps 1 pm ps nemen, maar moeten
we het kleinere bedrag N pm ps 1 pm 1 ps nemen.
Met de cijfers van de tabel en het resultaat van deze stelling kunnen we de toets uitvoeren. We vinden
Z550 2
300 380 450
550 6811 380 450
550
Het aanvaardingsgebied op het 5%-niveau is [0, 3.841] en op het 1%-niveau [0, 6.635]. We verwerpen de
nulhypothese dus met een betrouwbaarheid van (meer dan) 99%; om precies te zijn, de overschrijdingskans
of significantie is 0.0091 .
Deze toets kan eenvoudig uitgebreid worden naar problemen met 3 of meer rijen en/of kolommen.
Hiervoor verwijzen we naar de literatuur.
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
117
4.5 De Kolmogorov-Smirnov Toets
Gegeven metingen x1 x2 xn oftewel onafhankelijke trekkingen uit een (reële) stochastische variabele
X , dan kunnen we de empirische verdelingsfunctie Fn definiëren als
0
#xi x k
n
Fn x :
n
1
als
x y1 als
yk x yk1 als
x yn (4.63)
waarby y1 yn de gesorteerde data zijn.
Als we aan de hand van de metingen willen toetsen, of de theoretische verdelingsfunctie van X gelijk
is aan F, kunnen we de data indelen in klassen en vervolgens een χ2 –toets doen. Een elegante methode die
rechtstreeks de grafieken van de empirische verdelingsfunctie Fn met de theoretische verdeling F vergelijkt,
stamt van Kolmogorov en Smirnov.
1
n = 15
Kolmogorov-Smirnov Toetsgrootheid: 0.205
0.8
0.6
0.4
0.2
0
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
Figuur 4.9: De normale verdeling en de empirische verdelingsfunctie van 15
normaalverdeelde random getallen.
Zonder bewijs vermelden we:
Stelling (Glivenko) lim max Fn x F x 0.
n ∞
x
Het idee achter het bewijs is hetvolgende: Laten X1 X2 Xn onafhankelijke kopieën zijn, zodat de metingen x1 xn een realisatie zijn van X1 Xn . Bij iedere X j en iedere x definiëren we de stochastische variabele Wj (als functie van x) door Wj x 1 als X j x en W j x 0 als X j x . W j is dus voor
iedere x een Bernoulli-experiment, Wj x B1 F x . Het gemiddelde is
W n x :
1 n
#Xi x
W j x n j∑
n
1
met nW n x Bn F x
(4.64)
Het is duidelijk, dat Fn x een realisatie is van W n x bij de gegeven serie metingen.
De verwachtingswaarde en variantie van Wn x zijn dus:
E W n x F x
en
VarW n x 1
F x1 F x
n
(4.65)
HOOFDSTUK 4. INLEIDING TOT DE STATISTIEK
118
Kritische grenzen voor de Kolmogorov-Smirnov toets
n
α
020
α 010
α 005
α 001
1
2
3
4
5
6
7
8
9
10
12
15
20
25
30
35
40
45
0.90
0.68
0.56
0.49
0.45
0.41
0.38
0.36
0.34
0.32
0.30
0.27
0.23
0.21
0.19
0.18
0.17
0.16
0.95
0.78
0.64
0.56
0.51
0.47
0.44
0.41
0.39
0.37
0.34
0.30
0.26
0.24
0.22
0.21
0.19
0.18
0.98
0.84
0.71
0.62
0.56
0.52
0.49
0.46
0.43
0.41
0.38
0.34
0.29
0.26
0.24
0.23
0.21
0.20
0.99
0.93
0.83
0.73
0.67
0.62
0.58
0.54
0.51
0.49
0.45
0.40
0.35
0.32
0.29
0.27
0.25
0.24
n groot
107
n
122
n
136
n
163
n
Tabel 4.5:
Volgens de wet van de grote getallen geldt
P W n x F x ε n1 ε 2 F x1 F x 0 als n ∞ Hieruit kunnen we concluderen, dat Fn x dus naar F x convergeert als n ∞ .
De Kolmogorov-Smirnov toets test de nulhypothese of de verdelingsfunctie van X gelijk is aan F tegen
het alternatief, dat dit niet het geval is. Daartoe wordt de toetsgrootheid dn bepaald door
dn : max Fn x F x x
max
max F xk max k
k
n
k
k1
n
F xk (4.66)
We verwerpen de nulhypothese, als dn groter is dan de kritische waarde volgens de volgende tabel:
Een alternatieve methode is het maken van een p-p– of q-q–plot. In een p-p–plot worden de theoretische kansen PX yi uitgezet tegen ni 1 , dus tegen de fractie experimentele data links van yi . In een
q-q–plot worden de theoretische quantielen uitgezet tegen de experimentele. Als de grafiek een goede benadering is van de rechte y x, dan zal de toetsgrootheid in de Kolmogorov-Smirnov-statistiek klein zijn en
hebben we (in principe) een goede benadering.
Hoofdstuk 5
Correlatie- en regressieanalyse
Algemeen wordt aangenomen, dat er een verband is tussen de lengte van ouders en die van hun (volwassen)
kinderen. Om kwantitatieve resultaten betreffende dit verband te verkrijgen, bestudeerde F. Galton (18221911) (onder andere) de dataset uit de volgende tabel, waarin voor 205 ouderparen en hun 928 volwassen
kinderen de aantallen kinderen in iedere lengteklasse zijn uitgezet tegen de lengte van hun ouders. Omdat
mannen gemiddeld 8% groter zijn dan mannen is de lengte van vrouwen met 1.08 vermenigvuldigd. De
lengte van de ouders is dan een gewogen gemiddelde van de lengten van de vader en de moeder,
ouder-lengte : 12 vader-lengte 108 moeder-lengte
kinderlengte
kleiner
157.0
159.5
162.0
164.5
167.0
169.5
172.0
174.5
177.0
179.5
182.0
184.5
groter
ouderlengte
groter
0
0
0
0
0
0
0
0
0
0
0
1
3
0
182.5
0
0
0
0
0
0
0
1
2
1
2
7
2
4
180.0
0
0
0
0
1
3
4
3
5
10
4
9
2
2
177.5
1
0
1
0
1
1
3
12
18
14
7
4
3
3
175.0
0
0
1
16
4
17
27
20
33
25
20
11
4
5
172.5
1
0
7
11
16
25
31
34
48
21
18
4
3
0
170.0
0
3
5
14
15
36
38
28
38
19
11
4
0
0
167.5
0
3
3
5
2
17
17
14
13
4
0
0
0
0
165.0
1
0
9
5
7
11
11
7
7
5
2
1
0
0
162.5
1
1
4
4
1
5
5
0
2
0
0
0
0
0
kleiner
1
0
2
4
1
2
2
1
1
0
0
0
0
0
Tabel 5.1: Galton’s dataset. Bij iedere lengteklasse van ouders is het aantal kinderen per lengteklasse gegeven.
Uit tabel 5.1 en figuur 5.1 zien we, dat de lengteverdeling van de groep kinderen met dezelfde ouderlengte (rijen in de tabel) min of meer normaal is, en dat dit ook geldt voor de lengteverdeling van een
groep ouders met kinderen van dezelfde lengte (kolommen in de tabel). Als we de gemiddelde lengte van
de kinderen en de standaardafwijking daarin uitzetten tegen de lengte van hun ouders, krijgen we grafiek
5.2 als resultaat. Uit deze figuren zien we, dat de gemiddelde lengte van kinderen met ouders in dezelfde
lengteklasse ongeveer op een rechte lijn liggen en dat de standaardafwijking in deze gemiddelden ongeveer
constant is. De lengte van een ouderpaar en de lengte van een kind van dat paar zijn stochastische variabelen,
die kennelijk niet onafhankelijk zijn. Laten we ze aanduiden met Xi resp. Yi , dan vermoeden we op grond
119
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
rij 7
40
30
20
20
10
10
160
kolom 8
40
30
0
150
120
170
180
0
150
190
160
170
180
190
Figuur 5.1: Rij 7 en kolom 8 van bovenstaande tabel getekend als histogram.
180
o
170
o
o
o
o
o
o
o
o
4
o
2
o
o
160
o
o
o
o
o
o
o
6
o
160
170
0
180
160
170
180
Figuur 5.2: De gemiddelde kinderlengte (links) en de standaardafwijking (rechts) als functie van
de ouderlengte.
van figuur 5.2 een verband tussen x en de voorwaardelijke kansverdeling voor PY X
& '
E Yi Xi x a bx
x van de vorm:
(5.1)
en we vragen ons af, hoe we a en b zouden kunnen schatten. Aangezien de variantie onafhankelijk van x
lijkt, ligt het voor de hand om te proberen dit zo te doen, dat (een veelvoud van) de totale steekproefvariantie
n
∑
i1
& Yi E Yi Xi xi
'2
n
∑ Yi a bxi2
i1
(5.2)
minimaal is. In de praktijk hebben we n koppels metingen xi yi i 1 n, waartussen een lineair
verband wordt vermoed: yi a bxi en leidt dit dus tot zoeken van de parameters a b die (een veelvoud
van) de empirische variantie ∑ni1 yi a bxi 2 minimaliseren. Merk op dat het minimaliseren van deze
som van kwadraten overeenkomt met het maximaliseren van de logaritme van de likelihoodfunctie onder de
aannname van normaliteit, zie (4.6). Meetkundig is dit de som van de kwadraten van de afstanden van de
punten xi yi tot de rechte a bx gemeten langs de Y -as. De best passende rechte a bx wordt vaak de
“regressierechte” genoemd met “intercept” a en helling b. In figuur 5.2 merken we op dat de gemiddelde
lengte van kinderen van grote ouders kleiner is dan de lengte van de ouders, terwijl de gemiddelde lengte
van kinderen met kleine ouders juist groter is. Dit verschijnsel, dat het gemiddelde van een deelgroep terug
schuift naar het algemene gemiddelde van de populatie, werd door Galton “regressie” genoemd. Als we
precies zijn noemen we dit regressie van Y op X, waarbij X als de onafhankelijke en Y als de afhankelijke
variabele wordt gezien.
We kunnen het probleem natuurlijk ook omdraaien en de regressie van X op Y zoeken, d.w.z. een
verband zoeken van de vorm
& '
(5.3)
E Xi Yi y c dy
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
121
Hierbij minimaliseren we ook (een veelvoud van) de totale steekproefvariantie
n
∑ Xi c dyi2 (5.4)
i1
Dit zal niet het inverse resultaat geven van (5.1-5.2), omdat we voor (5.2) de som van kwadraten van de
afstanden van de punten xi yi tot de lijn a bx meten langs de Y -as, terwijl we voor (5.4) de afstanden
meten langs de X-as.
5.1 Kleinste-kwadratenproblemen
(Eng. least squares, Fr. moindres carrés)
Problemen van de vorm (5.1-5.3) worden in het algemeen kleinste-kwadratenproblemen genoemd. Hierbij
zijn n koppels metingen xi yi i 1 n gegeven, die zouden moeten voldoen aan het lineaire verband
yi a bxi (voor regressie op x). Tengevolge meetfouten en/of variabiliteit van het specimen zullen de data
echter afwijkingen van het ideaal vertonen. We proberen daarom parameters a en b te vinden die de som
van de kwadraten van de afwijkingen J a b minimaliseert:
n
J a b : ∑ yi a bxi 2 (5.5)
i1
M.a.w. vindt de parameters a b zodat
J a b J a b
a b 2 (5.6)
Er zijn naast het bovenbeschreven voorbeeld vele andere voorbeelden te geven, die als een kleinste-kwadratenprobleem geformuleerd kunnen worden, zoals:
x
i
:
yi :
x
spanning over een weerstand
i
stroom door die weerstand
:
yi :
luchttemperatuur
geluidsfrequentie van een krekel
De eenvoudigste oplosmethode voor (5.6) gaat via de normaalvergelijkingen . J is een som van kwadraten
en dus altijd positief. Als J een minimum heeft in a b, dan zijn de partiële afgeleiden er nul:
J a b minimaal
zodat
∂J
a b
∂a
∂J
a b
∂b
We vinden zo het stelsel vergelijkingen
∂J
∂a
0
en
∑ni1 2yi a bxi
∂J
∂b
0
∑ni1 2xi yi a bxi 0
b ∑ni1 xi
∑ni1 yi a ∑ni1 xi
b ∑ni1 x2i
∑ni1 xi yi n
∑ni1 xi
(5.7)
0
an
In matrix-vector vorm geschreven is dit
∑ni1 xi
a ∑ni1 x2i
b
∑ni1 yi
∑ni1 yi xi
(5.8)
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
met als oplossing:
a
b
1
n ∑i x2i ∑i xi
2 122
∑i xi ∑i x2i
∑i xi
∑i yi
(5.9)
∑i yi xi
n
Deze formules voor de berekening van ab zijn potentieel gevaarlijk wegens numerieke instabiliteit als het
gemiddelde x : 1n ∑i xi groot is t.o.v. de spreiding sx in xi ,
s2x :
1
xi x2 n 1 1
n
1 ∑
i
∑ x2i nx2
i
en hetzelfde voor het gemiddelde van yi en de spreiding daarin. De reden is dat bij de aftrekking
∑ x2i
nx2
groot cijferverlies kan ontstaan als beide operanden van ongeveer gelijke grootte zijn. Dezelfde opmerking
is ook al gemaakt in 1.2 bij de bespreking van formule (1.5).
5.2 Meetkundige interpretatie
We kunnen de vectoren
x 1
x
2
x : . .. y 1
y
2
y : . .. xn
en
1
1
e : . .. 1
yn
als vectoren in beschouwen. De som van kwadraten
n
n
J a b ∑ yi a bxi 2
i1
is dan precies het kwadraat van de (Euclidische) lengte van de verschilvector
a
y ae bx y A
1
1
A : .
..
waarbij A een n 2-matrix is,
a
De lengte van de verschilvector y A
A; d.w.z.:
b
1
x1
n2
xn
is minimaal als deze loodrecht staat op de beeldruimte ImA van
a
y
A
ofwel, met als notatie voor het inprodukt,
x2 .. . b
w y
A
b
a
b
vecte x
0
w ImA
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
Aangezien ImA A z z 2 geldt dus
Az y A
a
b
0
123
z 2 We mogen A getransponeerd naar de andere zijde van het inprodukt overbrengen, zodat
z A y
A A
T
T
a
b
0
z 2
en zo vinden we opnieuw de normaalvergelijkingen van (5.8):
T
A A
a
b
AT y
(5.10)
Dit heten
a de normaalvergelijkingen behorende bij het kleinste-kwadratenprobleem (5.6) omdat het residu
y A b normaal is (= loodrecht staat) op ImA.
5.3 Verbetering van de numerieke stabiliteit
Zoals gezegd kan de berekening van a en b met behulp van de normaalvergelijkingen tot desastreuze resultaten leiden t.g.v. numerieke instabiliteit van de formules. In een kleinste-kwadratenprobleem met twee
variabelen is dit eenvoudig te voorkomen door de data te verschuiven zodat hun gemiddelde nul is:
In plaats van het model yi a bxi werken we beter met het model
yi y α β xi x
y :
1
yi n∑
i
x :
1
xi
n∑
i
(5.11)
In dit geval moeten we de functie
n
J α β : ∑ yi y α β xi x2
i1
minimaliseren, hetgeen zoals boven leidt tot de normaalvergelijkingen
n
0
zodat
0
∑ni1 xi x2
α 0
α β en
β
0
∑ni1 xi xyi y
n
∑i∑1 nxi xx
yxi
2 y
i1
(5.12)
(5.13)
i
Met de volgende meetkundige interpretatie kunnen we aanemelijk maken, waarom dit beter is. In plaats van
de basis e x hebben we in ImA de orthogonale basis
e x xe
x1 x 1
x
x
1
2
: . . .. .. 1
x x
n
gekozen. Dit maakt de berekening van de projektie niet alleen gemakkelijker, maar ook nauwkeuriger.
Bovendien staat de vector y ye loodrecht op e zodat het probleem tot één dimensie is teruggebracht.
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
124
Regressie van x op y:
Merk op, dat we voor de regressie van x op y, waarbij we ∑i xi x γ δ yi y2 minimaliseren, het
analoge resultaat vinden:
∑n x xyi y
γ 0 en δ i1 n i
∑i1 yi y2
Hieruit zien we, dat de richtingscoëfficiënten β en δ niet elkaars inversen zijn, maar dat voor hun produkt
geldt β δ ρ 2 , waar ρ de empirische correlatiecoëfficiënt is (zie (2.68)). Als de correlatie nul is, valt er dus
geen regressierechte te trekken, en als de correlatie 1 is, liggen alle punten precies op deze rechte.
In het algemene geval van een lineair kleinste-kwadratenprobleem voor een gegeven matrix A mn en
een rechterlid b m met m n zoeken we een vector x zodat
Ax b22 Ax b22 x n (5.14)
De normaalvergelijkingen hebben opnieuw de vorm (5.10) maar zijn potentieel niet numeriek stabiel. Beter
is het om een QR-ontbinding van A te maken; dit is een ontbinding van A in een produkt van een orthogonale
matrix Q en een bovendriehoeksmatrix R, zodat A QR. De oplossing kan dan eenvoudig berekend worden
uit de vergelijking Rx QT b. Voor details verwijzen we naar een standaard inleidend boek over Numerieke
Analyse (b.v. dat van Bulirsch & Stoer).
5.4 Een stochastisch model met één onafhankelijke variabele
Voor metingen maken we vaak het model
Y
a bx ε
met
ε N 0 σ (5.15)
waarin ε een random fout (meetfout of variatie in het specimen) representeert. Als we n onafhankelijke
metingen doen van de grootheid Y voor n verschillende waarden van x om de parameters a en b te schatten,
dan is de volgende stelling van toepassing; we vermelden deze zonder bewijs.
Stelling 5.4.1 Laten Y1 Y2 Yn met Yi N a bxi σ onafhankelijke stochastieken zijn voor gegeven
waarden van x1 xn , dan geldt:
1. De schatters A, B en S, gedefinieerd door
A : Y Bx
∑ni1 xi xYi Y B :
∑ni1 xi x2
n
1
Y A Bxi2
S2 :
∑
n 2 i1 i
(5.16)
zijn zuivere (unbiased) schatters voor a, b en σ2 ; Y B en S2 zijn onderling onafhankelijk.
2. A en B zijn normaal verdeeld met verwachtingswaarden E A a en E B b en met varianties
VarB 3. De variabele
4. De variabele
n 2S2 is χ 2
σ2
n2
σ2
∑ni1 xi x2
VarA σ 2 ∑ni1 x2i
n ∑ni1 xi x2
(5.17)
verdeeld met n
2 vrijheidsgraden.
B b
T :
is student-tn2 verdeeld met n 2 vrijheidsgraden.
∑ni1 xi x2
S
(5.18)
HOOFDSTUK 5. CORRELATIE- EN REGRESSIEANALYSE
125
We merken op, dat A en B precies de schatters voor de kleinste-kwadratenoplossingen (5.9) of (5.13) zijn.
Formule (5.18) stelt ons in staat om betrouwbaarheidsintervallen op te geven rond de kleinste-kwadratenschatting. Als we op grond van een serie metingen een schatting s vinden van de standaardafwijking en
bx berekenen, dan is het betrouwbaarheidsinterval rond y( op het
de kleinste-kwadratenoplossing y( : a( (
niveau α (met betrouwbaarheid 1 α ) gegeven door
y(
w y( w met
w : tn2 1 1 α s
#
1
x x2
n ∑ni1 xi x2
2
(5.19)
Voor x 0 staat hier dus het betrouwbaarheidsinterval rond het intercept a(. Om te toetsen, of het intercept
nul is op het niveau α hoeven we dus slechts te onderzoeken of 0 in dit BI interval ligt.
b construeren en een
Met behulp van formule (5.18) kunnen we ook een betrouwbaarheidsinterval rond(
t-toets maken om te zien of de helling significant is. Het BI op niveau α is:
(b wb (b wb met
wb :
t
nn 2 1
s
1
2α
∑i1 xi x2
(5.20)
Tenslotte kan het interessant zijn, te weten hoe groot het interval rond y( is waarbinnen een volgende
(onafhankelijke) waarneming yx met kans 1 α gaat vallen. Dit noemen we het “prediction interval”. De
waarneming is een trekking uit de stochast Y x, die onafhankelijk is van Y1 Yn . We schatten Y x met
de schatter A Bx. Deze schatter is zuiver, want
E Y x A B x E Y x E A B x 0 Voor de variantie vinden we:
VarY x A B x VarY x VarY VarB x x σ
We vinden zo het (grotere) prediction interval
y(
w pr y( w pr met
w pr : tn2 1 1 α s
Hierbij is s de schatting (de gemeten waarde) van σ .
2
#
2
1
x x2
1 n
n ∑i1 xi x2
1
x x2
1 n
n ∑i1 xi x2
(5.21)
6. Oefeningen
Reeks 1
1.1:
Veel diersoorten worden bedreigd, zo ook de walvis. Regelmatig worden er uitermate moeilijke en
daarom ook niet geheel betrouwbare tellingen uitgevoerd. Dit leverde de volgende tabel op voor 7 soorten
walvissen, gemeten in 1980. Daarnaast zijn er ruwe schattingen over de oorspronkelijke aantallen walvissen:
soort walvis
gemid. lengte freq. in 1980 oorspr. freq.
volw. walvis
(geschat)
gewone vinvis
28.0
145000
428000
noordse vinvis
20.0
175000
210000
blauwe vinvis
34.0
11000
156000
dwergwalvis
23.0
9000
7500
bultrug
18.0
6300
110000
grijze walvis
11.5
11000
20000
dwergvinvis
15.5
150000
150000
a. Bepaal aan de hand van de kolom “gemiddelde lengte van volwassen walvissen” het gemiddelde, de
modus, de mediaan, de variantie en de standaardafwijking van de gemiddelde lengte van 7 volwassen
walvissen, van ieder soort één.
b. Bepaal het “gewogen gemiddelde” van de lengten van volwassen walvissen in 1980, als we er van uitgaan
dat voor alle soorten het percentage volwassen dieren hetzelfde was.
c. Sorteer de gegevens in oplopende oorspronkelijke frequentie. Maak kolomdiagrammen van de oorspronkelijke frequentie en van de frequentie in 1980 en vergelijk deze met elkaar. Welke walvissoort is het
sterkst in aantal verminderd? Vergelijk daarna de kolom diagrammen van de relatieve frequenties, oorspronkelijk en in 1980, met elkaar. Welke conclusies trek je hieruit?
d. Maak een nieuwe kolom met de verschilfrequentie: (oorspronkelijke frequentie - frequentie 1980). Bepaal van deze verschil frequentie het gemiddelde en de variantie. Wat is het verband tussen het gemiddelde van de verschilfrequentie en de gemiddelden van de oorspronkelijke frequentie en de frequentie in
1980? Wat is het verband tussen de variantie van de verschilfrequentie en de varianties van de oorspronkelijke frequentie en de frequentie in 1980?
1.2:
Men heeft een steekproef van 53 metingen van het stikstofgehalte van een bepaalde soort kunstmest. Het stikstofgehalte is uitgedrukt in gewichtsprocenten; de gegevens zijn afgerond op tienden van
gewichtsprocenten:
15.7
17.5
16.4
17.5
17.9
17.0
16.8
19.2
18.3
17.0
16.5
18.0
15.9
17.7
15.6
17.5
17.6
17.4
18.6
18.3
17.4
16.1
16.5
17.7
16.7
16.6
15.8
17.9
18.0
16.7
16.9
16.8
15.5
18.5
16.2
17.1
17.2
18.2
16.3
17.2
17.5
17.1
18.9
16.8
17.3
16.1
18.0
17.0
17.3
17.5
17.4
16.9
18.1
a. Bepaal aan de hand van deze steekproef het gemiddelde stikstofgehalte van de kunstmest, de modus, de
mediaan en de standaardafwijking.
b. Selecteer de waarnemingen met een stikstofgehalte van 18 gewichts% en hoger en bepaal hiervan gemiddelde en standaardafwijking.
c. Maak van de 53 waarnemingen een frequentietabel met 13 klassen, maak een bijbehorend histogram
en een bijbehorende cumulatieve verdelingsfunktie. Bekijk hoe de keuze van het aantal klassen, de
klassebreedte en de begin- en eindwaarden van de klassen van invloed zijn op het histogram.
d. Maak een empirische verdelingsfunktie van deze 53 metingen.
126
6. Oefeningen , Reeks 1
127
e. Ga er nu vanuit dat deze metingen gedaan zijn aan twee weinig van elkaar verschillende typen kunstmest,
type A en type B. De even metingen (meting 2, 4, 6,) behoren bij type A, de oneven metingen (meting
1, 3, 5,) horen bij type B. Bepaal het gemiddelde stikstofgehalte en de variantie van kunstmest A,
evenzo van kunstmest B. Teken ook een box-plot voor beide groepen.
1.3:
Van 200 monsters van een meststof is het stikstofgehalte gemeten, de resultaten zijn opgenomen in
onderstaande frequentietabel. Bereken hieruit het gemiddelde, de modus, de mediaan en de standaardafwijking van het stikstofgehalte. Maak een histogram van deze gegevens.
N-gehalte in % aantal monsters
] 15.5 – 16.5 ]
6
] 16.5 – 17.5 ]
16
] 17.5 – 18.5 ]
22
] 18.5 – 19.5 ]
38
] 19.5 – 20.5 ]
44
] 20.5 – 21.5 ]
30
] 21.5 – 22.5 ]
18
] 22.5 – 23.5 ]
12
] 23.5 – 24.5 ]
8
] 24.5 – 25.5 ]
6
1.4:
De voorlopige eindcijfers voor statistiek in juni 1996 waren de volgende:
9
15
6
14
17
8
14
13
a.
b.
c.
d.
e.
18
15
8
12
8
15
15
14
18
17
14
11
7
13
12
13
13
18
13
9
7
12
7
3
18
4
12
6
6
11
14
6
17
16
11
19
16
5
9
11
6
11
13
15
13
7
10
9
10
7
13
16
10
13
4
7
7
15
10
3
7
9
7
7
7
16
15
6
13
13
11
18
12
7
1
15
13
7
16
13
Bepaal gemiddelde, mediaan en modus.
Bepaal spreiding, interkwartiel en MAD.
Bepaal de 10%- en 90%-percentielen.
Teken een histogram met klassemiddens 1.5, 3.5, 5.5, etc. en klassebreedte 2.
Teken een box-plot voor deze data.
1.5:
Bij het bekende experiment van Rutherford en Geiger betreffende radioactief verval uit de begindagen van de studie van radioactiviteit werd gedurende 2608 tijdsintervallen van 8 minuten het aantal desintegraties geteld in een stukje radioactief polonium (zie syllabus, hoofdstuk 13). De gegevens zijn hieronder
overgenomen. Bepaal het gemiddelde aantal desintegraties per tijdsinterval van 8 minuten en bepaal de
spreiding ervan.
aantal α -deeltjes per
tijdsinterval van 8 min
0
1
2
3
4
5
6
7
8
9
10
11
waargenomen aantal
tijdsintervallen
57
203
383
525
532
408
273
139
45
27
10
6
6. Oefeningen , Reeks 1
nummer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
tot.lengte
155
156
160
152
160
155
157
165
153
162
162
159
159
155
162
152
159
155
163
163
156
159
161
155
162
153
162
164
156
154
153
153
155
163
157
155
164
158
158
160
161
157
157
156
158
153
155
163
159
128
spanwijdte
240
240
242
232
250
237
245
245
231
239
243
245
247
243
252
230
242
238
249
242
237
238
245
235
247
237
245
248
245
240
240
236
243
247
238
239
248
238
240
244
246
245
235
237
244
238
236
246
236
kop+bek
31.4
31.5
32.6
30.3
31.7
31.0
32.2
33.1
30.1
30.3
31.6
31.8
30.8
30.9
31.9
30.4
30.8
31.2
33.4
31.0
31.7
31.5
32.1
30.7
31.9
30.6
32.5
32.3
31.6
30.4
31.0
30.9
31.5
32.0
30.9
32.8
32.7
31.0
31.1
31.1
32.3
32.0
31.5
30.9
31.4
30.5
30.3
32.5
31.5
humerus
18.0
18.2
18.8
17.2
18.8
18.5
19.5
19.8
17.3
18.0
18.8
18.5
18.1
18.5
19.1
17.3
18.2
17.9
19.5
18.1
18.2
18.4
19.1
17.7
19.1
18.6
18.5
18.8
18.5
17.9
18.4
17.7
18.6
19.0
18.4
18.6
19.1
18.8
18.6
18.6
19.3
19.1
18.1
18.0
18.5
18.2
18.5
18.6
18.0
sternum
20.7
20.6
21.7
19.8
22.5
20.0
21.4
22.7
19.8
23.1
21.3
21.7
19.0
21.3
22.2
18.6
20.5
19.3
22.8
10.7
20.3
20.3
20.8
19.6
20.4
20.4
21.1
20.9
20.5
19.6
20.6
20.2
20.3
20.9
20.2
21.2
21.1
22.0
22.0
20.5
21.8
20.0
19.8
20.3
21.6
20.9
20.1
21.9
21.5
toestand
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
dood
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
levend
1.6:
Een bekende historische dataset uit de biologie is de verzameling metingen van Bumpus van lichaamskarakteristieken van een aantal dood gevonden en levend gevangen (volwassen) mussen uit 1898.
Neem deze data over in een Statview-, SPSS- of Excelfile
(zie voor datafiles).
a. Bepaal het steekproefgemiddelde en de spreiding (standaarddeviatie) in de vijf gemeten grootheden.
b. Bepaal de modus, de mediaan en het interkwartiel van de kolommen “totale lengte” en “spanwijdte” en
maak boxplots van beide datasets. Geef nauwkeurig de afmetingen van de verschillende elementen van
deze boxplots aan.
6. Oefeningen , Reeks 1
129
c. Maak histogrammen van de vijf grootheden; gebruik 9 deelintervallen.
d. Uit het histogram van de sternumlengten zien we dat er een sterk afwijkende meting is. Het lijkt waarschijnlijk dat dit een meet- of typefout is. Verwijder deze meting en bepaal opnieuw het gemiddelde, de
mediaan, de spreiding en het interkwartiel. Welke van deze grootheden zijn veel en welke nauwelijks
veranderd?
e. Maak een gewogen gemiddelde van de vijf kolommen, waarbij iedere kolom wordt gewogen met het
inverse van zijn gemiddelde, en bepaal opnieuw het gemiddelde, de mediaan, de spreiding en het interkwartiel.
f. Maak de covariantie- en de correlatiematrix van deze dataset.
1.7:
Gegeven zijn de vijf “metingen” 1 2 3 4 5 van de grootheid X; dus xk k k 1 5.
a. Bepaal het gemiddelde x en de standaardafwijking sx , de mediaan mx en het interkwartiel Ix .
b. We transformeren deze data met de functie f x : x2 , zodat yk k2 k 1 5. Bepaal het gemiddelde
y en de standaardafwijking sy en vergelijk deze met f x en sx f x , en vergelijk dit met de formules
(1.15–17) in de syllabus.
c. doe hetzelfde met de mediaan my en het interkwartiel Iy .
Herhaal deze berekeningen met de data 28 29 30 31 32.
Wat is het verschil met de vorige dataset?
1.8:
In een steekproef van 20 onafhankelijke waarnemingen van X vinden we de volgende waarden:
4 5 8 0 1 5 7 0 4 1 4 7 6 9 8 5 1 7 4 3
Bepaal de modus en de mediaan en teken een Boxplot van deze data. Geef nauwkeurig de afmetingen van
de verschillende elementen van deze boxplot aan.
1.9:
Gegeven zijn n metingen x1 xn en yi : f xi i 1 n voor een gegeven gladde functie
f.
Bewijs dat de mediaan medx de functie g ∑ni1 xi g minimaliseert.
Bepaal vervolgens (zie syllabus formule 1.18) voorwaarden waaronder geldt f medx medy en
f medx n
1 n
yi f medx ∑
∑ xi medx n i1
n
i1
6. Oefeningen , Reeks 2
130
Reeks 2
2.1:
Voor de gebeurtenissen A en B is gegeven PA 34 en PB 45 . Bepaal, indien mogelijk, PA B
als verder gegeven is:
a. A en B zijn onafhankelijk,
b. PA B 35 ,
c. PA B 12 ,
d. PB A 13 .
2.2:
In doos een zitten negen witte knikkers en een rode en in doos twee zitten vijf rode en twee witte.
Als je willekeurig een doos neemt en hieruit ongezien een knikker pakt,
a. wat is dan de kans op een witte knikker?
b. wat is de kans dat deze witte knikker uit doos een kwam?
2.3:
Bij het klaverjassen wordt met 4 spelers gespeeld. Je hebt een vaste maat, die tegenover je zit.
Alleen de kaarten 7 8 9 10 B V H A worden in het spel gebruikt. De overige worden geschud en op een
apart stapeltje gelegd. Bij ieder nieuw spel wordt de bovenste kaart van dit stapeltje genomen (zonder
teruglegging) en bepaalt deze de troefkleur.
a. Wat is dan de kans dat een speler hartenboer en hartenaas krijgt?
b. Wat is de kans dat harten troef is in het derde spel, als dit ook in de eerste twee spelen het geval was?
c. Wat is de kans dat mijn maat geen troef heeft als ik er zelf vier heb?
2.4:
Ik heb twee stukken van 2 Euro op zak en gooi met een ervan. Deze laat de muntzijde zien. Een
grapjas heeft echter (zonder dat ik dat gezien heb) op een van de munten de afbeelding van Albert vervangen
door de 2 Euro afbeelding.
a. Bepaal de kans dat de onderzijde van deze munt de beeldenaar van Albert laat zien.
b. Ik gooi een tweede maal met dezelfde munt en zie opnieuw de muntzijde. Wat is nu de kans dat met de
betreffende munt niet geknoeid is.
2.5:
We gooien met een rode en een groene dobbelsteen (tegelijk) en we definiëren de gebeurtenissen
A, B, en C door:
a. A : De rode steen is oneven,
b. B : De groene steen is oneven,
c. C : De som van de rode en groene steen is oneven.
Laat zien dat deze drie gebeurtenissen twee aan twee onafhankelijk zijn, maar dat A, B en C niet gedrieën
onafhankelijk zijn (dat de derde afhankelijk is van de andere twee)
2.6:
Een televisiepresentatrice doet tijdens een show een spel. Zij werpt tweemaal met een “eerlijke”
munt, maar houdt het resultaat verborgen. Zij vertelt slechts, dat de uitslag minstens eenmaal “kop” was en
laat iemand uit het publiek (zeg Louis) raden wat de uitslag van de andere munt was.
a. Wat kan Louis het beste antwoorden en waarom? (d.w.z. bereken de kans, dat het antwoord “kop” resp.
“munt” juist is)
b. Wat is de kans op een goed antwoord, als zij bovendien vertelt dat het resultaat “kop” in de tweede beurt
werd gegooid?
2.7:
Een massieve kubus, gemaakt van een wit materiaal, wordt aan de buitenkant volledig zwart geschilderd en daarna in 4 4 4 kubusjes van gelijke grootte gesneden. Deze 64 kubusjes worden grondig gemengd. Bereken de kans dat een lukraak gekozen kubusje juist 2 zwarte vlakjes heeft.
2.8:
Men heeft 2 dobbelstenen, een rode en een blauwe. Bereken als men éénmaal gooit met deze twee
dobbelstenen de volgende kansen:
a.
b.
c.
d.
P(2 énen)
P(minstens 1 één)
P(rode steen een 1 of blauwe steen een 6)
P(rode steen een 1 of som van de ogen van beide stenen is 5)
6. Oefeningen , Reeks 2
131
e. P(rode steen een 1 som van de ogen van beide stenen is 6)
f. P(rode steen een 1 en som van de ogen is 5)
2.9:
We bekijken het volgende electrische schema:
b1
M
a
b2
N
b3
A is de gebeurtenis dat het element a geen stroom doorlaat. Bi is de gebeurtenis dat het element bi geen
stroom doorlaat, (i 1, 2 of 3). De kans op gebeurtenis A is PA 02 en de kans op gebeurtenis Bi is
PBi i4 (i 1, 2 of 3); de gebeurtenissen A en Bi zijn stochastisch onafhankelijk.
a. Bereken de kans dat er geen stroom loopt tussen M en N.
b. Bereken de kans dat er minstens langs één weg stroom loopt van M naar N.
2.10: Gegeven zijn 3 gebeurtenissen A, B en C. Vindt uitdrukkingen in termen van de verzamelingen
(gebeurtenissen) A, B en C en de operatoren , en complement voor het geval dat:
a. alleen A optreedt
b. A en B, maar niet C optreden
c. A, B en C optreden
d. tenminste één van de drie optreedt
e. tenminste twee van de drie optreden
f. geen enkele van de drie optreedt
g. precies één van de drie optreedt
h. niet meer dan twee optreden.
2.11: Laat Ω de uitkomstenruimte zijn van een experiment en laten A en B Ω twee gebeurtenissen zijn.
a. Wanneer zijn A en B onafhankelijk?
b. Bewijs dat onafhankelijkheid van A en B eveneens onafhankelijkheid van Ac en Bc impliceert.
2.12: Een onderzoeker test mensen op kleurenblindheid door ze een aantal kaartjes, alle verschillend van
kleur, in even zoveel doosjes te laten stoppen. Bij elk kaartje hoort precies één doosje van dezelfde kleur.
De onderzoeker verklaart iemand kleurenblind als hij niet ieder kaartje in het bijbehorende doosje gestopt
heeft. De veronderstelling van de onderzoeker hierbij is dat iemand die kleurenblind is elk kaartje aselect in
één van de nog lege doosjes zal stoppen.
a. Het experiment wordt met drie doosjes uitgevoerd. Hoe groot is de kans dat, onder de veronderstelling
van de onderzoeker, een kleurenblinde elk kaartje in het juiste doosje zal doen en dus niet als kleurenblinde herkend zal worden.
b. Hoe groot moet het aantal doosjes minstens zijn om de kans dat een kleurenblinde niet als zodanig
herkend wordt, kleiner dan 1% te laten zijn?
c. Als we er van uitgaan dat 1% van de mensen kleurenblind is, hoe groot moet de kleinst mogelijke
steekproef dan zijn, opdat de kans dat deze minstens één kleurenblinde bevat groter of gelijk is aan 0.95?
2.13: Iedere boerenzwaluw komt gewoonlijk naar dezelfde plaats terug en gebruikt vaak het nest van het
vorig jaar. De kans dat beide ouders echter zowel de najaars- als de voorjaarstrek overleven is slechtséén
op vijf.
Als we aannemen dat de voorjaarstrek en de najaarstrek verhoudingsgewijs evenveel slachtoffers kosten, en
dat het overleven van de voorjaarstrek en het overleven van de najaarstrek onafhankelijke gebeurtenissen
zijn, hoe groot is dan het percentage boerenzwaluwen dat één trek overleeft?
2.14: Is de kans om met één dobbelsteen in 6 worpen precies één zes te gooien even groot als de kans om
in 12 worpen precies twee zessen te gooien?
2.15:
In de veronderstelling dat er evenveel meisjes als jongens geboren worden, bereken de kans dat in
6. Oefeningen , Reeks 2
132
een gezin van 5 kinderen
a. alle kinderen van hetzelfde geslacht zijn,
b. de 3 oudsten jongens en de 2 jongsten meisjes zijn,
c. er 3 jongens en 2 meisjes zijn.
2.16: In het stroomgebied van een rivier bevinden zich twee potpolders R1 en R2 , die bij een hoge waterstand onder water kunnen komen te staan. Laat A de gebeurtenis zijn dat R1 onder water komt te staan en
laat B de gebeurtenis zijn dat R2 onder water komt te staan in een bepaald jaar. Gegeven zijn de volgende
kansen: PA 020 en PB 015; de kans dat R1 en R2 beide overstromen in eenzelfde jaar is 0.08.
Er wordt verondersteld dat overstromingen in opeenvolgende jaren onafhankelijke gebeurtenissen zijn.
a. Bereken de kans dat er in een bepaald jaar slechts één potpolder onder water komt te staan.
b. Bereken de kans op een jaar zonder overstromingen.
c. Bereken de kans dat wanneer er een overstroming optreedt in R2 er eveneens in datzelfde jaar een
overstroming in R1 op zal treden. Wat kan er gezegd worden over de afhankelijkheid van de twee
gebeurtenissen A en B?
d. Bereken de kans op 3 overstromingsjaren van potpolder R1 in de komende 10 jaar.
2.17: Drie personen hebben een bepaalde ziekte opgelopen. Waarnemingen hebben uitgewezen dat 10%
van diegenenen die deze ziekte oplopen er niet van genezen. Wat is dan de kans dat ze alle drie genezen?
Wat is de kans dat geen enkel van de drie geneest?
2.18: Men werpt een teerling 6 maal. Vergelijk de kans dat men tweemaal twee, tweemaal vier en tweemaal zes werpt met de kans dat men driemaal twee en driemaal vier werpt.
2.19: Men zet volgens toeval acht witte torens op de velden van een schaakbord. Hoe groot is de kans
dat geen enkele toren door één van de andere torens gedekt staat?
2.20: Fons en Tuur spelen het volgende spel: Twee teerlingen worden geworpen. Fons wint als de som
van de ogen groter is dan 7 en verliest als de som kleiner is dan 7. Bij een som van 7: gelijk spel. Is dit een
eerlijk spel (m.a.w. hebben beide gelijke kansen om te winnen)?
2.21: Klaas en Joris spelen het volgende spel: drie teerlingen worden geworpen. Klaas wint als de som
van de ogen groter is dan 10 en verliest als de som kleiner is dan 10. Bij een som van 10: gelijk spel. Is dit
een eerlijk spel (m.a.w. hebben beide gelijke kansen om te winnen)?
6. Oefeningen , Reeks 3
133
Reeks 3
3.1:
In een vaas zitten 7 briefjes, op ieder briefje staat één letter van het woord ”energie”. Iemand trekt
aselect 3 briefjes uit deze vaas. Bereken de kans om met de 3 getrokken letters de woorden ”erg” en ”een”
te kunnen vormen als er
a. getrokken wordt met teruglegging,
b. getrokken wordt zonder teruglegging.
3.2:
Vijf tweede-kandidatuurstudenten zitten samen aan tafel in het restaurant.
a. Bepaal de kans dat er minstens twee van deze vijf studenten op een maandag geboren zijn.
b. Bepaal de kans dat ze alle 5 op een verschillende dag van de week geboren zijn.
c. uit hoeveel studenten moet een groep minstens bestaan opdat er met minstens 95% zekerheid geldt dat
minstens één student op een maandag geboren is?
3.3:
Men heeft een partij van 100 stuks. In deze partij zitten 5 defecte produkten. Er wordt een steekproef genomen van 20 stuks; als in deze steekproef meer dan 2 defecte produkten voorkomen wordt de hele
partij afgekeurd. Bereken de kans dat de partij zal worden afgekeurd als
a. de steekproef genomen wordt met teruglegging,
b. de steekproef genomen wordt zonder teruglegging.
3.4:
Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat iedere speler juist 13 kaarten krijgt.
Wat is de kans dat iedere speler precies één koning heeft?
3.5:
Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat elke persoon juist 13 kaarten heeft.
Wat is dan de kans dat speler A 13 kaarten van dezelfde kleur heeft? Wat is de kans dat hij juist 12 kaarten
van dezelfde kleur heeft?
3.6:
Men verdeelt 52 kaarten willekeurig onder 4 personen, zodat elke persoon juist 13 kaarten heeft. A
(Noord) heeft juist 5 harten. Wat is de kans dat zijn medespeler C (Zuid) juist 3 harten heeft? Wat is de kans
dat C geen enkele harten heeft?
3.7:
Men gooit twee dobbelstenen. Bereken de kans dat ze allebei een vier tonen als gegeven is dat de
som van het aantal ogen zeven of acht is?
3.8:
Een grondstof, gebruikt in de produktie van een scheikundig produkt kan van zes verschillende
plaatsen afkomstig zijn met kansen:
009
016
025
025
016
009
De kans dat het gemaakte produkt voldoet aan een aantal kwaliteitseisen als de grondstof van de respectievelijke plaatsen komt is:
02
03
04
04
03
02
Wat is het percentage produkten, dat voldoet aan de kwaliteitseisen?
3.9:
Iemand heeft altijd twee doosjes lucifers op zak. Als hij een lucifer nodig heeft neemt hij volgens
toeval één van beide doosjes en neemt er een lucifer uit. Hij begint met twee doosjes met elk n lucifers. Hoe
groot is de kans dat op het moment waarop hij het ene doosje leeg maakt het andere nog k lucifers bevat?
3.10: Karel en Lodewijk schieten elk tweemaal naar een doel. Bij elk schot hebben ze ieder een kans p
om raak te schieten. Indien men weet dat er op 4 schoten twee raak zijn, bereken dan
a. de kans dat beide treffers van Karel komen
b. de kans dat één treffer van Karel komt en de andere van Lodewijk.
3.11: Vaas A bevat twee rode en twee witte knikkers en vaas B bevat vier witte knikkers. Men trekt een
knikker uit één der vazen en deze is wit. Wat is de kans dat deze knikker uit vaas B kwam?
3.12: De kans dat je slaagt voor het examen statistiek is 100% als je de stof (en vooral de oefeningen)
goed genoeg bestudeerd hebt. Bekend is echter dat 50% van de studenten zich niet goed genoeg voorbereidt
6. Oefeningen , Reeks 3
134
en voor hen is de slagingskans slechts 40%. Bepaal de kans dat een geslaagde student zich onvoldoende had
voorbereid.
3.13: Van een test op een bepaald soort kanker zijn de volgende statistische gegevens bekend: De kans
op het optreden van deze ziekte is 0.0001. Indien iemand deze ziekte heeft zal in 90% van de gevallen de
test dat juist aangeven. De kans dat de test een foutieve diagnose geeft, dwz. suggereert dat iemand kanker
heeft, terwijl dat in werkelijkheid niet waar is, is 0.001.
Bereken de kans dat, als de test wijst op kanker, de persoon ook werkelijk deze ziekte heeft.
3.14: Machine A produceert van een bepaald product tweemaal zoveel als machine B. Machine A levert
5% defecte produkten, machine B 7%. Een klant krijgt een defect produkt. Hoe groot is de kans dat dit
produkt afkomstig is van machine A?
3.15: Een binair telecommunicatiesysteem zendt de signalen 0 en 1 door. Door mogelijke storingen
tijdens de teletransmissie worden er gemiddeld 2 op de 5 nullen en 1 op de 3 énen onjuist ontvangen.
Veronderstel dat de verhouding tussen de doorgezonden nullen en énen 5 op 3 is. Wat is dan de kans dat een
ontvangen signaal hetzelfde is als het doorgezonden signaal als:
a. het ontvangen signaal een 0 is?
b. het ontvangen signaal een 1 is?
3.16: Rt is de gebeurtenis dat het op dag t droog is; het complement Rtc is de gebeurtenis dat er op dag t
neerslag valt. Voor een bepaalde streek zijn de volgende kansen gegeven:
p : PRt 1 Rt 088 en q : PRtc1 Rt c 070
We nemen aan, dat het weer van dag t onafhankelijk is van het weer van meer dan één dag ervoor.
a. Bewijs dat PA B C PA B C PB C.
b. Bereken de kans dat het in elk van de drie komende dagen droog zal blijft, als het vandaag regent.
c. Bereken de kans dat het overmorgen droog zal zijn als het vandaag droog is.
3.17: Je vriendin heeft je verjaardagscadeau in een van haar drie bureauladen gestopt. Je gaat het cadeau
alleen krijgen als je de lade met het cadeau weet aan te wijzen. Ze vraagt je om een lade te kiezen. Je wijst
dus een van de drie laden, zeg lade X, aan. Alvorens deze lade te openen zegt je vriendin dat het misschien
wel een goede keuze is maar misschien ook niet en ze trekt een tweede lade, zeg lade Y , open en laat zien
dat het cadeau daar in ieder geval niet in zit. Ze vraagt dan of je bij je keuze X blijft of dat je liever de derde
lade, zeg lade Z, verkiest te openen.
Wat is de beste keuze, X of Z, en wat is de kans dat je dan je cadeau ook werkelijk krijgt. Motiveer je
antwoord!
3.18: Een persoon zit in een labyrinth en heeft de keuze uit drie deuren. Deur 1 leidt naar de uitgang in 1
stap, deur 2 leidt terug in 2 stappen en deur 3 in 3 stappen. De persoon kiest een willekeurige deur. Als hij
teruggeleid wordt, kiest hij weer een willekeurige deur (hij heeft geen geheugen). Dit gaat zo door tot hij
buiten is. Bepaal het gemiddeld aantal stappen dat hij zet om buiten te geraken.
6. Oefeningen , Reeks 4
135
Reeks 4
4.1:
Vroeger werd in ons land door loting bepaald wie zijn militaire dienstplicht moest vervullen en wie
daarvan werd vrijgesteld. Stel dat drie jonge mannen na elkaar een nummer trekken, zonder teruglegging,
uit een verzameling van 4 goede en 4 slechte nummers. Welke van deze drie mannen heeft de grootste kans
om als soldaat aangewezen te worden? Bereken deze kansen.
4.2:
Tien helikopters worden belast met het zoeken naar een vermist vliegtuig. Elk van deze tien toestellen kan gebruikt worden om één van de twee gebieden, waar het vliegtuig zich kan bevinden met respectievelijke kansen 0.8 en 0.2, af te zoeken. Indien een helikopter in het gebied gaat zoeken waar het vliegtuig
zich effectief bevindt, heeft hij een kans van 0.2 om het vliegtuig te detecteren.
Hoe moet men de tien helikopters verdelen over de twee gebieden om de kans om het vliegtuig terug te vinden maximaal te maken? Bepaal deze kans. (Strategie: Veronderstel dat m helikopters gebied 1 afzoeken,
en 10 m gebied 2. Bereken de kans, als funktie van m, dat men het vliegtuig terug vindt. Maximaliseer
deze kans.)
4.3:
In de lift van een gebouw met 10 verdiepingen stappen 4 personen in op verdieping 0. Neem aan,
1
is. Bereken de kans dat de 4
dat de kans dat een persoon op een gegeven hogere verdieping uitstapt, 10
personen alsvolgt uitstappen:
a. allen op dezelfde verdieping,
b. drie op eenzelfde verdieping en de vierde op een andere,
c. twee op eenzelfde verdieping en de andere twee samen op een andere verdieping,
d. twee op eenzelfde verdieping en de andere twee op twee andere verdiepingen,
e. ieder op een verschillende verdieping.
Ga na dat de som van de kansen 1 is.
4.4:
In n cellen worden r ballen willekeurig opgeborgen, zodat de i-de cel ri ballen bevat, met r1 rn r . Veronderstel r n . Ai is de gebeurtenis waarbij de i-de cel leeg blijft.
Bereken:
a. de kans dat voor elke i er ri ballen in cel i zitten,
b. PAi en PAi A j ,
c. de kans dat geen enkele cel leeg is.
Aanwijzing: noteer een configuratie van r ballen in n cellen als een rij van r letters b en n1 scheidingsstrepen alsvolgt, bbb b b met r 1 letters b voor de eerste streep, r 2 tussen de eerste en de tweede, etc. Tel vervolgens
het aantal mogelijke configuraties.
4.5:
Twee urnen A en B bevatten elk een witte en een zwarte bol. Men neemt een willekeurige bol uit
elke urn en plaatst deze in de andere urn. Deze procedure wordt n keer herhaald. Noteer met pn de kans dat
A twee witte bollen bevat na deze n verwisselingen, met qn de kans dat A één witte en één zwarte bol bevat
en met rn de kans dat A twee zwarte bollen bevat. Wat is de limietwaarde voor n ∞ voor pn , qn en rn ?
(Bepaal hiertoe pn1 , qn1 en rn1 als funktie van pn , qn en rn en laat n dan naar oneindig gaan.)
4.6:
Een dobbelspel kent de volgende regels:
– De speler bepaalt de inzet en kiest één van de getallen 1 t/m 6,
– hij werpt 3 dobbelstenen,
– als zijn gekozen getal op alle 3 de dobbelstenen bovenkomt wordt hem 4 maal zijn inzet uitbetaald,
– als zijn getal op 2 dobbelstenen bovenkomt wordt hem 3 maal zijn inzet uitbetaald,
– als zijn getal op één dobbelsteen bovenkomt wordt hem 2 maal zijn inzet uitbetaald,
– als zijn getal op geen enkele dobbelsteen bovenkomt krijgt hij niets uitbetaald.
Wat is de te verwachte winst of verlies voor deze speler als hij 10 Euro inzet?
4.7:
De hoeveelheid van een grondstof (uitgedrukt in tonnen), nodig gedurende een maand in een fabriek
is een discrete stochastische variabele X. Uit ervaring, wat betreft de vraag naar het met deze grondstof
6. Oefeningen , Reeks 4
136
vervaardigde produkt, heeft men
P X
a.
b.
c.
d.
e.
f.
8 0
PX 12 0
Bereken PX 10 ,
PX
8 252
2
PX 12 25
PX
9 256
6
PX 11 25
PX
10 ?
Maak een staafdiagram, van de kansfunktie PX x ,
Bepaal de cumulatieve distributiefunktie FX x en teken deze,
Bereken P925 X 1125 ,
Bereken E X en VarX Indien men met een zekerheid van minstens 90 % wenst te voldoen aan de vraag naar het vervaardigde
produkt, wat is dan de minimale bestelhoeveelheid van de grondstof per maand?
g. Bereken de scheefheidscoëfficiënt en de coëfficiënt van kurtosis van deze verdeling.
4.8:
Een andere werknemer in deze fabriek stelt een ander kansmodel voor, waarbij men uitgaat van een
continue kansvariabele X met de volgende dichtheidsfunktie:
0
xc7 5
fX x 12 5x
c
0
a.
b.
c.
g.
x 75 voor
voor
voor
75 x 10 10 x 125 voor
x 125 Bepaal c,
Maak een grafiek van fX x ,
d. e. en f. als voor oefening 4.7,
Bereken de modus, mediaan, interkwartiel en MAD van X.
4.9:
Een onderdeel van de militaire keuring in de V.S. bestond uit een bloedonderzoek naar de geslachtsziekte syfilis. Bij het laboratoriumonderzoek kan een belangrijke besparing plaatsvinden door de
bloedmonsters van een aantal mannen te vermengen en dit totale bloedmengsel te onderzoeken. Als de
reactie van dit totaal negatief is, is geen van de personen die een bijdrage geleverd heeft aan dit mengsel
besmet. Is de reactie positief, dan zal een bloedmonster van elke persoon, die bijgedragen heeft tot dit
mengsel, afzonderlijk worden onderzocht om na te gaan wie besmet is (zijn). Volgens de Amerikaanse
keuringsadministratie bedroeg het percentage lijders aan syfilis in de jaren 1940/1941 ongeveer 5%. Stel dat
er 10.000 mannen gekeurd moesten worden. Het probleem waarvoor de keuringsdienst zich in 1940 gesteld
zag was: hoeveel bloedmonsters moeten er steeds vermengd worden om zo weinig mogelijk tests te hoeven
uitvoeren.
a. Bereken de te verwachte aantal uit te voeren tests als er in groepen van 10 personen getest wordt.
b. Wat is de optimale testgroepgrootte?
4.10: Een punt P wordt willekeurig gekozen op de omtrek van een cirkel met straal r. Bepaal de gemiddelde afstand tussen een vast punt A op de omtrek en P.
4.11: O P en Q worden willekeurig gekozen op de omtrek van een cirkel met straal r. Bepaal de kans
dat een van de hoeken van de driehoek OPQ stomp is (groter is dan 12 π ).
4.12: De levensduur X van een gloeilamp is een stochastische variabele, die beschreven kan worden
m.b.v. de volgende dichtheidsfunktie:
fX x :
λ exp
λ x voor
0
voor
x 0
x 0
met λ : 0001 uur1 a. Bepaal FX x en maak een grafiek van fX x en FX x
b. Hoe groot is de kans dat een gloeilamp langer dan 1000 uur brandt?
6. Oefeningen , Reeks 4
137
c. Bereken de te verwachte levensduur van een gloeilamp: E[X]
d. Bereken de mediaan van X
e. Hoe groot is de kans dat een lamp, die al 200 uur goed brandt, nog minstens 1000 uur langer zal branden?
4.13: X en Y zijn twee onafhankelijke exponentieel verdeelde stochastische variabelen met dezelfde parameter λ , d.w.z.
λ exp
λ x voor x 0 fX x fY x 0
voor x 0 Bepaal de dichtheid van Z X Y , de verwachtingswaarde en de variantie van Z.
4.14: Veronderstel dat het aantal km dat men kan rijden met een radiaalband normaal verdeeld is met gemiddelde 70000 km en standaard afwijking 10000 km. Is de producent juist indien hij beweert dat minstens
90 % van de bestuurders langer dan 60000 km rijden met dit type banden, leg uit.
6. Oefeningen , Reeks 5
138
Reeks 5
5.1:
X is een continue stochastische variabele met verdelingsfunktie FX x. We voeren een lineaire
transformatie uit op X: Y aX b met a 0.
a. Bepaal FY y en fY y .
λ exp λ x als x 0 bepaal dan fY y.
b. Als Y 2X 1 en fX x 0
als x 0 5.2:
Vanuit het punt met coördinaten 0 b in het xy-vlak wordt een deeltje uitgezonden langs een rechte
lijn, die een willekeurige hoek maakt met de x-as, in de richting van de x-as. De stochastische variabele X is
de abscis op de x-as waar het deeltje terecht komt. Toon aan dat de dichtheidsfunktie van X de volgende is:
fX x b
π b2 x2 Aanwijzing: bekijk eerst de verdeling van ϕ , de hoek waaronder het deeltje uitgezonden wordt.
5.3:
X is uniform verdeeld over het interval [0,1]. Bepaal de dichtheidsfunktie van Y
2 lnX .
5.4:
Uit grote partijen artikelen neemt men steekproeven van 20 stuks. Een partij wordt afgekeurd als in
zo’n steekproef 3 of meer foutieve exemplaren worden aangetroffen.
a. Wat is de kans dat een partij met 25% fouten wordt afgekeurd?
b. Wat is de kans dat van 10 partijen met elk 10% fouten er 8 of meer goedgekeurd worden?
5.5:
Gebruik de tabel van de cumulatieve binomaalverdeling.
a. Bereken de volgende kansen:
als X B7 045 ,
a1. PX 3
als X B15 01 .
a2. PX 4
als X B15 09 .
a3. PX 11
b. Bereken voor welke waarden van x geldt:
als X B20 025 ,
b1. PX x 01
als X B20 075 .
b2. PX x 01
5.6:
Een partij goederen is zo groot dat men ze als oneindig groot mag beschouwen. Men voert een
kwaliteitstest uit door willekeurig stukken uit de partij te nemen tot men een defekt stuk gevonden heeft. Als
20 % van de partij bestaat uit defekte stukken, bepaal dan de verdelingsfunktie en de verwachtingswaarde
van het aantal geteste stukken X .
5.7:
Het optreden van een sterke pollutiegolf in het Albertkanaal vormt een Poisson incidentenstroom
met een parameter waarde λ van 1 incident per 6 maanden.
a. Bereken de kans dat er gedurende één jaar 1 sterke pollutiegolf is.
b. Bereken de kans dat er in elk van de volgende jaren :1995, 1998, 1999, 2002, 2004 minder dan 3 sterke
pollutiegolven optreden.
5.8:
Op een kantoor komen gemiddeld 3 telefoongesprekken per uur binnen. De telefonist is gedurende
10 minuten afwezig. Hoe groot is de kans dat er in die tijd minstens één persoon geen gehoor heeft gekregen?
5.9:
Bij de produktie van pantynylons is de kans dat een geproduceerde panty geen ladders vertoont
90 %. Neem aan dat het optreden van ladders in opeenvolgend geproduceerde panties stochastisch onafhankelijke gebeurtenissen zijn. Bereken
a. Het gemiddeld aantal panties zonder ladder in een partij van 10 stuks.
b. De kans op meer dan 7 goede panties in deze partij.
Als het voorkomen van ladders te wijten is aan defecten in het produktieproces of aan de grondstoffen
waaruit de panties geproduceerd worden, dan geldt de hierboven genoemde stochastische onafhankelijkheid
niet. Veronderstel dat het aantal incidenten per 8 uur, dat slechte panties produceert, een Poisson-verdeelde
stochastische variabele is X Pλ . Bij elk incident worden er 50 panties geproduceerd met ladders, voordat
6. Oefeningen , Reeks 5
139
men in staat is het produktieproces bij te regelen.
c. Wat moet de waarde van λ zijn, opdat gemiddeld genomen 90 % van de panties geen ladders vertoont,
indien de tijd nodig om één panty te produceren 1 minuut is.
d. Bereken met deze waarde van λ de kans dat er op een werkdag van 8 uur meer dan 2 incidenten optreden,
waardoor het produktieproces ontregeld wordt.
5.10: Veronderstel dat X een stochastische variabele is met een discrete verdeling en dat de momenten
E X en E X E X r bestaan voor een zekere r 0. Bewijs dan voor iedere ε 0 de ongelijkheid (cf.
de ongelijkheid van Chebyshev):
PX E X ε E X E X r εr
5.11: Laat X en Y twee onafhankelijke continue stochastische variabelen zijn en neem M : MaxX Y .
Bepaal de dichtheidsfunktie fM van M.
5.12: X is de levensduur in uren van een bepaald type radiobuis. De dichtheidsfunktie van X wordt
gegeven door:
0
als x 100 fX x a x2 als x 100 Een antieke radio bevat drie van dergelijke buizen, met van elkaar onafhankelijke levensduur.
a. Bepaal de waarde van a.
b. Bereken de kans dat men in een dergelijke radio geen buizen moet vervangen, voordat er 150 uur verlopen
zijn.
c. Bereken de kans dat men geen buizen zal moeten vervangen in de radio, voordat er 150 uur verlopen
zijn, als de radio al 120 uur heeft kunnen spelen zonder dat er buizen vervangen moesten worden.
5.13: Een autoverhuurder bezit twee wagens, die per dag worden verhuurd. Het aantal aanvragen voor
een dag vertoont een Poissonverdeling met λ 15 .
a. Welk percentage van de dagen zijn beide wagens thuis?
b. Welk percentage van de dagen zijn beide wagens uit?
c. Indien beide wagens even vaak worden gebruikt, welk percentage van de dagen is één bepaalde wagen
dan thuis?
6. Oefeningen , Reeks 6
140
Reeks 6
6.1:
Men weet uit ervaring dat de jaarlijkse hoeveelheid neerslag in een gebied een normaal verdeelde
kansveranderlijke is met een gemiddelde µ 125cm en een standaardafwijking σ 20cm. Wanneer er
meer dan 160 cm neerslag valt in een jaar leidt dit tot overstromingen. Bepaal de kans dat er zich gedurende
een aselect gekozen jaar minstens één overstroming voordoet.
6.2:
X is en normaalverdeelde stochastische variabele met een gemiddelde µ
wijking σ 4, dus X N 10 4. Bereken:
a. PX 14
b. P12 X 18
c. PX 7
d. de 90%, 50% en 20% percentielen van X.
10 en een standaardaf-
6.3:
Twee merken elektronenbuizen hebben levensduren die normaal verdeeld zijn. Merk A: N(27;5) en
merk B: N(30;2).
a. Welk merk moet men kiezen om de grootste kans te hebben dat de buis langer dan 30 uur meegaat?
b. Welk merk moet men kiezen om de grootste kans te hebben dat de buis langer dan 34 uur meegaat?
6.4:
Een hoogtemeter geeft een systematische fout van 10 meter en een toevallige fout, die normaal
verdeeld is met een gemiddelde van 0 meter en een standaardafwijking van 2 meter. Wat is de kans dat men
bij een hoogtemeting een fout heeft kleiner dan 7 meter?
6.5:
Er wordt een aselecte steekproef van omvang n genomen uit een populatie, die een bepaalde theoretische kansverdeling bezit met verwachtingswaarde µ en variantie σ2 . Men krijgt zo dus n realisaties
van n onafhankelijke stochastische variabelen X1 X2 Xn , die alle dezelfde kansverdeling bezitten. Het
rekenkundig gemiddelde van deze n stochastieken is Xn : 1n ∑ni1 Xi a. Bepaal E X n en VarX n als funktie van n.
b. Als Xi N µ σ (i 1 n), wat is dan de kansverdeling van Xn ?
6.6:
De gewichtsinhoud van een pakje boter is normaal verdeeld met een standaarddeviatie σ van 3
gram. Een regeringsinstantie neemt ter controle af en toe een steekproef van 25 pakjes. De fabrikant krijgt
een boete als de gemiddelde gewichtsinhoud van deze steekproef minder is dan 250 gram. Op welk gemiddelde moet de verpakkingsmachine ingesteld worden om het risico van een boete tot 5 % te reduceren?
6.7:
Men wil een afstand van 100 meter afzetten door 100 maal achtereen een afstand van 1 meter af te
passen. De fout die daarbij elke keer gemaakt wordt is een stochastische variabele X, die normaal verdeeld
is met µ 0 meter en σ 5 cm.
a. Bereken de kans dat de afgezette afstand meer dan een halve meter van de gewenste 100 meter afwijkt.
b. Tot hoever zou men de standaardafijking van de fout moeten reduceren, opdat de kans onder a) gevonden
ten hoogste 0.1 is?
6.8:
De stochastische variabele X is de jaarlijkse piekwaarde van het debiet in een rivier. X is lognormaal
verdeeld, d.w.z. de logaritme van X is normaal verdeeld met log X N 44 063; X wordt uitgedrukt in
m3 s.
a. Bepaal de dichtheidsfunktie van X.
b. Bereken de mediaan van X, d.w.z. het hoogste jaarlijke debiet, dat in niet meer dan 50 % van de jaren
overschreden wordt.
c. In geval van een zeer hoog debiet zal de rivier buiten zijn oevers treden. Men kan het omliggende gebied
daartegen beschermen door de dijken te verhogen. Bereken de jaarlijkse piekwaarden van het debiet,
waartegen het gebied beschermd moet worden, opdat er gemiddeld niet meer dan 1 maal in de 50 jaar
een overstroming op zal treden.
6.9:
Laten X1 en X2 twee standaard-normaalverdeelde stochastieken zijn. Definieer twee nieuwe sto-
6. Oefeningen , Reeks 6
141
chastische variabelen Yi voor i 1 2:
1
0
Yi 1
als
als
Xi 1 1 Xi 1 als
Xi 1 a. Schets de verdeling van Z Y1 Y2
b. Bereken met het gegeven PXi 1 01587 de verwachtingswaarde en de variantie van Z.
6.10:
De kansvector Z : X Y heeft de dichtheidsfunktie:
fZ x y :
c x exp
12 x2 exp
y
voor 0 x ∞ 0 y ∞;
0
elders.
a. Bepaal de constante c en de verdelingsfunktie FZ x y,
b. Bepaal de marginale verdelingsfukties van X en Y , zijn deze onafhankelijk?
c. Bepaal PX 2 en Y 1 en PX 2 2Y 2.
6.11: Veronderstel dat Z : X Y uniform verdeeld is over de driehoek met hoekpunten 0 0, 0 1 en
1 1. Bereken fZ , fX , fY , de verwachtingswaarden en varianties van X en Y en de correlatiecoefficiënt
tussen X en Y .
6.12: Een experiment kan de drie uitkomsten u1 , u2 en u3 hebben met kansen p1 , p2 respectievelijk
p3 . Men voert dit experiment n maal uit; Xi is het aantal keer dat ui zich voordoet (i=1, 2, 3). Bepaal de
verdelingsfunctie van de kansvector X1 X2 X3 . Bepaal ook de covariantie CovX1 X2 ) en de correlatiecoëfficiënt ρ . Wat gebeurt er als p3 0?
6.13: Men kiest een willekeurig getal x 0 1 en daarna een willekeurig getal y x 1 (uniform verdeeld).Het paar x y is dan een trekking van de stochastische variabele Z : X Y . Bepaal fX , fX Y en
fY .
6.14: Veronderstel dat X Y een continu verdeelde kansvector is. We definiëren een nieuwe kansvector
R Θ) door:
X R cos Θ Y R sin Θ met 0 Θ 2π en 0 R ∞ Bepaal de dichtheidsfunktie van R Θ.
Veronderstel nu dat X Y uniform verdeeld is over de eenheidscirkelschijf. Bepaal de dichtheidsfunktie
fR Θ en laat zien dat R en Θ onafhankelijk zijn.
6. Oefeningen , Reeks 7
142
Reeks 7
7.1:
Gemiddeld gebeurt er op een bepaalde weg elke 100 dagen een ongeluk. Het aantal ongelukken per
maand (30 dagen) volgt een Poisson-verdeling.
a. Wat is de kans op meer dan één ongeluk in een maand?
b. Wat is de kans dat tussen twee opeenvolgende ongelukken niet meer dan 3 dagen liggen?
7.2:
In het stroomgebied van een rivier liggen twee potpolders A en B, die bij hoge waterstanden onder
water komen te staan. De kans dat beide polders in eenzelfde jaar overstromen is 0.08. Bereken de kans
dat in de volgende 100 jaar er minstens 10 jaren zullen zijn waarin zowel polder A als polder B onder water
komt te staan.
7.3:
Men vindt dat de lengte van telefoongesprekken een exponentiële verdeling volgt, met een gemiddelde van 3 minuten. Hoe groot is de kans dat een gesprek langer dan drie minuten duurt? Hoe groot de
kans dat het langer dan 10 minuten duurt?
7.4:
Een auto valt nogal eens in panne en het aantal defekten is Poisson-verdeeld. Indien men gemiddeld
twee pannes per maand heeft, wat is dan de kans dat men op een jaar meer dan 25 pannes heeft?
7.5:
Bij de verkiezingen haalt een politieke partij 30% van de stemmen. Men verricht achteraf een
steekproef onder 3000 mensen die gestemd hebben en vraagt hen of ze daadwerkelijk voor die partij gestemd
hebben. Wat is de kans dat tussen de 850 en 950 ondervraagden hierop bevestigend antwoorden?
Opmerking: in de praktijk treedt er altijd een overwinnaarseffekt op bij ondervragingen omtrent kiesgedrag
na het bekendmaken van de uitslag; meer kiezers geven achteraf op, dat ze op de winnende partij gestemd
hebben, dan er in feite gedaan hebben.
7.6:
Op een landelijke weg komen gemiddeld 3 auto’s per uur voorbij. Stel X het aantal wagens dat
gedurende een tijdsinterval van 20 minuten voorbij komt. Bepaal PX 0 en PX 2.
7.7:
Een krantenjongen in Chicago verkoopt per uur gemiddeld 50 kranten. Als we nu een krant van
hem kopen, wat is dan de kans dat het minstens 2 minuten zal duren alvorens hij de volgende krant verkoopt?
Als het nu al 5 minuten geleden is dat hij een krant verkocht heeft, wat is dan de kans dat hij nog 2 minuten
zal moeten wachten om er nog één te verkopen?
7.8:
Een eerlijk muntstuk wordt geworpen, totdat er voor de eerste maal kop boven komt. Wat is de kans
dat het aantal worpen oneven is?
7.9:
We beschouwen een rij onafhankelijke stochastische variabelen X0 , X1 , X2 , , die alle B1 p
verdeeld zijn. De Xi kunnen twee waarden aannemen, zeg a en b met Pa p en Pb q 1 p. Laat
de stochastische variabele N het aantal experimenten zijn, dat nodig is om r maal de uitslag a te bekomen.
Bepaal de verdelingsfunktie van N.
Men zegt dat N negatief-binomiaal verdeeld is met parameters r en p.
7.10: Veronderstel dat een stochastische variabele X N µ σ normaal verdeeld is. We zeggen dan dat
Y : eX lognormaal verdeeld is met parameters µ en σ .
a. Bepaal de verdelingsfunktie van Y uit de verdelingsfunktie van de standaardnormale verdeling.
b. Bepaal de dichtheidsfunktie van Y .
c. Bepaal gemiddelde en standaardafwijking van Y .
7.11: Van de schoenen die in een fabriek geproduceerd worden is 4% defekt. Bepaal op 3 manieren de
kans dat in een doos met 100 willekeurig gekozen paren schoenen er ten hoogste twee defekt zijn:
a. exact,
b. met een benadering door een Poisson-verdeling,
c. met een benadering door een normale verdeling.
7.12: Een boek bevat gedrukte bladzijden met (gemiddeld) 40 regels van 75 lettertekens per bladzijde.
(beschouw een spatie ook als een letterteken). De zetter maakt gemiddeld één fout per 6000 letters.
a. Wat is de verdelingsfunktie van X, het aantal fouten per bladzijde?
b. Bereken de kans dat een bladzijde geen enkele fout bevat.
6. Oefeningen , Reeks 7
143
c. Wat is de kans dat een hoofdstuk van 16 bladzijden geen enkele fout bevat?
7.13:
Van een bepaald soort zaden is bekend dat de kans op ontkiemen gelijk is aan 08 .
a. Hoe groot is de kans dat minstens 75% van de zaden ontkiemen in een verpakking van 100 zaden?
b. Hoe groot is de kans dat minstens 75% van de zaden ontkiemen in een verpakking van 1000 zaden?
7.14: Een Geigerteller geeft voor een bepaald radio-actief preparaat gemiddeld 90 aanslagen per minuut.
Hoe groot is de kans dat er in een bepaalde minuut minder dan 85 aanslagen geregistreerd worden?
7.15:
Het gewicht G van mannelijke studenten is normaal verdeeld met µ
75 kg en σ 10 kg.
a. Bepaal de kans dat een willekeurige student een gewicht heeft tussen de 60 en 65 kg.
b. Gegeven is een groep van 2000 mannelijke studenten. Hoe groot is het verwachte aantal studenten in
deze groep met een gewicht tussen de 60 en 65 kg?
c. Zij X het aantal studenten in deze groep van 2000 met een gewicht tussen de 60 en 65 kg. Bepaal de
kans PX 142.
N.B. In de praktijk blijkt de lengte wel (in goede benadering) normaal verdeeld te zijn maar het gewicht
niet.
7.16: Een gasmolecuul heeft een snelheid v met componenten vx , vy en vz . Neem aan dat vx , vy en vz
onafhankelijk
en normaal N 0 σ ) verdeeld zijn. Bepaal de dichtheidsfunktie van de snelheidsverdeling van
v v v2x v2y v2z en bepaal de verwachtingswaarde E[v].
6. Oefeningen , Reeks 8
144
Reeks 8
8.1:
Een chemicus voert 12 maal een gewichtsbepaling uit, waarvan mag worden aangenomen dat de
uitkomsten normaal verdeeld zijn met een standaardafijking σ van 2 gram. De chemicus vindt als gemiddelde van zijn 12 experimenten een waarde van 9 gram. Stel een 95%-betrouwbaarheidsinterval op voor de
werkelijke waarde van de gemeten grootheid.
8.2:
De uitkomst X van een experiment is normaal verdeeld, X N µ 2. Laat S52 de schatter voor de
variantie zijn berekend aan de hand van 5 onafhankelijke experimenten, bepaal dan PS52 3.
8.3:
op:
Een stochastische variabele X is normaal verdeeld. Een steekproef levert de vijf volgende waarden
61
72
34
55
21 Stel een 90%-betrouwbaarheidsinterval op voor het gemiddelde µ
a. in het geval dat σ 2 bekend is,
b. in het geval dat σ niet bekend is.
8.4:
De jaarlijkse hoeveelheid sneeuw waargenomen door het Koninklijk Meteorologisch Instituut te
Ukkel is normaal N µ σ verdeeld. Gedurende de laatste 20 jaren zijn er de sneeuwhoeveelheden xi , voor
i 1 20 waargenomen met
20
∑ xi 200 mm
i1
20
en
∑ xi x202 76 mm2 i1
a. Bepaal een 95%-BI voor de gemiddelde hoeveelheid sneeuw in een jaar, veronderstellend dat de waargenomen sneeuwhoeveelheden in opeenvolgende jaren onafhankelijk zijn van elkaar.
b. Bepaal het minimum aantal jaargegevens waarover men zou moeten kunnen beschikken om een 95%-BI
te bekomen met lengte gelijk aan 1 mm. Veronderstel hierbij, dat s (de wortel van de steekproefvariantie)
2mm blijft in grotere steekproeven.
8.5:
De topsnelheid van een bepaald merk “sport”wagen is normaal verdeeld met gemiddelde µ en
standaardafwijking σ . Men kiest willekeurig 10 wagens uit, meet de maximum snelheid vi en vindt:
10
∑ vi 2243 kmu
i1
10
en
∑ vi v10 2 290 kmu2 i1
Bepaal 90%-BI’s voor µ en σ .
8.6:
Om de nauwkeurigheid van een balans te bepalen meet men 25 maal een bekend gewicht van
(precies) 4 kg. met als resultaat:
25
∑ xi 10002 kg
i1
25
en
∑ xi x25 2 00113 kg2 i 1
Geef een 95%-BI voor de onbekende onnauwkeurigheid (standaarddeviatie) van de balans. Men veronderstelt dat de meetuitslagen onafhankelijke normaal verdeelde stochastische variabelen zijn. De onnauwkeurigheid is dan een maat voor σ .
8.7:
Beschouw m n stochastische variabelen:
X1 X2 Xm N µ1 σ en
Y1 Y2 Yn N µ2 σ waarbij µ1 , µ2 en σ onbekend zijn. Construeer een 1 α -BI voor het verschil µ1 µ2 .
8.8:
Een stochastische variabele X is uniform verdeeld over 0 b, met b een onbekende parameter. Men
verricht een steekproef X1 Xn en beschouwt de statistiek M : maxX1 Xn ).
a. Gebruik M om een zuivere schatter voor b te vinden.
6. Oefeningen , Reeks 8
145
b. Construeer een 1 α -BI voor de parameter b.
8.9:
Van een bepaalde grondstof wenst men het gehalte van een actief bestanddeel te schatten door
een aantal monsters te nemen en te analyseren. Uit ervaring is bekend dat de analyseresultaten normaal
verdeeld zijn met een standaardafwijking van 0.6 gram. Men wenst met een betrouwbaarheid van 99% de
werkelijke hoeveelheid van het bestanddeel te schatten tot op 0.5 gram nauwkeurig. Hoeveel monsters moet
men analyseren om aan deze nauwkeurigheid te voldoen?
8.10: Het aantal binnenvallende deeltjes in een Geigerteller kan opgevat worden als een Poisson-verdeelde
kansvariabele met parameter λ , het gemiddeld aantal binnenvallende deeltjes per minuut. Een meting van
een staal met een Geigerteller heeft 80 aanslagen in een minuut opgeleverd. Gebruik de normale benadering
van de Poisson verdeling om een (benaderend) 95%-betrouwbaarheids interval voor λ te vinden.
8.11: Men zegt dat zaad een goede kiemkracht bezit als er minstens 75% van de zaden ontkiemt. Bij
een test op peterseliezaden vond men, dat er van de 5000 geteste zaden 3600 ontkiemden. Stel een 95%-BI
op voor het percentage peterseliezaden, dat ontkiemt. Mag men zeggen dat dit zaad een goede kiemkracht
bezit?
8.12: De levensduur van een gloeilamp is exponentieel verdeeld met onbekende parameter λ . Men test
15 gloeilampen en vindt 130 uur als gemiddelde levensduur. Construeer een 90%-BI voor λ en voor de
gemiddelde levensduur.
8.13: Een marketingbureau doet een onderzoek naar het gebruik van een bepaald wasmiddel. Van 300
aselect gekozen huismannen en huisvrouwen gebruikten 40 personen dit wasmiddel. Geef een 90%-BI voor
het percentage gebruikers van dit wasmiddel.
6. Oefeningen , Reeks 9
146
Reeks 9
9.1:
De chemicus van oefening 8.1 heeft op theoretische gronden een hypothese opgesteld dat de werkelijke waarde van de gemeten grootheid 10 gram moet zijn.
a. Zal de chemicus op grond van zijn meetresultaten (x12 9 en σ 2) de hypothese verwerpen als hij
deze toetst met een significantieniveau van 5%?
b. Wat zal zijn conclusie zijn als hij een signifcantieniveau van 10% gekozen had?
9.2:
Een fabrikant van wegwerpbatterijen beweert dat zijn batterijen goed zijn voor 10 uur muziek op
een walkman. Een consumentenmagazine wil dit testen en voert een steekproef uit op 20 batterijen. De
gemiddelde speelduur x20 hiervan is 9 uur en 35 minuten en s20 20 minuten. Is het verschil met de
opgegeven waarde significant op niveau 10%?
9.3:
Uit een grote partij aspirinetabletten wordt een steekproef genomen van 10 stuks. De gewichten
van deze 10 tabletten, gemeten in mg, zijn:
336 333 335 333 329 334 324 331 332 332 a. Stel een 95 % BI op voor het gemiddelde gewicht van een aspirine tablet uit deze partij, als het gewicht
van een tablet een normaal verdeelde stochastische variabele is.
b. De machine die de aspirines produceerde stond afgesteld op 335 mg/tablet. Toets of aan deze instelling
voldaan wordt met een significantieniveau α van 5%.
c. Toets de hypothese σ 2 10 mg2 met een α van 5 %.
9.4:
Een machine produceert metalen staafjes. De lengte van deze staafjes is normaal verdeeld met
σ 20 cm. De gemiddelde lengte kan worden ingesteld en heeft als normwaarde 20.0 cm. Er kunnen
storingen optreden waardoor het gemiddelde lager wordt, zonder dat de spreiding verandert. Ter controle
neemt men regelmatig steekproeven van 5 stuks en meet hiervan de lengte. Bij een steekproef vond men een
gemiddelde lengte van 18.3 cm.
a. Toets de hypothese dat de instelwaarde 20.0 cm is bij een α van 5% en van 1%.
b. Hoe groot is de kans op een fout van de eerste soort bij de onder a) uitgevoerde toets.
c. Bereken, onder de veronderstelling dat de instelwaarde 18.0 cm. is, de kans op een fout van de tweede
soort voor de onder a) uitgevoerde toetsen.
9.5:
Het is bekend dat 1 op de 10 personen een zeker produkt gebruikt. Na een agressieve campagne
gebruiken 60 personen uit een aselecte steekproef van 400 mensen dit produkt. Toets met een significantie niveau van 5% of de advertentiecampagne effectief is geweest.
9.6:
Een landbouwproefstation wil twee soorten tarwe (A en B) vergelijken. Op 20 verschillende percelen zaait men na bemesting de ene helft in met soort A, de andere helft met soort B. Er komen de volgende
opbrengsten (in kg) van de percelen:
perc. nr. opbr. A opbr. B perc. nr opbr. A opbr. B perc. nr. opbr. A opbr. B
1
560
470
8
560
590
15
710
630
2
290
280
9
750
700
16
480
450
3
440
390
10
320
310
17
360
350
4
250
270
11
490
440
18
530
570
5
650
600
12
500
480
19
620
570
6
890
750
13
630
620
20
370
340
7
410
380
14
260
300
a) Toets m.b.v. de t-toets of tarwesoort A beter is dan tarwesoort B.
Het gebruik van de t-toets is gebaseerd op de aanname, dat de opbrengsten van de tarwesoorten A en B
normaal verdeelde stochastische variabelen zijn. Als dit niet zo is, of als deze verdelingen niet bekend
zijn, moet men gebruik maken van verdelingsvrije of parametervrije toetsen. Een voorbeeld hiervan is de
tekentoets: als beide tarwesoorten even goed zijn, is de kans dat op een bepaald perceel tarwesoort A een
grotere opbrengst oplevert dan soort B gelijk aan 12 . Als tarwesoort A beter is dan soort B dan is deze kans
6. Oefeningen , Reeks 9
147
p groter dan 12 . Bekijk nu per perceel het verschil tussen de opbrengsten van soort A en soort B, waarbij
alleen naar het teken van het verschil gekeken wordt: of .
b) Toets m.b.v. de tekentoets de nulhypothese H0 : p 12 (A en B geven een gelijke opbrengst) tegen het
alternatief H1 : p 12 (A levert meer op dan B) met een significantieniveau α van 5%.
9.7:
Men wenst het benzineverbruik van twee verschillende automerken te vergelijken. Men laat 10
auto’s van merk A en 16 auto’s van merk B met een constante snelheid van 90 km/uur over eenzelfde stuk
autoweg van 100 km rijden. Men vindt voor het gemiddelde gebruik:
gemiddeld verbruik
standaardafwijking
wagens van merk A
6.5 liter/100 km
s10 = 0.21 liter/100 km
wagens van merk B
6.0 liter/100 km
s16 = 0.22 liter/100 km
Is het verschil in varianties significant op het niveau 5%? Zo niet, test dan of het verschil in brandstofverbruik
significant is op het 5%-niveau.
9.8:
Gedurende een bepaalde tijd werden de temperaturen in de kantoren van de VUB opgetekend. Op
42 metingen bekwam men een gemiddelde van 22Æ C en een standaardafwijking van 4Æ C.
a. Toets de bewering dat de gemiddelde temperatuur in de kantoren tenminste 23Æ C is (α 5%).
b. In de leslokalen van de VUB werd ook regelmatig de temperatuur genoteerd. Men bekwam het volgende
lijstje met metingen:
temperatuur
15
16
18
20
22
26
frequentie
5
6
4
15
6
4
Kun je hieruit besluiten dat het in de leslokalen beduidend kouder is dan in de kantoren? (α
5%)
9.9:
Een fijnmechanische werkplaats kan de zware concurrentie strijd in de sector alleen overleven als
de precisie van haar produkten wordt verbeterd. Om te beginnen bestelt de directeur een proefexemplaar
van een nieuw type draaibank. De chef van de werkplaats vindt de machine geen verbetering en laat, om dit
te staven, 10 exemplaren van een standaardprodukt maken op de nieuwe machine en 20 exemplaren op de
oude. In de eerste groep is de standaardafwijking in de dikte 14 µ m en in de tweede groep 17 µ m. Toets de
bewering van de chef op het 5% niveau.
9.10: Onderzoekers veronderstellen, dat de besmettingsgraad met het HIV-virus in de grote steden van
Centraal Afrika 22% bedraagt. Uit een steekproef onder 120 personen blijken er 44 personen seropositief te
zijn. Moet men op basis van deze steekproef de hypothese herzien? (α 5%)
9.11: Men weet dat het gewicht van vier maanden oude mestvarkens van een bepaald ras normaal is
verdeeld met een gemiddelde van 55 kg en een standaardafwijking van 4.5 kg. Om uit te maken of een
alternatieve manier van voeden beter is (d.w.z. dat men zwaardere varkens krijgt) probeert men deze voedingswijze uit op 25 pasgeboren varkens van dat ras, aselect over het land verspreid. Wanneer men vier
maanden na de geboorte hun gewicht meet, bekomt men een gemiddeld gewicht van x 62 kg. Is de alternatieve manier van voeden beter dan de traditionele manier, als men veronderstelt dat de standaardafwijking
van het gewicht onveranderd is? (α 5%)
9.12: Een geneesmiddelenfabrikant beweert dat een bepaald vaccin 85% effectief is (d.w.z. de kans dat
men er immuun van wordt is 0,85). Om na te gaan of deze bewering strookt met de werkelijkheid, wordt het
vaccin geprobeerd bij 100 aselect gekozen personen. Wanneer 82 of meer personen immuun worden nemen
we de bewering aan. Vind een benadering voor de kans dat we de bewering niet voor waar aannemen, terwijl
het vaccin in werkelijkheid toch 85% effectief is.
9.13:
Bij een bepaalde plantensoort komen volgens de wetten van Mendel de vier variëteiten AB, aB, Ab
6. Oefeningen , Reeks 9
148
en ab voor in de verhouding 9 : 3 : 3 : 1. In een aselecte steekproef van 160 exemplaren vindt men:
variëteit AB aB Ab ab totaal
aantal
88 35 24 13 160
Toets met behulp van de χ2 -toets of de gemeten frequentieverdeling verschilt van de theoretisch verwachte
frequentieverdeling op het niveau van α 5% .
6. Oefeningen , Reeks 10
149
Reeks 10
10.1:
De 12 metingen, die de chemicus uit oefening 8.1 uitvoerde, hadden de volgende uitkomsten:
103
94
86
77
98
101
79
88
83
94
95
82
a. Toets aan de hand van deze metingen de hypothese dat µ 100 bij gegeven σ 20, via het betrouwbaarheidsinterval van µ met α 5%. Toets eveneens de hypothese µ 10 als σ niet bekend is.
b. Bij welk significantieniveau α zal de chemicus zijn hypothese verwerpen, als hij toetst met onbekende
σ?
10.2: Beschouw de 53 metingen van het stikstofgehalte van oefening 1.2.
a. Bepaal een 95%-betrouwbaarheidsinterval voor het werkelijke N-gehalte van de kunstmest.
b. Hoeveel % van de waarnemingen in de steekproef van 53 metingen liggen buiten dit betrouwbaarheidsinterval?
c. De fabrikant beweert dat het N-gehalte van de kunstmest minstens 17.4% bedraagt. Toets aan de hand
van de 53 metingen of de fabrikant gelijk heeft. Neem een significantieniveau van 5% aan.
10.3: In oefening 9.3 werd uit een partij aspirinetabletten de gewichten bepaald van een steekproef van 10
stuks. Deze partij wil men nu vergelijken met een tweede partij. Uit de tweede partij wordt van 12 tabletten
het gewicht gemeten met de volgende uitkomsten (in mg):
332
336
337
336
333
335
332
334
332
334
340
332
a. Toets of de varianties in de gewichten van beide partijen gelijk zijn, als α 5%.
b. Toets de hypothese, dat het gemiddelde gewicht van de eerste partij gelijk is aan dat van de tweede partij,
als α 5%.
c. Ga na wat er gebeurt als er een uitschieter tussen de metingen van de tweede partij zit, als er bijv. 360
i.p.v. 340 mg. gemeten wordt. Verklaar uw antwoord.
10.4: Aan 8 konijnen wordt een gelijke dosis insuline gegeven. Om de hoeveelheid glucose (in mg/l) in
hun spieren te meten worden 2 methodes gebruikt (A en B) met de volgende resultaten:
konijn 1
2
3
4
5
6
7
8
methode A 1.8 2.0 2.2 1.9 2.3 1.6 2.1 2.1
methode B 2.0 1.6 1.1 1.4 1.9 1.6 2.3 2.0
a. Toets met een α van 5% of er een verschil is tussen de twee methodes.
b. Veronderstel, dat er niet 8 maar 16 konijnen gebruikt waren bij dit onderzoek. (D.w.z de metingen met
methode B zijn gedaan met 8 andere konijnen.) Voer de toets of er een verschil bestaat tussen de twee
methodes A en B nogmaals uit voor deze nieuwe proefopzet.
10.5: Voer de toets van oefening 9.13 nogmaals uit, nu met Statview. Statview voert deze toets uit onder
het compare-menu, contingency table, 1-group-chi-square. De gemeten frequentie moet in een x-kolom
geplaatst worden en de theoretische frequentie in een y-kolom.
10.6: Genereer m.b.v. Statview-series (onder tools-menu) 200 uniform verdeelde random getallen met
waarden tussen 0 en 1. Maak een klassenindeling in 20 klassen en bekijk het histogram. Toets m.b.v. een
χ 2 -toets op het niveau α 5% of deze random gegenereerde getallen uit een uniforme verdeling afkomstig
zijn.
10.7: Een meting van de lengtes van 100 babies leverde een gemiddelde lengte op van 67 cm met een
standaardafwijking van 3 cm en de volgende frequentie tabel:
lengte (in cm) frequentie
60 – 63
8
63 – 66
20
66 – 69
41
69 – 72
25
72 – 75
6
6. Oefeningen , Reeks 10
150
Toets m.b.v. een χ 2 -toets of deze waarnemingen komen uit een normale verdeling met een µ van 67 cm en
een σ van 3 cm als α 5%.
10.8: Men wenst te toetsen of de duur van telefoonsprekken een exponentieel verdeelde stochastische
variabele is. Hiervoor meet men de duur van 100 willekeurig gekozen telefoongesprekken. Men vindt de
volgende resultaten:
duur (min) aantal
0–2
30
2–4
19
4–6
13
6–8
12
8 – 10
9
10 – 12
4
12 – 14
4
14 – 20
4
20 – ∞
5
Kan men uit deze gegevens besluiten, dat de duur van een telefoongesprek exponentieel verdeeld is met een
gemiddelde duur van 5.9 minuten? neem α 10%.
10.9: Twee verschillende fabricageprocessen leveren 2% respectievelijk 4% defecte produkten bij een
steekproef van 250 stuks uit produkten van ieder van beide processen. Toets op het niveau α 5% of het
eerste proces beter is dan het tweede.
10.10: Een leraar gebruikt 3 verschillende onderwijsmethoden in 3 verschillende groepen met het volgende
resultaat:
methode 1 methode 2 methode 3
geslaagd
50
47
56
gebuisd
5
14
8
Kan de leraar uit deze resultaten concluderen dat één van de drie methodes beter is dan de andere? (α 5%).
10.11: Van 6800 aselect gekozen Belgen noteerde men de kleur van haar en ogen. Men bekwam de volgende resultaten:
kleur ogen blond haar bruin haar zwart haar rood haar totaal
blauw
1768
807
189
47
2811
grijs
946
1387
746
53
3132
bruin
115
438
288
16
857
totaal
2829
2632
1223
116
6800
Toets of er een verband bestaat tussen de haarkleur en de kleur van de ogen? (α 5%).
10.12: We gooien met een knoop en noteren steeds of deze op voor- of achterzijde valt.
a. Als de kans dat de voorzijde van de knoop boven komt gelijk is aan 40%, benader dan de kans dat de
knoop in 150 worpen minstens 70 maal met de voorzijde naar boven valt.
b. In een experiment gooien we 150 maal en meten dat de knoop 72 maal met de voorzijde naar boven
valt. Maak een 95%-Betrouwbaarheidsinterval rond de gemeten waarde en toets of de knoop aan het
voorgestelde model (met p 40%) zou kunnen voldoen op het niveau α 5% .
10.13: Neem de Bumpus-data uit oefening 1.6 en kies α 5% .
a. Toets of er een verschil is tussen de spanwijdte van dood gevonden en levend gevangen exemplaren.
Welke toets of toetsen gebruik je en wat zijn de hypotheses en de conclusies?
Bereken ook de overschrijdingskans.
b. Toets of de totale lengte van een mus (in deze dataset) gelijk is aan 5/8 maal de spanwijdte.
Welke toets of toetsen gebruik je en wat zijn de hypotheses en de conclusies?
Bereken ook de overschrijdingskans.
6. Oefeningen , Reeks 11
151
Reeks 11
11.1: Uit de populatie van de Belgische bevolking werden 5 waarnemingen verricht van het basisinkomen
en het aantal studiejaren na het 12-de levensjaar.
aantal studiejaren (x) basisinkomen in 103 BF (y)
6
10
12
20
10
17
8
12
9
11
a. Maak een scatterdiagram van deze gegevens.
bx
b. Bepaal de regressierechte van y op x: y( a( (
2
2
c. Bereken s en bepaal een 95%-BI voor σ (de residuele variantie).
b.
d. Bepaal een 95%-BI voor (
e. Voorspel met de regressielijn de waarde van y( als x 11 en bepaal een 95%-BI rond deze voorspelde
waarde.
f. Bepaal de lineaire correlatiecoëfficiënt ρxy en stel een 95%-BI interval op voor ρxy g. Toets op het niveau α 5% de hypothese dat er geen lineair verband is tussen x en y tegen de hypothese
dat er wel een lineair verband is.
11.2: Krekels sjirpen door hun vleugels tegen elkaar te wrijven. De frequentie van het sjirpen, het aantal
malen per seconde dat de vleugels heen en weer bewegen, neemt toe als de temperatuur hoger wordt. Uit de
volgende waarnemingen willen we dat verband nader bestuderen:
frequentie (x) temperatuur (y)
20
31
16
22
19
34
17
27
15
21
17
28
17
29
15
26
16
27
18
29
a. Maak een scatterdiagram van deze gegevens.
bx.
b. Bereken de regressielijn van y op x: y( a( (
c. Bereken y en x en controleer, dat de regressielijn door x y gaat.
d. Bereken de covariantie Covx y en de correlatie coëfficiënt ρ x y .
e. Bereken de variantie s2 van yi N a b xi σ .
f. Teken een 95%-BI voor de richtingscoëfficiënt b van de regressielijn.
g. Bepaal een 95%-BI voor yx.
h. Toets de hypothese b 0 met α 5%.
i. Er wordt een 11-de meting x y 19 33 gedaan. Ligt deze waarneming binnen het 95%-BI van yx,
dat bepaald is op grond van de eerste 10 waarnemingen?
j. Bepaal de vergelijking van de regressielijn als de temperaturen in graden Fahrenheit opgegeven zijn
(xÆC 18 x 32Æ F). Veranderen de covariantie Covx y en de correlatiecoëfficiënt ρ x y door deze
schaalverandering?
k. Welke temperatuur zal op grond van het gevonden lineaire model corresponderen met een sjirpfrequentie
van 21 trillingen per seconde? Bepaal het 95%-BI rond deze geschatte waarde.
l. Bepaal de regressielijn van x op y.
m. Laat b de helling zijn van de regressielijn van y op x en d de helling van de regressielijn van x op y. Toon
6. Oefeningen , Reeks 11
152
dan aan dat b d r2 .
11.3: De hardheid van een metaallegering is gemakkelijker te meten dan de treksterkte. Omdat de treksterkte een belangrijke eigenschap is willen onderzoekers nagaan of de hardheid te gebruiken is om voorspellingen te doen over de treksterkte van een metaallegering. Daartoe werden van 20 monsters, vervaardigd
onder verschillende condities de hardheid en de treksterkte gemeten.
hardheid treksterkte
hardheid treksterkte
52
12.3
54
12.8
56
12.5
57
13.6
60
14.5
61
13.5
62
15.6
64
16.1
66
14.7
68
16.1
69
15.0
70
16.0
71
16.7
71
17.4
73
17.6
76
16.8
76
17.6
77
19.0
80
18.6
83
18.9
a. Maak een scatterdiagram van deze metingen
t a( (
b h en stel 95%-BI’s op voor a en b
b. Bepaal de regressielijn (
c. Toets de hypotheses : b 0 en a 0.
d. Geef een schatting voor de gemiddelde treksterkte van een metaal legering met een hardheid van 66 en
geef een 95%-BI voor deze schatting. Doe hetzelfde voor een legering met een hardheid van 85.
11.4: Neem de Bumpus-data uit oefening 1.6 en kies α 5% .
a. Doe een regressie van de totale lengte op de spanwijdte, bepaal intercept, helling en de residuele som
van kwadraten.
b. Geef betrouwbaarheidsintervallen voor helling en intercept.
c. Toets of het intercept gelijk is aan nul.
Wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans.
d. Toets of de helling gelijk is aan 5/8.
Wat zijn de hypotheses en de conclusies? Bereken ook de overschrijdingskans.
7. Software
7.1 SPSS, Een summier overzicht van een aantal faciliteiten
7.1.1 Inleiding
SPSS is een afkorting van ”Statistical Package for the Social Sciences”. Het wordt veel gebruikt en is al vrij
lang op de markt. De laatste versies zijn volledig menugestuurd en eenvoudig te gebruiken. Het belangrijkste
bij het gebruik van zo’n pakket is, dat je weet wat een statistisch begrip of toets betekent en hoe hierbij de
gegevens gebruikt worden. Via de menu’s wijst de rest zich dan vanzelf.
7.1.2 Het werkblad (data editor)
In het werkblad worden de gegevens geordend zoals weergegeven in tabel 1.1. In de kolommen staan de
waarnemingen behorende bij een variable. In de rijen staan de gevallen (“cases”), de waarnemingen van de
verschillende variabelen van eenzelfde persoon of object.
Links onderaan bevinden zich twee tabs met de namen data view en variable view. Het eerste laat
de waarnemingen zien en het tweede laat de gegevens over het type van de gebruikte variabelen zien.
De omschrijving van de variabelen in de variable view dient enerzijds om er voor te zorgen, dat het
programma de gegevens in de data-editor goed interpreteert en er correct mee rekent en anderzijds ook om
de gegevens voor de menselijke gebruiker leesbaar en overzichtelijk te presenteren. De volgende gegevens
over een variable worden in de variable view beschreven:
1. naam: werknaam van de variable, maximaal 8 letters en cijfers, beginnend met een letter.
2. type: getal, datum of string. Een string is een rij karakters, je kunt er niet mee rekenen maar je kunt hem wel
als nominale of ordinale variabele gebruiken een erop sorteren. Een datum is een speciaal soort string met een
eigen sorteervolgorde. Een getal kun je gebruiken in een nominale of ordinale variabele (meestal gebruik je dan
kleine gehele getallen 0 , 1 , 2 , 3 , ) en als ratio-variabele (reëel getal). Een reëel getal als π 4 arctan1
kun je neerschrijven als “ 3.14159” met decimale punt of komma of als mantisse–exponent “ 0.314159 E+01”
(scientific notation); met 5 decimalen heb je in het eerste geval 8 karakters nodig (plusteken, decimale punt of
komma en 6 cijfers) en in het tweede geval 13. Je kunt ook de nauwkeurigere benadering 3.14159265358979
invoeren. SPSS zal deze bij berekeningen ook gebruiken, maar als je het aantal decimalen op 5 hebt staan ga je er
in het datawindow nooit meer zien.
3. width: aantal karakters dat neergeschreven wordt in het datawindow.
4. decimals: als de variabele een getal is, dan kun je hier het aantal neer te schrijven decimalen opgeven.
5. label: veld waarin je een uitgebreide omschrijving van je variabele kunt neerschrijven, zodat je ook volgend jaar
nog weet wat de betreffende data voorstellen.
6. missing: Bij een enquete gebeurt het vaak dat sommige velden niet ingevuld worden; bij het coderen van de data
wordt dan vaak een speciaal karakter of getal (b.v. 9 of 99) gebruikt om dit aan te geven.
7. columns – align: breedte van het veld in dataview en alignering van de data.
8. measure: datatype scale – ordinal – nominal zoals beschreven in 1.2.1
De inhoud van alle velden kun je aanpassen via een submenu dat je oproept door met de muis rechts in het veld te
klikken (alleen bij “naam” en “label” kun je gewoon in het veld zelf tijpen).
7.1.3 Het FILE-menu
Het file menu biedt drie mogelijkheden om een bestaande dataset te openen of een nieuwe te creëren:
a. New: Creëer een nieuw werkblad (data window).
b. Open: Open een reeds bestaande file. Standaard is dit een SPSS-datafile (.sav), maar je kunt via deze
weg ook een tekst-file (.txt) of een excel-file (.xls) openen door rechts in het menuveld “files of type”
153
7.1. Een summier overzicht van SPSS
154
te klikken en het gewenste type te selecteren. In een tekst-file moeten de verschillende waarnemingen op
een regel gescheiden zijn door tabs (of andere speciale karakters). Als de eerste regel van een Excel-file
namen bevat, kan SPSS deze automatisch overnemen.
c. Read ASCII Data: Importeer data uit een ASCII-file, een bestand met pure tekst en dus zonder font- en
layout aanwijzingen. SPSS zal de gebruiker vragen naar de namen van de variabelen en de wijze waarop
de data moeten worden geı̈nterpreteerd.
Als je in je werkblad al een bestand in gebruik hebt, wordt dit verwijderd bij het openen van een nieuw.
Via het file-menu kun je een bestand bewaren (Save) of uitprinten.
7.1.4 Aanmaken van kolommen en invoeren van data
Bij het opstarten van SPSS verschijnt er op het scherm een werkblad (of data editor), mogelijk gevuld
met data als je vertrekt van een bestaande file. Iedere kolom (variabele) draagt een naam van maximaal 8
karakters. Iedere rij (case) draagt een nummer. Een cel is bepaald door zijn kolomnaam en zijn rijnummer.
De cursor wijst altijd naar een cel; rijnummer en kolomnaam ervan staan in de linker bovenhoek.
Een nieuwe kolom kan alsvolgt worden aangemaakt:
a. Door in een cel een getal te zetten. De bijbehorende kolom krijgt dan het numerieke formaat (F8.3) van
een decimaal getal met 3 cijfers na de komma (decimal point) en de (default) naam “var0000x”.
b. Door in de variable view een nieuwe regel te vullen met naam en andere gegevens over een variabele
zoals boven beschreven.
c. Met Compute in het Transform–menu, zie hieronder.
N.B. Punt (b) biedt je ook de mogelijkheid om de naam en de presentatie van een bestaande kolom te
wijzigen.
7.1.5 Wegen en selecteren van data
Als je datakolom (variabele) X metingen bevat en een tweede datakolom N de aantallen van deze metingen
(b.v. als X en N afkomstig zijn van een frequentietabel), dan kan je de data van X door SPSS laten “wegen”
door de kolom N. Hiertoe duid je deze kolom aan als “frequency variable” in het menu Data weight
cases.
Als je rijen bij de statistische verwerking wilt uitsluiten, kun je dit doen via het menu Data select cases.
Een eenvoudige manier is om eerst een (extra) kolom met nullen en enen te maken
7.1.6 Transformatie van data
Met Compute in het Transform–menu kun je een nieuwe kolom (target variable) definiëren en de waarden
erin berekenen via een formule, samengesteld uit namen van variabelen, getallen en standaard-operatoren
( voor machtsverheffing) en standaardfuncties. Variabelen en functies “selecteer” je in hun menu’s en
importeer je in het compositie-venster door op de pijl te klikken.
Voorbeeld 1: Een kolom met n random getallen maak je door in het menu met Transform Compute
een nieuwe kolom te definiëren en te vullen met de functie RV.XXX( ), waar RV staat voor “Random
Variable” , XXX de naam is van de gewenste verdeling en de parameters van die verdeling zijn, b.v.
RV.normal(µ σ ) als de getallen normaal N µ σ ) verdeeld moeten zijn. Je moet er wel eerst voor zorgen
dat de n-de cel van een kolom een waarde heeft.
Voorbeeld 2: Een kolom met de rangnummers 1, 2, 3, maak je door eerst in Transform Compute
een nieuwe kolom met waarden 1 te maken en vervolgens hiervan via Transform Time Series een
cumulatieve som te maken.
7.1. Een summier overzicht van SPSS
155
In het help–menu vind je onder keyword functions een overzicht van de beschikbare functies en in het
bijzonder van verdelingsfuncties (Cumulative Distribution functions: Normaal, χn2 , tn , Fm n , ) en inverse
verdelingsfuncties (voor de berekening van quantielen).
Met Sort Cases in het Data–menu kun je een bestand sorteren.
Als je de mogelijkheid wilt hebben om de oorspronkelijke orde terug te krijgen, maak je eerst een kolom
met rangnummers. De oude orde kun je dan herstellen door op deze kolom te sorteren.
7.1.7 Grafische weergave van de data
Via het Graphs–menu kun je onder andere een histogram, een boxplot, een scatterplot en normale P–P-plots
en Q–Q-plots maken.
a. Een histogram kun je op drie manieren maken, automatisch, interactief of manueel.
i. Voor een automatisch histogram kies je het menu Graphs Histogram. In het betreffende menu
kies je de gewenste variabele en klikt op OK.
Helaas bevat het plaatje dat SPSS nu maakt een blunder! In plaats van de range, het interval tussen de
kleinste en grootste waarde, op te delen wordt een groter interval opgedeeld. Dit geeft een probleem
als de data binnen een bepaald interval moeten liggen. Als de data b.v. percentages zijn, moeten ze
tussen 0 en 100 liggen; een klassenindeling in 11 klassen 5 5 5 15 95 105 , zoals SPSS
maakt is onzin omdat negatieve waarden en waarden boven 100 niet voor mogen komen; effectief zijn
de twee buitenste klassen dan 0 5 en 95 100 en is hun lengte slechts de helft van de andere klassen.
Je kunt je histogram manueel aanpassen door de chart editor te openen (dubbel klikken op het histogram) en dan via het menu-item chart axis interval OK het veld Intervals: “custom” te
selecteren en dan de gewenste waarden voor minimum, maximum en aantal klassen in te vullen.
ii. Voor een interactief histogram kies je het menu Graphs Interactive Histogram. In het pop-up
menu kun je kiezen uit een twee- of driedimensionaal histogram; onder “assign variables” moet je de
gewenste variabelen naar de assen slepen met je muis. Onder “histogram” kun je de klassenindeling
aanpassen. In tegenstelling tot het voorgaande wordt hier wel een opdeling van de range voorgesteld
als default.
iii. Manueel kun je een histogram maken door via het menu Transform Compute de gewenste kolom
met de functie RND (=round, afronden) af te beelden op de gewenste verzameling klassemiddens en
dan een Barchart te maken. RND rondt een reëel getal af naar het dichtstbijzijnde gehele getal,
als k geheel en k 12 x k 12 , dan RND(x k .
Als je de indeling in klassen a a d , a d a 2d , met klassebreedte d wilt maken, dan kun
je de elementen van de kolom OudeCol op de klassemiddens a 12 d a 32 d afbeelden (ga na!)
met
NieuwCol a d 05 RNDOudeCol ad 5 .
b. In het Boxplot-menu heb je de mogelijkheden
simple ! clustered
en
groups of cases ! separate variables.
In het geval van “groups” heb je een aparte variabele (categorie) nodig die je dataset uitsplitst in deelgroepen. Voor ieder van deze groepen wordt een aparte boxplot gemaakt. Zie help keyword boxplots
chart types voor details.
Uitschieters (data verder weg dan 1.5 maal het interkwartiel) worden apart getekend als rondjes en grove
uitschieters (verder weg dan driemaal het interkwartiel) als sterretjes.
Een boxplot (in twee of drie dimensies) kun je ook maken via de interactieve weg Graphs Interactive
Boxplot.
7.1. Een summier overzicht van SPSS
156
c. In een scatterplot van de variabelen X en Y worden de koppels xi yi uitgezet in het XY –vlak om te
zien of er een verband zou kunnen zijn tussen beide variabelen.
d. P–P en Q–Q plots: Laat xi i 1 n een gegeven gesorteerde dataset zijn met gemiddelde m, standaarddeviatie s en empirische verdelingsfunctie FX en laat Y N m s de “best bijpassende” normale
verdeling zijn. Een “normale P–P plot” is een scatterplot van FX xi in en de theoretische kans
PYi xi . Een “normale Q–Q plot” doet hetzelfde voor de quantielen van beide verdelingen. Het is een
hulpmiddel om te zien of een dataset (min of meer) normaal verdeeld is.
7.1.8 Beschrijvende statistiek
Via het menu Analyze descriptive statistics Explore vind je het meest uitgebreide overzicht van
beschrijvende grootheden zoals gemiddelde, mediaan, modus, standaardafwijking, interkwartiel, range,
scheefheid en kurtosis. Kwartielen, het betrouwbaarheidsinterval met betrouwbaarheid 1
α , uitschieters, boxplot en histogram kun je opvragen via submenu’s statistics en plots . Desgewenst kun je deze
grootheden laten uitsplitsen naar factoren; als je bijvoorbeeld in tabel 1.1 een BI voor mannen en vrouwen
apart wilt hebben, dan geef je de variabele X2 (sexe) als factor op.
Als je decielen of andere percentielen wilt hebben, moet je Analyze descriptive statistics Frequencies gebruiken en de gewenste percentielen invullen in het submenu statistics.
Als je een variabele wilt standaardiseren (Z X X S), moet je Analyze descriptive statistics Descriptives gebruiken.
NB. Het menu-item crosstabs hoort niet onder beschrijvende statistiek thuis maar onder Nonparametric
Tests.
7.1.9 t-Toetsen
Te vinden in het menu Analyze Compare Means. SPSS geeft als uitvoer de waarde van de toetsgrootheid, de overschrijdingskans Sig (of Significance level), het aantal vrijheidsgraden df en het (tweezijdig)
betrouwbaarheidinterval CI (Confidence Interval). Standaard wordt de betrouwbaarheid op 95% gezet maar
in het options submenu kun je deze zelf instellen.
SPSS doet altijd een tweezijdige toets. Als je een eenzijdige toets wilt doen, moet je het niveau α verdubbelen om de goede grens voor het betrouwbaarheidsinterval te vinden. De door SPSS berekende overschrijdingskans moet je delen door twee. Maar je moet wel nagaan of de toetsgrootheid aan de goede zijde
van het midden van het betrouwbaarheidsinterval van de tweezijdige toets ligt!.
µ0 .
a. t-toets voor één groep: H0 : µ µ0 tegen H1 : µ Selecteer in het One-Sample T Test–menu een of meer toets-variabelen, geef de gepostuleerde waarde
voor µ op in test value (dezelfde voor alle variabelen!) en kies desgewenst in de options een betrouwbaarheid verschillend van 95%.
b. t-toets voor twee ongepaarde groepen: H0 : µ1 µ2 tegen H1 : µ1 µ2 .
Zet de beide data-reeksen achtereen in een kolom en kies (of maak) een tweede kolom (de grouping
variable) waarin (b.v. door een integer 1 of 2) is aangegeven tot welke groep het betreffende gegeven
behoort. Dit mag een categorale variabele zijn, maar ook een reële variabele of een string-variabele.
Selecteer in het Independent-Samples T Test–menu de toetsvariabele en de groeperende variabele. Via
de knop “define groups” kun je de twee waarden intijpen, die de te vergelijken groepen aanduiden. Je
kunt ook een splitsing maken door (bij een ordinale variabele) een “cut point” te kiezen.
Zoals het hoort, toetst SPSS eerst met een F-toets (Levene) of de varianties gelijk geacht mogen worden.
Vervolgens wordt er dan zowel een t-toets gedaan voor het geval, dat de varianties gelijk zijn, alsook een
(benaderende) t-toets voor het geval, dat de hypothese van gelijke varianties wordt verworpen. De keuze
tussen beide resultaten wordt aan de gebruiker overgelaten.
7.1. Een summier overzicht van SPSS
157
µ2 .
c. t-toets voor twee gepaarde groepen: H0 : µ1 µ2 tegen H1 : µ1 Zet de beide data-reeksen in twee kolommen, met overeenkomstige elementen op dezelfde rij. Selecteer
in het Paired-Samples T Test–menu twee toets-variabelen door ze aan te klikken en transporteer ze naar
het “paired variables window” door de pijl aan te klikken. Desgewenst kun je zo meerdere paren voor
een gepaarde t-toets selecteren.
Bij de uitvoer vinden we ook het gemiddelde en de standaarddeviatie van beide groepen apart en de
correlatie ertussen; bovendien staat onder het hoofdje Sig de significantie (overschrijdingskans) van
de hypothese dat deze correlatie nul is. Als de correlatie niet significant is, kun je net zo goed een
ongepaarde toets gebruiken.
7.1.10 Toetsen met de χ 2 –verdeling
a. χ 2 -toets op een kansverdeling: H0 : ni νi i 1 n tegen H1 : ni νi voor minstens één i, waar ni
het gemeten aantal van groep i is en νi het aantal op grond van de gepostuleerde verdeling.
Via het menu Analyze Nonparametric Tests Chi–Square kun je een kolom opgeven met
waargenomen frequenties (of een kolom met categorieën gewogen door een kolom met frequenties). Als
de verwachte frequenties niet allemaal gelijk zijn, moet je deze in de goede volgorde manueel inbrengen
of een syntax window gebruiken, zie 7.1.13.
b. Kruistabellen (contingency tables of crosstabs). Toets H0 : gegevens in rijen en kolommen zijn onafhankelijk tegen H1 : er is afhankelijkheid tussen rijen en kolommen.
Een kruistabel zoals tabel 2 is (vrijwel altijd) een uittreksel van een groter bestand zoals tabel 1. In
SPSS kun je niets doen met de kruistabel van de vorm 2 en moet je werken met de primaire data zoals in
tabel 1.
tabel 1.
aantal
252
224
248
276
20
16
Uittreksel uit een enquète
geslacht
stemming
man
voor
man
tegen
vrouw
voor
vrouw
tegen
vrouw
blanco
man
blanco
tabel 2. bijbehorende kruistabel
man
vrouw
voor
252
248
tegen
224
276
blanco 16
20
In het menu Data weight cases duid je de kolom aantal aan als “frequency variable” zodat de andere
kolommen met deze aantallen gewogen worden.
In het menu Analyze Descriptive Satistics crosstabs selecteer je de rij-variabele stemming en
kolom-variabele geslacht (of andersom), in het “Statistics ...” submenu duid je aan dat je een (benaderende) toets met de Chi-kwadraat verdeling doet en in “Cells ...” duid je aan welke tussenresultaten je
in je uitvoer wilt zien.
Als resultaat krijg je de waarde van de toetsgrootheid, het aantal vrijheidsgraden (df) en de overschrijdingskans (Sig) berekend met drie methoden, de oorspronkelijke methode van Pearson (zoals behandeld
in de cursus), Pearsons methode met continuı̈teitscorrectie en de maximum likelihood methode.
7.1. Een summier overzicht van SPSS
158
7.1.11 Regressie en correlatieanalyse
Zet de data in kolommen X en Y .
In het menu Analyze regression linear selecteer je de onafhankelijke variabele (X) en de
afhankelijke variabele (Y ); in het submenu “Statistics ...” selecteer je de gewenste uitvoer en in het submenu
“Plots ...” de gewenste scatterplots.
7.1.12 De Kolmogorov-Smirnov toets
Deze is te vinden in het menu Analyze Nonparametric tests 1-Sample K-S. Je kunt toetsen of je
data trekkingen uit een normale, uniforme, Poisson- of exponentiële verdeling zouden kunnen zijn. SPSS
berekent de tweezijdige overschrijdingskans, de parameter dn in formule (4.66), de grootste afwijkingen
naar beneden en naar boven, en de K-S Z-waarde (=dn n ; het is de geobserveerde waarde van de teller in
de breuk op de laatste regel van tabel 4.5).
7.1.13 Het Syntax Window
SPSS is van oorsprong een command language; alle opdrachten worden door textcommando’s gegeven. Bovenop deze command language is een menu-systeem gebouwd, dat de commando’s genereert en doorgeeft
aan de SPSS-processor. Als je via het menu een opdracht samenstelt kun je de equivalente commando’s in
de SPSS-programmeertaal zien in een syntax window, dat je creëert door je opdracht niet af te sluiten met het
aanklikken van OK maar met paste; desgewenst kun je de opdracht aanpassen en (alsnog) uit laten voeren
door in de menubalk de betreffende knop (met een klein naar rechts gericht driehoekje) aan te klikken. In
de meeste gevallen werkt het menu-systeem vrij goed, en hoef je je als gebruiker niets aan te trekken van
die command language, maar soms is werken via een menu wel zeer onhandig. Via een syntax window kun
je dan je commando’s bijsturen.
Een goed voorbeeld is de χ2 -toets op een kansverdeling, als de kansen van de verschillende klassen
niet alle dezelfde waarde hebben. Als je volledig via het menu werkt, moet je de verwachte kansen (of
waarden) een voor een intijpen maar dat is een methode uit het stenen tijdperk. Je kunt echter ook via het
menu (Analyze Nonparametric Tests Chi–Square ) alle details opgeven behalve deze verwachte
waarden en dan vervolgens via de knop paste een syntax window openen en hierin !" #$ %& '()*
vervangen door !" #$ %&verwachte waarden via een copy-paste operatie.
Als voorbeeld beschouwen we de data van het Rutherford-Geiger experiment (zie tabel 3.1 in 3.4).
tabel 3. Het SPSS DataWindow voor het Rutherford-Geiger experiment.
aantal desintegraties per tijdsinterval
aantal tijdsintervallen
desintgr
0
1
2
3
4
5
6
7
8
9
10
11
aantal.w
57
203
383
525
532
408
273
139
45
27
10
6
Poisson-kans als λ
th.kans
.0209
.0807
.1562
.2015
.1949
.1509
.0973
.0538
.0260
.0112
.0043
.0015
3 87
7.1. Statistische faciliteiten in Excel
159
We wegen de kolom met de kolom +,. Het gemiddelde aantal desintegraties per tijdsinterval is 3.870 en de variantie 3.664. We schatten de parameter λ van de Poisson-verdeling dus met 3.870
en berekenen de kolom van de kansen Pλ in het menu Transform Compute met de opdracht
& #%-"./00.12345#%-"./00.12534,
waarbij je de naam th.kans invult als target variable. Als we nu in het Chi-square-menu de test-variabele
kiezen met Expected Value: “All Categories Equal” en vervolgens op paste klikken, krijgen we
de volgende tekst in een syntax window:
1")6 $ 0$
#7/0'()6 &
!" #$ %& '()*
8/00/19 )1)*:0/0
Met copy–paste vervangen we hierin het woord '()* door de kolom van kansen op de verschillende uitkomsten (onder de hypothese dat de waarnemingen Poisson-verdeeld zijn met λ 387 ):
1")6 $ 0$
#7/0'()6 &
!" #$ %&;; ;; ; ; ; ; ;; ; ;;
;;
8/00/19 )1)*:0/0
Bij uitvoering van deze opdracht berekent SPSS automatisch de verwachte aantallen en geeft dan als uitkomst
#50<
;
=
0=
Er is één probleem: SPSS weet niet, dat de parameter λ geschat is uit de data en dat dus het aantal vrijheidsgraden (df) met één verminderd moet worden, zodat de overschrijdingskans (Significance) in feite .1722 is
(in het Transform-Compute-menu te berekenen met 5 #%-#7/0'2 ; 3 ;4).
7.2 Statistische faciliteiten in Excel
7.2.1 Inleiding
Het belangrijkste bij het gebruik van statistische software is, dat je weet wat een statistisch begrip of toets
betekent en hoe hierbij de gegevens gebruikt worden. Via de menu’s wijst de rest zich dan vanzelf.
Excel is een “spreadsheet”-programma met veel ruimere mogelijkheden dan de statistische verwerking
van gegevens. In dit overzichtje beperken we ons echter hiertoe. Als je statistische functies in Excel wilt
gebruiken moet je in het Tools-menu het veld Data Analysis aanklikken (of eventueel via Add-Ins het
Analysis ToolPak kiezen). Via dit veld kun je de gebruikelijke statistische toetsen selecteren. In het kader
van de cursus “Begrippen van Kansrekening en Statistiek” zijn de volgende tools van belang:
Correlation & Covariance
Random Number Generation
Descriptive Statistics
Regression
F-Test Two-Sample for Variances
t-Test: Paired Two-Sample for Means
Histogram
t-Test: Two-Sample Assuming Equal Variances
7.2.2 Het invoeren van data
Bij het opstarten van Excel verschijnt er op het scherm een werkblad (workbook of worksheet) met cellen
genummerd met een letter voor de kolom en een nummer voor de rij. Iedere cel is vanuit ieder andere cel
7.1. Statistische faciliteiten in Excel
160
uniek adresseerbaar met zijn kolomletter en rijnummer. Bij het tussenvoegen van kolommen of rijen worden
alle referenties automatisch aangepast. In een cel kan tekst, een getal of een formule geplaatst worden, door
de cel aan te klikken, de gewenste symbolen in te tijpen en af te sluiten met een Return. Tijdens het tijpen
verschijnt een kopie van de celinhoud in de bovenbalk; als je de inhoud wilt wijzigen, moet je eerst de goede
plaats in deze tekst op de bovenbalk aanklikken, dan de wijzigingen intijpen en afsluiten via return of via
het aanklikken van het -symbooltje naast deze verbeterde tekst. Via de Cells -optie in het Format-menu
kan de vorm (aantal decimalen – centrering – font – size – etc.) naar behoeven worden aangepast.
F ORMULES . Een formule in een cel begint altijd met het -teken. Na het intijpen van een correcte formule
wordt door excel onmiddellijk het resultaat berekend en neergeschreven in de cel op je werkblad. Dat er
in een cel een formule staat is alleen nog te zien door de cel aan te klikken en in de bovenbalk naar de
werkelijke inhoud te kijken. Voorbeelden
=AVERAGE(A1:B5)
=VAR(A1:B5)
=SUMPRODUCT(A1:A5,B1:B5)
bereken het gemiddelde van de genoemde 10 cellen
bereken de steekproefvariantie van de genoemde 10 cellen
bereken het product van de overeenkomstige
elementen en sommeer deze ( inproduct ∑5i1 Ai Bi ).
Een lijst van beschikbare functies is te vinden via de standaard Excel Help-procedure.
KOPI ËREN , WISSEN , VERPLAATSEN EN DUPLICEREN van celinhoud. In het Edit-menu zijn onder andere
de volgende functies beschikbaar. Zij werken op een van te voren geselecteerde cel of reeks cellen:
naam
cut
copy
paste
fill
toetscombinatie
ctrl-X
ctrl-C
ctrl-V
ctrl-R
ctrl-D
betekenis
zet selectie klaar voor verplaatsing naar elders in het werkblad
zet selectie klaar voor kopiëring naar elders in het werkblad
voeg de selectie van cut of copy in op de gekozen plaats
dupliceer de celinhoud in geselecteerde cellen naar rechts
dupliceer de celinhoud in geselecteerde cellen naar beneden.
Bij het kopiëren of dupliceren van een formule verschuiven ook de referenties naar andere cellen, tenzij
de kolomletter en/of het rijnummer in de formule is vastgezet door er een $-teken voor te zetten. Als
bijvoorbeeld in cel C1 de formule
=A1B1/SUM(A1:A10)
staat en we doen een fill-down naar cel C2, dan komt hierin de formule
=A2B2/SUM(A2:A11)
te staan. Alle referenties zijn één veld naar beneden opgeschoven. Als we wel de referenties in de teller
maar niet die in de noemer willen opschuiven, dus als we
=AiBi/SUM(A1:A10) met i 1 10
in de cellen C1 C10 willen hebben, moeten we in cel C1 de formule
=A1B1/SUM(A$1:A$10)
intijpen en vervolgens een fill-down doen naar de negen cellen eronder.
Analoog schuiven alle kolomreferenties in een formule op naar rechts bij een fill-right, tenzij er een $-teken
voor de kolomletter staat.
V RAAG. Stel dat je werkblad in de cellen A1A10 de klassemiddens en in B1B10 de frequenties van een serie
metingen bevat. Schrijf een Excel-functie die in een cel het klassengemiddelde uitrekent. Schrijf ook een functie in de
cel C1, die zo is, dat als je een fill-down naar C2C10 doet, deze cellen de cumulatieve frequenties bevatten.
7.2.3 Beschrijvende Statistiek
Stel, dat de cellen A1:A65 je metingen bevatten. Selecteer in het Tools/Data Analysis-menu descriptive statistics, dan krijg je een menu, waarin je de plaats van je data (= input range) in het werkblad moet opgeven
(hier dus A1:A65), en moet aangeven of er bovenaan je kolom een label staat, of je een betrouwbaarheidsinterval (of beter de halve lengte van het BI) wilt hebben en met welke betrouwbaarheid (b.v. 95%) en
waar de uitvoer moet worden neergeschreven (in het huidige werkblad, op een nieuwe pagina van datzelfde
werkblad of in een nieuw werkblad).
7.1. Statistische faciliteiten in Excel
161
Het programma geeft dan de volgende grootheden:
Mean – Standard Error – Median – Mode – Standard Deviation
Sample Variance – Kurtosis – Skewness – Range
Minimum – Maximum – Sum – Count – Confidence Level(95.0%).
Om vervolgens een Boxplot te kunnen tekenen moet je in twee cellen met de functie
quartile range 1 en quartile range 3,
het eerste resp. derde kwartiel uitrekenen.
H ISTOGRAM : Selecteer in het Tools/Data Analysis-menu histogram. Excel vraagt dan een input range
(hier dus A1:A65) en een facultatieve bin range en of de gespecificeerde datakolommen labels bevatten. Je
kunt in je werkblad zelf een klassenindeling maken (in een kolom met de benedengrenzen van de klassen)
en deze opgeven; anders verdeelt excel zelf het waardengebied in 10 klassen. Tenslotte, als je een chart
vraagt, wordt naast de frequentietabel het histogram getekend.
7.2.4 F- en t-Toetsen
Selecteer in het Tools/Data Analysis-menu de gewenste toets en geef de input range op. Excel geeft dan
de overschrijdingskansen voor de een- en tweezijdige versies van de toets en de grens van de kritieke zone,
behorende bij het gevraagde niveau (α ). Een χ2 -toets voor de variantie in één groep metingen (one group
χ 2 -test) is niet beschikbaar.
7.2.5 Kruistabellen en de χ 2 -toets op een kansverdeling
Deze toetsen moet je doen met gebruik van de excel-functie CHITEST(actual range, expected range). Deze
functie berekent met formule (4.62) uit de syllabus de χ -waarde van je steekproef en de overschrijdingskans
die hierbij hoort. Je moet dus wel zelf de verwachte frequenties berekenen die behoren bij de gepostuleerde
theoretische verdeling. Als je b.v. de frequentietabel van je waarnemingen toetst tegen de normale verdeling,
dan kun je uit de klassegrenzen met de functie NORMDIST de percentielen berekenen (zie Excel Help).
Je kunt CHITEST ook toepassen bij kruistabellen, als je zelf eerst de matrix van verwachte frequenties
maakt. Voor een 2 2 kruistabel kun je b.v. het volgende maken
A
1
2
A1 300
A2 80
B
B1 150
B2 20
C
A1 B1 A1 A2SUMA1 : B2
??
D
??
??
en dan in het veld A3 de functie “ CHIT EST ” plaatsen.
7.2.6 Het berekenen van statistische functies
Het DATA ANALYSIS pakket in Excel bevat een groot aantal statistische functies, te vinden via Help
index statistical analysis, functions. Geloof echter niet voetstoots de beschrijving. Voor de functie
$%/0$2>334 wordt opgegeven dat deze de kansen van de t-verdeling geeft: als T tn zou dit voor k=1 de
kans PT x geven. In feite geeft $%/0$2>334 de kans PT x en $%/0$2>334 de kans PT x
voor x 0 . De derde variabele is het aantal staarten, k 1 of k 2.
8. Tabellen
8.1 Inleiding, afrondfouten en lineaire interpolatie
Het gebruik van tabellen voor het bepalen van functiewaarden (statistische grootheden) is enigszins gedateerd. Een computer is hiervoor een superieur hulpmiddel, maar deze is niet altijd beschikbaar, of de
benodigde programmatuur is niet aanwezig, of de gebruiker heeft onvoldoende ervaring in het gebruik of
het kost gewoon teveel tijd om een paar simpele getalletjes te bepalen. Het is daarom nuttig om met een tabel
snel een aantal berekeningen te kunnen doen. De hierna volgende tabellen zijn afkomstig van de website
http://www.york.ac.uk/depts/maths/tables/sources.htm van de University of York, GB.
8.1.1 Afrondfouten, afwijkingen tussen de exacte waarde en de tabelwaarden
In een tabel wordt bij een groot aantal waarden van het argument de waarde van een functie gegeven afgerond
tot een (klein) aantal decimalen. We mogen ervan uitgaan dat altijd een zo goed mogelijke benadering
wordt gegeven met het gebruikte aantal decimalen. De afrondfout is dus altijd kleiner dan de helft van een
eenheid van de eerste weggelaten decimaal. Voor vrijwel alle toepassingen is deze nauwkeurigheid meer
dan voldoende; als je het resultaat echt heel nauwkeurig wilt hebben, moet je de berekening door SPSS (of
een ander programma) laten doen, het resultaat heeft dan een relatieve fout van ongeveer 1016 .
voorbeeld 1. Bepaal de kans PZ 074 Φ074 voor Z N 0 1 standaard normaal verdeeld.
In de tabel vinden we Φ074 07703 met vier decimalen. De afrondfout is dus kleiner dan 0.00005 ,
zodat exact geldt:
077025 Φ074 077035
voorbeeld 2. Bepaal het kwantiel q F12 8 0 95 zodat PF q 095 voor F F12 8 ; in woorden, F is
F-verdeeld met 12 vrijheidsgraden in de teller en 8 in de noemer.
In de tabel vinden we q 328 met twee decimalen. De afrondfout is dus kleiner dan 0.005 , zodat exact
geldt:
3275 q 3285
8.1.2 Lineaire interpolatie
Vaak zal de parameter waarvoor je een functiewaarde zoekt in een tabel niet voorkomen. Je moet dan
uit naburige waarden een benadering berekenen d.m.v. interpolatie; lineaire interpolatie (regel van drie) is
hierbij ruim voldoende. Idee: Je zoekt y f x voor een gegeven waarde van x, maar de tabel bevat alleen
de naburige waarden f a met a x en f b met b x. Je verwacht dus dat f x tussen f a en f b zal
liggen en dat de verhoudingen
f x f a
x
a
en
b
a
f b f a
wel ongeveer gelijk zullen zijn. Dit geeft dus de benadering
y f a
f b f a
x a
b
a
voorbeeld 3. Bepaal het kwantiel q F23 8 95 zodat PF q 095 voor F F23 8 ; F is F-verdeeld met
23 vrijheidsgraden in de teller en 8 in de noemer.
In de tabel vinden we F20 8 95 315 en F30 8 95 308 met 20 resp. 30 vrijheidsgraden in de teller en 8 in
de noemer. Onze formule levert dus
q F8 23
95
315 308 315
23 20 313
30 20
162
8.1. Inleiding, afrondfouten en lineaire interpolatie
163
Wegens de afrondfouten in de tabelwaarden 315 0005 en 308 0005 heeft het natuurlijk geen zin
om een resultaat af te leveren met meer decimalen dan de tabelwaarden.
voorbeeld 4. Bepaal het 75%–kwantiel van de standaard normale verdeling Z N 0 1.
We moeten nu andersom werken (inverse interpolatie). We vinden in de tabel z1 Φ067 07486
en z2 Φ068 07517 en gevraagd wordt de waarde van q met kans PZ q Φq 075. De
tabelwaarden z1 en z2 vervullen nu dus de rol van a en b in onze formule; de getallen 0.67 en 0.68 vervullen
de rol van f a en f b. Zo vinden we:
q 067 068 067
075 07486 06745
07517 07486
Met je rekenmachientje kun je dit natuurlijk veel nauwkeuriger uitrekenen, (antwoord: 0.67451612903226)
maar deze precisie is maar schijn, wegens de afrondfouten in de tabelwaarden 0.7486 en 0.7517 (000005).
Deze afrondfouten werken door op de waarde van q.
Als vuistregel neem je ook hier een antwoord met niet meer significante cijfers dan de tabelwaarden.
8.2. De binomiaalverdeling
164
8.2 De binomiaalverdeling X
Bn p
k
De tabel geeft de cumulatieve kans PX k ∑
n
j 0
n
k
1
0
1
0
1
2
0
1
2
3
0
1
2
3
4
0
1
2
3
4
2
3
4
5
n
k
1
0
1
0
1
2
0
1
2
3
0
1
2
3
4
0
1
2
3
4
5
2
3
4
5
p
p
j
p j 1 pn j 0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.9900
1.0000
0.9801
0.9999
1.0000
0.9703
0.9997
1.0000
1.0000
0.9606
0.9994
1.0000
1.0000
1.0000
0.9510
0.9990
1.0000
1.0000
1.0000
0.9800
1.0000
0.9604
0.9996
1.0000
0.9412
0.9988
1.0000
1.0000
0.9224
0.9977
1.0000
1.0000
1.0000
0.9039
0.9962
0.9999
1.0000
1.0000
0.9700
1.0000
0.9409
0.9991
1.0000
0.9127
0.9974
1.0000
1.0000
0.8853
0.9948
0.9999
1.0000
1.0000
0.8587
0.9915
0.9997
1.0000
1.0000
0.9600
1.0000
0.9216
0.9984
1.0000
0.8847
0.9953
0.9999
1.0000
0.8493
0.9909
0.9998
1.0000
1.0000
0.8154
0.9852
0.9994
1.0000
1.0000
0.9500
1.0000
0.9025
0.9975
1.0000
0.8574
0.9928
0.9999
1.0000
0.8145
0.9860
0.9995
1.0000
1.0000
0.7738
0.9774
0.9988
1.0000
1.0000
0.9400
1.0000
0.8836
0.9964
1.0000
0.8306
0.9896
0.9998
1.0000
0.7807
0.9801
0.9992
1.0000
1.0000
0.7339
0.9681
0.9980
0.9999
1.0000
0.9300
1.0000
0.8649
0.9951
1.0000
0.8044
0.9860
0.9997
1.0000
0.7481
0.9733
0.9987
1.0000
1.0000
0.6957
0.9575
0.9969
0.9999
1.0000
0.9200
1.0000
0.8464
0.9936
1.0000
0.7787
0.9818
0.9995
1.0000
0.7164
0.9656
0.9981
1.0000
1.0000
0.6591
0.9456
0.9955
0.9998
1.0000
0.9100
1.0000
0.8281
0.9919
1.0000
0.7536
0.9772
0.9993
1.0000
0.6857
0.9570
0.9973
0.9999
1.0000
0.6240
0.9326
0.9937
0.9997
1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.9000
1.0000
0.8100
0.9900
1.0000
0.7290
0.9720
0.9990
1.0000
0.6561
0.9477
0.9963
0.9999
1.0000
0.5905
0.9185
0.9914
0.9995
1.0000
1.0000
0.8500
1.0000
0.7225
0.9775
1.0000
0.6141
0.9393
0.9966
1.0000
0.5220
0.8905
0.9880
0.9995
1.0000
0.4437
0.8352
0.9734
0.9978
0.9999
1.0000
0.8000
1.0000
0.6400
0.9600
1.0000
0.5120
0.8960
0.9920
1.0000
0.4096
0.8192
0.9728
0.9984
1.0000
0.3277
0.7373
0.9421
0.9933
0.9997
1.0000
0.7500
1.0000
0.5625
0.9375
1.0000
0.4219
0.8438
0.9844
1.0000
0.3164
0.7383
0.9492
0.9961
1.0000
0.2373
0.6328
0.8965
0.9844
0.9990
1.0000
0.7000
1.0000
0.4900
0.9100
1.0000
0.3430
0.7840
0.9730
1.0000
0.2401
0.6517
0.9163
0.9919
1.0000
0.1681
0.5282
0.8369
0.9692
0.9976
1.0000
0.6500
1.0000
0.4225
0.8775
1.0000
0.2746
0.7183
0.9571
1.0000
0.1785
0.5630
0.8735
0.9850
1.0000
0.1160
0.4284
0.7648
0.9460
0.9947
1.0000
0.6000
1.0000
0.3600
0.8400
1.0000
0.2160
0.6480
0.9360
1.0000
0.1296
0.4752
0.8208
0.9744
1.0000
0.0778
0.3370
0.6826
0.9130
0.9898
1.0000
0.5500
1.0000
0.3025
0.7975
1.0000
0.1664
0.5748
0.9089
1.0000
0.0915
0.3910
0.7585
0.9590
1.0000
0.0503
0.2562
0.5931
0.8688
0.9815
1.0000
0.5000
1.0000
0.2500
0.7500
1.0000
0.1250
0.5000
0.8750
1.0000
0.0625
0.3125
0.6875
0.9375
1.0000
0.0312
0.1875
0.5000
0.8125
0.9688
1.0000
8.2. De binomiaalverdeling
n
k
6
0
1
2
3
4
0
1
2
3
4
5
0
1
2
3
4
5
0
1
2
3
4
5
7
8
9
n
k
6
0
1
2
3
4
5
5
6
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
9
7
8
9
p
p
165
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.9415
0.9985
1.0000
1.0000
1.0000
0.9321
0.9980
1.0000
1.0000
1.0000
1.0000
0.9227
0.9973
0.9999
1.0000
1.0000
1.0000
0.9135
0.9966
0.9999
1.0000
1.0000
1.0000
0.8858
0.9943
0.9998
1.0000
1.0000
0.8681
0.9921
0.9997
1.0000
1.0000
1.0000
0.8508
0.9897
0.9996
1.0000
1.0000
1.0000
0.8337
0.9869
0.9994
1.0000
1.0000
1.0000
0.8330
0.9875
0.9995
1.0000
1.0000
0.8080
0.9829
0.9991
1.0000
1.0000
1.0000
0.7837
0.9777
0.9987
0.9999
1.0000
1.0000
0.7602
0.9718
0.9980
0.9999
1.0000
1.0000
0.7828
0.9784
0.9988
1.0000
1.0000
0.7514
0.9706
0.9980
0.9999
1.0000
1.0000
0.7214
0.9619
0.9969
0.9998
1.0000
1.0000
0.6925
0.9522
0.9955
0.9997
1.0000
1.0000
0.7351
0.9672
0.9978
0.9999
1.0000
0.6983
0.9556
0.9962
0.9998
1.0000
1.0000
0.6634
0.9428
0.9942
0.9996
1.0000
1.0000
0.6302
0.9288
0.9916
0.9994
1.0000
1.0000
0.6899
0.9541
0.9962
0.9998
1.0000
0.6485
0.9382
0.9937
0.9996
1.0000
1.0000
0.6096
0.9208
0.9904
0.9993
1.0000
1.0000
0.5730
0.9022
0.9862
0.9987
0.9999
1.0000
0.6470
0.9392
0.9942
0.9997
1.0000
0.6017
0.9187
0.9903
0.9993
1.0000
1.0000
0.5596
0.8965
0.9853
0.9987
0.9999
1.0000
0.5204
0.8729
0.9791
0.9977
0.9998
1.0000
0.6064
0.9227
0.9915
0.9995
1.0000
0.5578
0.8974
0.9860
0.9988
0.9999
1.0000
0.5132
0.8702
0.9789
0.9978
0.9999
1.0000
0.4722
0.8417
0.9702
0.9963
0.9997
1.0000
0.5679
0.9048
0.9882
0.9992
1.0000
0.5168
0.8745
0.9807
0.9982
0.9999
1.0000
0.4703
0.8423
0.9711
0.9966
0.9997
1.0000
0.4279
0.8088
0.9595
0.9943
0.9995
1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.5314
0.8857
0.9842
0.9987
0.9999
1.0000
1.0000
1.0000
0.4783
0.8503
0.9743
0.9973
0.9998
1.0000
1.0000
1.0000
0.4305
0.8131
0.9619
0.9950
0.9996
1.0000
1.0000
1.0000
1.0000
0.3874
0.7748
0.947
0.9917
0.9991
0.9999
1.0000
1.0000
1.0000
1.0000
0.3771
0.7765
0.9527
0.9941
0.9996
1.0000
1.0000
1.0000
0.3206
0.7166
0.9262
0.9879
0.9988
0.9999
1.0000
1.0000
0.2725
0.6572
0.8948
0.9786
0.9971
0.9998
1.0000
1.0000
1.0000
0.2316
0.5995
0.8591
0.9661
0.9944
0.9994
1.0000
1.0000
1.0000
1.0000
0.2621
0.6554
0.9011
0.9830
0.9984
0.9999
0.9999
1.0000
0.2097
0.5767
0.8520
0.9667
0.9953
0.9996
1.0000
1.0000
0.1678
0.5033
0.7969
0.9437
0.9896
0.9988
0.9999
1.0000
1.0000
0.1342
0.4362
0.7382
0.9144
0.9804
0.9969
0.9997
1.0000
1.0000
1.0000
0.1780
0.5339
0.8306
0.9624
0.9954
0.9998
0.9998
1.0000
0.1335
0.4449
0.7564
0.9294
0.9871
0.9987
0.9999
1.0000
0.1001
0.3671
0.6785
0.8862
0.9727
0.9958
0.9996
1.0000
1.0000
0.0751
0.3003
0.6007
0.8343
0.9511
0.9900
0.9987
0.9999
1.0000
1.0000
0.1176
0.4202
0.7443
0.9295
0.9891
0.9993
0.9993
1.0000
0.0824
0.3294
0.6471
0.8740
0.9712
0.9962
0.9998
1.0000
0.0576
0.2553
0.5518
0.8059
0.9420
0.9887
0.9987
0.9999
1.0000
0.0404
0.1960
0.4628
0.7297
0.9012
0.9747
0.9957
0.9996
1.0000
1.0000
0.0754
0.3191
0.6471
0.8826
0.9777
0.9982
0.9982
1.0000
0.0490
0.2338
0.5323
0.8002
0.9444
0.9910
0.9994
1.0000
0.0319
0.1691
0.4278
0.7064
0.8939
0.9747
0.9964
0.9998
1.0000
0.0207
0.1211
0.3373
0.6089
0.8283
0.9464
0.9888
0.9986
0.9999
1.0000
0.0467
0.2333
0.5443
0.8208
0.9590
0.9959
0.9959
1.0000
0.0280
0.1586
0.4199
0.7102
0.9037
0.9812
0.9984
1.0000
0.0168
0.1064
0.3154
0.5941
0.8263
0.9502
0.9915
0.9993
1.0000
0.0101
0.0705
0.2318
0.4826
0.7334
0.9006
0.9750
0.9962
0.9997
1.0000
0.0277
0.1636
0.4415
0.7447
0.9308
0.9917
0.9917
1.0000
0.0152
0.1024
0.3164
0.6083
0.8471
0.9643
0.9963
1.0000
0.0084
0.0632
0.2201
0.4770
0.7396
0.9115
0.9819
0.9983
1.0000
0.0046
0.0385
0.1495
0.3614
0.6214
0.8342
0.9502
0.9909
0.9992
1.0000
0.0156
0.1094
0.3437
0.6563
0.8906
0.9844
0.9844
1.0000
0.0078
0.0625
0.2266
0.5000
0.7734
0.9375
0.9922
1.0000
0.0039
0.0352
0.1445
0.3633
0.6367
0.8555
0.9648
0.9961
1.0000
0.0020
0.0195
0.08984
0.2539
0.5000
0.7461
0.9102
0.9805
0.9980
1.0000
8.2. De binomiaalverdeling
n
k
10
0
1
2
3
4
5
6
0
1
2
3
4
5
6
11
n
k
10
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
11
0
1
2
3
4
5
6
7
8
9
10
11
12
11
12
p
p
166
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.9044
0.9957
0.9999
1.0000
1.0000
1.0000
1.0000
0.8953
0.9948
0.9998
1.0000
1.0000
1.0000
1.0000
0.8171
0.9838
0.9991
1.0000
1.0000
1.0000
1.0000
0.8007
0.9805
0.9988
1.0000
1.0000
1.0000
1.0000
0.7374
0.9655
0.9972
0.9999
1.0000
1.0000
1.0000
0.7153
0.9587
0.9963
0.9998
1.0000
1.0000
1.0000
0.6648
0.9418
0.9938
0.9996
1.0000
1.0000
1.0000
0.6382
0.9308
0.9917
0.9993
1.0000
1.0000
1.0000
0.5987
0.9139
0.9885
0.9990
0.9999
1.0000
1.0000
0.5688
0.8981
0.9848
0.9984
0.9999
1.0000
1.0000
0.5386
0.8824
0.9812
0.9980
0.9998
1.0000
1.0000
0.5063
0.8618
0.9752
0.9970
0.9997
1.0000
1.0000
0.4840
0.8483
0.9717
0.9964
0.9997
1.0000
1.0000
0.4501
0.8228
0.9630
0.9947
0.9995
1.0000
1.0000
0.4344
0.8121
0.9599
0.9942
0.9994
1.0000
1.0000
0.3996
0.7819
0.9481
0.9915
0.9990
0.9999
1.0000
0.3894
0.7746
0.9460
0.9912
0.9990
0.9999
1.0000
0.3544
0.7399
0.9305
0.9871
0.9983
0.9998
1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.3487
0.7361
0.9298
0.9872
0.9984
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
0.3138
0.6974
0.9104
0.9815
0.9972
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.2824
0.6590
0.8891
0.9744
0.9957
0.9995
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.1969
0.5443
0.8202
0.9500
0.9901
0.9986
0.9999
1.0000
1.0000
1.0000
1.0000
0.1673
0.4922
0.7788
0.9306
0.9841
0.9973
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.1422
0.4435
0.7358
0.9078
0.9761
0.9954
0.9993
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
0.1074
0.3758
0.6778
0.8791
0.9672
0.9936
0.9991
0.9999
1.0000
1.0000
1.0000
0.0859
0.3221
0.6174
0.8389
0.9496
0.9883
0.9980
0.9998
1.0000
1.0000
1.0000
1.0000
0.0687
0.2749
0.5583
0.7946
0.9274
0.9806
0.9961
0.9994
0.9999
1.0000
1.0000
1.0000
1.0000
0.0563
0.2440
0.5256
0.7759
0.9219
0.9803
0.9965
0.9996
1.0000
1.0000
1.0000
0.0422
0.1971
0.4552
0.7133
0.8854
0.9657
0.9924
0.9988
0.9999
1.0000
1.0000
1.0000
0.0317
0.1584
0.3907
0.6488
0.8424
0.9456
0.9857
0.9972
0.9996
1.0000
1.0000
1.0000
1.0000
0.0282
0.1493
0.3828
0.6496
0.8497
0.9527
0.9894
0.9984
0.9999
1.0000
1.0000
0.0198
0.1130
0.3127
0.5696
0.7897
0.9218
0.9784
0.9957
0.9994
1.0000
1.0000
1.0000
0.0138
0.0850
0.2528
0.4925
0.7237
0.8822
0.9614
0.9905
0.9983
0.9998
1.0000
1.0000
1.0000
0.0135
0.0860
0.2616
0.5138
0.7515
0.9051
0.9740
0.9952
0.9995
1.0000
1.0000
0.0088
0.0606
0.2001
0.4256
0.6683
0.8513
0.9499
0.9878
0.9980
0.9998
1.0000
1.0000
0.0057
0.0424
0.1513
0.3467
0.5833
0.7873
0.9154
0.9745
0.9944
0.9992
0.9999
1.0000
1.0000
0.0060
0.0464
0.1673
0.3823
0.6331
0.8338
0.9452
0.9877
0.9983
0.9999
1.0000
0.0036
0.0302
0.1189
0.2963
0.5328
0.7535
0.9006
0.9707
0.9941
0.9993
1.0000
1.0000
0.0022
0.0196
0.0834
0.2253
0.4382
0.6652
0.8418
0.9427
0.9847
0.9972
0.9997
1.0000
1.0000
0.0025
0.0233
0.0996
0.2660
0.5044
0.7384
0.8980
0.9726
0.9955
0.9997
1.0000
0.0014
0.0139
0.0652
0.1911
0.3971
0.6331
0.8262
0.9390
0.9852
0.9978
0.9998
1.0000
0.0008
0.0083
0.0421
0.1345
0.3044
0.5269
0.7393
0.8883
0.9644
0.9921
0.9989
0.9999
1.0000
0.0010
0.0107
0.0547
0.1719
0.3770
0.6230
0.8281
0.9453
0.9893
0.9990
1.0000
0.0004
0.0059
0.0327
0.1133
0.2744
0.5000
0.7256
0.8867
0.9673
0.9941
0.9995
1.0000
0.0002
0.0032
0.0193
0.0730
0.1938
0.3872
0.6128
0.8062
0.9270
0.9807
0.9968
0.9998
1.0000
8.2. De binomiaalverdeling
n
k
12
0
1
2
3
4
5
6
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
13
14
n
k
13
0
1
2
3
4
5
6
7
8
9
10
11
12
13
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
14
p
p
167
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.8864
0.9938
0.9998
1.0000
1.0000
1.0000
1.0000
0.8775
0.9928
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.8687
0.9916
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.7847
0.9769
0.9985
0.9999
1.0000
1.0000
1.0000
0.7690
0.9730
0.9980
0.9999
1.0000
1.0000
1.0000
1.0000
0.7536
0.9690
0.9975
0.9999
1.0000
1.0000
1.0000
1.0000
0.6938
0.9514
0.9952
0.9997
1.0000
1.0000
1.0000
0.6730
0.9436
0.9938
0.9995
1.0000
1.0000
1.0000
1.0000
0.6528
0.9355
0.9923
0.9994
1.0000
1.0000
1.0000
1.0000
0.6127
0.9191
0.9893
0.9990
0.9999
1.0000
1.0000
0.5882
0.9068
0.9865
0.9986
0.9999
1.0000
1.0000
1.0000
0.5647
0.8941
0.9833
0.9981
0.9998
1.0000
1.0000
1.0000
0.5404
0.8816
0.9804
0.9978
0.9998
1.0000
1.0000
0.5133
0.8646
0.9755
0.9969
0.9997
1.0000
1.0000
1.0000
0.4877
0.8470
0.9699
0.9958
0.9996
1.0000
1.0000
1.0000
0.4759
0.8405
0.9684
0.9957
0.9996
1.0000
1.0000
0.4474
0.8186
0.9608
0.9940
0.9993
0.9999
1.0000
1.0000
0.4205
0.7963
0.9522
0.9920
0.9990
0.9999
1.0000
1.0000
0.4186
0.7967
0.9532
0.9925
0.9991
0.9999
1.0000
0.3893
0.7702
0.9422
0.9897
0.9987
0.9999
1.0000
1.0000
0.3620
0.7436
0.9302
0.9864
0.9980
0.9998
1.0000
1.0000
0.3677
0.7513
0.9348
0.9880
0.9984
0.9998
1.0000
0.3383
0.7206
0.9201
0.9837
0.9976
0.9997
1.0000
1.0000
0.3112
0.6900
0.9042
0.9786
0.9965
0.9996
1.0000
1.0000
0.3225
0.7052
0.9134
0.9820
0.9973
0.9997
1.0000
0.2935
0.6707
0.8946
0.9758
0.9959
0.9995
0.9999
1.0000
0.2670
0.6368
0.8745
0.9685
0.9941
0.9992
0.9999
1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.2542
0.6213
0.8661
0.9658
0.9935
0.9991
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.2288
0.5846
0.8416
0.9559
0.9908
0.9985
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.1209
0.3983
0.6920
0.8820
0.9658
0.9925
0.9987
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.1028
0.3567
0.6479
0.8535
0.9533
0.9885
0.9978
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0550
0.2336
0.5017
0.7473
0.9009
0.9700
0.9930
0.9988
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
0.0440
0.1979
0.4481
0.6982
0.8702
0.9561
0.9884
0.9976
0.9996
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0238
0.1267
0.3326
0.5843
0.7940
0.9198
0.9757
0.9944
0.9990
0.9999
1.0000
1.0000
1.0000
1.0000
0.0178
0.1010
0.2811
0.5213
0.7415
0.8883
0.9617
0.9897
0.9978
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.0097
0.0637
0.2025
0.4206
0.6543
0.8346
0.9376
0.9818
0.9960
0.9993
0.9999
1.0000
1.0000
1.0000
0.0068
0.0475
0.1608
0.3552
0.5842
0.7805
0.9067
0.9685
0.9917
0.9983
0.9998
1.0000
1.0000
1.0000
1.0000
0.0037
0.0296
0.1132
0.2783
0.5005
0.7159
0.8705
0.9538
0.9874
0.9975
0.9997
1.0000
1.0000
1.0000
0.0024
0.0205
0.0839
0.2205
0.4227
0.6405
0.8164
0.9247
0.9757
0.9940
0.9989
0.9999
1.0000
1.0000
1.0000
0.0013
0.0126
0.0579
0.1686
0.3530
0.5744
0.7712
0.9023
0.9679
0.9922
0.9987
0.9999
1.0000
1.0000
0.0008
0.0081
0.0398
0.1243
0.2793
0.4859
0.6925
0.8499
0.9417
0.9825
0.9961
0.9994
0.9999
1.0000
1.0000
0.0004
0.0050
0.0269
0.0929
0.2279
0.4268
0.6437
0.8212
0.9302
0.9797
0.9959
0.9995
1.0000
1.0000
0.0002
0.0029
0.0170
0.0632
0.1672
0.3373
0.5461
0.7414
0.8811
0.9574
0.9886
0.9978
0.9997
1.0000
1.0000
0.0001
0.0017
0.0112
0.0461
0.1334
0.2905
0.5000
0.7095
0.8666
0.9539
0.9888
0.9983
0.9999
1.0000
0.0000
0.0009
0.0065
0.0287
0.0898
0.2120
0.3953
0.6047
0.7880
0.9102
0.9713
0.9935
0.9991
0.9999
1.0000
8.2. De binomiaalverdeling
n
k
15
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
16
n
k
15
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
p
p
168
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.8601
0.9904
0.9996
1.0000
1.0000
1.0000
1.0000
1.0000
0.8515
0.9891
0.9995
1.0000
1.0000
1.0000
1.0000
1.0000
0.7386
0.9647
0.9970
0.9998
1.0000
1.0000
1.0000
1.0000
0.7238
0.9601
0.9963
0.9998
1.0000
1.0000
1.0000
1.0000
0.6333
0.9270
0.9906
0.9992
0.9999
1.0000
1.0000
1.0000
0.6143
0.9182
0.9887
0.9989
0.9999
1.0000
1.0000
1.0000
0.5421
0.8809
0.9797
0.9976
0.9998
1.0000
1.0000
1.0000
0.5204
0.8673
0.9758
0.9968
0.9997
1.0000
1.0000
1.0000
0.4633
0.8290
0.9638
0.9945
0.9994
0.9999
1.0000
1.0000
0.4401
0.8108
0.9571
0.9930
0.9991
0.9999
1.0000
1.0000
0.3953
0.7738
0.9429
0.9896
0.9986
0.9999
1.0000
1.0000
0.3716
0.7511
0.9327
0.9868
0.9981
0.9998
1.0000
1.0000
0.3367
0.7168
0.9171
0.9825
0.9972
0.9997
1.0000
1.0000
0.3131
0.6902
0.9031
0.9779
0.9962
0.9995
0.9999
1.0000
0.2863
0.6597
0.8870
0.9727
0.9950
0.9993
0.9999
1.0000
0.2634
0.6299
0.8689
0.9658
0.9932
0.9990
0.9999
1.0000
0.2430
0.6035
0.8531
0.9601
0.9918
0.9987
0.9998
1.0000
0.2211
0.5711
0.8306
0.9504
0.9889
0.9981
0.9997
1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.2059
0.5490
0.8159
0.9444
0.9873
0.9978
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.1853
0.5147
0.7892
0.9316
0.9830
0.9967
0.9995
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0874
0.3186
0.6042
0.8227
0.9383
0.9832
0.9964
0.9994
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0743
0.2839
0.5614
0.7899
0.9209
0.9765
0.9944
0.9989
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0352
0.1671
0.3980
0.6482
0.8358
0.9389
0.9819
0.9958
0.9992
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
0.0281
0.1407
0.3518
0.5981
0.7982
0.9183
0.9733
0.9930
0.9985
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0134
0.0802
0.2361
0.4613
0.6865
0.8516
0.9434
0.9827
0.9958
0.9992
0.9999
1.0000
1.0000
1.0000
1.0000
0.0100
0.0635
0.1971
0.4050
0.6302
0.8103
0.9204
0.9729
0.9925
0.9984
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.0047
0.0353
0.1268
0.2969
0.5155
0.7216
0.8689
0.9500
0.9848
0.9963
0.9993
0.9999
1.0000
1.0000
1.0000
0.0033
0.0261
0.0994
0.2459
0.4499
0.6598
0.8247
0.9256
0.9743
0.9929
0.9984
0.9997
1.0000
1.0000
1.0000
1.0000
0.0016
0.0142
0.0617
0.1727
0.3519
0.5643
0.7548
0.8868
0.9578
0.9876
0.9972
0.9995
0.9999
1.0000
1.0000
0.0010
0.0098
0.0451
0.1339
0.2892
0.4900
0.6881
0.8406
0.9329
0.9771
0.9938
0.9987
0.9998
1.0000
1.0000
1.0000
0.0005
0.0052
0.0271
0.0905
0.2173
0.4032
0.6098
0.7869
0.9050
0.9662
0.9907
0.9981
0.9997
1.0000
1.0000
0.0003
0.0033
0.0183
0.0651
0.1666
0.3288
0.5272
0.7161
0.8577
0.9417
0.9809
0.9951
0.9991
0.9999
1.0000
1.0000
0.0001
0.0017
0.0107
0.0424
0.1204
0.2608
0.4522
0.6535
0.8182
0.9231
0.9745
0.9937
0.9989
0.9999
1.0000
0.0000
0.0010
0.0066
0.0281
0.0853
0.1976
0.3660
0.5629
0.7441
0.8759
0.9514
0.9851
0.9965
0.9994
0.9999
1.0000
0.0000
0.0005
0.0037
0.0176
0.0592
0.1509
0.3036
0.5000
0.6964
0.8491
0.9408
0.9824
0.9963
0.9995
1.0000
0.0000
0.0003
0.0021
0.0106
0.0384
0.1051
0.2272
0.4018
0.5982
0.7728
0.8949
0.9616
0.9894
0.9979
0.9997
1.0000
8.2. De binomiaalverdeling
n
k
17
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
8
18
n
k
17
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
p
p
169
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.8429
0.9877
0.9994
1.0000
1.0000
1.0000
1.0000
1.0000
0.8345
0.9862
0.9993
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.7093
0.9554
0.9956
0.9997
1.0000
1.0000
1.0000
1.0000
0.6951
0.9505
0.9948
0.9996
1.0000
1.0000
1.0000
1.0000
1.0000
0.5958
0.9091
0.9866
0.9986
0.9999
1.0000
1.0000
1.0000
0.5780
0.8997
0.9843
0.9982
0.9998
1.0000
1.0000
1.0000
1.0000
0.4996
0.8535
0.9714
0.9960
0.9996
1.0000
1.0000
1.0000
0.4796
0.8393
0.9667
0.9950
0.9994
0.9999
1.0000
1.0000
1.0000
0.4181
0.7922
0.9497
0.9912
0.9988
0.9999
1.0000
1.0000
0.3972
0.7735
0.9419
0.9891
0.9985
0.9998
1.0000
1.0000
1.0000
0.3493
0.7283
0.9218
0.9836
0.9974
0.9997
1.0000
1.0000
0.3283
0.7055
0.9102
0.9799
0.9966
0.9995
1.0000
1.0000
1.0000
0.2912
0.6638
0.8882
0.9727
0.9949
0.9993
0.9999
1.0000
0.2708
0.6378
0.8725
0.9667
0.9933
0.9990
0.9999
1.0000
1.0000
0.2423
0.6005
0.8497
0.9581
0.9911
0.9985
0.9998
1.0000
0.2229
0.5719
0.8298
0.9494
0.9884
0.9979
0.9997
1.0000
1.0000
0.2012
0.5396
0.8073
0.9397
0.9855
0.9973
0.9996
1.0000
0.1831
0.5091
0.7832
0.9277
0.9814
0.9962
0.9994
0.9999
1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.1668
0.4818
0.7618
0.9174
0.9779
0.9953
0.9992
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.1501
0.4503
0.7338
0.9018
0.9718
0.9936
0.9988
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0631
0.2525
0.5198
0.7556
0.9013
0.9681
0.9917
0.9983
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0536
0.2241
0.4797
0.7202
0.8794
0.9581
0.9882
0.9973
0.9995
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0230
0.1182
0.3096
0.5489
0.7582
0.8943
0.9623
0.9891
0.9974
0.9995
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0180
0.0991
0.2713
0.5010
0.7164
0.8671
0.9487
0.9837
0.9957
0.9991
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0075
0.0501
0.1637
0.3530
0.5739
0.7653
0.8929
0.9598
0.9876
0.9969
0.9994
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
0.0056
0.0395
0.1353
0.3057
0.5187
0.7175
0.8610
0.9431
0.9807
0.9946
0.9988
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0023
0.0193
0.0774
0.2019
0.3887
0.5968
0.7752
0.8954
0.9597
0.9873
0.9968
0.9993
0.9999
1.0000
1.0000
1.0000
1.0000
0.0016
0.0142
0.0600
0.1646
0.3327
0.5344
0.7217
0.8593
0.9404
0.9790
0.9939
0.9986
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.0007
0.0067
0.0327
0.1028
0.2348
0.4197
0.6188
0.7872
0.9006
0.9617
0.988
0.997
0.9994
0.9999
1.0000
1.0000
1.0000
0.0004
0.0046
0.0236
0.0783
0.1886
0.355
0.5491
0.7283
0.8609
0.9403
0.9788
0.9938
0.9986
0.9997
1.0000
1.0000
1.0000
1.0000
0.0002
0.0021
0.0123
0.0464
0.126
0.2639
0.4478
0.6405
0.8011
0.9081
0.9652
0.9894
0.9975
0.9995
0.9999
1.0000
1.0000
0.0001
0.0013
0.0082
0.0328
0.0942
0.2088
0.3743
0.5634
0.7368
0.8653
0.9424
0.9797
0.9942
0.9987
0.9998
1.0000
1.0000
1.0000
0.0000
0.0006
0.0041
0.0184
0.05958
0.1471
0.2902
0.4743
0.6626
0.8166
0.9174
0.9699
0.9914
0.9981
0.9997
1.0000
1.0000
0.0000
0.0003
0.0025
0.0120
0.0411
0.1077
0.2258
0.3915
0.5778
0.7473
0.872
0.9463
0.9817
0.9951
0.9990
0.9999
1.0000
1.0000
0.0000
0.0001
0.0012
0.0064
0.0245
0.0717
0.1662
0.3145
0.5000
0.6855
0.8338
0.9283
0.9755
0.9936
0.9988
0.9999
1.0000
0.0000
0.0000
0.0007
0.0038
0.0154
0.04813
0.1189
0.2403
0.4073
0.5927
0.7597
0.8811
0.9519
0.9846
0.9962
0.9993
0.9999
1.0000
8.2. De binomiaalverdeling
n
k
19
0
1
2
3
4
5
6
7
8
0
1
2
3
4
5
6
7
8
20
n
k
19
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
20
p
p
170
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.8262
0.9847
0.9991
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.8179
0.9831
0.9990
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.6812
0.9454
0.9939
0.9995
1.0000
1.0000
1.0000
1.0000
1.0000
0.6676
0.9401
0.9929
0.9994
1.0000
1.0000
1.0000
1.0000
1.0000
0.5606
0.8900
0.9817
0.9978
0.9998
1.0000
1.0000
1.0000
1.0000
0.5438
0.8802
0.9790
0.9973
0.9997
1.0000
1.0000
1.0000
1.0000
0.4604
0.8249
0.9616
0.9939
0.9993
0.9999
1.0000
1.0000
1.0000
0.4420
0.8103
0.9561
0.9926
0.9990
0.9999
1.0000
1.0000
1.0000
0.3774
0.7547
0.9335
0.9868
0.9980
0.9998
1.0000
1.0000
1.0000
0.3585
0.7358
0.9245
0.9841
0.9974
0.9997
1.0000
1.0000
1.0000
0.3086
0.6829
0.8979
0.9757
0.9956
0.9994
0.9999
1.0000
1.0000
0.2901
0.6605
0.8850
0.9710
0.9944
0.9991
0.9999
1.0000
1.0000
0.2519
0.6121
0.8561
0.9602
0.9915
0.9986
0.9998
1.0000
1.0000
0.2342
0.5869
0.8390
0.9529
0.9893
0.9981
0.9997
1.0000
1.0000
0.2051
0.5440
0.8092
0.9398
0.9853
0.9971
0.9996
0.9999
1.0000
0.1887
0.5169
0.7879
0.9294
0.9817
0.9962
0.9994
0.9999
1.0000
0.1666
0.4798
0.7585
0.9147
0.9765
0.9949
0.9991
0.9999
1.0000
0.1516
0.4516
0.7334
0.9007
0.9710
0.9932
0.9987
0.9998
1.0000
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.1351
0.4203
0.7054
0.8850
0.9648
0.9914
0.9983
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.1216
0.3917
0.6769
0.8670
0.9568
0.9887
0.9976
0.9996
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0456
0.1985
0.4413
0.6841
0.8556
0.9463
0.9837
0.9959
0.9992
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0388
0.1756
0.4049
0.6477
0.8298
0.9327
0.9781
0.9941
0.9987
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0144
0.0829
0.2369
0.4551
0.6733
0.8369
0.9324
0.9767
0.9933
0.9984
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0115
0.0692
0.2061
0.4114
0.6296
0.8042
0.9133
0.9679
0.9900
0.9974
0.9994
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0042
0.0310
0.1113
0.2631
0.4654
0.6678
0.8251
0.9225
0.9713
0.9911
0.9977
0.9995
0.9999
1.0000
1.0000
1.0000
1.0000
1.0000
0.0032
0.0243
0.0913
0.2252
0.4148
0.6172
0.7858
0.8982
0.9591
0.9861
0.9961
0.9991
0.9998
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
0.0011
0.0104
0.0462
0.1332
0.2822
0.4739
0.6655
0.8180
0.9161
0.9674
0.9895
0.9972
0.9994
0.9999
1.0000
1.0000
1.0000
1.0000
0.0008
0.0076
0.0355
0.1071
0.2375
0.4164
0.6080
0.7723
0.8867
0.9520
0.9829
0.9949
0.9987
0.9997
1.0000
1.0000
1.0000
1.0000
1.0000
0.0003
0.0031
0.0170
0.0591
0.1500
0.2968
0.4812
0.6656
0.8145
0.9125
0.9653
0.9886
0.9969
0.9993
0.9999
1.0000
1.0000
1.0000
0.0001
0.0021
0.0121
0.0444
0.1182
0.2454
0.4166
0.6010
0.7624
0.8782
0.9468
0.9804
0.9940
0.9985
0.9997
1.0000
1.0000
1.0000
1.0000
0.0000
0.0008
0.0055
0.0230
0.0696
0.1629
0.3081
0.4878
0.6675
0.8139
0.9115
0.9648
0.9884
0.9969
0.9994
0.9999
1.0000
1.0000
0.0000
0.0005
0.0036
0.0160
0.0510
0.1256
0.2500
0.4159
0.5956
0.7553
0.8725
0.9435
0.9790
0.9935
0.9984
0.9997
1.0000
1.0000
1.0000
0.0000
0.0002
0.0015
0.0077
0.0280
0.0777
0.1727
0.3169
0.4940
0.6710
0.8159
0.9129
0.9658
0.9891
0.9972
0.9995
0.9999
1.0000
0.0000
0.0001
0.0009
0.0049
0.0189
0.0553
0.1299
0.2520
0.4143
0.5914
0.7507
0.8692
0.9420
0.9786
0.9936
0.9985
0.9997
1.0000
1.0000
0.0000
0.0000
0.0004
0.0022
0.0096
0.0318
0.0835
0.1796
0.3238
0.5000
0.6762
0.8204
0.9165
0.9682
0.9904
0.9978
0.9996
1.0000
0.0000
0.0000
0.0002
0.0013
0.0059
0.0207
0.0577
0.1316
0.2517
0.4119
0.5881
0.7483
0.8684
0.9423
0.9793
0.9941
0.9987
0.9998
1.0000
8.3. De Poissonverdeling
171
8.3 De Poissonverdeling X
Pλ De tabel geeft de cumulatieve kans FX x PX k k
λ
0
1
2
3
4
5
6
k
λ
0
1
2
3
4
5
6
7
8
k
0
1
2
3
4
5
6
7
8
9
10
11
12
λ
λ j λ
e .
j 0 j!
k
∑
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
0.905
0.995
1.000
1.000
1.000
1.000
1.000
0.819
0.982
0.999
1.000
1.000
1.000
1.000
0.741
0.963
0.996
1.000
1.000
1.000
1.000
0.670
0.938
0.992
0.999
1.000
1.000
1.000
0.607
0.910
0.986
0.998
1.000
1.000
1.000
0.549
0.878
0.977
0.997
1.000
1.000
1.000
0.497
0.844
0.966
0.994
0.999
1.000
1.000
0.449
0.809
0.953
0.991
0.999
1.000
1.000
0.407
0.772
0.937
0.987
0.998
1.000
1.000
0.368
0.736
0.920
0.981
0.996
0.999
1.000
1.1
1.2
1.3
c1.4
1.5
c1.6
1.7
1.8
1.9
2.0
0.333
0.699
0.900
0.974
0.995
0.999
1.000
1.000
1.000
0.301
0.663
0.879
0.966
0.992
0.998
1.000
1.000
1.000
0.273
0.627
0.857
0.957
0.989
0.998
1.000
1.000
1.000
0.247
0.592
0.833
0.946
0.986
0.997
0.999
1.000
1.000
0.223
0.558
0.809
0.934
0.981
0.996
0.999
1.000
1.000
0.202
0.525
0.783
0.921
0.976
0.994
0.999
1.000
1.000
0.183
0.493
0.757
0.907
0.970
0.992
0.998
1.000
1.000
0.165
0.463
0.731
0.891
0.964
0.990
0.997
0.999
1.000
0.150
0.434
0.704
0.875
0.956
0.987
0.997
0.999
1.000
0.135
0.406
0.677
0.857
0.947
0.983
0.995
0.999
1.000
2.2
2.4
2.6
2.8
3.0
3.2
3.4
3.6
3.8
4.0
0.111
0.355
0.623
0.819
0.928
0.975
0.993
0.998
1.000
1.000
1.000
1.000
1.000
0.091
0.308
0.570
0.779
0.904
0.964
0.988
0.997
0.999
1.000
1.000
1.000
1.000
0.074
0.267
0.518
0.736
0.877
0.951
0.983
0.995
0.999
1.000
1.000
1.000
1.000
0.061
0.231
0.469
0.692
0.848
0.935
0.976
0.992
0.998
0.999
1.000
1.000
1.000
0.050
0.199
0.423
0.647
0.815
0.916
0.966
0.988
0.996
0.999
1.000
1.000
1.000
0.041
0.171
0.380
0.603
0.781
0.895
0.955
0.983
0.994
0.998
1.000
1.000
1.000
0.033
0.147
0.340
0.558
0.744
0.871
0.942
0.977
0.992
0.997
0.999
1.000
1.000
0.027
0.126
0.303
0.515
0.706
0.844
0.927
0.969
0.988
0.996
0.999
1.000
1.000
0.022
0.107
0.269
0.473
0.668
0.816
0.909
0.960
0.984
0.994
0.998
0.999
1.000
0.018
0.092
0.238
0.433
0.629
0.785
0.889
0.949
0.979
0.992
0.997
0.999
1.000
8.3. De Poissonverdeling
k
λ
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
k
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
λ
172
4.2
4.4
4.6
4.8
5.0
5.2
5.4
5.6
5.8
6.0
0.015
0.078
0.210
0.395
0.590
0.753
0.867
0.936
0.972
0.989
0.996
0.999
1.000
1.000
1.000
1.000
1.000
0.012
0.066
0.185
0.359
0.551
0.720
0.844
0.921
0.964
0.985
0.994
0.998
0.999
1.000
1.000
1.000
1.000
0.010
0.056
0.163
0.326
0.513
0.686
0.818
0.905
0.955
0.980
0.992
0.997
0.999
1.000
1.000
1.000
1.000
0.008
0.048
0.143
0.294
0.476
0.651
0.791
0.887
0.944
0.975
0.990
0.996
0.999
1.000
1.000
1.000
1.000
0.007
0.040
0.125
0.265
0.440
0.616
0.762
0.867
0.932
0.968
0.986
0.995
0.998
0.999
1.000
1.000
1.000
0.006
0.034
0.109
0.238
0.406
0.581
0.732
0.845
0.918
0.960
0.982
0.993
0.997
0.999
1.000
1.000
1.000
0.005
0.029
0.095
0.213
0.373
0.546
0.702
0.822
0.903
0.951
0.977
0.990
0.996
0.999
1.000
1.000
1.000
0.004
0.024
0.082
0.191
0.342
0.512
0.670
0.797
0.886
0.941
0.972
0.988
0.995
0.998
0.999
1.000
1.000
0.003
0.021
0.072
0.170
0.313
0.478
0.638
0.771
0.867
0.929
0.965
0.984
0.993
0.997
0.999
1.000
1.000
0.002
0.017
0.062
0.151
0.285
0.446
0.606
0.744
0.847
0.916
0.957
0.980
0.991
0.996
0.999
0.999
1.000
6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0
10.5
11.0
0.002
0.011
0.043
0.112
0.224
0.369
0.527
0.673
0.792
0.877
0.933
0.966
0.984
0.993
0.997
0.999
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
0.001
0.007
0.030
0.082
0.173
0.301
0.450
0.599
0.729
0.830
0.901
0.947
0.973
0.987
0.994
0.998
0.999
1.000
1.000
1.000
1.000
1.000
1.000
1.000
0.001
0.005
0.020
0.059
0.132
0.241
0.378
0.525
0.662
0.776
0.862
0.921
0.957
0.978
0.990
0.995
0.998
0.999
1.000
1.000
1.000
1.000
1.000
1.000
0.000
0.003
0.014
0.042
0.100
0.191
0.313
0.453
0.593
0.717
0.816
0.888
0.936
0.966
0.983
0.992
0.996
0.998
0.999
1.000
1.000
1.000
1.000
1.000
0.000
0.002
0.009
0.030
0.074
0.150
0.256
0.386
0.523
0.653
0.763
0.849
0.909
0.949
0.973
0.986
0.993
0.997
0.999
0.999
1.000
1.000
1.000
1.000
0.000
0.001
0.006
0.021
0.055
0.116
0.207
0.324
0.456
0.587
0.706
0.803
0.876
0.926
0.959
0.978
0.989
0.995
0.998
0.999
1.000
1.000
1.000
1.000
0.000
0.001
0.004
0.015
0.040
0.089
0.165
0.269
0.392
0.522
0.645
0.752
0.836
0.898
0.940
0.967
0.982
0.991
0.996
0.998
0.999
1.000
1.000
1.000
0.000
0.000
0.003
0.010
0.029
0.067
0.130
0.220
0.333
0.458
0.583
0.697
0.792
0.864
0.917
0.951
0.973
0.986
0.993
0.997
0.998
0.999
1.000
1.000
0.000
0.000
0.002
0.007
0.021
0.050
0.102
0.179
0.279
0.397
0.521
0.639
0.742
0.825
0.888
0.932
0.960
0.978
0.988
0.994
0.997
0.999
0.999
1.000
0.000
0.000
0.001
0.005
0.015
0.038
0.079
0.143
0.232
0.341
0.460
0.579
0.689
0.781
0.854
0.907
0.944
0.968
0.982
0.991
0.995
0.998
0.999
1.000
8.4. De standaard normale verdeling
173
8.4 De standaard normale verdeling Z N 0 1
z
t2
1
De tabel geeft de verdelingsfunctie PZ z e 2 dt 2π ∞
z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7703
0.7995
0.8264
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
0.9987
0.9990
0.9993
0.9995
0.9997
0.9998
0.9998
0.9999
0.9999
1.0000
0.9987
0.9991
0.9993
0.9995
0.9997
0.9998
0.9998
0.9999
0.9999
1.0000
0.9987
0.9991
0.9994
0.9995
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.9988
0.9991
0.9994
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.9988
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.9989
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.9989
0.9992
0.9994
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.9989
0.9992
0.9995
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.9990
0.9993
0.9995
0.9996
0.9997
0.9998
0.9999
0.9999
0.9999
1.0000
0.9990
0.9993
0.9995
0.9997
0.9998
0.9998
0.9999
0.9999
0.9999
1.0000
8.5. Percentielen van de χ2 -verdeling
8.5 De χ 2-verdeling X
174
χn2 ;
n is het aantal vrijheidsgraden
De tabel geeft de kwantielen q χn2 p Fχ21 p zodat PX q p .
n
n
p 0.1%
0.5%
1.0%
2.5%
5.0% 10.0% 12.5% 20.0% 25.0% 33.3% 50.0%
1
2
3
4
5
6
7
8
9
10
0.000
0.002
0.024
0.091
0.210
0.381
0.598
0.857
1.152
1.479
0.000
0.010
0.072
0.207
0.412
0.676
0.989
1.344
1.735
2.156
0.000
0.020
0.115
0.297
0.554
0.872
1.239
1.646
2.088
2.558
0.001
0.051
0.216
0.484
0.831
1.237
1.690
2.180
2.700
3.247
0.004
0.103
0.352
0.711
1.145
1.635
2.167
2.733
3.325
3.940
0.016
0.211
0.584
1.064
1.610
2.204
2.833
3.490
4.168
4.865
0.025
0.267
0.692
1.219
1.808
2.441
3.106
3.797
4.507
5.234
0.064
0.446
1.005
1.649
2.343
3.070
3.822
4.594
5.380
6.179
0.102
0.575
1.213
1.923
2.675
3.455
4.255
5.071
5.899
6.737
0.186
0.811
1.568
2.378
3.216
4.074
4.945
5.826
6.716
7.612
0.455
1.386
2.366
3.357
4.351
5.348
6.346
7.344
8.343
9.342
11
12
13
14
15
16
17
18
19
20
1.834
2.214
2.617
3.041
3.483
3.942
4.416
4.905
5.407
5.921
2.603
3.074
3.565
4.075
4.601
5.142
5.697
6.265
6.844
7.434
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633
8.260
3.816 4.575 5.578
4.404 5.226 6.304
5.009 5.892 7.042
5.629 6.571 7.790
6.262 7.261 8.547
6.908 7.962 9.312
7.564 8.672 10.085
8.231 9.390 10.865
8.907 10.117 11.651
9.591 10.851 12.443
5.975
6.729
7.493
8.266
9.048
9.837
10.633
11.435
12.242
13.055
6.989
7.807
8.634
9.467
10.307
11.152
12.002
12.857
13.716
14.578
7.584
8.438
9.299
10.165
11.037
11.912
12.792
13.675
14.562
15.452
8.514
9.420
10.331
11.245
12.163
13.083
14.006
14.931
15.859
16.788
10.341
11.340
12.340
13.339
14.339
15.338
16.338
17.338
18.338
19.337
21
22
23
24
25
26
27
28
29
30
6.447
6.983
7.529
8.085
8.649
9.222
9.803
10.391
10.986
11.588
8.034
8.643
9.260
9.886
10.520
11.160
11.808
12.461
13.121
13.787
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
10.283
10.982
11.689
12.401
13.120
13.844
14.573
15.308
16.047
16.791
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
13.240
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
13.873
14.695
15.521
16.351
17.184
18.021
18.861
19.704
20.550
21.399
15.445
16.314
17.187
18.062
18.940
19.820
20.703
21.588
22.475
23.364
16.344
17.240
18.137
19.037
19.939
20.843
21.749
22.657
23.567
24.478
17.720
18.653
19.587
20.523
21.461
22.399
23.339
24.280
25.222
26.165
20.337
21.337
22.337
23.337
24.337
25.336
26.336
27.336
28.336
29.336
35
40
45
50
55
60
14.688
17.916
21.251
24.674
28.173
31.738
17.192
20.707
24.311
27.991
31.735
35.534
18.509
22.164
25.901
29.707
33.570
37.485
20.569
24.433
28.366
32.357
36.398
40.482
22.465
26.509
30.612
34.764
38.958
43.188
24.797
29.051
33.350
37.689
42.060
46.459
25.678
30.008
34.379
38.785
43.220
47.680
27.836
32.345
36.884
41.449
46.036
50.641
29.054
33.660
38.291
42.942
47.610
52.294
30.894
35.643
40.407
45.184
49.972
54.770
34.336
39.335
44.335
49.335
54.335
59.335
Als n 60 kunnen we W
χ n2 benaderen met de normale verdeling X N n
2n, zie (3.88).
8.5. Percentielen van de χ2 -verdeling
n
175
p 60.0% 66.7% 75.0% 80.0% 87.5% 90.0% 95.0% 97.5% 99.0% 99.5% 99.9%
1
2
3
4
5
6
7
8
9
10
0.708 0.936 1.323 1.642 2.354 2.706
1.833 2.197 2.773 3.219 4.159 4.605
2.946 3.405 4.108 4.642 5.739 6.251
4.045 4.579 5.385 5.989 7.214 7.779
5.132 5.730 6.626 7.289 8.625 9.236
6.211 6.867 7.841 8.558 9.992 10.645
7.283 7.992 9.037 9.803 11.326 12.017
8.351 9.107 10.219 11.030 12.636 13.362
9.414 10.215 11.389 12.242 13.926 14.684
10.473 11.317 12.549 13.442 15.198 15.987
3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
5.024
7.378
9.348
11.143
12.833
14.449
16.013
17.535
19.023
20.483
6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
7.879
10.597
12.838
14.860
16.750
18.548
20.278
21.955
23.589
25.188
10.828
13.816
16.266
18.467
20.515
22.458
24.322
26.125
27.877
29.588
11
12
13
14
15
16
17
18
19
20
11.530
12.584
13.636
14.685
15.733
16.780
17.824
18.868
19.910
20.951
12.414
13.506
14.595
15.680
16.761
17.840
18.917
19.991
21.063
22.133
13.701
14.845
15.984
17.117
18.245
19.369
20.489
21.605
22.718
23.828
14.631
15.812
16.985
18.151
19.311
20.465
21.615
22.760
23.900
25.038
16.457
17.703
18.939
20.166
21.384
22.595
23.799
24.997
26.189
27.376
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.204
28.412
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
21.920
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.170
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
26.757
28.300
29.819
31.319
32.801
34.267
35.718
37.156
38.582
39.997
31.264
32.910
34.528
36.123
37.697
39.252
40.790
42.312
43.820
45.315
21
22
23
24
25
26
27
28
29
30
21.991
23.031
24.069
25.106
26.143
27.179
28.214
29.249
30.283
31.316
23.201
24.268
25.333
26.397
27.459
28.520
29.580
30.639
31.697
32.754
24.935
26.039
27.141
28.241
29.339
30.435
31.528
32.620
33.711
34.800
26.171
27.301
28.429
29.553
30.675
31.795
32.912
34.027
35.139
36.250
28.559
29.737
30.911
32.081
33.247
34.410
35.570
36.727
37.881
39.033
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
41.401
42.796
44.181
45.559
46.928
48.290
49.645
50.993
52.336
53.672
46.797
48.268
49.728
51.179
52.620
54.052
55.476
56.892
58.301
59.703
35
40
45
50
55
60
36.475
41.622
46.761
51.892
57.016
62.135
38.024
43.275
48.510
53.733
58.945
64.147
40.223
45.616
50.985
56.334
61.665
66.981
41.778
47.269
52.729
58.164
63.577
68.972
44.753
50.424
56.052
61.647
67.211
72.751
46.059
51.805
57.505
63.167
68.796
74.397
49.802
55.758
61.656
67.505
73.311
79.082
53.203
59.342
65.410
71.420
77.380
83.298
57.342
63.691
69.957
76.154
82.292
88.379
60.275
66.766
73.166
79.490
85.749
91.952
66.619
73.402
80.077
86.661
93.168
99.607
8.6. Percentielen van de t -verdeling
8.6 De t-verdeling T
176
tn ;
n is het aantal vrijheidsgraden
1 p zodat PT q p .
De tabel geeft de percentielen q tn p Ft
n
n
p 60.0% 66.7% 75.0% 80.0%
87.5% 90.0% 95.0%
97.5% 99.0% 99.5% 99.9%
1
2
3
4
5
6
7
8
9
10
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.577
0.500
0.476
0.464
0.457
0.453
0.449
0.447
0.445
0.444
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
2.414
1.604
1.423
1.344
1.301
1.273
1.254
1.240
1.230
1.221
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
12.706 31.821 63.657 318.31
4.303 6.965 9.925 22.327
3.182 4.541 5.841 10.215
2.776 3.747 4.604 7.173
2.571 3.365 4.032 5.893
2.447 3.143 3.707 5.208
2.365 2.998 3.499 4.785
2.306 2.896 3.355 4.501
2.262 2.821 3.250 4.297
2.228 2.764 3.169 4.144
11
12
13
14
15
16
17
18
19
20
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.443
0.442
0.441
0.440
0.439
0.439
0.438
0.438
0.438
0.437
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
1.214
1.209
1.204
1.200
1.197
1.194
1.191
1.189
1.187
1.185
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
3.552
21
22
23
24
25
26
27
28
29
30
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.437
0.437
0.436
0.436
0.436
0.436
0.435
0.435
0.435
0.435
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
1.183
1.182
1.180
1.179
1.178
1.177
1.176
1.175
1.174
1.173
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.385
35
40
45
50
55
60
∞
0.255
0.255
0.255
0.255
0.255
0.254
0.253
0.434
0.434
0.434
0.433
0.433
0.433
0.431
0.682
0.681
0.680
0.679
0.679
0.679
0.674
0.852
0.851
0.850
0.849
0.848
0.848
0.842
1.170
1.167
1.165
1.164
1.163
1.162
1.150
1.306
1.303
1.301
1.299
1.297
1.296
1.282
1.690
1.684
1.679
1.676
1.673
1.671
1.645
2.030
2.021
2.014
2.009
2.004
2.000
1.960
2.438
2.423
2.412
2.403
2.396
2.390
2.326
2.724
2.704
2.690
2.678
2.668
2.660
2.576
3.340
3.307
3.281
3.261
3.245
3.232
3.090
8.7. Kwantielen van de F -verdeling
8.7 De F-verdeling F
177
Fnm
n is het aantal vrijheidsgraden in de teller en m het aantal vrijheidsgraden in de noemer.
De tabel geeft de kwantielen q Fn m α Fnm1 α zodat PF q α achtereenvolgens voor de waarden
1
α 90 95 975 99 en .999 . Gebruik makend van de formule Fm n α zie (3.115) kunnen we
Fn m 1α
hieruit ook de kwantielen voor α 1 05 025 01 en .001 berekenen:
m
α
1
0.900
0.950
0.975
49.5 53.6 55.8 57.2 58.2
199. 216. 225. 230. 234.
800. 864. 900. 922. 937.
59.1 59.7 60.5 61.0
237. 239. 242. 244.
948. 957. 969. 977.
61.5 62.0 62.6 63.0 63.3
246. 248. 250. 252. 254.
985. 993.
2
0.900
0.950
0.975
0.990
0.999
9.00
19.0
39.0
99.0
999.
9.16
19.2
39.2
99.2
999.
9.24
19.2
39.2
99.2
9.29
19.3
39.3
99.3
9.33
19.3
39.3
99.3
9.35
19.4
39.4
99.4
9.37
19.4
39.4
100.
9.39
19.4
39.4
100.
9.41
19.4
39.4
100.
9.43
19.4
39.4
100.
9.44
19.4
39.4
100.
9.46
19.5
39.5
100.
9.47
19.5
39.5
100.
9.49
19.5
39.5
99.5
3
0.900
0.950
0.975
0.990
0.999
5.46
9.55
16.0
30.8
149.
5.39
9.28
15.4
29.5
141.
5.34
9.12
15.1
28.7
137.
5.31
9.01
14.9
28.2
135.
5.28
8.94
14.7
27.9
133.
5.27
8.89
14.6
27.7
132.
5.25
8.85
14.5
27.5
131.
5.23
8.79
14.4
27.2
129.
5.22
8.74
14.3
27.1
128.
5.20
8.70
14.3
26.9
127.
5.18
8.66
14.2
26.7
126.
5.17
8.62
14.1
26.5
125.
5.15
8.58
14.0
26.4
125.
5.13
8.53
13.9
26.1
123.
4
0.900
0.950
0.975
0.990
0.999
4.32
6.94
10.6
18.0
61.2
4.19
6.59
9.98
16.7
56.2
4.11
6.39
9.60
16.0
53.4
4.05
6.26
9.36
15.5
51.7
4.01
6.16
9.20
15.2
50.5
3.98
6.09
9.07
15.0
49.7
3.95
6.04
8.98
14.8
49.0
3.92
5.96
8.84
14.5
48.0
3.90
5.91
8.75
14.4
47.4
3.87
5.86
8.66
14.2
46.8
3.84
5.80
8.56
14.0
46.1
3.82
5.75
8.46
13.8
45.4
3.79
5.70
8.38
13.7
44.9
3.76
5.63
8.26
13.5
44.1
5
0.900
0.950
0.975
0.990
0.999
3.78
5.79
8.43
13.3
37.1
3.62
5.41
7.76
12.1
33.2
3.52
5.19
7.39
11.4
31.1
3.45
5.05
7.15
11.0
29.8
3.40
4.95
6.98
10.7
28.8
3.37
4.88
6.85
10.5
28.2
3.34
4.82
6.76
10.3
27.6
3.30
4.74
6.62
10.1
26.9
3.27
4.68
6.52
9.89
26.4
3.24
4.62
6.43
9.72
25.9
3.21
4.56
6.33
9.55
25.4
3.17
4.50
6.23
9.38
24.9
3.15
4.44
6.14
9.24
24.4
3.10
4.36
6.02
9.02
23.8
6
0.900
0.950
0.975
0.990
0.999
3.46
5.14
7.26
10.9
27.0
3.29
4.76
6.60
9.78
23.7
3.18
4.53
6.23
9.15
21.9
3.11
4.39
5.99
8.75
20.8
3.05
4.28
5.82
8.47
20.0
3.01
4.21
5.70
8.26
19.5
2.98
4.15
5.60
8.10
19.0
2.94
4.06
5.46
7.87
18.4
2.90
4.00
5.37
7.72
18.0
2.87
3.94
5.27
7.56
17.6
2.84
3.87
5.17
7.40
17.1
2.80
3.81
5.07
7.23
16.7
2.77
3.75
4.98
7.09
16.3
2.72
3.67
4.85
6.88
15.7
7
0.900
0.950
0.975
0.990
0.999
3.26
4.74
6.54
9.55
21.7
3.07
4.35
5.89
8.45
18.8
2.96
4.12
5.52
7.85
17.2
2.88
3.97
5.29
7.46
16.2
2.83
3.87
5.12
7.19
15.5
2.78
3.79
4.99
6.99
15.0
2.75
3.73
4.90
6.84
14.6
2.70
3.64
4.76
6.62
14.1
2.67
3.57
4.67
6.47
13.7
2.63
3.51
4.57
6.31
13.3
2.59
3.44
4.47
6.16
12.9
2.56
3.38
4.36
5.99
12.5
2.52
3.32
4.28
5.86
12.2
2.47
3.23
4.14
5.65
11.7
8
0.900
0.950
0.975
0.990
0.999
3.11
4.46
6.06
8.65
18.5
2.92
4.07
5.42
7.59
15.8
2.81
3.84
5.05
7.01
14.4
2.73
3.69
4.82
6.63
13.5
2.67
3.58
4.65
6.37
12.9
2.62
3.50
4.53
6.18
12.4
2.59
3.44
4.43
6.03
12.0
2.54
3.35
4.29
5.81
11.5
2.50
3.28
4.20
5.67
11.2
2.46
3.22
4.10
5.52
10.8
2.42
3.15
4.00
5.36
10.5
2.38
3.08
3.89
5.20
10.1
2.35
3.02
3.81
5.07
9.80
2.29
2.93
3.67
4.86
9.33
n
2
3
4
5
6
7
8
10
12
15
20
30
50
∞
8.7. Kwantielen van de F -verdeling
m
α
9
178
2
3
4
5
6
7
8
10
12
15
20
30
50
∞
0.900
0.950
0.975
0.990
0.999
3.01
4.26
5.71
8.02
16.4
2.81
3.86
5.08
6.99
13.9
2.69
3.63
4.72
6.42
12.6
2.61
3.48
4.48
6.06
11.7
2.55
3.37
4.32
5.80
11.1
2.51
3.29
4.20
5.61
10.7
2.47
3.23
4.10
5.47
10.4
2.42
3.14
3.96
5.26
9.89
2.38
3.07
3.87
5.11
9.57
2.34
3.01
3.77
4.96
9.24
2.30
2.94
3.67
4.81
8.90
2.25
2.86
3.56
4.65
8.55
2.22
2.80
3.47
4.52
8.26
2.16
2.71
3.33
4.31
7.81
10
0.900
0.950
0.975
0.990
0.999
2.92
4.10
5.46
7.56
14.9
2.73
3.71
4.83
6.55
12.6
2.61
3.48
4.47
5.99
11.3
2.52
3.33
4.24
5.64
10.5
2.46
3.22
4.07
5.39
9.93
2.41
3.14
3.95
5.20
9.52
2.38
3.07
3.85
5.06
9.20
2.32
2.98
3.72
4.85
8.75
2.28
2.91
3.62
4.71
8.45
2.24
2.84
3.52
4.56
8.13
2.20
2.77
3.42
4.41
7.80
2.16
2.70
3.31
4.25
7.47
2.12
2.64
3.22
4.11
7.19
2.06
2.54
3.08
3.91
6.76
11
0.900
0.950
0.975
0.990
0.999
2.86
3.98
5.26
7.21
13.8
2.66
3.59
4.63
6.22
11.6
2.54
3.36
4.28
5.67
10.3
2.45
3.20
4.04
5.32
9.58
2.39
3.09
3.88
5.07
9.05
2.34
3.01
3.76
4.89
8.66
2.30
2.95
3.66
4.74
8.35
2.25
2.85
3.53
4.54
7.92
2.21
2.79
3.43
4.40
7.63
2.17
2.72
3.33
4.25
7.32
2.12
2.65
3.23
4.10
7.01
2.08
2.57
3.12
3.94
6.68
2.04
2.51
3.03
3.81
6.42
1.97
2.40
2.88
3.60
6.00
12
0.900
0.950
0.975
0.990
0.999
2.81
3.89
5.10
6.93
13.0
2.61
3.49
4.47
5.95
10.8
2.48
3.26
4.12
5.41
9.63
2.39
3.11
3.89
5.06
8.89
2.33
3.00
3.73
4.82
8.38
2.28
2.91
3.61
4.64
8.00
2.24
2.85
3.51
4.50
7.71
2.19
2.75
3.37
4.30
7.29
2.15
2.69
3.28
4.16
7.00
2.10
2.62
3.18
4.01
6.71
2.06
2.54
3.07
3.86
6.40
2.01
2.47
2.96
3.70
6.09
1.97
2.40
2.87
3.57
5.83
1.90
2.30
2.72
3.36
5.42
13
0.900
0.950
0.975
0.990
0.999
2.76
3.81
4.97
6.70
12.3
2.56
3.41
4.35
5.74
10.2
2.43
3.18
4.00
5.21
9.07
2.35
3.03
3.77
4.86
8.35
2.28
2.92
3.60
4.62
7.86
2.23
2.83
3.48
4.44
7.49
2.20
2.77
3.39
4.30
7.21
2.14
2.67
3.25
4.10
6.80
2.10
2.60
3.15
3.96
6.52
2.05
2.53
3.05
3.82
6.23
2.01
2.46
2.95
3.66
5.93
1.96
2.38
2.84
3.51
5.63
1.92
2.31
2.74
3.37
5.37
1.85
2.21
2.60
3.17
4.97
14
0.900
0.950
0.975
0.990
0.999
2.73
3.74
4.86
6.51
11.8
2.52
3.34
4.24
5.56
9.73
2.39
3.11
3.89
5.04
8.62
2.31
2.96
3.66
4.69
7.92
2.24
2.85
3.50
4.46
7.44
2.19
2.76
3.38
4.28
7.08
2.15
2.70
3.29
4.14
6.80
2.10
2.60
3.15
3.94
6.40
2.05
2.53
3.05
3.80
6.13
2.01
2.46
2.95
3.66
5.85
1.96
2.39
2.84
3.51
5.56
1.91
2.31
2.73
3.35
5.25
1.87
2.24
2.64
3.22
5.00
1.80
2.13
2.49
3.00
4.60
15
0.900
0.950
0.975
0.990
0.999
2.70
3.68
4.77
6.36
11.3
2.49
3.29
4.15
5.42
9.34
2.36
3.06
3.80
4.89
8.25
2.27
2.90
3.58
4.56
7.57
2.21
2.79
3.41
4.32
7.09
2.16
2.71
3.29
4.14
6.74
2.12
2.64
3.20
4.00
6.47
2.06
2.54
3.06
3.80
6.08
2.02
2.48
2.96
3.67
5.81
1.97
2.40
2.86
3.52
5.53
1.92
2.33
2.76
3.37
5.25
1.87
2.25
2.64
3.21
4.95
1.83
2.18
2.55
3.08
4.70
1.76
2.07
2.40
2.87
4.31
16
0.900
0.950
0.975
0.990
0.999
2.67
3.63
4.69
6.23
11.0
2.46
3.24
4.08
5.29
9.01
2.33
3.01
3.73
4.77
7.94
2.24
2.85
3.50
4.44
7.27
2.18
2.74
3.34
4.20
6.80
2.13
2.66
3.22
4.03
6.46
2.09
2.59
3.12
3.89
6.19
2.03
2.49
2.99
3.69
5.81
1.99
2.42
2.89
3.55
5.55
1.94
2.35
2.79
3.41
5.27
1.89
2.28
2.68
3.26
4.99
1.84
2.19
2.57
3.10
4.70
1.79
2.12
2.47
2.97
4.45
1.72
2.01
2.32
2.75
4.06
17
0.900
0.950
0.975
0.990
0.999
2.64
3.59
4.62
6.11
10.7
2.44
3.20
4.01
5.18
8.73
2.31
2.96
3.66
4.67
7.68
2.22
2.81
3.44
4.34
7.02
2.15
2.70
3.28
4.10
6.56
2.10
2.61
3.16
3.93
6.22
2.06
2.55
3.06
3.79
5.96
2.00
2.45
2.92
3.59
5.58
1.96
2.38
2.82
3.46
5.32
1.91
2.31
2.72
3.31
5.05
1.86
2.23
2.62
3.16
4.77
1.81
2.15
2.50
3.00
4.48
1.76
2.08
2.41
2.87
4.24
1.69
1.96
2.25
2.65
3.85
n
8.7. Kwantielen van de F -verdeling
m
α
18
179
2
3
4
5
6
7
8
10
12
15
20
30
50
∞
0.900
0.950
0.975
0.990
0.999
2.62
3.55
4.56
6.01
10.4
2.42
3.16
3.95
5.09
8.49
2.29
2.93
3.61
4.58
7.46
2.20
2.77
3.38
4.25
6.81
2.13
2.66
3.22
4.01
6.35
2.08
2.58
3.10
3.84
6.02
2.04
2.51
3.01
3.71
5.76
1.98
2.41
2.87
3.51
5.39
1.93
2.34
2.77
3.37
5.13
1.89
2.27
2.67
3.23
4.87
1.84
2.19
2.56
3.08
4.59
1.78
2.11
2.44
2.92
4.30
1.74
2.04
2.35
2.78
4.06
1.66
1.92
2.19
2.57
3.67
19
0.900
0.950
0.975
0.990
0.999
2.61
3.52
4.51
5.93
10.2
2.40
3.13
3.90
5.01
8.28
2.27
2.90
3.56
4.50
7.27
2.18
2.74
3.33
4.17
6.62
2.11
2.63
3.17
3.94
6.18
2.06
2.54
3.05
3.77
5.85
2.02
2.48
2.96
3.63
5.59
1.96
2.38
2.82
3.43
5.22
1.91
2.31
2.72
3.30
4.97
1.86
2.23
2.62
3.15
4.70
1.81
2.16
2.51
3.00
4.43
1.76
2.07
2.39
2.84
4.14
1.71
2.00
2.30
2.71
3.90
1.63
1.88
2.13
2.49
3.51
20
0.900
0.950
0.975
0.990
0.999
2.59
3.49
4.46
5.85
9.95
2.38
3.10
3.86
4.94
8.10
2.25
2.87
3.51
4.43
7.10
2.16
2.71
3.29
4.10
6.46
2.09
2.60
3.13
3.87
6.02
2.04
2.51
3.01
3.70
5.69
2.00
2.45
2.91
3.56
5.44
1.94
2.35
2.77
3.37
5.08
1.89
2.28
2.68
3.23
4.82
1.84
2.20
2.57
3.09
4.56
1.79
2.12
2.46
2.94
4.29
1.74
2.04
2.35
2.78
4.00
1.69
1.97
2.25
2.64
3.76
1.61
1.84
2.09
2.42
3.38
21
0.900
0.950
0.975
0.990
0.999
2.57
3.47
4.42
5.78
9.77
2.36
3.07
3.82
4.87
7.94
2.23
2.84
3.48
4.37
6.95
2.14
2.68
3.25
4.04
6.32
2.08
2.57
3.09
3.81
5.88
2.02
2.49
2.97
3.64
5.56
1.98
2.42
2.87
3.51
5.31
1.92
2.32
2.73
3.31
4.95
1.87
2.25
2.64
3.17
4.70
1.83
2.18
2.53
3.03
4.44
1.78
2.10
2.42
2.88
4.17
1.72
2.01
2.31
2.72
3.88
1.67
1.94
2.21
2.58
3.64
1.59
1.81
2.04
2.36
3.26
22
0.900
0.950
0.975
0.990
0.999
2.56
3.44
4.38
5.72
9.61
2.35
3.05
3.78
4.82
7.80
2.22
2.82
3.44
4.31
6.81
2.13
2.66
3.22
3.99
6.19
2.06
2.55
3.05
3.76
5.76
2.01
2.46
2.93
3.59
5.44
1.97
2.40
2.84
3.45
5.19
1.90
2.30
2.70
3.26
4.83
1.86
2.23
2.60
3.12
4.58
1.81
2.15
2.50
2.98
4.33
1.76
2.07
2.39
2.83
4.06
1.70
1.98
2.27
2.67
3.78
1.65
1.91
2.17
2.53
3.54
1.57
1.78
2.00
2.31
3.15
23
0.900
0.950
0.975
0.990
0.999
2.55
3.42
4.35
5.66
9.47
2.34
3.03
3.75
4.76
7.67
2.21
2.80
3.41
4.26
6.70
2.11
2.64
3.18
3.94
6.08
2.05
2.53
3.02
3.71
5.65
1.99
2.44
2.90
3.54
5.33
1.95
2.37
2.81
3.41
5.09
1.89
2.27
2.67
3.21
4.73
1.84
2.20
2.57
3.07
4.48
1.80
2.13
2.47
2.93
4.23
1.74
2.05
2.36
2.78
3.96
1.69
1.96
2.24
2.62
3.68
1.64
1.88
2.14
2.48
3.44
1.55
1.76
1.97
2.26
3.05
24
0.900
0.950
0.975
0.990
0.999
2.54
3.40
4.32
5.61
9.34
2.33
3.01
3.72
4.72
7.55
2.19
2.78
3.38
4.22
6.59
2.10
2.62
3.15
3.90
5.98
2.04
2.51
2.99
3.67
5.55
1.98
2.42
2.87
3.50
5.23
1.94
2.36
2.78
3.36
4.99
1.88
2.25
2.64
3.17
4.64
1.83
2.18
2.54
3.03
4.39
1.78
2.11
2.44
2.89
4.14
1.73
2.03
2.33
2.74
3.87
1.67
1.94
2.21
2.58
3.59
1.62
1.86
2.11
2.44
3.36
1.53
1.73
1.94
2.21
2.97
25
0.900
0.950
0.975
0.990
0.999
2.53
3.39
4.29
5.57
9.22
2.32
2.99
3.69
4.68
7.45
2.18
2.76
3.35
4.18
6.49
2.09
2.60
3.13
3.85
5.89
2.02
2.49
2.97
3.63
5.46
1.97
2.40
2.85
3.46
5.15
1.93
2.34
2.75
3.32
4.91
1.87
2.24
2.61
3.13
4.56
1.82
2.16
2.51
2.99
4.31
1.77
2.09
2.41
2.85
4.06
1.72
2.01
2.30
2.70
3.79
1.66
1.92
2.18
2.54
3.52
1.61
1.84
2.08
2.40
3.28
1.52
1.71
1.91
2.17
2.89
26
0.900
0.950
0.975
0.990
0.999
2.52
3.37
4.27
5.53
9.12
2.31
2.98
3.67
4.64
7.36
2.17
2.74
3.33
4.14
6.41
2.08
2.59
3.10
3.82
5.80
2.01
2.47
2.94
3.59
5.38
1.96
2.39
2.82
3.42
5.07
1.92
2.32
2.73
3.29
4.83
1.86
2.22
2.59
3.09
4.48
1.81
2.15
2.49
2.96
4.24
1.76
2.07
2.39
2.81
3.99
1.71
1.99
2.28
2.66
3.72
1.65
1.90
2.16
2.50
3.44
1.59
1.82
2.05
2.36
3.21
1.50
1.69
1.88
2.13
2.82
n
8.7. Kwantielen van de F -verdeling
m
α
27
180
2
3
4
5
6
7
8
10
12
15
20
30
50
∞
0.900
0.950
0.975
0.990
0.999
2.51
3.35
4.24
5.49
9.02
2.30
2.96
3.65
4.60
7.27
2.17
2.73
3.31
4.11
6.33
2.07
2.57
3.08
3.78
5.73
2.00
2.46
2.92
3.56
5.31
1.95
2.37
2.80
3.39
5.00
1.91
2.31
2.71
3.26
4.76
1.85
2.20
2.57
3.06
4.41
1.80
2.13
2.47
2.93
4.17
1.75
2.06
2.36
2.78
3.92
1.70
1.97
2.25
2.63
3.66
1.64
1.88
2.13
2.47
3.38
1.58
1.81
2.03
2.33
3.14
1.49
1.67
1.85
2.10
2.75
28
0.900
0.950
0.975
0.990
0.999
2.50
3.34
4.22
5.45
8.93
2.29
2.95
3.63
4.57
7.19
2.16
2.71
3.29
4.07
6.25
2.06
2.56
3.06
3.75
5.66
2.00
2.45
2.90
3.53
5.24
1.94
2.36
2.78
3.36
4.93
1.90
2.29
2.69
3.23
4.69
1.84
2.19
2.55
3.03
4.35
1.79
2.12
2.45
2.90
4.11
1.74
2.04
2.34
2.75
3.86
1.69
1.96
2.23
2.60
3.60
1.63
1.87
2.11
2.44
3.32
1.57
1.79
2.01
2.30
3.09
1.48
1.65
1.83
2.06
2.69
29
0.900
0.950
0.975
0.990
0.999
2.50
3.33
4.20
5.42
8.85
2.28
2.93
3.61
4.54
7.12
2.15
2.70
3.27
4.04
6.19
2.06
2.55
3.04
3.73
5.59
1.99
2.43
2.88
3.50
5.18
1.93
2.35
2.76
3.33
4.87
1.89
2.28
2.67
3.20
4.64
1.83
2.18
2.53
3.00
4.29
1.78
2.10
2.43
2.87
4.05
1.73
2.03
2.32
2.73
3.80
1.68
1.94
2.21
2.57
3.54
1.62
1.85
2.09
2.41
3.27
1.56
1.77
1.99
2.27
3.03
1.47
1.64
1.81
2.03
2.64
30
0.900
0.950
0.975
0.990
0.999
2.49
3.32
4.18
5.39
8.77
2.28
2.92
3.59
4.51
7.05
2.14
2.69
3.25
4.02
6.12
2.05
2.53
3.03
3.70
5.53
1.98
2.42
2.87
3.47
5.12
1.93
2.33
2.75
3.30
4.82
1.88
2.27
2.65
3.17
4.58
1.82
2.16
2.51
2.98
4.24
1.77
2.09
2.41
2.84
4.00
1.72
2.01
2.31
2.70
3.75
1.67
1.93
2.20
2.55
3.49
1.61
1.84
2.07
2.39
3.22
1.55
1.76
1.97
2.25
2.98
1.46
1.62
1.79
2.01
2.59
60
0.900
0.950
0.975
0.990
0.999
2.39
3.15
3.93
4.98
7.77
2.18
2.76
3.34
4.13
6.17
2.04
2.53
3.01
3.65
5.31
1.95
2.37
2.79
3.34
4.76
1.87
2.25
2.63
3.12
4.37
1.82
2.17
2.51
2.95
4.09
1.77
2.10
2.41
2.82
3.86
1.71
1.99
2.27
2.63
3.54
1.66
1.92
2.17
2.50
3.32
1.60
1.84
2.06
2.35
3.08
1.54
1.75
1.94
2.20
2.83
1.48
1.65
1.82
2.03
2.55
1.41
1.56
1.70
1.88
2.32
1.29
1.39
1.48
1.60
1.89
80
0.900
0.950
0.975
0.990
0.999
2.37
3.11
3.86
4.88
7.54
2.15
2.72
3.28
4.04
5.97
2.02
2.49
2.95
3.56
5.12
1.92
2.33
2.73
3.26
4.58
1.85
2.21
2.57
3.04
4.20
1.79
2.13
2.45
2.87
3.92
1.75
2.06
2.35
2.74
3.70
1.68
1.95
2.21
2.55
3.39
1.63
1.88
2.11
2.42
3.16
1.57
1.79
2.00
2.27
2.93
1.51
1.70
1.88
2.12
2.68
1.44
1.60
1.75
1.94
2.41
1.38
1.51
1.63
1.79
2.16
1.24
1.32
1.40
1.49
1.72
100
0.900
0.950
0.975
0.990
0.999
2.36
3.09
3.83
4.82
7.41
2.14
2.70
3.25
3.98
5.86
2.00
2.46
2.92
3.51
5.02
1.91
2.31
2.70
3.21
4.48
1.83
2.19
2.54
2.99
4.11
1.78
2.10
2.42
2.82
3.83
1.73
2.03
2.32
2.69
3.61
1.66
1.93
2.18
2.50
3.30
1.61
1.85
2.08
2.37
3.07
1.56
1.77
1.97
2.22
2.84
1.49
1.68
1.85
2.07
2.59
1.42
1.57
1.71
1.89
2.32
1.35
1.48
1.59
1.74
2.08
1.21
1.28
1.35
1.43
1.62
120
0.900
0.950
0.975
0.990
0.999
2.35
3.07
3.80
4.79
7.32
2.13
2.68
3.23
3.95
5.78
1.99
2.45
2.89
3.48
4.95
1.90
2.29
2.67
3.17
4.42
1.82
2.18
2.52
2.96
4.04
1.77
2.09
2.39
2.79
3.77
1.72
2.02
2.30
2.66
3.55
1.65
1.91
2.16
2.47
3.24
1.60
1.83
2.05
2.34
3.02
1.54
1.75
1.94
2.19
2.78
1.48
1.66
1.82
2.03
2.53
1.41
1.55
1.69
1.86
2.26
1.34
1.46
1.56
1.70
2.02
1.19
1.25
1.31
1.38
1.54
∞
0.900
0.950
0.975
0.990
0.999
2.30
3.00
3.69
4.61
6.91
2.08
2.60
3.12
3.78
5.42
1.94
2.37
2.79
3.32
4.62
1.85
2.21
2.57
3.02
4.10
1.77
2.10
2.41
2.80
3.74
1.72
2.01
2.29
2.64
3.47
1.67
1.94
2.19
2.51
3.27
1.60
1.83
2.05
2.32
2.96
1.55
1.75
1.94
2.18
2.74
1.49
1.67
1.83
2.04
2.51
1.42
1.57
1.71
1.88
2.27
1.34
1.46
1.57
1.70
1.99
1.26
1.35
1.43
1.52
1.73
1.00
1.00
1.00
1.00
1.00
n
Index
Φ–functie, 65
χ 2 -toets op kansverdeling, 112, 157
χ 2 -toets voor de variantie, 99
empirische variantie, 10, 91
empirische verdelingsfunctie, 8, 156
errorfunctie, 65
exponentiële verdeling, 59
aanvaardingsgebied, 97
afrondfouten, 162
alternatieve hypothese, 97
F-toets van Levene, 106
F-toets voor twee groepen, 101, 159
F-verdeling, 83
Fischer-Snedecor verdeling, 83
fout van de eerste soort, 108
fout van de tweede soort, 108
Bayes, formule van –, 21
Bernoulli-experiment, 45
betrouwbaarheidsinterval, 91, 93, 94
BI, 91
bimodale verdeling, 39
binomiaalcoëfficiënten, 47
binomiaalverdeling, 49
Binomium van Newton, 47
Box-Muller transformatie, 72
box-plot, 9, 155
Gamma-verdeling, 61
gemengde variantie, 103
gemiddelde, 10, 37
gemiddelde absolute afwijking, 11
geometrische verdeling, 53
Gosset, 80
halfwaardetijd, 60
histogram, 7, 155, 159
hypergeometrische verdeling, 51
categorale variabelen, 6
Cauchy-verdeling, 37
centraal moment, 36
centrale moment, 36
centrale-limietstelling, 65
Chebyshev, formule van –, 36
chi-kwadraat toets, 161
chi-kwadraat toets op een kansverdeling, 112
chi-kwadraat toets op kansverdeling, 157
chi-kwadraat toets voor de variantie, 99
chi-kwadraat verdeling, 77
CI, 91
confidence interval, 91
contingency table, 115, 157
continuı̈teitscorrectie, 69
continue uniforme verdeling, 63
continue verdeling, 25
convergentie in verdeling, 67
convolutie, 31
correlatie, 42, 158
correlatiecoëfficiënt (empirisch), 12
correlatiematrix (empirisch), 14
correlation (sample), 12
covariance (sample), 12
covariantie, 42
covariantie (empirisch), 12
covariantiematrix, 76, 77
covariantiematrix (empirisch), 13
cross tabs, 115
crosstabs, 157
cumulatieve verdelingsfunctie, 23
intercept, 120
interkwartiel, 9, 39, 155
interpolatie, 162
interval variablele, 6
inverse interpolatie, 163
kansdichtheid, 25
kansvector, 28
klassebreedte, 7
kleinste kwadraten, 11
kleinste-kwadratenproblemen, 121
Kolmogorov-Smirnov Toets, 117
kritieke zone, 97
kruistabel, 115, 157, 161
kurtosis, 41
kwartiel, 9
Levene’s F-toets, 106
levensverwachting, 60
likelihood function, 88
lineaire interpolatie, 162
macht van een toets, 108
machtsfunctie β , 109
MAD, 11, 40
marginale kansdichtheid, 28
marginale kansverdeling, 28
maximum likelihood, 88
mean absolute deviation, 11
MeanAD, 11
mediaan, 9, 10, 37
mediane absolute afwijking, 11, 40
modale klasse, 10
modus, 10, 39
moment, 36
de Moivre, 50, 67
dichtheidsfunctie, 25
discrete uniforme verdeling, 62
discrete verdeling, 25
driehoek van Pascal, 47
eenzijdige toets, 97
181
INDEX
multimodale verdeling, 39
niet-parametrische toets, 157
niveau van een toets, 91
nominale variabele, 6
normaalvergelijkingen, 121, 123
nulhypothese, 97
onafhankelijke gebeurtenissen, 20
onafhankelijke stochastische variabelen, 30
ongecorreleerd, 43
ordinale variabele, 6
outliers, 10
overschrijdingskans, 98
p-p plot, 156
P-waarde, 98
Pascal, driehoek van –, 47
percentiel (empirisch), 8
percentiel (van een kansverdeling), 27
Poissonverdeling, 55
positief definiet, 75
prediction interval, 125
pseudo-random getallen, 64
puntschatting, 87
q-q plot, 156
quantiel, 9
quantiel van een kansverdeling, 27
random getallen, 63, 154
ratio variabele, 6
regressie, 120, 158
regressierechte, 120
risico verhouding, 61
robuust, 10, 37
Rutherford-Geiger experiment, 56
ruwe gegevens, 7
ruwe moment, 36
sample correlation, 12
sample covariance, 12
sample variance, 10
schalende variabelen, 6
schatter, 86
schatting, 86
scheefheid, 40
scheefheidscoëfficiënt, 41
significante cijfers, 163
significantie, 98
significantieniveau, 97
spreiding, 10
SPSS, 153
staafdiagram, 25
standaard normale verdeling, 65
standaardafwijking, 10, 34
standaarddeviatie, 10
standard deviation, 10
statistiek, 86
steekproef, 7, 86
steekproefgemiddelde, 10
steekproefomvang, 7
steekproefvariantie, 10, 91
Stirling formule, 46
stochastiek, 23
stochastische variabele, 23
Student–t–verdeling, 80
t-toets, 159
182
t-toets voor één groep, 97
t-toets in SPSS, 156
t-toets voor twee onafhankelijke groepen, 103
t-toets voor twee verbonden groepen, 106
t-verdeling, 80
toevalsveranderlijke, 23
tweezijdige toets, 97
uitschieters, 10
uitschieters een in boxplot, 155
UMP, 111
UMPU, 111
unbiased, 87
uniform machtigste toets, 111
uniform machtigste zuivere toets, 111
unimodale verdeling, 39
variabele, categorale, 6
variabele, interval, 6
variabele, nominale, 6
variabele, ordinale, 6
variabele, ratio, 6
variabele, schalende, 6
variance (sample), 10
variantie, 34
variantie (empirisch), 10
verdelingsfunctie, 23, 28
verdelingsfunctie (empirisch), 8
vergeetachtigheid, 60
verwachtingswaarde, 32
voorwaardelijke kans, 20
vrijheidsgraad, 92, 94, 115, 116
wet van de grote getallen, 27, 50
zuivere schatter, 87
zuivere toets, 111
Antwoorden op Oefeningen
183
Antwoorden op geselecteerde oefeningen
2.1.a: 19/20
2.1.b: 19/20
2.1.c: kan niet
2.1.d: kan niet
2.2.a: 83/140
2.2.b: 63/83
2.3.a: 0.056
2.3.b: 0.167
2.3.c: 0.171
2.4.a: 1/3
2.4.b: 1/5
2.6.a: 2/3
2.6.b: 1/2
2.7: 24/64
2.8.a: 1/36
2.8.b: 11/36
2.8.c: 11/36
2.8.d: 9/36
2.8.e: 1/5
2.8.f: 1/36
2.9.a: 0.275
2.9.b: 0.725
2.12.a: 1/6
2.12.b: 5
2.12.c: 299
2.13: 0.669
2.14: p1 0402 p2 0296
2.15.a: 1/16
2.15.b: 1/32
2.15.c: 5/16
2.16.a: 0.19
2.16.b: 0.73
2.16.c: 0.533
2.16.d: 0.201
2.17: p1 0729 p2 0001
2.18: p1 00019 p2 000043
2.19: 0.0000091
2.20: ja
2.21: neen
3.1.a: p1 00525 p2 00787
3.1.b: p1 00857 p2 00857
3.2.a: 0.1518
3.2.b: 0.1499
3.2.c: 20
3.3.a: 0.075
3.3.b: 0.053
3.4: 0.1055
3.5: p1 63 10 12 p2 32 10
3.6: p1 0306 p2 00254
3.7: 1/11
3.8: 33.2% 3.9: 2k1 2n 2nn k1 1
3.10.a: 1/6
3.10.b: 2/3
3.11: 2/3
3.12: 2/7
3.13: 0.0826
3.14: 0.588
3.15.a: 3/4
3.15.b: 1/2
3.16.b: 0.232
3.16.c: 0.8104
3.17: Z , p=2/3
3.18: 6
4.1: p1 p2 p3 12
9
4.2: p 07378 als m 8
4.3.a: 1/1000
4.3.b: 36/1000
4.3.c: 27/1000
4.3.d: 432/1000
4.3.e: 504/1000
4.4.a: r! n r r1 ! r2 ! rn !
4.4.b: n 1nr resp. n 2nr
4.4.c: nr 11 rnr 1
4.5: p r 16 q 23
4.6: 79 cent
4.7.a: 9/25
4.7.d: 0.6
4.7.e: 10 en 28/25
4.7.f: 11
4.7.g: 0 en 058
4.8.a: 25/4
4.8.d: 0.63 , e: 10 en 1.042 , f: 11.38
4.8.g: 10 , 10 , 1.46 , 0.73
4.9.a: 5013
4.9.b: 5
4.10: 4rπ
4.11: 3/4
4.12.b: exp1 0368
4.12.c: 1λ 1000u
4.12.d: ln 2λ 693u
4.12.e: exp1 0368
4.13: fZ t λ 2te λ t t 0
E Z 2λ VarZ 2λ 2
4.14: neen, P 08413
5.4.a: 0.909
5.4.b: 0.324
5.5.a1: 0.6083
5.5.a2: 0.9444
5.5.a3: 0.0556
5.5.b1: x 2
5.5.b2: x 11
5.6: FX n 1 45n E X 5
5.7.a: 0.271
5.7.b: 0.142
5.8: 0.393
5.9.a: 9
5.9.b: 0.9298
5.9.c: λ 096
5.9.d: 0.073
5.11: fM t f X t FY t f y t FX t 5.12.a: 100
5.12.b: 0.296
5.12.c: 0.512
5.13.a: 0.2231
5.13.b: 0.442
5.13.c: 0.3904
6.1: 0.0401
6.2.a: 0.8413
6.2.b: 0.2857
6.2.c: 0.2266
6.2.d: 15.13 10 6.63
6.3.a: B
6.3.b: A
6.4: 0.0668
2
6.5.a: E X n µ
Var X n σ n
6.5.b: N µ σ n
6.6: 251.0
6.7.a: 0.3174
Antwoorden op Oefeningen
184
6.7.b: 3.04 cm
1
6.8.a: fX t exp 12 log0t6344 2 t 0
063t 2π
6.8.b: 81.45
6.8.c: 297.09
6.9.b: E Z 0 VarZ 0634
6.10.a: c1; als x 0 en y 0
FZ x y 1 expx2 2 1 expy .
6.10.b: FX x 1 expx2 2 x 0
FY y 1 expy ; onafhankelijk.
6.10.c: exp3 en 12 exp1
6.11: fZ x y 2 als 0 x y 1
fX x 2 2x 0 x 1 fY y 2y 0 y 1
E Z 13 23, VarX VarY 118
CovarX Y 136 ρ X Y 12
6.12: PX1 X2 X3 k m nk n k pk1 p2 pm
3
als k 0 0 m 0 en k m n en anders nul.
p1 p2
CovX1 X2 np1 p2 , ρ X1 X2 1 p11 p2
ρ 1 als p3 0
6.13: fX x 1 0 x 1 en nul elders
fZ x y 1 1 x als 0 x y 1 en nul elders
fY y log1 y 0 y 1 en nul elders
6.14: fRΘ πr 0r1 en 0ϕ 2π en nul elders
7.1.a: 0.0369
7.1.b: 0.0296
7.2: 0.2902
7.3: 0.368 en 0.0357
7.4: 0.3798
7.5: 0.9558
7.6: 0.368 en 0.264
7.7: 0.189 (beide)
7.8: 2/3
7.9: PN n nr 11 pr qn r als n r
PN n 0 als n r
7.10.a: FY a Φ log σa µ a 0 en nul elders
7.10.b: fY a 1
σ a 2π
exp
12 logσa
µ 2
7.10.c: E Y expµ 12 σ 2 VarY expσ 2 1 exp2µ σ 2 7.11.a: 0.0129
7.11.b: 0.0156
7.11.c: 0.0235
7.12.a: X B3000 16000 P12
a 0
7.12.b: 0.6065
7.12.c: 0.0003
7.13.a: met Φ benaderd: 0.9154 (exact: 0.9125)
7.13.b: 0.99995
7.14: 0.2810
7.15.a: 0.0919
7.15.b: 184
7.15.c: 0.9995 2 3
7.16: fv x 2xσ exp 12 σ 2 x2 x 0
2π
fv x 0 x 0 ; E v 4σ 2π
8.1: [7.87 , 10.13]
8.2: 0.4422
8.3.a: [3.39 , 6.33]
8.3.b: [2.88 , 6.84]
8.4.a: [9.064 , 10.936]
8.4.b: 64
8.5: [221.01 , 227.59] en [4.14 , 9.34]
8.6: [0.0169 , 0.0302]
8.7: d s d s ; d : xm yn ; s : σ
8.8.a:
8.8.b:
n1
n
M
1 mα 2 mα 2
n
n
1 1
mn
Φ
α2 1 1
8.9: 10
8.10: [62.47 , 97.53]
8.11: [0.708 , 0.732] , neen
8.12: [0.0054 , 0.0134] en [74.78 , 185.22]
8.13: [0.101 , 0.166]
9.1.a: toetsgrootheid 1732 ; H0 aanvaarden als α 5%
9.1.b: verwerpen als α 10%
9.2: toetsgrootheid t 56 ; H0 verwerpen
9.3.a: [329.46 , 334.34]
9.3.b: neen, zie BI
9.3.c: χ 1049 H0 aanvaarden
9.4.a: tweezijdig: toetsgrootheid 1901 ;
H0 aanvaarden voor α 5% en α 1%
Beter eenzijdig toetsen, H0 : µ 20 H1 : µ 20
Als α 5% , H0 verwerpen; als α 1% , H0 aanvaarden
9.4.b: α
9.4.c: bij eenzijdige toets: 0.2773 (α 5%) ; 0.5363 (α 1%)
10.1.a: Als σ 2 dan BI=[7.87 , 10.13], H0 aanvaarden
Als σ onbekend, dan H0 verwerpen
10.1.b: α 02%
Related documents
Download