4 Schatters

advertisement
4
Schatters
4.1 Introductie
Een statistisch model bestaat uit alle kansverdelingen welke a priori mogelijk worden geacht voor de gegeven data. Gegeven een correct opgesteld
model gaan we ervan uit dat de data volgens één van de kansverdelingen
in het model is gegenereerd. Na het opstellen van een geschikt statistisch
model is de volgende stap het bepalen welke kansverdeling binnen het model het best aansluit bij de gegevens. Als het model wordt gegeven door
een parameter, dan is dit equivalent met het bepalen van de best passende
parameterwaarde, vaak aangeduid als de “ware” parameter. In de statistiek
heet dit proces “schatten”. Andere namen zijn “fitten” en “leren”.
Veronderstel dat de kansverdeling van X afhangt van een onbekende
parameter θ, zodat het statistische model de vorm {Pθ : θ ∈ Θ} heeft, voor
Pθ de kansverdeling van X als θ de “ware” parameterwaarde is. Op grond
van een waarneming x willen we de ware waarde van θ schatten, of wellicht
de waarde van een functie g(θ) van θ, bijvoorbeeld de eerste coördinaat θ1
als θ = (θ1 , θ2 ). “Schatten” betekent hier het doen van een uitspraak over
θ of g(θ) van de vorm: “ik denk dat g(θ) bij benadering gelijk is aan T (x)”,
voor zekere waarde T (x) die van de waargenomen waarde x afhangt.
Definitie 4.1. Een schatter (Engels: estimator) of statistiek (Engels: statistic) is een stochastische vector T (X) die alleen van de waarneming X
afhangt. De bijbehorende schatting (Engels: estimate), bij gerealiseerde
waarneming x, is T (x).
Volgens deze definitie zijn heel veel objecten schatters. Waar het om
gaat is dat T (X) een functie van X is die niet van de parameter θ mag
4.2: Mean Square Error
45
afhangen: we moeten T (x) kunnen uitrekenen op grond van de data x. Na
verrichting van de waarneming krijgt T een gerealiseerde waarde t = T (x),
waarmee we θ (of g(θ)) schatten. We korten T (X) heel vaak af tot T . Het
(Vlaamse) woord “statistiek” heeft wiskundig precies dezelfde definitie als
“schatter”, maar wordt in een andere context gebruikt.
Zowel schatters als schattingen van θ worden vaak aangegeven met θ̂.
Het dakje geeft aan dat θ̂ een functie van de waarneming is, maar deze
notatie maakt geen verschil tussen de stochastische vector of zijn realisatie:
θ̂ kan zowel θ̂(X) als θ̂(x) betekenen.
Er zijn veel schattingsmethoden. In dit hoofdstuk bespreken we een
aantal algemene principes, zoals de maximum likelihood-methode, de
momentenmethode en de Bayes-methode. We beginnen echter met het
opzetten van een kader om schatters onderling te kunnen vergelijken in
hun prestatie.
4.2 Mean Square Error
Hoewel iedere functie van de waarneming een schatter is, is niet iedere
schatter een goede schatter. Een goede schatter voor g(θ) is een functie T
van de waarneming zodanig
dat
°
° T “dichtbij” de te schatten waarde g(θ)
ligt. Nu is de afstand °T −g(θ)° een onbevredigende maat om twee redenen:
- deze maat hangt af van de onbekende waarde θ;
- deze maat is stochastisch en niet uit te rekenen alvorens het experiment
is uitgevoerd.
Om aan °
de tweede°moeilijkheid te ontkomen, beschouwen we de kansverdeling van °T − g(θ)° onder de aanname dat θ de ware waarde is. De mooiste
situatie zou zijn dat deze kansverdeling
°
° gedegeneerd is in 0, d.w.z. als θ
de ware waarde is, dan is °T − g(θ)° met kans 1 gelijk aan 0. Dit zou
betekenen dat we geen schattingsfout maken, de schatting T (x) zou met
zekerheid gelijk zijn aan de te schatten waarde. In de praktijk is dit helaas
onmogelijk, en moeten we ons tevreden stellen met (gemiddeld) een zo klein
mogelijke fout. We zoeken dan een schatter waarvan de verdeling onder de
ware waarde θ zoveel mogelijk
geconcentreerd
is rond g(θ); of equivalent
°
°
waarvoor de verdeling van °T − g(θ)° zo veel mogelijk geconcentreerd is in
een omgeving van 0.
Voorbeeld 4.2 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk hom[0, θ]-verdeeld zijn. De waarneming is de vector
X = (X1 , . . ., Xn ), en we willen de onbekende θ schatten. Omdat Eθ Xi = 12 θ
is het niet onredelijk om 12 θ te schatten met het steekproefgemiddelde X,
en θ met 2X; immers volgens de wet van de grote aantallen convergeert
het steekproefgemiddelde (in kans) naar Eθ Xi = 12 θ. Veronderstel eens dat
46
4: Schatters
40
30
20
10
0
0
10
20
30
40
n = 10 en dat de data de volgende waarden hebben: 3.03, 2.70, 7.00, 1.59,
5.04, 5.92, 9.82, 1.11, 4.26, 6.96, zodat 2x = 9.49. Deze schatting is met
zekerheid te klein! Immers één van de waarnemingen is 9.82, zodat in elk
geval θ ≥ 9.82.
Is er een betere schatter te verzinnen? We kunnen het zojuist gesignaleerde probleem ontlopen door het maximum X(n) van de waarnemingen te
nemen. Ook het maximum is echter met zekerheid een onderschatting van
de echte waarde. Alle waarnemingen xi zullen immers binnen het interval
[0, θ] liggen. Een kleine correctie naar boven ligt voor de hand. We zouden
bijvoorbeeld (n + 2)/(n + 1) X(n) als schatter kunnen gebruiken.
Er zijn dus meerdere gegadigden. Welke schatter is nu de beste? Om
inzicht in deze vraag te verkrijgen, voerden we het volgende simulatieexperiment uit. We kozen n = 50 en simuleerden 1000 onafhankelijke steekproeven ter grootte van 50 uit de homogene verdeling op [0, 1]. Voor iedere
steekproef berekenden we de schatters 2X en (n+2)/(n+1)X(n) . Figuur 4.1
toont histogrammen van de twee verzamelingen van 1000 schattingen van
de parameter θ, links gebruikmakend van de schatter (n + 2)/(n + 1)X(n)
en rechts van 2X.
Deze histogrammen kunnen worden opgevat als benaderingen van de
kansdichtheden van de schatters. De kansdichtheid in de figuur links is meer
geconcentreerd rond de ware waarde θ = 1, dan de kansdichtheid rechts. We
geven daarom de voorkeur aan de schatter (n+2)/(n+1)X(n) : “gemiddeld”
ligt deze dichter bij de ware waarde. (Opmerkelijk is ook het verschil in vorm
van de twee histogrammen: het linker lijkt wel wat op een (omgekeerde)
exponentiële dichtheid, terwijl het rechter histogram een normale dichtheid
benadert. Dat is theoretisch heel goed te verklaren. Hoe?)
0.7
0.8
0.9
1.0
1.1
1.2
1.3
0.7
0.8
0.9
1.0
1.1
1.2
1.3
Figuur 4.1. Histogrammen van 1000 realisaties van de schatters (n + 2)/(n + 1)X(n) en 2X
voor de parameter 1 van een homogene verdeling ieder gebaseerd op n = 50 waarnemingen.
Overigens is het niet zo, dat de schatter (n+2)/(n+1)X(n) op ieder van
4.2: Mean Square Error
47
-0.2
-0.1
0.0
de 1000 steekproeven de beste schatting gaf. Dit is zichtbaar in Figuur 4.2,
waarin op de verticale as het verschil |(n + 2)/(n + 1)x(n) − 1| − |2x − 1|
is uitgezet. Meestal was dit verschil negatief, maar soms was het positief in
welk geval de schatter 2X een waarde gaf die dichter bij de ware waarde
θ = 1 ligt. Omdat we in de praktijk de ware waarde niet kennen, is het niet
mogelijk om hier de “best of both worlds” te kiezen. We zullen de schatter
gebruiken die gemiddeld het beste is.
0
200
400
600
800
1000
Figuur 4.2. Verschillen |(n + 2)/(n + 1)x(n) − 1| − |2x − 1| van de absolute afstanden van
de schattingen (n + 2)/(n + 1)x(n) en 2x tot de te schatten waarde 1 in Figuur 4.1.
Ons simulatie-experiment geeft alleen aan dat (n + 2)/(n + 1)X(n)
de betere schatter is als de ware waarde van θ gelijk is aan 1. Om te
bepalen welke schatter beter is als θ een andere waarde bezit, zouden we
het simulatie-experiment moeten herhalen met gesimuleerde steekproeven
uit de homogene verdeling op [0, θ], voor iedere θ. Dit gaat natuurlijk niet,
en dat is één reden om een wiskundige studie van het schattingsprobleem te
maken. Een andere reden is dat we in plaats van paren schatters te ordenen,
liever de absoluut beste schatter zouden willen bepalen.
Omdat een kansverdeling een ingewikkeld object is, is het vergelijken
van “concentratie” niet eenduidig bepaald. Het is daarom handig om concentratie in een getalswaarde uit te drukken, zodat we vervolgens alleen
getallen hoeven te vergelijken. Dit kan op veel manieren. Een concentratiemaat die wiskundig relatief eenvoudig is te hanteren is de verwachte
kwadratische fout (Engels: mean square error of MSE). Voor een schatter
T voor de waarde g(θ) wordt deze gedefinieerd als
°
°2
MSE(θ; T ) = Eθ °T − g(θ)° .
Het subscript θ in Eθ is essentieel: de MSE is de verwachte kwadratische
afstand van T tot g(θ) aangenomen dat θ de ware waarde van de para-
48
4: Schatters
meter is (twee keer dezelfde θ in deze zin). We beschouwen de verwachte
kwadratische fout als de functie θ 7→ MSE(θ; T ) voor een gegeven statistiek
T . Een volledigere notatie zou zijn MSE(θ; T, g), maar omdat g vast ligt in
de context van het probleem, laten we g weg in de notatie.
De eerste moeilijkheid – dat de kwaliteitsmaat afhangt van θ – is
nog niet opgelost: de verwachte kwadratische fout is een functie van θ.
In principe is het genoeg als MSE(θ; T ) zo klein mogelijk is in de “ware
waarde” van θ. Aangezien we deze niet kennen, streven we ernaar dat
de verwachte kwadratische fout (relatief) klein is voor alle waarden van
θ tegelijk.
Afspraak 4.3. We geven de voorkeur aan een schatter met een kleine verwachte kwadratische fout (MSE) voor alle parameterwaarden van θ tegelijk.
Als voor twee schatters T1 en T2 geldt dat
°
°2
°
°2
Eθ °T1 − g(θ)° ≤ Eθ °T2 − g(θ)° ,
voor alle θ ∈ Θ,
met stricte ongelijkheid voor ten minste één waarde van θ, dan geven we
de voorkeur aan T1 . De schatter T2 heet dan niet-toelaatbaar (Engels: inadmissible). Het kan echter voorkomen dat deze ongelijkheid voor sommige
θ correct is, maar voor andere θ strikt omgekeerd moet worden. Dan is het
niet direct duidelijk aan welke van de twee schatters we de voorkeur moeten
geven. Omdat de ware waarde van θ, zeg θ0 , onbekend is, weten we dan
immers niet welke van MSE(θ0 ; T1 ) en MSE(θ0 ; T2 ) de kleinste is.
In Paragraaf 7.2 bespreken we optimaliteitscriteria voor schatters en
hoe optimale schatters te vinden zijn. In het huidige hoofdstuk bespreken
we een aantal methoden om schatters te vinden waarvan intuı̈tief duidelijk
is dat ze redelijk zijn, en vergelijken we verwachte kwadratische fouten.
De verwachte kwadratische fout van een reëelwaardige schatter T kan
worden ontbonden in twee termen:
¡
¢2
MSE(θ; T ) = varθ T + Eθ T − g(θ)
(ga na). Beide termen in deze decompositie zijn niet-negatief. Dus de verwachte kwadratische fout kan alleen klein zijn als beide termen klein zijn.
Als de tweede term gelijk aan 0 is, dan heet de schatter zuiver.
Definitie 4.4. Een schatter T heet zuiver (Engels: unbiased) voor het
schatten van g(θ) als Eθ T = g(θ) voor alle θ ∈ Θ. De onzuiverheid (Engels:
bias) is gedefinieerd als Eθ T − g(θ).
De tweede term in de ontbinding van MSE(θ; T ) is dus het kwadraat
van de onzuiverheid. Voor een zuivere schatter is deze term identiek nul.
Dit lijkt zeer wenselijk, maar is het lang niet altijd. De eis dat een schatter
zuiver is kan namelijk veroorzaken dat de variantie juist heel groot is, zodat
4.2: Mean Square Error
49
we ruimschoots verliezen in de eerste term wat we bij de tweede gewonnen
zouden hebben. In het algemeen leidt een kleine variantie tot een grotere
onzuiverheid, en een kleine onzuiverheid tot een grote variantie. We moeten
de twee termen dus tegen elkaar afwegen.
√
De standaarddeviatie σθ (T ) = varθ T van een schatter noemt men
wel de standaardfout (Engels: standard error, of s.e.). Deze moet niet verward worden met de standaarddeviatie van de waarnemingen. De standaardfout σθ (T ) hangt in principe af van de onbekende parameter θ en is
dus zelf ook een onbekende. Omdat de onzuiverheid van redelijke schatters
vaak klein is, geeft de standaardfout vaak een indruk van de kwaliteit van
een schatter. Een schatting van de standaardfout wordt vaak gerapporteerd
samen met de schatting zelf. Bij de bespreking van betrouwbaarheidsgebieden in Hoofdstuk 6 komen we hierop terug.
We zoeken dus schatters met een kleine standaardfout en een kleine
onzuiverheid.
Voorbeeld 4.5 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en hom[0, θ]-verdeeld zijn. De schatter 2X is zuiver,
want, voor alle θ > 0,
n
Eθ (2X) =
n
2X
2 Xθ
= θ.
Eθ Xi =
n i=1
n i=1 2
De verwachte kwadratische fout van deze schatter is:
MSE(θ; 2X) = 4 varθ X =
n
4X
θ2
.
var
X
=
θ
i
n2 i=1
3n
De schatter X(n) is niet zuiver, want, voor alle θ > 0,
Z
Eθ X(n) =
θ
0
xnxn−1
1
n
dx =
θ
n
θ
n+1
(zie Opgave 9.9 voor de verdeling van X(n) ). Toch geven we (voor niet te
kleine n) de voorkeur aan X(n) boven 2X, want deze schatter heeft een
kleinere verwachte kwadratische fout:
¡
¢2
MSE(θ; X(n) ) = varθ X(n) + Eθ X(n) − θ
³ n
´2
n
2
= θ2
+
θ
−
1
(n + 2)(n + 1)2
n+1
2θ2
.
=
(n + 2)(n + 1)
We kunnen de onzuiverheid in X(n) opheffen door met een constante te
vermenigvuldigen: de schatter (n + 1)/n X(n) is zuiver voor θ. De onzuivere
50
4: Schatters
schatter (n + 2)/(n + 1) X(n) is echter beter dan alle tot nu toe genoemde
schatters, want
³ n+2
´
θ2
MSE θ;
X(n) =
.
n+1
(n + 1)2
0.00
0.05
0.10
0.15
0.20
Figuur 4.3 toont de verwachte kwadratische fout van deze laatste schatter
tezamen met de verwachte kwadratische fouten van X(n) en 2X als een
functie van θ voor n = 50. Voor waarden van θ dicht bij 0, is het verschil
tussen de verwachte kwadratische fout van 2X en de andere twee schatters
gering, maar het loopt snel op bij toenemende waarden van θ.
Bij nadere beschouwing blijkt voor niet te kleine waarden van n het
verschil in verwachte kwadratische fout tussen (n + 2)/(n + 1)X(n) en X(n)
klein te zijn. De grotere precisie van (n + 2)/(n + 1)X(n) ten opzichte van
2X is echter wel snel zichtbaar bij toenemende n, omdat de verwachte
kwadratische fout van de eerste een factor n kleiner is.
We merkten al op (zie Figuur 4.2) dat de schatter (n + 2)/(n + 1) X(n)
niet op iedere steekproef
een beter resultaat
geeft dan de schatter 2X.
¡
¢
Het feit dat MSE 1; (n + 2)/(n + 1) X(n) < MSE(1; 2X) sluit dit zeker
niet uit, omdat de verwachte kwadratische fout een verwachting is, en kan
worden geı̈nterpreteerd als een gemiddelde waarde over een groot aantal
realisaties. Een gemiddelde kan negatief zijn zonder dat alle termen negatief
zijn. Gemiddeld is (n + 2)/(n + 1) X(n) (veel) beter.
0
1
2
3
4
5
6
Figuur 4.3. De verwachte kwadratische fouten als functie van θ van de schatters 2X
(doorgetrokken lijn), X(n) (gestippelde lijn) en (n + 2)/(n + 1)X(n) (gestreepte lijn) voor de
parameter in hom[0,θ] voor n = 50.
Definitie 4.6. Zij X1 , . . ., Xn een steekproef. Het steekproefgemiddelde is
de stochastische grootheid
n
X=
1X
Xi
n i=1
4.2: Mean Square Error
51
en de steekproefvariantie is
2
SX
=
n
1 X
(Xi − X)2 .
n − 1 i=1
Voorbeeld 4.7 (Steekproefgemiddelde en -variantie). Veronderstel dat
X1 , . . ., Xn onderling onafhankelijk en identiek verdeeld zijn, en een onbekende marginale kansverdeling bezitten. We willen verwachting µ en variantie σ 2 van de waarnemingen schatten. Formeel kunnen we θ gelijk nemen
aan de onbekende kansverdeling, het zogenaamde “niet-parametrische model”, dat de onderliggende kansverdeling niet nader specificeert. De “parameters” µ en σ 2 zijn functies van deze onderliggende kansverdeling.
Het steekproefgemiddelde is een zuivere schatter voor µ, aangezien
n
Eθ X =
1X
Eθ Xi = µ.
n i=1
De verwachte kwadratische fout van deze schatter wordt gegeven door
n
1X
σ2
MSE(θ; X) = varθ X = 2
varθ Xi =
.
n i=1
n
De verwachte kwadratische fout van X is dus een factor n kleiner dan de verwachte kwadratische fout van de schatter Xi gebaseerd op één waarneming,
MSE(θ, Xi ) = varθ Xi = σ 2 . Aangezien de verwachte kwadratische fout een
verwachte kwadratische
afstand is, concluderen we dat de kwaliteit van de
√
schatter X met n toeneemt. Dus voor een twee keer zo goede schatter
zijn vier keer zoveel waarnemingen nodig.
De steekproefvariantie is een zuivere schatter voor σ 2 , want
2
Eθ S X
= Eθ
= Eθ
=
n
1 X
((Xi − µ) + (µ − X))2
n − 1 i=1
n
i
1 Xh
(Xi − µ)2 + (µ − X)2 + 2(µ − X)(Xi − µ)
n − 1 i=1
n
1 X
n
Eθ (Xi − µ)2 −
Eθ (X − µ)2 = σ 2 ,
n − 1 i=1
n−1
waarbij de laatste gelijkheid volgt uit Eθ (Xi − µ)2 = varθ Xi = σ 2 en
2
Eθ (X − µ)2 = varθ X = σ 2 /n. De verwachte kwadratische fout van SX
kan
met enig rekenwerk worden uitgedrukt in het vierde steekproefmoment van
de waarnemingen, maar dit laten we achterwege.
52
4: Schatters
Stel dat we op zoek zijn naar een zuivere schatter voor µ2 . Omdat X
2
een zuivere schatter voor µ is, nemen we in eerste instantie X als schatter
voor µ2 . Deze schatter is echter niet zuiver:
Eθ (X)2 = varθ X + (Eθ X)2 =
σ2
+ µ2 .
n
2
Hieruit volgt direct dat Eθ (X −σ 2 /n) = µ2 , maar omdat σ 2 een onbekende
2
parameter is, is X − σ 2 /n geen schatter. Als we σ 2 vervangen door zijn
2
2
2
, dan vinden we dat X − SX
/n een zuivere schatter is
zuivere schatter SX
2
voor µ .
* Voorbeeld 4.8 (Steekproeftheorie). Veronderstel dat een fractie p van
een populatie een bepaalde eigenschap A bezit. We zullen drie methoden
vergelijken om p te schatten, gebaseerd op een steekproef met teruglegging,
een steekproef zonder teruglegging, en een gestratificeerde steekproef.
Bij de eerste methode nemen we een steekproef ter grootte van n uit
de populatie met teruglegging, en schatten p met de fractie X/n, waar
X het aantal personen met eigenschap A in de steekproef is. Dan is X
bin(n, p)-verdeeld en heeft verwachting np en variantie np(1 − p). Aangezien Ep (X/n) = p voor alle p is X/n een zuivere schatter. De verwachte
kwadratische fout is
³ X´
³ X ´ p(1 − p)
MSE p;
= varp
=
.
n
n
n
Hieruit volgt, onder andere, dat de schatter beter is als p ≈ 0 of p ≈ 1, en
het slechtste als p = 21 . De verwachte kwadratische fout hangt niet af van
de grootte van de populatie. Door n voldoende groot te kiezen, bijvoorbeeld
n ≥ 1000, kunnen we een schatter krijgen met een verwachte kwadratische
fout van maximaal (1/4)/1000=1/4000, onafhankelijk van het feit of de
populatie uit 800 of een triljoen personen bestaat.
Bij de tweede methode nemen we een steekproef ter grootte van n
uit de populatie zonder teruglegging, en schatten p met de fractie Y /n,
waar Y het aantal personen met eigenschap A in de steekproef is. Dan
is Y hyp(N, pN, n)-verdeeld en heeft verwachting np en variantie np(1 −
p)(N − n)/(N − 1). Dus de schatter Y /n is eveneens zuiver; de verwachte
kwadratische fout is
³ Y´
³ Y ´ p(1 − p) N − n
MSE p;
= varp
=
.
n
n
n
N −1
Dit is kleiner dan MSE(p; X/n), hoewel het verschil te verwaarlozen is als
n ¿ N . Dit is niet verbazend: het is niet handig al onderzochte personen
eventueel nog eens te onderzoeken, maar als n ¿ N is de kans dat dit
gebeurt te verwaarlozen.
4.3: Maximum Likelihood-Schatters
53
Bij de derde methode verdelen we de populatie eerst in een aantal
subpopulaties, zogenaamde strata. Dit kan een indeling zijn naar regio,
sekse, leeftijd, inkomen, beroep, of naar een andere achtergrondvariabele.
Veronderstel dat de gehele populatie en de subpopulaties groottes N en
N1 , . . ., Nm bezitten. We trekken nu, voor het gemak van de volgende
berekeningen met teruglegging, (Nj /N )n personen uit de j e populatie, een
gestratificeerde steekproef, en schatten p met Z/n voor Z het totaal aantal
getrokken personen met eigenschap A. Dus Z = Z1 + · · · + Zm voor Zj
het aantal getrokken personen met eigenschap¡ A uit de j e populatie. Nu
zijn Z1 , . . ., Zm onderling onafhankelijk en bin (Nj /N )n, pj )-verdeeld, met
pj de fractie personen met eigenschap A in de j e populatie. Dan is
m
m
m
³Z ´
1 X
1X
1 X Nj
npj =
Ep
=
Ep Zj =
Nj pj = p,
n
n j=1
n j=1 N
N j=1
m
m
³ Z´
³Z ´
1 X Nj n
1X
MSE p;
= varp
= 2
varp Zj = 2
pj (1 − pj )
n
n
n j=1
n j=1 N
m
=
1 X Nj
p(1 − p)
−
(pj − p)2 .
n
n j=1 N
De schatter Z/n is dus ook zuiver, en zijn verwachte kwadratische fout
is kleiner of gelijk aan de verwachte kwadratische fout van X/n. Het verschil is vooral de moeite waard als de pj sterk verschillen. Gestratificeerde
steekproeftrekking verdient dus als regel de voorkeur, hoewel het in de
praktijk meer moeite kan betekenen.
Soortgelijke resultaten gelden ook bij trekking zonder teruglegging,
mits de strata- en steekproefgroottes aan bepaalde voorwaarden voldoen.
Het is echter niet waar dat stratificatie in dit geval altijd tot grotere precisie
leidt.
4.3 Maximum Likelihood-Schatters
De “methode van de maximum likelihood-schatters” (Nederlands: methode
van de meest aannemelijke schatters) is de meest gebruikte methode om
schatters voor een onbekende parameter te vinden. Voordat deze methode
in het algemeen wordt gepresenteerd, wordt voor het (eenvoudige) geval
van de binomiale verdeling de maximum likelihood-schatter afgeleid in het
volgende voorbeeld.
Voorbeeld 4.9 (Binomiale verdeling). Veronderstel dat we 10 keer met
een onzuivere munt gooien. De kans p op “kop” is bij deze munt niet noodzakelijkerwijze 1/2. Definieer X als het aantal malen “kop” in de 10 worpen.
54
4: Schatters
De stochastische variabele X heeft dan een binomiale verdeling met parameters 10 en onbekende p ∈ [0, 1]. Stel dat we 3 maal “kop” werpen. De
kans op deze uitkomst is gelijk aan
µ ¶
10 3
p (1 − p)7 .
Pp (X = 3) =
3
0.00
0.05
0.10
0.15
0.20
0.25
De kans p is onbekend en moet geschat worden. Welke waarde voor p is nu
meest waarschijnlijk?
0.0
0.2
0.4
0.6
0.8
1.0
p
Figuur 4.4. De kans Pp (X = 3) als functie van p waar de stochast X binomiaal verdeeld
is met parameters 10 en p.
In Figuur 4.4 is de kans Pp (X = 3) getekend als functie van p. We zien
dat er precies één waarde voor p is die deze kans maximaliseert, namelijk de
waarde 0.3. Deze waarde voor p kent de grootste kans toe aan de waarneming “3 maal kop”. De schatting p̂ = 0.3 blijkt in deze situatie de maximum
likelihood-schatting te zijn.
De maximum likelihood methode vereist de specificatie van de
likelihood-functie, welke wordt afgeleid uit de kansdichtheid van de waarneming. Hierbij verstaan we onder een kansdichtheid pθ van een stochastische
vector X de functie x 7→ Pθ (XR = x) als X discreet verdeeld is en de functie
pθ zodanig dat Pθ (X ∈ B) = B pθ (x) dx als X continu verdeeld is.
Definitie 4.10. Zij X een stochastische vector met een kansdichtheid pθ
die van een parameter θ ∈ Θ afhangt. De functie
θ 7→ L(θ; x): = pθ (x)
4.3: Maximum Likelihood-Schatters
55
opgevat als functie van θ ∈ Θ voor vaste x heet de likelihood-functie (Nederlands: aannemelijkheidsfunctie).
Vaak is X = (X1 , . . ., Xn ) een vector met onderling onafhankelijke
identiek
verdeelde coördinaten Xi . Dan is de dichtheid van X het product
Qn
p
(x
i=1 θ i ) van de dichtheden van de X1 , . . ., Xn , en de likelihood-functie
wordt dan
n
Y
θ 7→ L(θ; x1 , . . ., xn ) =
pθ (xi ),
i=1
waarin nu pθ de (marginale) dichtheid van een enkele Xi weergeeft. De
algemene definitie van maximum likelihood-schatters is echter geldig voor
een waarnemingsvector van willekeurige vorm, en we geven er daarom de
voorkeur aan de waarneming als x te schrijven, in plaats van (x1 , . . ., xn ),
en de likelihood-functie als L(θ; x) ≡ pθ (x) .
Definitie 4.11. De maximum likelihood-schatting voor θ is die waarde
T (x) ∈ Θ die de functie θ 7→ L(θ; x) maximaliseert. De maximum likelihoodschatter (Nederlands: meest aannemelijke schatter) is de bijbehorende
schatter T (X).
In het geval van een discrete kansverdeling kan de maximum likelihoodschatting worden omschreven als: die waarde van de parameter die de grootste waarschijnlijkheid toekent aan de waargenomen waarde x. We maximaliseren in dat geval immers de kansdichtheid pθ (x) = Pθ (X = x) naar θ voor
vaste x (zie Voorbeeld 4.9). Dit is een intuı̈tief redelijk schattingsprincipe en
verklaart de naam. Dit principe moet echter alleen beschouwd worden als
een schattingsmethode: maximum likelihood-schatters zijn niet noodzakelijkerwijze de beste schatters, ondanks de mooie naam. Onder een “beste”
schatter verstaan we een schatter met een zo klein mogelijke verwachte
kwadratische fout.
Voorbeeld 4.12 (Homogene verdeling). Zij x1 , . . ., xn een waargenomen
steekproef uit de homogene verdeling op het interval [0, θ] waarbij θ > 0 onbekend is. De parameter θ willen we schatten met de maximum likelihoodschatter. Omdat de waargenomen x1 , . . ., xn in het interval [0, θ] liggen,
moet gelden dat θ ≥ xi voor i = 1, . . ., n. Hieruit volgt direct dat θ ≥ x(n) ,
waar x(n) de grootste waargenomen ordestatistiek is.
De likelihood-functie voor de waargenomen x1 , . . ., xn is gelijk aan de
simultane dichtheid van X1 , . . ., Xn in x1 , . . ., xn , opgevat als functie van
θ. Omdat X1 , . . ., Xn onafhankelijk en gelijk verdeeld zijn, is de simultane
dichtheid gelijk aan het product van de marginale dichtheden, welke gelijk
zijn aan 1/θ op het interval [0, θ] en 0 daarbuiten. De likelihood-functie is
daarom gelijk aan
n
³ 1 ´n
Y
1
10≤xi ≤θ =
θ 7→ L(θ; x1 , . . ., xn ) =
1x(1) ≥0 1x(n) ≤θ .
θ
θ
i=1
56
4: Schatters
0e+00
2e−06
4e−06
Deze functie van θ is gelijk aan 0 voor θ < x(n) aangezien de indicatorfunctie
1x(n) ≤θ dan gelijk is aan 0. Voor θ ≥ x(n) is de likelihood-functie gelijk aan
de dalende functie θ → 1/θn . Figuur 4.5 illustreert het verloop van de
likelihood-functie (als functie van θ). De likelihood-functie is discontinu in
het punt θ = x(n) . In x(n) is de likelihood-functie rechts-continu en tevens
maximaal; de maximum likelihood-schatting voor θ is derhalve gelijk aan
x(n) en de bijbehorende maximum likelihood-schatter is X(n) .
0
2
4
6
8
10
theta
Figuur 4.5. Realisatie van de likelihood-functie voor een steekproef ter grootte 8 uit de
homogene verdeling op [0, 5]. De maximum likelihood-schatting x(n) (de locatie van de piek)
is 4.73.
Als g: Θ → H een 1 − 1-duidige functie is met een verzameling H als
bereik, dan zouden we het model ook door de parameter η = g(θ) ∈ H
kunnen parametriseren in plaats van door θ ∈ Θ. Het volgt direct uit de
definitie dat g(θ̂) de maximum likelihood-schatter voor η is, als θ̂ de maximum likelihood-schatter voor θ is. In overeenstemming hiermee definiëren
we voor iedere willekeurige functie g de maximum likelihood-schatter voor
g(θ) simpelweg als g(θ̂).
Bij een gegeven model is het uitrekenen van de maximum likelihoodschatter een kwestie van calculus. Vaak geschiedt dit door de likelihoodfunctie te differentiëren en de afgeleiden gelijk aan nul te stellen. (Het geval
van de homogene verdeling in Voorbeeld 4.12 is hier echter een uitzondering op.) Een trucje dat het rekenwerk beperkt (vooral bij onafhankelijke
waarnemingen) is om eerst de logaritme van de likelihood te nemen. Omdat de logaritme een monotone functie is, geldt dat de waarde θ̂ de functie
4.3: Maximum Likelihood-Schatters
57
θ 7→ L(θ; x) maximaliseert dan en slechts dan als deze waarde de functie
θ 7→ log L(θ, x) maximaliseert. (Het gaat om de plaats waar het maximum
wordt aangenomen, niet de grootte van het maximum!) Voor vaste x wordt
de log likelihood-functie gegeven door
θ 7→ log L(θ; x) = log pθ (x).
Als L differentieerbaar is in θ ∈ Θ ⊂ Rk en zijn maximum in een
inwendig punt van Θ aanneemt, dan geldt
∂
log L(θ; x)|θ=θ̂ = 0,
∂θj
j = 1, . . ., k.
Dit stelsel van likelihood-vergelijkingen is lang niet altijd expliciet oplosbaar. Zonodig gebruikt men iteratietechnieken om stapsgewijs een steeds
betere benadering van de oplossing te verkrijgen, uitgaande van een
geschikte startwaarde. De vector van partiële afgeleiden (gradiënt) van
θ 7→ log L(θ; x) wordt de score-functie van het statistische model genoemd.
Als de waarneming X = (X1 , . . ., Xn ) is opgebouwd uit onafhankelijke,
identiek verdeelde deelwaarnemingen Xi , dan bezitQde likelihood L(θ; x)
voor waargenomen x de productstructuur L(θ; x) = i pθ (xi ). De log likelihood is dan
θ 7→ log L(θ; x1 , . . ., xn ) = log
n
Y
pθ (xi ) =
i=1
n
X
log pθ (xi ),
i=1
waarin pθ de (marginale) dichtheid van een enkele Xi weergeeft. De afgeleide
van log L, de score-functie, is de som van de score-functies voor de individuele waarnemingen. De likelihood-vergelijkingen hebben dan de vorm
n
X
`˙θ (xi )|θ=θ̂ = 0,
i=1
met
`˙θ (xi ) = ∇θ `θ (xi )
en
`θ (xi ) = log pθ (xi ).
De gradiënt `˙θ is de “score-functie voor één waarneming”.
In verschillende voorbeelden wordt het maximum van de likelihoodfunctie niet in het inwendige van de parameterverzameling aangenomen.
Dan is de maximum likelihood-schatter θ̂ meestal niet een stationair punt
van de afgeleide van de likelihood-functie maar een randmaximum, en
gelden de voorgaande vergelijkingen niet. In weer andere voorbeelden is de
likelihood-functie niet overal differentieerbaar (of zelfs continu), en voldoet
de maximum likelihood-schatter evenmin aan de likelihood-vergelijkingen.
In Voorbeeld 4.12 is deze situatie al geı̈llustreerd. Voorts is het mogelijk
dat de likelihood-functie meerdere (locale) maxima en ook minima bezit.
Dan kunnen de likelihood-vergelijkingen meer dan één oplossing bezitten.
58
4: Schatters
De maximum likelihood-schatter is per definitie het globale maximum van
de likelihood-functie.
In Definitie 4.11 wordt de maximum likelihood-schatter gebaseerd op
de maximum likelihood-schatting. In de praktijk schrijft men echter vaak
direct de (log) likelihood-functie in termen van de stochastische grootheid
X in plaats van de realisatie x en leidt op die manier direct de schatter
af door deze functie te maximaliseren naar θ. Deze verkorte notatie wordt
gehanteerd in de volgende voorbeelden van toepassingen van de maximum
likelihood-methode. Voorbeelden waarin de methode wordt toegepast op
regressiemodellen zijn te vinden in Hoofdstuk 8.
Voorbeeld 4.13 (Alternatieve verdeling). De kansdichtheid van de alternatieve verdeling alt(p) kan worden geschreven als x 7→ px (1 − p)1−x ;
voor x = 0 staat hier 1 − p en voor x = 1 staat er p. Voor een steekproef
X1 , . . ., Xn uit de alt(p)-verdeling is de log likelihood-functie derhalve
p 7→ log L(p; X1 , . . ., Xn ) = log
n
Y
pXi (1 − p)1−Xi
i=1
n
n
³
´
X
X
=
Xi log p + n −
Xi log(1 − p).
i=1
i=1
Neem de parameterverzameling gelijk aan het interval [0, 1]. Als 0 <
P
n
i=1 Xi < n, dan geldt log L(p; X) → −∞ als p ↓ 0 of p ↑ 1, zodat
L(p; X) zijn maximum aanneemt op (0, 1). Nulstellen van de afgeleide
Pn naar
p geeft één oplossing; de maximum likelihood-schatter p̂ = X. Als i=1 Xi
gelijk is aan 0 of n, dan heeft L(p; X) een randmaximum in 0 of 1. Ook in
deze gevallen kan de maximum likelihood-schatter worden geschreven als
p̂ = X.
Voorbeeld 4.14 (Binomiale verdeling). Veronderstel dat X binomiaal
verdeeld is met bekende parameter n en onbekende parameter p. De log
likelihood-functie voor X is gelijk aan
³µ n ¶
´
p 7→ log L(p; X) = log
pX (1 − p)n−X
X
µ ¶
n
= log
+ X log p + (n − X) log(1 − p).
X
De maximum likelihood-schatter voor p is de waarde in [0, 1] die deze functie maximaliseert. Termen die niet van p afhangen hebben wel invloed op
de grootte van het maximum, maar niet op de locatie van het maximum.
Deze termen mogen we daarom weglaten bij het bepalen van de maximum
likelihood-schatter. Het is dus voldoende de functie
p 7→ X log p + (n − X) log(1 − p)
59
0
2*10^-6
6*10^-6
10^-5
4.3: Maximum Likelihood-Schatters
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 4.6. Een realisatie van de likelihood-functie als functie van p voor een steekproef
uit de alternatieve verdeling. De waargenomen waarde is Σn
i=1 xi = 5 voor n = 20, en de
maximum likelihood-schatting is p̂ = 0.25.
te maximaliseren naar p ∈ [0, 1]. DezePfunctie is gelijk aan de log likelihoodn
functie P
in Voorbeeld 4.13 voor X = i=1 Xi . Dit is niet merkwaardig aann
gezien
i=1 Xi bin(n, p)-verdeeld is als X1 , . . ., Xn onderling onafhankelijk en alternatief verdeeld zijn met parameter p. Maximalisatie van de log
likelihood-functie naar p gaat dus analoog aan de maximalisatie in Voorbeeld 4.13. De maximum likelihood-schatter voor p is p̂ = X/n. Dit komt
in het geval van de onzuivere munt in Voorbeeld 4.9 overeen met p̂ = 0.3.
Voorbeeld 4.15 (Exponentiële verdeling). Veronderstel dat X1 , . . ., Xn
een steekproef is uit de exponentiële verdeling met onbekende parameter
λ > 0. Dan is de log likelihood-functie voor X1 , . . ., Xn gelijk aan
λ 7→ log
n
Y
i=1
λe−λXi = n log λ − λ
n
X
Xi .
i=1
De parameterruimte voor λ is (0, ∞). Nulstellen van de afgeleide van de log
likelihood-functie naar λ en de gevonden vergelijking oplossen naar λ geeft
λ̂ = 1/X. De tweede afgeleide van de log likelihood-functie naar λ is negatief
voor alle λ > 0, dus in λ̂ heeft de likelihood-functie ook daadwerkelijk een
maximum.
De maximum likelihood-schatter van Eθ Xi kunnen we hieruit afleiden.
Definieer de functie g als g(λ) = 1/λ voor λ > 0. Dan geldt EXi = g(λ).
De maximum likelihood-schatter voor EXi = 1/λ = g(λ) is daarom gelijk
aan g(λ̂) = 1/λ̂ = X.
Voorbeeld 4.16 (Verschoven exponentiële verdeling). De kansdichtheid
60
4: Schatters
van een stochastische variabele X met een verschoven exponentiële verdeling is gelijk aan
fα,λ (x) = λe−λ(x−α)
voor x ≥ α,
en 0 voor x < α. Hierin is α de verschuivingsparameter en λ de intensiteitsparameter als in de niet verschoven exponentiële verdeling. Veronderstel dat X1 , . . ., Xn een steekproef is uit de verschoven exponentiële verdeling met onbekende parameters α en λ. De likelihood-functie voor deze
steekproef is gelijk aan
(α, λ) 7→ L(α, λ; X1 , . . ., Xn ) =
n
Y
λe−λ(Xi −α) 1Xi ≥α
i=1
Pn
= λn e−λ i=1 (Xi −α) 1X(1) ≥α .
De likelihood is gelijk aan 0 voor α > X(1) , omdat dan de indicatorfunctie
1X(1) ≥α gelijk aan 0 is. Voor α ≤ X(1) en voor vaste λ > 0 is de likelihoodfunctie stijgend als functie van α en dus maximaal in α = X(1) . De maximum likelihood-schatter voor α is daarom gelijk aan α̂ = X(1) . Substitueren
we deze waarde in de likelihood, en maximaliseren we naar λ op dezelfde
manier als in Voorbeeld 4.15, dan vinden
Pn we dat de maximum likelihoodschatter voor λ gelijk is aan λ̂ = n/ i=1 (Xi − X(1) ). In dit geval kunnen
de maximum likelihood-schatters voor de parameters dus in twee stappen
worden gevonden, eerst α̂ en daarna λ̂. Dat dit inderdaad het globale maximum van de likelihood oplevert, wordt ook geı̈llustreerd in Figuur 4.7.
l
0.2
0.3
0.4
L
1.2
1.4
1.6
a
Figuur 4.7. Een realisatie van de likelihood-functie voor een steekproef uit een verschoven
exponentiële verdeling ter grootte n = 20. De waargenomen waarden zijn x = 5 en x(1) = 1.5.
De maximum likelihood-schattingen zijn α̂ = 1.5 en λ̂ = 1/3.5.
4.3: Maximum Likelihood-Schatters
61
Voorbeeld 4.17 (Normale verdeling). De log likelihood-functie voor een
steekproef X1 , . . ., Xn uit de N (µ, σ 2 )-verdeling wordt gegeven door
(µ, σ 2 ) 7→ log
n
Y
√
i=1
1
1
2πσ 2
2
e− 2 (Xi −µ)
/σ 2
= − 12 n log 2π − 12 n log σ 2 −
n
1 X
(Xi − µ)2 .
2σ 2 i=1
We nemen de natuurlijke parameterruimte voor de parameter θ = (µ, σ 2 ):
Θ = R × (0, ∞). De partiële afgeleiden van de log likelihood naar µ en σ 2
zijn
n
∂
1X
log L(µ, σ 2 ; X) = 2
(Xi − µ)
∂µ
σ i=1
n
∂
1 X
n
2
log
L(µ,
σ
;
X)
=
−
+
(Xi − µ)2 .
∂σ 2
2σ 2
2σ 4 i=1
Nulstellen van de eerste vergelijking geeft één oplossing: µ̂ = X. In deze
waarde voor µ heeft de log likelihood inderdaad een globaal maximum voor
iedere σ 2 > 0 aangezien de waarde van de log likelihood naar −∞ gaat voor
µ → ±∞. Vervolgens substitueren we µ = µ̂ in de tweede partiële afgeleide,
stellen deze gelijk aan 0 en lossen de likelihood-vergelijking
vervolgens op
Pn
naar σ 2 . Dit geeft opnieuw één oplossing: σ̂ 2 = n−1 i=1 (Xi − X)2 . Om
gelijke reden als hiervoor heeft de log likelihood functie in deze waarde
inderdaad een maximum. (Overigens levert het maximaliseren van de log
likelihood-functie naar σ in plaats van σ 2 de wortel uit σ̂ 2 als maximum
likelihood-schatter voor σ op.) Om te controleren of de (differentieerbare)
log likelihood-functie een maximum heeft in de gevonden oplossing van de
likelihood-vergelijkingen, kan ook de Hessiaan-matrix van de log likelihoodfunctie in het punt (µ̂, σ̂ 2 ) berekend worden, welke hier gelijk is aan
µ
¶
1 −nσ̂ 2
0
.
0
−n/2
σ̂ 4
Beide eigenwaarden van deze matrix zijn negatief en daarmee heeft de log
likelihood een maximum in het punt (µ̂, σ̂ 2 ).
De gevonden maximum likelihood-schatter voor (µ, σ 2 ) is gelijk aan
³
´ ³ n−1 ´
1X
2
SX
(Xi − X)2 = X,
n i=1
n
n
X,
met
2
SX
=
n
1 X
(Xi − X)2 .
n − 1 i=1
62
4: Schatters
Het steekproefgemiddelde is zuiver voor µ, maar de maximum likelihoodschatter σ̂ 2 heeft een lichte onzuiverheid (zie Voorbeeld 4.7). Vanwege de
kleine onzuiverheid wordt vaak de voorkeur gegeven aan de steekproefvari2
2
antie SX
= (n/(n − 1))σ̂ 2 . De verwachte kwadratische
¡ fout van SX is¢ echter
2
2
groter dan die van σ̂ , en beide verliezen het van (n − 1)/(n + 1) SX
in
†
termen van de verwachte kwadratische fout. Omdat het verschil klein is
voor grote aantallen waarnemingen, maakt het meestal niet veel uit welke
van deze schatters wordt gebruikt.
Een ander model wordt verkregen als we µ bekend veronderstellen. Dan
is de parameter θ = σ 2 en de parameterverzameling (0, ∞). P
We vinden dan
n
dat de maximum likelihood-schatter van σ 2 gelijk is aan n−1 i=1 (Xi −µ)2 .
Merk op dat dit alleen een schatter is als µ bekend mag worden verondersteld!
Voorbeeld 4.18 (Normale verdeling met restrictie). Veronderstel dat
de waarnemingen X1 , . . ., Xn onafhankelijk en normaal verdeeld zijn met
verwachting µ en variantie 1, waarbij bekend is dat µ ≥ 0. Voor x1 , . . ., xn
een realisatie van X1 , . . ., Xn , neemt de likelihood-functie op R een absoluut
maximum aan in x. Omdat x negatief kan zijn en bekend is dat µ ≥ 0, is
x niet de maximum likelihood-schatting. In het geval dat x ≤ 0, neemt de
likelihood-functie op de parameterverzameling [0, ∞) een randmaximum
aan in 0. De maximum likelihood-schatting is x als deze niet-negatief is en
anders 0. De bijbehorende maximum likelihood-schatter is dan X1X≥0 ; X
als X ≥ 0 en 0 anders.
Een statistisch model en de maximum likelihood-schatter worden
bepaald door zowel de vorm van de dichtheid van de waarneming als de
definitie van de parameterverzameling!
Voorbeeld 4.19 (Gamma-verdeling). Stel dat X1 , . . ., Xn een steekproef
is uit de Gamma-verdeling met kansdichtheid
pα,λ (x) =
xα−1 λα e−λx
.
Γ(α)
Hierin zijn α > 0 en λ > 0 de onbekende vorm- en inverse schaalparameter,
en Γ de Gamma-functie
Z
∞
Γ(α) =
sα−1 e−s ds.
0
†
Het vereist enig rekenwerk om deze bewering te staven. Stelling 5.26 kan worden gebruikt
om dit rekenwerk te vergemakkelijken. Zie Opgave 5.24 in Hoofdstuk 5.
4.3: Maximum Likelihood-Schatters
63
De log likelihood-functie voor X1 , . . ., Xn is dan gelijk aan
(α, λ) 7→ log
n
Y
X α−1 λα e−λXi
i
Γ(α)
i=1
= (α − 1)
n
X
log Xi + nα log λ − λ
i=1
n
X
Xi − n log Γ(α).
i=1
De parameterruimte voor θ = (α, λ) nemen we gelijk aan Θ = [0, ∞) ×
[0, ∞). Om de maximum likelihood-schatters voor α en λ te vinden, bepalen
we de partiële afgeleiden van de log likelihood-functie naar λ en α
n
nα X
∂
log L(α, λ; X1 , . . ., Xn ) =
−
Xi ,
∂λ
λ
i=1
n
X
∂
log L(α, λ; X1 , . . ., Xn ) =
log Xi + n log λ − n
∂α
i=1
R ∞ α−1
s
log s e−s ds
0 R
.
∞ α−1 −s
s
e ds
0
(In de afgeleide naar α hebben we de Gamma-functie α 7→ Γ(α) onder
het integraalteken gedifferentieerd en gebruikt dat (∂/∂α)sα = sα log s.)
De partiële afgeleiden zijn gelijk aan 0 in de maximum likelihood schatters (α̂, λ̂); dit geeft twee likelihood-vergelijkingen. Uit de eerste vergelijking volgt onmiddellijk dat λ̂ = α̂/X. Dit substitueren we in de tweede
likelihood-vergelijking. Dit geeft
R ∞ α̂−1
n
X
s
log s e−s ds
= 0.
log Xi + n log α̂ − n log X − n 0 R ∞ α̂−1 −s
s
e ds
0
i=1
Deze vergelijking heeft geen expliciete oplossing voor α̂, maar kan numeriek,
met een iteratieve methode, worden opgelost wanneer een realisatie voor
X1 , . . ., Xn is waargenomen. De gevonden waarde α̂ substitueren we vervolgens in de vergelijking λ̂ = α̂/X om λ̂ te vinden. Om te controleren of
de log likelihood-functie in de oplossing ook daadwerkelijk een maximum
heeft, moeten we de eigenwaarden van de Hessiaan-matrix in (α̂, λ̂) berekenen. Als deze beide eigenwaarden negatief zijn in (α̂, λ̂), dan is (α̂, λ̂)
inderdaad de maximum likelihood-schatter voor (α, λ).
Voorbeeld 4.20 (Multinomiale verdeling). Veronderstel dat de vector
X = (X1 , . . ., Xm ) een multinomiale verdeling heeft met parameters n en
(p1 , . . ., pm ), waar p1 + . . . + pm = 1. We veronderstellen dat n bekend is en
de kansen p1 , . . ., pm onbekend zijn. De te schatten parameter is dan θ =
(p1 , . . ., pm−1 ), omdat pm = 1 − p1 − . . . − pm−1 vastligt zodra p1 , . . ., pm−1
bekend zijn. De likelihood-functie is in dit geval gegeven door
µ
¶³ m−1
´
Y
n
i
θ 7→
pX
(1 − (p1 + . . . + pm−1 ))Xm
i
X1 · · · Xk
i=1
64
4: Schatters
en de log likelihood-functie is gelijk aan
µ
¶ ³ m−1
´
X
n
θ 7→ log
+
Xi log pi + Xm log(1 − (p1 + . . . + pm−1 )).
X1 · · · Xk
i=1
Differentiatie van de log likelihood-functie naar p1 , . . ., pm−1 geeft de m − 1
likelihood-vergelijkingen:
Xm
Xi
−
=0
p̂i
1 − (p̂1 + . . . + p̂m−1 )
voor i = 1, . . ., m − 1.
Deze vergelijkingen zijn te schrijven als
p̂i = Xi
p̂m
Xm
voor i = 1, . . ., m − 1
Om de vergelijkingen op te lossen sommeren we alle m − 1 vergelijkingen
m−1
X
i=1
p̂i =
m−1
p̂m X
p̂m
Xi =⇒ 1 − p̂m =
(n − Xm ).
Xm i=1
Xm
Uit deze laatste vergelijking volgt dat p̂m = Xm /n. De maximum likelihoodschatters voor de overige kansen volgen direct uit de gevonden relaties p̂i =
p̂m Xi /Xm en zijn gelijk aan p̂i = Xi /n. Om te laten zien dat de (log)
likelihood daadwerkelijk een maximum bezit in θ̂ = (p̂1 , . . ., p̂m−1 ) kan men
nagaan dat de eigenwaarden van de Hessiaan-matrix in θ̂ negatief zijn. Deze
berekening is in dit geval echter complex en laten we hier achterwege.
Voorbeeld 4.21 (Toepassing, aantal bacteriën). Bacteriën in vervuild
water zijn onmogelijk met het oog of een microscoop te tellen. Om toch
een idee te krijgen van de mate van vervuiling maken we een inschatting
van het aantal bacteriën in een centiliter water. We gaan als volgt te werk.
We veronderstellen dat het aantal bacteriën in een centiliter vervuild water
Poisson-verdeeld is met parameter µ. Om een indicatie te krijgen van het
aantal bacteriën in het vuile water, willen we µ schatten. We gieten het vuile
water in een bak met 1000 liter zuiver water, roeren goed en verdelen het
water vervolgens over 1000 kweekbakken. Daarna kijken we in elke kweekbak of zich een kolonie vormt. Is dit het geval, dan zat er tenminste één
bacterie in deze liter; is dit niet het geval, dan was deze liter bacterievrij.
Definieer X als het totaal aantal bacteriën
P1000 in de centiliter vervuild water,
dan kunnen we X schrijven als X = i=1 Xi , waarbij Xi het aantal bacteriën is in de ie kweekbak is. De variabelen X1 , . . ., X1000 zijn dan onderling
onafhankelijk en Poisson-verdeeld met parameter µ/1000.
We kunnen X1 , . . ., X1000 echter niet waarnemen, maar nemen alleen
Y1 , . . ., Y1000 waar, met Yi gedefinieerd door
n
0 als zich in de ie bak geen kolonie vormt
Yi =
1 anders.
4.3: Maximum Likelihood-Schatters
65
De waarnemingen Yi zijn onafhankelijk en alternatief verdeeld met
P (Yi = 0) = P (Xi = 0) = e−µ/1000
en
P (Yi = 1) = 1 − e−µ/1000 .
Definieer p: = P (Yi = 1) = 1 − e−µ/1000 . In Voorbeeld 4.13 is de maximum likelihood-schatter voor de parameter p van de alternatieve verdeling afgeleid.P
Gebaseerd op de steekproef Y1 , . . ., Y1000 is deze schatter
1000
gelijk aan p̂ = i=1 Yi /1000. Aangezien p = 1 − e−µ/1000 is µ gelijk aan
−1000 log(1 − p) en wordt de maximum likelihood-schatter voor µ gegeven
P1000
door µ̂ = −1000 log(1 − i=1 Yi /1000).
Voorbeeld 4.22 (Toepassing, Poisson-voorraden). In Voorbeeld 2.6
wordt een statistisch model beschreven voor het totaal aantal verkochte
exemplaren van een bepaald artikel per week en per filiaal. Men neemt
waar X = (X1,1 , X1,2 , . . ., XI,J ), waarbij Xi,j het aantal artikelen is dat
verkocht werd in filiaal i in week j. Veronderstel dat X1,1 , . . ., XI,J onderling onafhankelijk zijn en Xi,j Poisson-verdeeld is met onbekende parameter
µi . De parameter µi is slechts afhankelijk van het filiaal en niet van de week.
De parameters µ1 , . . ., µI schatten we met de maximum likelihood-methode.
De log likelihood-functie voor X1,1 , . . ., XI,J is gelijk aan
(µ1 , . . ., µI ) 7→
X
³
µ i,j ´
log e−µi i
Xi,j !
i=1 j=1
I X
J
X
=−
I
X
i=1
Jµi +
I X
J
X
i=1 j=1
Xi,j log µi −
I X
J
X
log(Xi,j !).
i=1 j=1
We nemen de natuurlijke parameterverzameling (0, ∞)I voor (µ1 , . . ., µI ).
PJ
Oplossen van de likelihood-vergelijkingen geeft µ̂k = J −1 j=1 Xk,j , mits
PJ
j=1 Xk,j > 0. Het is gemakkelijk na te gaan dat de Hessiaan-matrix in een
willekeurig punt (µ1 , . . ., µI ) een diagonaal matrix is met slechts negatieve
PJ
PJ
eigenwaarden wanneer j=1 Xk,j > 0 voor alle k. Als j=1 Xk,j = 0 (hetgeen met positieve kans het geval is), bestaat er feitelijk geen maximum
likelihood-schatter van µk , omdat de likelihood-functie in dat geval strikt
dalend is en dus geen maximum aanneemt op (0, ∞). Definiëren we de
Poisson-verdeling met parameter 0 als de in het punt 0 ontaarde kansverdeling en breiden we de parameterverzameling voor µk uit tot [0, ∞) voor
PJ
iedere k, dan is J −1 j=1 Xk,j de maximum likelihood-schatter voor µk .
Als het aantal verkochte artikelen lineair verandert met de weken, kunnen we veronderstellen dat µi,j = µi (1 + βj). Hier nemen we aan dat de
verandering β gelijk is voor alle filialen. In dat geval is de log likelihoodfunctie voor X1,1 , . . ., XI,J gelijk aan
(µ1 , . . ., µI , β) 7→
I X
J ³
´
X
−µi (1 + βj) + Xi,j log(µi (1 + βj)) − log(Xi,j !) .
i=1 j=1
66
4: Schatters
De likelihood-vergelijkingen voor µk en β zijn gelijk aan
J ³
X
j=1
−(1 + β̂j) +
Xk,j ´
=0
µ̂k
voor k = 1, . . ., I
I X
J ³
X
jXi,j ´
−µ̂i j +
= 0.
1 + β̂j
i=1 j=1
Expliciete oplossingen van deze vergelijkingen zijn er niet, maar de nulpunten van de afgeleiden kunnen met een iteratief algoritme gevonden worden.
* Voorbeeld 4.23 (Autoregressie). De maximum likelihood-methode is
niet beperkt tot onafhankelijke waarnemingen. We illustreren dit met een
model dat vaak wordt gebruikt voor het analyseren van een variabele die
in de tijd varieert, het autoregressieve model:
Xi = βXi−1 + ei .
Hierin is β een onbekende parameter, en de variabelen e1 , . . ., en zijn nietwaarneembare toevalsfluctuaties, in deze context ook wel “innovaties” genoemd. Dit model lijkt veel op het lineaire regressiemodel zonder intercept,
behalve dat de waarneming Xi wordt “verklaard” door regressie op de waarneming Xi−1 . Als we de index i ∈ {1, . . ., n} interpreteren als opeenvolgende
momenten in de tijd, dan vindt regressie plaats van Xi op het verleden Xi−1
van de reeks zelf, vandaar de term “autoregressie”. We beschouwen hier het
autoregressiemodel van orde 1; een uitbreiding naar regressie op meer dan
een variabele in het verleden ligt voor de hand.
De volgorde van de datapunten is nu van groot belang en een weergave
van de data als een functie in de tijd zinvol. Figuur 4.8 geeft drie mogelijke
realisaties (x0 , x1 , . . ., xn ) van de vector (X0 , X1 , . . ., Xn ), als plot van de
index i op de horizontale as tegen de waarde xi op de verticale as. Alle drie
realisaties starten met x0 = 1, maar zijn daarna gegenereerd volgens het
model Xi = βXi−1 + ei met onafhankelijke innovaties ei maar met dezelfde
waarde van β. Het statistische probleem is de waarde van β te schatten op
basis van een waargenomen realisatie (x0 , x1 , . . ., xn ). We zullen dit oplossen
met behulp van de maximum likelihood-methode.
We maken de beschrijving van het model volledig door aan te nemen dat X0 verdeeld is volgens een kansdichtheid pX0 en dat de innovaties e1 , . . ., en onafhankelijke, normaal N (0, σ 2 )-verdeelde grootheden
vormen, die onafhankelijk zijn van X0 . De likelihood-functie is de simultane kansdichtheid van de waarnemingsvector X = (X0 , . . ., Xn ). Daar de
waarnemingen X0 , X1 , . . ., Xn stochastisch afhankelijk zijn, is de simultane
dichtheid niet het product van de marginale dichtheden. We kunnen echter
67
-4
-2
0
2
4
4.3: Maximum Likelihood-Schatters
0
10
20
30
40
50
Figuur 4.8. Drie realisaties van de vector (X0 , X1 , . . ., X50 ) verdeeld volgens het autoregressieve model met standaard normale innovaties, x0 = 1 en β = 0.7. Ieder van de drie
grafieken is een lineaire interpolatie van de punten {(i, xi ): i = 0, . . ., 50}.
gebruikmaken van de algemene decompositie voor een simultane dichtheid:
pX0 ,. . .,Xn (x0 , . . ., xn ) = pX0 (x0 )pX1 |X0 (x1 | x0 )pX2 |X0 ,X1 (x2 | x0 , x1 )×
· · · × pXn |X0 ,. . .,Xn−1 (xn | x0 , . . ., xn−1 ).
Deze formule geeft een factorisatie van de simultane dichtheid als een
product van voorwaardelijke dichtheden, en generaliseert de productformule voor het geval van onafhankelijke waarnemingen. De formule kan
worden bewezen door herhaalde toepassing van de formule f X,Y (x, y) =
f X (x)f Y |X (y| x). In het autoregressieve model is de voorwaardelijke
dichtheid van Xi gegeven X0 = x0 , . . ., Xi−1 = xi−1 gelijk aan de dichtheid
van βxi−1 + ei , dat wil zeggen de dichtheid van de normale verdeling met
verwachting βxi−1 en variantie var ei = σ 2 . De likelihood-functie heeft derhalve de vorm
(β, σ) 7→ L(β, σ; X0 , . . ., Xn ) = pX0 (X0 )
n
Y
1 ³ Xi − βXi−1 ´
φ
.
σ
σ
i=1
Hierin hebben we de dichtheid van X0 nog niet nader gespecificeerd. Omdat
deze dichtheid slechts één term van de n+1 termen beı̈nvloedt, en n meestal
groot is, wordt dit vaak achterwege gelaten. De term pX0 (X0 ) wordt dan
weggelaten uit de likelihood-functie, en de analyse wordt “voorwaardelijk
de waarde van X0 ” uitgevoerd.
Met deze definitie van de likelihood-functie kan de (voorwaardelijke)
maximum likelihood-schatter voor de parameter (β, σ) worden bepaald volgens dezelfde berekeningen als in het lineaire regressiemodel (zie Paragraaf 8.1.1). De maximum likelihood-schatter β̂ minimaliseert de kwadraat-
68
4: Schatters
som β 7→
Pn
i=1 (Xi
− βXi−1 )2 en is gelijk aan
Pn
i=1 Xi Xi−1
β̂ = P
.
n
2
i=1 Xi−1
De maximum likelihood-schatter voor σ 2 is
n
σ̂ 2 =
1X
(Xi − β̂Xi−1 )2 .
n i=1
Afhankelijk van de modellering van de beginwaarneming X0 nemen de maximum likelihood-schatters gebaseerd op de onvoorwaardelijke likelihoodfunctie een iets andere vorm aan.
* Voorbeeld 4.24 (Onbekende dichtheid). Veronderstel dat X1 , . . ., Xn
een steekproef is uit een verdeling met een onbekende kansdichtheid f .
In de voorgaande voorbeelden waren de kansverdelingen bekend op een
eindigdimensionale parameter na, bijvoorbeeld de exponentiële verdeling
met onbekende parameter λ. In dit voorbeeld veronderstellen we dat er
helemaal niets over de dichtheid f bekend is. Om f te schatten zullen
we opnieuw de maximum likelihood-methode gebruiken. De log likelihoodfunctie voor de steekproef X1 , . . ., Xn wordt gegeven door
f 7→ log L(f ; X1 , . . ., Xn ) = log
n
Y
f (Xi ) =
i=1
n
X
log f (Xi ).
i=1
Deze functie moet gemaximaliseerd worden naar de kansdichtheid f over de
verzameling van
R alle kansdichtheden, dat is over alle niet-negatieve functies
f zodanig dat f (x)dx = 1. Dit maximum bestaat echter niet. Om dit in
te zien beperken we ons tot kansdichtheden hε met ε > 0 van de vorm
hε (x) =
n
X
1
1[Xi −ε/2,Xi +ε/2] (x),
nε
i=1
dat wil zeggen dichtheden die een hoogte 1/(nε) hebben op de intervallen
[Xi − ε/2, Xi + ε/2] voor i = 1, . . ., n en daarbuiten nul zijn, zie Figuur 4.9.
Als de kansverdeling waaruit de steekproef genomen is continu is, dan zullen
deze intervallen elkaar niet overlappen mits ε maar klein genoeg is, en is
Z ∞
1
hε (x)dx = nε
= 1.
nε
−∞
De restrictie van de log likelihood-functie tot de dichtheden hε wordt
dan gegeven door
ε 7→
n
X
i=1
log hε (Xi ) =
n
X
i=1
log
1
= −n log nε.
nε
69
0.0
0.2
0.4
0.6
0.8
1.0
1.2
4.3: Maximum Likelihood-Schatters
−2
−1
0
1
Figuur 4.9. De dichtheid hε op basis van een steekproef ter grootte 10 uit de standaard
normale verdeling met ε = 0.1.
Voor ε ↓ 0, geldt dat log L(ε; X1 , . . ., Xn ) → ∞. Dit betekent dat er binnen
de dichtheden van de vorm hε met ε > 0 geen dichtheid bestaat die de log
likelihood-functie maximaliseert. Aangezien de limiet limε↓0 hε niet bevat is
in de verzameling kansdichtheden bestaat de maximum likelihood-schatter
voor dit probleem niet. We kunnen wel het probleem veranderen in een
probleem dat wel een oplossing bezit. In plaats van te zoeken naar een
dichtheid, zoeken we naar een verdelingsfunctie F ; we schatten dus F , niet
f . Als log likelihood nemen we de zogenaamde empirische log likelihood
F 7→
n
X
log F {Xi }.
i=1
Deze functie is verkregen door f (Xi ) in de log likelihood-functie te vervangen door F {Xi }, de sprong van F in het punt Xi . We zoeken nu naar
de verdelingsfunctie die de empirische log likelihood-functie maximaliseert
over alle kansverdelingen. Dit maximum wordt bereikt in de zogenaamde
empirische verdelingsfunctie
n
F̂ (x) =
1X
#{i: Xi ≤ x}
1X ≤x =
.
n i=1 i
n
Deze verdelingsfunctie is een sprongfunctie met sprongen ter grootte 1/n in
de waarnemingen X1 , . . ., Xn (zie Figuur 4.10). De bijbehorende verdeling
is discreet met puntmassa’s in de waarnemingen. Zien we een puntmassa
als een dichtheid met een oneindig hoge en smalle piek, dan is F̂ in zekere
zin de limiet van hε als ε ↓ 0.
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
4: Schatters
1.0
70
−4
−2
0
2
4
−4
−2
0
2
4
Figuur 4.10. De empirische verdelingsfunctie (stapfunctie) op basis van een steekproef ter
grootte 10 (links) en 30 (rechts) uit de standaard normale verdeling tezamen met verdelingsfunctie van de standaard normale verdeling.
* Voorbeeld 4.25 (Toepassing, samengesteld Poisson-proces). Een ziektekostenverzekeringsmaatschappij betaalt de gemaakte ziektekosten uit aan
haar klanten en zorgverleners. De maatschappij wil graag aan het begin
van de maand een indruk hebben hoeveel geld zij voor die maand opzij
moet zetten om alle gehonoreerde claims voor die maand uit te kunnen betalen. Daartoe wordt een dataset samengesteld met alle uitbetalingen van
de afgelopen 120 maanden.
Het aantal claims dat uitbetaald wordt, varieert van maand tot maand
en is afhankelijk van het aantal klanten dat de verzekeringsmaatschappij heeft in de desbetreffende maand. We definiëren Ni als het aantal
gehonoreerde claims in maand i en veronderstellen dat N1 , . . ., N120 onderling onafhankelijke stochastische grootheden zijn met
Ni ∼ Poisson(µMi ),
i = 1, . . ., 120
waar µ > 0 een onbekende parameter is en Mi het aantal klanten dat de
maatschappij aan het begin van maand i heeft. De aantallen Mi worden als
bekend en niet stochastisch verondersteld.
De hoogte van de j e claim in maand i noteren we met Ci,j . Het uitgePNi
Ci,j . We veronderstellen
keerde bedrag in maand i is dan gelijk aan j=1
dat de hoogte van de uitbetaalde schadeclaims onderling onafhankelijke
stochastische grootheden zijn met
Ci,j ∼ exp(θ),
i = 1, . . ., 120, j = 1, . . ., Ni
waar θ > 0 een onbekende parameter is. Bovendien veronderstellen we dat
de hoogtes van de claims Ci,j onafhankelijk zijn van de aantallen claims Ni .
Met bovenstaande modelaannames is het mogelijk het verwachte te
honoreren bedrag voor de komende maand te bepalen. Wanneer bekend
4.3: Maximum Likelihood-Schatters
71
zou zijn dat het aantal claims voor de komende maand gelijk is aan n, dan
is het verwachte te honoreren bedrag gelijk aan
Eθ
n
X
j=1
Cj =
n
θ
waar C1 , . . ., Cn de claimgroottes zijn in de komende maand. Het totaal
aantal claims is echter onbekend en volgt de Poisson(µM )-verdeling met
M het aantal klanten voor de komende maand. Het verwachte uit te keren
bedrag wordt dan
Eµ,θ
N
³X
N
´
³ ³X
´´
³ N ´ µM
.
Cj = E µ Eθ
Cj |N
= Eµ
=
θ
θ
j=1
j=1
PN
In bovenstaande uitdrukking wordt eerst verwachting van j=1 Cj berekend bij gegeven N , dit levert N/θ en vervolgens wordt de verwachting van
N/θ genomen. Wanneer θ en µ bekend zijn, is het verwachte uit te keren
bedrag voor de komende maand dus gelijk aan µM/θ.
De parameters µ > 0 en θ > 0 zijn onbekend en moeten worden geschat
op basis van de gegevens in de dataset. We doen dit met behulp van de
maximum likelihood-methode. Om de likelihood-functie af te leiden bepalen
we eerst de simultane dichtheid van (C1 , . . ., CN , N ), de waarnemingen voor
een maand. Deze dichtheid noteren we met fθ,µ ,
fθ,µ (c1 , . . ., cN , N = n) = fθ,µ (c1 , . . ., cn |N = n)Pµ (N = n)
n
³Y
´
(µM )n
=
θe−θcj e−µM
.
n!
j=1
We veronderstellen dat de waarnemingen van verschillende maanden en
jaren onderling onafhankelijk zijn. De log likelihood-functie voor alle waarnemingen in de dataset van de afgelopen 10 jaar is dan gelijk aan de logaritme van het product van de simultane kansdichtheden van de verschillende
maanden:
Ni
120 ³ Y
³Y
´
(µMi )Ni ´
(µ, θ) 7→ log
θe−θCi,j e−µMi
Ni !
i=1 j=1
=
120
X
i=1
log
Ni
³Y
120
´ X
³
(µMi )Ni ´
θe−θCi,j +
log e−µMi
.
Ni !
j=1
i=1
De eerste van de twee termen is niet afhankelijk van de parameter µ en
de tweede term bevat de parameter θ niet. Om de maximum likelihoodschatters van θ en µ te bepalen, volstaat het dus om de eerste term naar θ
te maximaliseren en de tweede term naar µ. Dit geeft
P120
P120
i=1 Ni
i=1 Ni
θ̂ = P120 P
en
µ̂
=
.
P120
Ni
i=1 Mi
i=1
j=1 Ci,j
72
4: Schatters
De maximum likelihood-schatter van het uit te keren bedrag is gelijk aan
P120 PNi
µ̂
i=1
j=1 Ci,j
M =M
.
P120
θ̂
i=1 Mi
In dit voorbeeld veronderstellen we dat de parameters µ en θ voor
iedere maand en ieder jaar gelijk zijn. Deze aannames zijn aanvechtbaar.
Zo zal het uitgekeerde bedrag gemiddeld genomen toenemen door inflatie en
het aantal claims in de winter groter zijn dan in de zomermaanden. Het valt
te overwegen de parameters afhankelijk te maken van jaar en maand. Zo
kunnen we in plaats van één parameter µ twaalf parameters µ1 , . . ., µ12 nemen voor de verschillende maanden. Door het aantal onbekende parameters
in het model te vergroten, zullen de schattingen echter minder nauwkeurig
worden.
* 4.3.1 Fisher-Scoring
Hoewel de voorgaande voorbeelden van toepassing van de maximum
likelihood-methode een andere indruk zouden kunnen geven, is het vaak
niet mogelijk de maximum likelihood-schatter door een expliciete formule
in de data uit te drukken (zie Voorbeeld 4.19). In zo’n geval is het noodzakelijk een numerieke benaderingsmethode toe te passen. Bij gegeven waarneming x is de likelihood-functie θ 7→ L(θ; x) een “gewone” functie van de
parameter θ, en we zoeken naar de waarde van θ waar deze functie maximaal is. Een aangepaste versie van de methode van Newton-Raphson staat
in de statistiek bekend als Fisher-scoring. Deze paragraaf bevat een korte
uiteenzetting van deze numerieke methoden.
In de meeste gevallen is de gezochte waarde θ̂ een stationair punt van
de afgeleide van de log likelihood-functie naar θ. We bespreken daarom het
vinden van een nulpunt θ̂ van de functie θ 7→ Λ̇(θ; x), waarin Λ̇ de vector van
partiële afgeleiden van de log likelihood-functie θ 7→ Λ(θ; x) = log L(θ; x)
is. Het idee van de methode van Newton-Raphson is om uitgaande van een
redelijke “begin schatting” θ̃0 voor θ̂ de functie Λ̇ te vervangen door de
lineaire benadering
Λ̇(θ; x) ≈ Λ̇(θ̃0 ; x) + Λ̈(θ̃0 ; x)(θ − θ̃0 ).
Hierin is Λ̈(θ; x) de tweede afgeleide van de log likelihood-functie naar de
parameter. In plaats van te zoeken naar de waarde van θ waarvoor de
vergelijking Λ̇(θ; x) gelijk aan 0 is, richten, we ons nu op het oplossen van
de vergelijking Λ̇(θ̃0 ; x) + Λ̈(θ̃0 ; x)(θ − θ̃0 ) = 0. Het nulpunt van deze tweede
vergelijking is gelijk aan
(4.1)
θ̃1 = θ̃0 − Λ̈(θ̃0 ; x)−1 Λ̇(θ̃0 ; x).
Omdat de lineaire benadering niet exact is, zal de waarde θ̃1 meestal niet
het gezochte nulpunt θ̂ zijn. We verwachten echter dat de gevonden waarde
4.3: Maximum Likelihood-Schatters
73
θ̃1 een betere benadering voor θ̂ zal zijn dan de startwaarde θ̃0 . We nemen vervolgens θ̃1 als startwaarde en berekenen een derde waarde, etc.
Dit geeft een rij benaderingen θ̃0 , θ̃1 , θ̃2 , . . . die onder bepaalde voorwaarden naar een nulpunt θ̂ convergeert. De convergentie is verzekerd als de
startwaarde θ̃0 voldoende dicht bij de doelwaarde θ̂ ligt, en de functie Λ̇
voldoende glad is, maar deze garantie is in de praktijk natuurlijk niet te
verkrijgen. Verschillende modificaties van het algoritme kunnen de convergentie betrouwbaarder maken. Bezit de log likelihood echter meerdere
locale maxima, en/of minima, dan is voorzichtigheid geboden, omdat de
convergentie ook kan plaatsvinden naar een ander nulpunt van Λ̇ (corresponderend met een locaal maximum of minimum), naast de mogelijkheid
van divergentie van de rij θ̃0 , θ̃1 , θ̃2 , . . ..
We zullen in Paragraaf 7.2 zien dat de tweede afgeleide Λ̈(θ̂; x) van
de log likelihood-functie geëvalueerd in de maximum likelihood-schatter
een speciale betekenis bezit. Deze tweede afgeleide wordt aangeduid als de
waargenomen informatie, en is ongeveer gelijk aan de Fisher-informatie (zie
Lemma 6.9). In plaats van de tweede afgeleide gebruikt men ook wel een
andere matrix in het Newton-Raphson algoritme (4.1). Wordt de Fisherinformatie gebruikt, dan staat het algoritme bekend als Fisher-scoring. Dit
is vooral interessant als de Fisher-informatie analytisch kan worden berekend.
* 4.3.2 Het EM-Algoritme
Naast het Fisher-scoring algoritme is het Expectation-Maximization Algoritme, afgekort EM algoritme, een veel gebruikt algemeen algoritme
om maximum likelihood-schatters te berekenen. Het algoritme is bedoeld
voor toepassingen waarbij de beoogde data slechts gedeeltelijk worden
waargenomen. In veel praktische toepassingen ontstaat een dergelijk missing data model op een natuurlijke wijze, maar het algoritme kan ook worden
toegepast door de waargenomen waarnemingen op te vatten als deel van
een denkbeeldige “volledige waarneming” (een voorbeeld wordt gegeven in
Voorbeeld 4.27).
Zoals gebruikelijk noteren we de waarneming als X, maar we veronderstellen dat we “slechts” X waarnemen, in plaats van de “volledige data”
(X, Y ), die in theorie ook beschikbaar zou kunnen zijn. Als (x, y) 7→ pθ (x, y)
een kansdichtheid van de vector (X, Y ) is, dan verkrijgen we de dichtheid
van X door te marginaliseren:
Z
pθ (x) = pθ (x, y) dy.
(In het geval van discreet verdeelde waarnemingen nemen we een som in
plaats van een integraal.) De maximum likelihood-schatter voor θ gebaseerd
op de waarneming X maximaliseert de likelihood-functie θ 7→ pθ (X). Als
de integraal in het voorgaande display expliciet kan worden geëvalueerd,
74
4: Schatters
dan is het berekenen van de maximum likelihood-schatter een standaard
probleem, dat bijvoorbeeld analytisch of met een iteratief algoritme kan
worden opgelost. Als de integraal niet analytisch kan worden geëvalueerd,
dan vereist de berekening van de likelihood in iedere gegeven waarde θ
een numerieke benadering van de integraal, en het vinden van de maximum
likelihood-schatter mogelijk vele van zulke benaderingen. Het EM-algoritme
probeert deze benaderingen te ontwijken.
Zouden we de beschikking hebben gehad over de “volledige data”
(X, Y ), dan zouden we de maximum likelihood-schatter op basis van (X, Y )
hebben bepaald. Deze schatter, die meestal beter zal zijn dan de maximum
likelihood-schatter gebaseerd op alleen X, is het punt van maximum van de
log likelihood-functie θ 7→ log pθ (X, Y ), welke waarschijnlijk wel gemakkelijk te evalueren is. Een natuurlijke procedure als Y niet beschikbaar is, is
om deze likelihood-functie te vervangen door zijn voorwaardelijke verwachting
¡
¢
(4.2)
θ 7→ Eθ0 log pθ (X, Y )| X .
Dit is de voorwaardelijke verwachting van de log likelihood voor de volledige
data gegeven de waarneming X. Het idee is om de gewone log likelihood te
vervangen door de functie (4.2), en het punt van maximum van deze laatste
te bepalen.
Helaas zal de verwachte waarde in (4.2) meestal afhangen van de ware
parameter θ0 , welke om deze reden is meegegeven als subscript van de
verwachtingsoperator Eθ0 . Omdat de ware waarde van θ niet bekend is,
is de functie in het display niet bruikbaar als basis voor een schattingsmethode. Het EM-algoritme overkomt dit probleem door iteratie. Gegeven
een geschikt gekozen eerste gooi θ̃0 naar de ware waarde van θ, bepalen
we een schatter θ̃1 door het maximaliseren van het criterium. Vervolgens
vervangen we θ̃0 in Eθ̃0 door θ̃1 , maximaliseren het nieuwe criterium, etc.
Initialiseer θ̃0 .
E-stap:¡ gegeven θ̃i bereken
¢ de functie
θ 7→ Eθ̃i log pθ (X, Y )| X = x .
M-stap: definieer θ̃i+1 als het punt van maximum van deze
functie.
Het EM-algoritme geeft een rij waarden θ̃0 , θ̃1 , . . ., en we hopen dat θ̃i voor
toenemende i een steeds betere benadering voor de onbekende maximum
likelihood-schatter is.
De voorgaande beschrijving wekt de indruk dat het resultaat van het
EM-algoritme een nieuw type schatter is. Dit is echter niet het geval, want
als de rij θ̃0 , θ̃1 , . . . gegenereerd volgens het EM-algoritme naar wens convergeert naar een limiet, dan is deze limiet precies de maximum likelihoodschatter gebaseerd op de waarneming X. Onder regulariteitsvoorwaarden
4.3: Maximum Likelihood-Schatters
75
geldt namelijk dat, voor iedere i,
pθ̃i+1 (X) ≥ pθ̃i (X).
(4.3)
(zie het volgende lemma). De iteraties van het EM-algoritme leveren dus een
steeds grotere waarde voor de likelihood-functie van de waarneming X. Als
het algoritme “naar wens” werkt, dan zullen de waarden pθ̃i (X) uiteindelijk
naar het maximum van de likelihood stijgen, en θ̃i zal convergeren naar de
maximum likelihood-schatter. Helaas is een dergelijke convergentie in het
algemeen niet gegarandeerd, en dient per geval te worden beoordeeld. De
rij θ̃i kan bijvoorbeeld naar een locaal maximum convergeren. Evenmin is
de uitvoering van de twee stappen van het algoritme noodzakelijkerwijze
eenvoudig.
Lemma 4.26. De rij θ̃0 , θ̃1 , θ̃2 , . . . gegenereerd volgens het EM-algoritme
geeft een stijgende rij likelihood-waarden pθ̃0 (X), pθ̃1 (X), pθ̃2 (X), . . ..
Bewijs. De dichtheid pθ van (X, Y ) kan worden gefactoriseerd als
Y |X
pθ (x, y) = pθ
(y| x)pθ (x).
De logaritme verandert dit product in een som, en dus geldt dat
¡
¡
¢
¢
Y |X
Eθ̃i log pθ (X, Y )| X = Eθ̃i log pθ (Y | X)| X + log pθ (X).
Omdat de waarde θ̃i+1 deze functie over θ maximaliseert, is deze uitdrukking in θ = θ̃i+1 groter dan in θ = θ̃i . Als we kunnen laten zien
dat de eerste term rechts groter is in θ = θ̃i dan in θ = θ̃i+1 , dan moet
voor de tweede term het omgekeerde gelden (en het verschil moet door de
tweede term worden goedgemaakt), zodat (4.3) geldt. Het is dus voldoende
te laten zien dat
¢
¡
¢
¡
Y |X
Y |X
Eθ̃i log pθ̃ (Y | X)| X ≤ Eθ̃i log pθ̃ (Y | X)| X .
i+1
i
R
Deze ongelijkheid is van de vorm log(q/p) dP ≤ 0 voor p en q de voorwaardelijke dichtheid van Y gegeven X onder, respectievelijk, θ̃i en θ̃i+1 .
Omdat log x ≤ x−1 voor iedere x ≥ 0, geldt voor ieder paar kansdichtheden
p en q dat
Z
Z
log(q/p) dP ≤
Z
(q/p − 1) dP =
q(x) dx − 1 ≤ 0.
p(x)>0
Dit impliceert het voorgaande display, waarmee het bewijs is voltooid.
76
4: Schatters
Voorbeeld 4.27 (Mengsel verdelingen). Veronderstel dat een aantal objecten of individuen in principe gegroepeerd kan worden in min of meer
homogene clusters. De cluster labels zelf nemen we helaas niet waar, maar
in plaats daarvan meten we voor ieder object een vector xi . Op grond van
de waarnemingen x1 , . . ., xn willen we de clustering van de objecten vinden.
We zouden kunnen aannemen dat iedere waarneming xi de realisatie
van een stochastische vector Xi is, met kansdichtheid fj als het object tot
het j e cluster behoort. De kwalificatie “min of meer homogeen” in de voorgaande alinea kunnen we dan zo opvatten dat de kansdichtheden f1 , . . ., fk
voor de verschillende clusters weinig overlap vertonen. We zullen aannemen
dat het aantal clusters k bekend is, hoewel we dit ook met behulp van de
data zouden kunnen bepalen.
Eén mogelijkheid om de clusters te bepalen is om de likelihood
k Y
Y
fj (Xi )
j=1 i∈Ij
te maximaliseren over alle partities (I1 , . . ., Ik ) van {1, . . ., n} in k deelverzamelingen en over alle onbekende parameters in de dichtheden fj . De partitie geeft dan de clustering. Nemen we bijvoorbeeld voor fj de normale
dichtheid met verwachtingsvector µj , dan leidt dit tot k-means clustering:
de beste klasse-indeling wordt gegeven door de partitie die
min
(µ1 ,. . .,µk )∈Rk
k X
X
kXi − µj k2
j=1 i∈Ij
minimaliseert. Dit is computationeel geen eenvoudig probleem, maar de
clusters kunnen worden benaderd door een iteratief algoritme.
Een andere mogelijkheid is om aan te nemen dat ieder object aselect
is toegewezen aan één van de clusters (door “de natuur”). We kunnen dan
spreken over een stochastische vector (C1 , . . ., Cn ), welke de cluster labels
geeft (Ci = j als het ie object tot cluster j behoort), en vatten de dichtheid
fj op als de voorwaardelijke kansdichtheid van Xi gegeven dat Ci = j. De
klassenvector (C1 , . . ., Cn ) wordt niet waargenomen. Als we aannemen dat
(C1 , X1 ), . . ., (Cn , Xn ) onafhankelijke identiek verdeelde vectoren zijn met
P(Ci = j) = pj voor j = 1, . . ., k, dan kunnen we de maximum likelihoodschatter voor de parameters p = (p1 , . . ., pk ) en de onbekende parameters
in f = (f1 , . . ., fk ) bepalen met het EM algoritme.
De volledige data bestaat uit (C1 , X1 ), . . ., (Cn , Xn ). De corresponderende likelihood-functie is
(p, f ) 7→
n Y
k
Y
¡
¢1{Ci =j}
pj fj (Xi )
.
i=1 j=1
4.3: Maximum Likelihood-Schatters
77
De M-stap van het EM-algoritme is daarom het berekenen van
n Y
k
³ Y
´
¡
¢1{Ci =j}
Ep̃,f˜ log
pj fj (Xi )
| X1 , . . ., Xn
i=1 j=1
=
n X
k
X
³¡
´
¢
Ep̃,f˜ log pj + log fj (Xi ) 1{Ci = j}| Xi .
i=1 j=1
Met behulp van de regel van Bayes vinden we de voorwaardelijke
kansP
dichtheid van Ci gegeven Xi als P(Ci = j| Xi = x) = pj fj (x)/ c pc fc (x).
De uitdrukking in het voorgaande display is derhalve gelijk aan
k
X
j=1
log pj
n
k X
n
X
X
p̃j f˜j (Xi )
p̃j f˜j (Xi )
+
log fj (Xi ) P
.
P
˜
˜
c p̃c fc (Xi )
c p̃c fc (Xi )
i=1
j=1 i=1
In de M-stap van het EM-algoritme maximaliseren we deze uitdrukking over
p en f . Voor de maximalisatie over p is alleen de eerste term van belang.
Argumenten uit de calculus laten zien dat het maximum wordt aangenomen
voor
n
1 X p̃j f˜j (Xi )
.
pj =
P
n i=1 c p̃c f˜c (Xi )
Voor de maximalisatie over f is alleen de tweede term van belang. Bovendien maximaliseren we ieder van de j termen afzonderlijk over fj als de
parameters f1 , . . ., fk onafhankelijk van elkaar variëren: fj maximaliseert
in dat geval
n
X
p̃j f˜j (Xi )
fj 7→
log fj (Xi ) P
.
˜
c p̃c fc (Xi )
i=1
Kiezen we voor fj bijvoorbeeld de normale dichtheid met verwachtingsvector µj , zodat log fj (x) op een constante na gelijk is aan − 12 kx − µj k2 , en
maximaliseren naar µj , dan vinden we
Pn
p̃j f˜j (Xi )
i=1 αi Xi
µj = P
,
αi = P
.
n
˜
i=1 αi
c p̃c fc (Xi )
Dit is een gewogen gemiddelde van de waarnemingen Xi , waarbij de
gewichten gelijk zijn aan de voorwaardelijke kans αi = Pp̃,f˜(Ci = j|Xi )
dat het ie object tot de j e klasse behoort, berekend volgens de huidige
schatting (p̃, f˜) van de parameters. Deze updatingformules itereren we nu
herhaaldelijk totdat het resultaat nog nauwelijks wijzigt.
Uit de maximum likelihood-schattingen van de parameters vinden we
ook een maximum likelihood-schatting van de kans Pp,f (Ci = j| Xi ) dat
het ie object tot cluster j behoort. We zouden het object kunnen toewijzen
aan het cluster waarvoor deze kans het grootst is.
78
4: Schatters
4.4 Momentenschatters
De methode van de momenten is een alternatief voor de maximum
likelihood-methode. Omdat de momentenmethode vaak niet de volledige
informatie uit het statistische model gebruikt, zijn momentenschatters vaak
minder efficiënt dan maximum likelihood-schatters. Aan de andere kant is
de methode soms makkelijker te implementeren. Bovendien vereist de methode alleen de theoretische vorm van de momenten en niet de gehele kansverdeling van de waarnemingen. Aangezien deze momenten vaak gemakkelijker op een realistische manier zijn te modelleren dan de hele kansverdeling, kan dit een groot voordeel zijn. Het gebruik van een verkeerd model
om schatters te construeren kan daardoor worden voorkomen.
Het j e moment van een stochastische variablele is gedefinieerd als
E(X j ), mits deze verwachting bestaat. Op basis van onderling onafhane
kelijke en identiek verdeelde X1 , . . ., Xn kan
Pnhet j moment geschat worden
met het j e steekproefmoment X j = n−1 i=1 Xij . Bij de methode van de
momentenschatters schatten we de parameter θ door vergelijkingen van de
volgende vorm op te lossen naar θ:
Eθ Xij = X j ,
j = 1, . . ., k.
Hierin wordt k zo laag mogelijk gekozen. Voor een eendimensionale parameter θ volstaat k = 1, mits de verwachtingswaarde van de marginale
verdeling afhangt van θ. In dat geval wordt het eerste moment dus geschat
met het steekproefgemiddelde en wordt θ̂ vervolgens zodanig gekozen dat
dit eerste moment in verwachting gelijk is aan het steekproefgemiddelde
onder θ̂.
Wanneer het eerste moment niet afhangt van θ of θ een hoger dimensionale parameter is, wordt k > 1 zo laag mogelijk gekozen, onder de voorwaarde dat de vergelijkingen oplosbaar zijn naar θ. De momentenschatter
voor g(θ) met g: Θ → H een functie met bereik H is gedefinieerd als g(θ̂)
met θ̂ de momentenschatter voor θ.
Voorbeeld 4.28 (Exponentiële verdeling). Veronderstel dat X1 , . . ., Xn
een steekproef is uit een exponentiële verdeling met onbekende parameter
λ. Dan is Eλ Xi = 1/λ. De momentenschatter van λ wordt nu gevonden
door de vergelijking X = 1/λ op te lossen naar λ. Dit geeft λ̂ = 1/X als
momentenschatter voor λ. Deze schatter is ook de maximum likelihoodschatter voor λ (zie Voorbeeld 4.15).
Voorbeeld 4.29 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn een
steekproef uit de hom[0, θ]-verdeling is met onbekende parameter θ. Dan is
Eθ Xi = θ/2 en de momentenschatter voor θ is gelijk aan θ̂ = 2X. De
maximum likelihood-schatter voor θ is gelijk aan X(n) (zie Voorbeeld 4.12).
In Voorbeeld 4.5 hebben we gezien dat de verwachte kwadratische fout van
X(n) kleiner is dan die van 2X.
4.4: Momentenschatters
79
Voorbeeld 4.30 (Normale verdeling). Veronderstel dat X1 , . . ., Xn een
steekproef uit de N(0,σ 2 )-verdeling is met onbekende parameter σ 2 > 0.
Dan is Eσ2 Xi = 0 en dus is het eerste moment niet bruikbaar voor het
bepalen van de momentenschatter voor σ 2 . Het tweede moment van Xi is
gelijk aan Eσ2 Xi2 = σ 2 . De momentenschatter voor σ 2 is dan gelijk aan
σ̂ 2 = X 2 . Als de verwachting van Xi onbekend of ongelijk aan nul was
geweest, dan hadden we een andere momentenschatter voor σ 2 gevonden
(zie Voorbeeld 4.32).
Voorbeeld 4.31 (Gamma-verdeling). Veronderstel dat X1 , . . ., Xn de
Gamma-verdeling met onbekende vorm- en inverse schaalparameter α en λ
hebben. Dan is Eα,λ Xi = α/λ en varα,λ Xi = α/λ2 , en dus is het tweede
moment gelijk aan Eα,λ Xi2 = var Xi +(EXi )2 = α(1+α)/λ2 . De momentenschatters voor α en λ worden gevonden uit het oplossen van de volgende
twee vergelijkingen
Eα,λ Xi = α/λ = X
Eα,λ Xi2 = α(1 + α)/λ2 = X 2
naar α en λ. Dit geeft
α̂ =
(X)2
X2
−
(X)2
en
λ̂ =
X
X2
− (X)2
.
Het berekenen van de maximum likelihood-schatters voor α en λ is lastig
(zie Voorbeeld 4.19), omdat er geen expliciete uitdrukkingen voor de schatters bestaan. Hierboven zijn daarentegen voor de momentenschatters voor
α en λ wel expliciete uitdrukkingen afgeleid.
Voorbeeld 4.32 (Verwachting en variantie). Zij X1 , . . ., Xn een steekproef met verwachting µ en variantie σ 2 . Het oplossen van µ en σ 2 uit de
vergelijkingen
Eµ,σ2 Xi = µ = X,
Eµ,σ2 Xi2 = µ2 + σ 2 = X 2 ,
geeft de momentenschatters voor µ en σ 2 :
n
µ̂ = X,
σ̂ 2 = X 2 − (X)2 =
1X
(Xi − X)2 .
n i=1
Als de onderliggende verdeling N (µ, σ 2 ) is, dan zijn bovenstaande momentenschatters gelijk aan de maximum likelihood-schatters voor µ en σ 2
(zie Voorbeeld 4.17).
80
4: Schatters
* 4.4.1 Gegeneraliseerde Momentenschatters
De methode van de momentenschatters kan op verschillende manieren worden P
gegeneraliseerd. Zo kunnen we in plaats van
Pn de steekproefmomenten
n
n−1 i=1 Xij , gemiddelden van het type n−1 i=1 g(Xi ) gebruiken voor
geschikt gekozen functies g. Het is verder niet nodig dat de waarneming
X een steekproef is, en we kunnen ook algemene functies van X gebruiken
in plaats van gemiddelden. De essentie is het oplossen van een stelsel vergelijkingen van het type g(X) = e(θ) voor geschikt gekozen functies en
e(θ) = Eθ g(X).
Is de parameter k-dimensionaal, dan ligt het voor de hand om k vergelijkingen te gebruiken voor de definitie van de momentenschatter. De vraag
rijst dan: welke functies? In feite reduceert de methode der momenten de
waarnemingen eerst tot de waarden van k functies van die waarnemingen,
en de momentenschatter is gebaseerd op deze gereduceerde data. Als de
oorspronkelijke data niet uit de k waarden zijn te reconstrueren, leidt deze
reductie tot een verlies van informatie. De keuze van de gebruikte functies
is daarom van belang voor de efficiëntie van de resulterende schatters.
Een mogelijke uitweg voor dit verlies aan informatie is om meer momenten te gebruiken dan onbekende parameters. Omdat dit leidt tot meer
vergelijkingen dan onbekenden, zal het in dat geval meestal niet mogelijk
zijn een parameterwaarde te vinden waarvoor de steekproefmomenten exact
gelijk zijn aan de theoretische momenten. We zouden in plaats daarvan een
afstandsmaat tussen deze twee typen momenten kunnen minimaliseren, bijvoorbeeld een uitdrukking van de vorm
l ³ X
n
X
1
j=1
n i=1
´2
gj (Xi ) − Eθ gj (X1 ) .
De functies g1 , . . ., gl zijn bekende, vast gekozen functies. De schatter θ̂ is de
waarde van θ waarvoor deze uitdrukking minimaal is. Deze methode staat
bekend (vooral in de Econometrie) als de generalized method of moments.
4.5 Bayes-schatters
De methode van Bayes is de oudste methode voor het construeren van
schatters, gesuggereerd door Thomas Bayes aan het eind van de 18e eeuw.
De methode is omgeven door een filosofie aangaande de beste manier om
onzekerheid uit te drukken. Deze filosofie (in zijn strikte vorm) heeft als
uitgangspunt dat het statistische model geen unieke parameterwaarde bevat die correspondeert met de “ware” toestand van de werkelijkheid. Iedere
parameterwaarde bezit echter een waarschijnlijkheid, die zo nodig op een
subjectieve, persoonlijke manier kan worden vastgesteld. Op dit subjectieve
4.5: Bayes-schatters
81
element wordt veel kritiek geuit. Bayesiaanse methoden in een meer objectieve zin zijn echter breed geaccepteerd en kennen sinds de jaren ’90 van
de vorige eeuw een grote populariteit, omdat aanvankelijke problemen met
de berekeningen nu kunnen worden opgelost met computersimulatie (zie
Paragraaf 4.5.1).
Een volledig Bayesiaanse handelswijze begint met de specificatie van
een zogenaamde a priori kansverdeling op de parameterverzameling Θ,
in aanvulling op de specificatie van een statistisch model (of likelihoodfunctie). Deze kansverdeling wordt vervolgens aangepast aan beschikbare
data door middel van een toepassing van de regel van Bayes uit de kansrekening. Deze aangepaste kansverdeling heet de a posteriori kansverdeling.
We zullen de methode van Bayes allereerst beschrijven als een methode om
schatters te construeren, en zullen dit updatingmechanisme van de kansverdeling nader beschrijven in Paragraaf 4.5.1.
Bayes-schatters worden geconstrueerd uitgaande van een a priori kansverdeling op de parameterverzameling Θ. Deze kansverdeling wordt gekozen
op grond van ad hoc argumenten, dan wel als een uitdrukking van de a priori, zo nodig subjectieve inschatting van de waarschijnlijkheid van de verschillende parameterwaarden. De noodzaak van het kiezen van een a priori
verdeling wordt aan de ene kant vaak als een zwakte van de methode van
Bayes-schatters gezien, maar is anderzijds zeer aantrekkelijk voor het genereren van een grote collectie schatters: voor iedere a priori verdeling vinden
we een andere schatter. De volledige-klassenstelling (Engels: complete class
theorem) laat zelfs zien dat, onder bepaalde voorwaarden, alle toelaatbare
schatters willekeurig dicht benaderd kunnen worden door Bayes-schatters.
Deze stelling zullen we hier niet behandelen.
Voor het gemak nemen we de a priori verdeling continu met dichtheid
π, een willekeurige kansdichtheid op Θ. Het Bayes-risico van een schatter
T voor een reëelwaardige parameter g(θ) is gedefinieerd als het gewogen
gemiddelde van de MSE(θ; T ), gewogen volgens π,
Z
¡
¢2
R(π; T ) = Eθ T − g(θ) π(θ) dθ.
Dit is een maat voor de kwaliteit van de schatter T , die meer gewicht
toekent aan de waarden θ die a priori waarschijnlijker worden geacht. De
Bayes-schatter is gedefinieerd als de beste volgens dit kwaliteitscriterium.
Het doel is nog steeds een schatter te vinden waarvoor de MSE(θ; T ) voor
alle θ klein is, maar het doel wordt concreet gemaakt door de verschillende
waarden van θ te wegen.
Definitie 4.33. De Bayes-schatter ten opzichte van de a priori dichtheid π
is die schatter T die R(π; T ) minimaliseert over alle schatters T .
Schrijven we x 7→ pθ (x) voor de kansdichtheid van X, dan kunnen we
de Bayes-schatter uitdrukken als een quotiënt van twee integralen. Terwijl
82
4: Schatters
de maximum likelihood-schatter is gedefinieerd als de plaats van het maximum van de likelihood-functie, is een Bayes-schatter een soort gewogen
gemiddelde van deze functie.
Stelling 4.34. De Bayes-schatting voor g(θ) met betrekking tot de a priori
dichtheid π wordt gegeven door
R
g(θ)pθ (x) π(θ) dθ
T (x) = R
.
pθ (x) π(θ) dθ
De Bayes-schatting is dus afhankelijk van zowel de likelihood-functie
θ 7→ pθ (x) als de a priori dichtheid π.
Voorbeeld 4.35 (Exponentiële verdeling). Veronderstel dat de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de exponentiële verdeling met
onbekende parameter θ. Als a priori verdeling voor θ nemen we eveneens
de exponentiële verdeling, maar nu met bekende parameter λ. De Bayesschatting Tλ (x) voor θ gebaseerd op x = (x1 , . . ., xn ) en ten opzichte van
de gegeven a priori verdeling, is
¢ −λθ
R ∞ ¡ Qn
R ∞ n+1 −θ(λ+Pn xi )
−θxi
i=1
θ
θe
λe
dθ
θ
λe
dθ
Pn
¢
R0 ∞ ¡Qni=1
.
= 0R ∞
−θx
−λθ
i
x
)
−θ(λ+
i
λe
dθ
i=1
dθ
θn λe
i=1 θe
0
0
Het expliciet uitrekenen van de integralen in de teller en noemer van deze
breuk is niet de handigste manier om Tλ (x) te bepalen. We zullen zien dat
dit makkelijker wordt door eerst de a posteriori dichtheid te bepalen, zie
Voorbeeld
4.37. In dat voorbeeld wordt afgeleid dat Tλ (x) = (n + 1)/(λ +
Pn
x
)
de
Bayes-schatting
i
i=1
Pn is. De Bayes-schatter voor θ is dus gelijk aan
Tλ (X) = (n + 1)/(λ + i=1 Xi ). Voor grote waarden van n zijn de Bayesschatter Tλ (X) en de maximum likelihood-schatter θ̂ = 1/X ongeveer aan
elkaar gelijk.
Het bewijs van Stelling 4.34 is een oefening in het manipuleren van
voorwaardelijke verdelingen. De volgende “Bayesiaanse” notatie en begrippen zijn daarvoor handig en ook op zichzelf van groot belang. Ze beschrijven
de Bayesiaanse methode in een meer omvattend kader, waarbij de zogenaamde a posteriori verdeling het eindpunt van de analyse vormt.
Normaal gesproken beschouwen we de parameter θ als deterministisch
en is er één “ware” parameterwaarde die de dichtheid x 7→ pθ (x) van de
waarneming X bepaalt. Hiervan afwijkend, beschouwen we in deze paragraaf pθ als de voorwaardelijke dichtheid pX|Θ=θ van de variabele X gegeven
dat een (hypothetische) stochastische grootheid Θ de waarde θ aanneemt.
Deze grootheid Θ geven we de (marginale) kansdichtheid π. Dan is de simultane dichtheid van (X, Θ) gelijk aan
pX,Θ (x, θ) = pX|Θ=θ (x)pΘ (θ) = pθ (x)π(θ).
4.5: Bayes-schatters
83
De marginale dichtheid van X in deze Bayesiaanse setting wordt verkregen
door de simultane dichtheid te integreren naar θ en is dus
Z
Z
pX (x) = pX,Θ (x, θ) dθ = pθ (x)π(θ) dθ.
Derhalve is de voorwaardelijke dichtheid van Θ gegeven dat X = x gelijk
aan
pX,Θ (x, θ)
pθ (x)π(θ)
pΘ|X=x (θ) =
=R
.
pX (x)
pθ (x)π(θ) dθ
(Deze formule is precies de regel van Bayes uit de kansrekening, zie Paragraaf 9.5.) Deze dichtheid heet de a posteriori dichtheid
R van Θ. De term
in de noemer is slechts een normeringsconstante zodat pΘ|X=x (θ) dθ = 1.
Voordat de waarneming bekend was, kenden we aan Θ de a priori dichtheid
π toe. Nadat de waarneming bekend is geworden, geeft de a posteriori
dichtheid de herziene kansverdeling. De waarneming leidt zo tot het aanpassen van onze a priori gedachten over de parameter.
Deze berekeningen tonen aan dat de uitdrukking T (x) in Stelling 4.34
precies de verwachting van g(Θ) onder de a posteriori kansverdeling is, de
voorwaardelijke verwachting van g(Θ) gegeven dat X = x. We kunnen deze
stelling daarom als volgt herformuleren.
Stelling 4.36. Met gebruikmaking van Bayesiaanse notatie wordt de
Bayes-schatting voor g(θ) met betrekking tot de a priori dichtheid π gegeven door
Z
¡
¢
T (x) = E g(Θ)| X = x = g(θ)pΘ|X=x (θ) dθ.
Bewijs. Allereerst schrijven we het Bayes-risico in Bayesiaanse notatie. De
¡
¢2
term Eθ T − g(θ) in de gewone notatie is de voorwaardelijke verwachting
£¡
¢2
¤
E T (X) − g(Θ) | Θ = θ
in de Bayesiaanse notatie. Daaruit kunnen we afleiden dat
Z ³
´
¡
¢2
R(π; T ) = E T (X) − g(θ) | Θ = θ π(θ) dθ
¡
¢2
= E T (X) − g(Θ)
Z ³
´
¡
¢2
= E T (x) − g(Θ) | X = x pX (x) dx.
In bovenstaande is de rekenregel voor decompositie van verwachtingen
¡
¢2
R
EZ = E(Z| Y = y) fY (y) dy met Z = T (X) − g(Θ) tweemaal gebruikt:
in de tweede gelijkheid met Y = Θ en in de derde met Y = X.
84
4: Schatters
Om R(π; T ) te minimaliseren naar T kunnen we voor iedere x de integrand minimaliseren, omdat de integrand overal niet-negatief is. We zoeken
daarom voor iedere x het getal t = T (x) zodanig dat
³¡
´
¢2
E t − g(Θ) | X = x pX (x)
minimaal is. Omdat voor een gegeven x de term pX (x) een niet-negatieve
constante is, is het minimaliseren van bovenstaande integrand naar t equivalent met het minimaliseren van
³¡
´
¢2
E t − g(Θ) | X = x
naar t. Daarom kan voor iedere x het getal t = T (x) worden gevonden
door de laatste uitdrukking te minimaliseren. Nu geeft het minimaliseren
van E(Y − t)2 naar t de waarde t = EY , het minimum van de parabool
t 7→ E(t − Y )2 = t2 − 2t EY + EY 2 . Hier moeten we dit principe toepassen
met een stochastische grootheid Y die verdeeld is volgens de voorwaardelijke
¡
¢
verdeling van g(Θ) gegeven X = x, en vinden dus t = E g(Θ)| X = x ,
¡
¢
ofwel de Bayes-schatting wordt gegeven door T (x) = E g(Θ)| X = x .
Voorbeeld 4.37 (Exponentiële verdeling, vervolg). Veronderstel dat
de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de exponentiële
verdeling met onbekende parameter θ en dat de a priori dichtheid voor θ de
exponentiële verdeling is met bekende parameter λ. In Voorbeeld 4.35 staat
een uitdrukking gegeven voor de Bayes-schatting voor θ. Door eerst de a
posteriori verdeling te bepalen, kunnen we Bayes-schatting gemakkelijker
expliciet bepalen.
De a posteriori verdeling wordt gegeven door
¡Qn
¢ −λθ
−θxi
λe
i=1 θe
¡
¢
R
θ 7→ pΘ|X=x (θ) = ∞ Qn
−θxi λe−λθ dθ
θe
i=1
0
Pn
Pn
n
θn e−θ(λ+ i=1 xi )
θ λe−θ(λ+ i=1 xi )
Pn
=
= R∞
C(x, λ)
θn λe−θ(λ+ i=1 xi ) dθ
0
waar C(x, λ) een normeringsconstante is, afhankelijk van x = (x1 , . . ., xn )
en λ, zodat pΘ|X=x een dichtheid is. In deze a posteriori verdeling herkennen we de Gamma-verdeling
Pn met vormparameter n + 1 en inverse schaalparameter gelijk aan λ + i=1 xi . In het algemeen is de verwachtingswaarde
behorende bij de Gamma-verdeling met vormparameter α en inverse schaalparameter λ gelijk aan α/λ (zie Voorbeeld 9.13). De Bayes-schatting voor
θ is de verwachtingswaardePvan de a posteriori verdeling en is dus gelijk
n
aan Tλ (x) = (n + 1)/(λ
i=1 xi ), en de bijbehorende Bayes-schatter is
P+
n
Tλ (X) = (n + 1)/(λ + i=1 Xi ).
Op analoge wijze vinden we de Bayes-schatter voor θ2 . Deze is volgens
Stelling 4.36 gelijk aan het tweede moment van de a posteriori verdeling, in
4.5: Bayes-schatters
85
dit geval de Gamma-verdeling
met vormparameter n+1 en inverse schaalpaPn
rameter λ + i=1 xi . Het tweede moment van een Gamma(α,λ)-verdeelde
2
stochastische grootheid is gelijk aan α/λ2 + (α/λ)2 = (α + 1)α/λ
Pn . De
2
Bayes-schatter voor θ is hier dus gelijk aan (n + 2)(n + 1)/(λ + i=1 Xi )2 .
Voorbeeld 4.38 (Binomiale verdeling). Veronderstel dat de waarneming
X de binomiale verdeling met parameters n en θ bezit, waarin n bekend
en 0 ≤ θ ≤ 1 onbekend is. Een handige klasse van a priori dichtheden op
[0, 1] is de klasse van Bèta-dichtheden, geparametriseerd door α en β (zie
Voorbeeld 9.14)
θα−1 (1 − θ)β−1
π(θ) =
1[0,1] (θ).
B(α, β)
Wanneer we als a priori verdeling voor Θ de Bèta-verdeling met parameters
α en β nemen, dan wordt de a posteriori dichtheid gegeven door
¡n¢ x
θ (1 − θ)n−x π(θ)
θx+α−1 (1 − θ)n−x+β−1
pΘ|X=x (θ) = R 1 ¡xn¢
=
,
C(x, α, β)
θx (1 − θ)n−x π(θ) dθ
0
x
met C(x, α, β) een normeringsconstante zodanig dat pΘ|X=x een dichtheid
is. Met andere woorden: de a posteriori verdeling van Θ is de Bèta-verdeling
met parameters x + α, n − x + β en met C(x, α, β) = B(x + α, n − x + β)
voor B de Bèta-functie. Figuur 4.11 laat tweemaal drie realisaties zien van
de a posteriori dichtheid. In alle gevallen is de ware parameterwaarde gelijk
aan θ = 12 en de a priori dichtheid (gestippelde curve in de figuur) de
Bèta-dichtheid met parameters α = 25 en β = 5. In het bovenste plaatje
is n = 20, terwijl in het onderste plaatje n = 100. De a priori dichtheid
geeft relatief veel kans aan waarden van Θ in de buurt van 1, en is daarom
ongunstig voor het schatten van de ware parameterwaarde θ = 12 . De figuren
laten zien dat deze verkeerde a priori dichtheid goed wordt gecorrigeerd als
voldoende data beschikbaar is, maar doorwerkt in de a posteriori dichtheid
als dit niet het geval is.
De Bayes-schatting voor θ is nu gegeven door de verwachtingswaarde
behorende bij de Bèta-verdeling met parameters x + α en n − x + β. In het
algemeen is de verwachtingswaarde behorende bij de Bèta-verdeling met
parameters α en β gelijk aan α/(α+β), waaruit volgt dat de Bayes-schatter
voor θ gelijk is aan
X +α
Tα,β (X) =
.
n+α+β
Voor iedere combinatie van parameters (α, β) met α > 0 en β > 0 vinden
we een andere schatting. De natuurlijke schatter X/n behoort niet tot de
klasse van Bayes-schatters, maar is het limietgeval (α, β) → (0, 0).
Welke schatter moeten we nu gebruiken? Als we sterke gevoelens
hebben aangaande een a priori verdeling, dan kunnen we de bijhorende
86
0
2
4
6
8
10
4: Schatters
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0
2
4
6
8
10
0.0
Figuur 4.11. Drie realisaties van de a posteriori dichtheid in de gevallen n = 20 (boven)
en n = 100 (onder). De a priori dichtheid (gestippeld) is in beide gevallen gelijk aan de Bètadichtheid met α = 25 en β = 5. De realisaties (doorgetrokken) zijn gebaseerd op trekkingen
uit de binomiale verdeling met parameters n en 21 .
Bayes-schatter gebruiken. Een probleem is dat een andere onderzoeker heel
andere “gevoelens” zou kunnen hebben en zodoende tot een andere a priori
verdeling, en dus een andere schatting, zou komen. Op zich zijn geen van
beide Bayes-schatters “verkeerd”. Beide schatters zijn immers het beste op
het moment dat we zouden besluiten het corresponderende Bayes-risico als
kwaliteitscriterium te nemen. Toch is het verstandig de schatters nader te
vergelijken, bijvoorbeeld door de verwachte kwadratische fouten te berekenen. Deze zijn gelijk aan
³ X +α
´2
−θ
n+α+β
³ E X +α
´2
varθ X
θ
=
+
−θ
2
(n + α + β)
n+α+β
¡
¢
¢
2
2
θ (α + β) − n + θ(n − 2α(α + β) + α2
=
.
(n + α + β)2
MSE(θ; Tα,β ) = Eθ
Figuur 4.12 geeft een schets van de verwachte kwadratische fout van enkele
schatters als functie van θ. Iedere schatter is wel ergens beter dan een
andere, en is er geen absoluut beste schatter. Interessante speciale gevallen
4.5: Bayes-schatters
87
0.0
0.005
0.010
0.015
0.020
0.025
0.030
√
zijn α = β = 12 n (constante verwachte kwadratische fout) en α = β = 0
(schatter X/n). De keuze α = β = 1 correspondeert met de homogene a
priori verdeling, die alle θ ∈ [0, 1] a priori dezelfde kans geeft. Dat laatste
lijkt redelijk, maar deze schatter wordt toch zelden gebruikt. Gelukkig zijn
de verschillen klein als n groot is, en verdwijnen zelfs als n → ∞. Merk op
dat in de onderste grafiek (corresponderend met n = 100) in Figuur 4.11
de drie realisaties van de a posteriori verdeling dichter bij de ware waarde
1/2 liggen, maar ook meer geconcentreerd zijn. De a posteriori dichtheden
ogen verrassend normaal. We komen hierop terug in Paragraaf 6.6, waar we
ook zullen zien dat Bayes- en maximum likelihood-schatters meestal weinig
verschillen als het aantal waarnemingen groot is.
0.0
0.2
0.4
0.6
0.8
1.0
Figuur 4.12.
Verwachte kwadratische fout van de Bayes-schatters
√
√ Tα,β met n = 20,
α = β = 12 n (constant), α = β = 0 (krom, doorgetrokken), α = n, β = 0 (gestreept,
lineair), α = β = 1 (kort gestreept) als functie van θ.
Voorbeeld 4.39 (Geometrische verdeling). Veronderstel dat de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de geometrische verdeling
met parameter θ,
Pθ (X1 = x) = (1 − θ)x−1 θ,
x = 1, 2, . . .,
waarbij 0 ≤ θ ≤ 1 onbekend is. Als a priori verdeling voor θ kiezen we de
Bèta-verdeling met parameters α = β = 2 met kansdichtheid
π(θ) = 6(1 − θ)θ,
θ ∈ (0, 1).
Dan wordt de a posteriori verdeling gegeven door
Qn
Pθ (Xi = xi )π(θ)
θn+1 (1 − θ)n(x−1)+1
pΘ|X=x (θ) = R 1 Qi=1
=
.
n
C(x1 , . . ., xn )
i=1 Pθ (Xi = xi )π(θ) dθ
0
88
4: Schatters
In deze a posteriori verdeling van θ herkennen we de Bèta-verdeling met
parameters n+2 en n(x−1)+2. Net als in het voorgaande voorbeeld vinden
we nu de Bayes-schatter voor θ uit de verwachting van de Bèta-verdeling,
T (X) = (n + 2)/(nX + 4).
* 4.5.1 MCMC Methoden
Het principe van de methode van Bayes is eenvoudig: uitgaande van een
model en een a priori verdeling berekenen we de a posteriori verdeling
met behulp van de regel van Bayes. Het rekenwerk in de laatste stap is
echter niet altijd eenvoudig. Traditioneel worden vaak a priori verdelingen
gekozen die het rekenwerk voor het gegeven model vereenvoudigen. De combinatie van de binomiale verdeling met de Bèta a priori verdeling is daarvan een voorbeeld. Meer recent vervangt men het analytische rekenwerk
wel door stochastische simulatie, zogenaamde Markov Chain Monte Carlo
(of MCMC) methoden. In principe is het met dergelijke methoden mogelijk
een willekeurige a priori verdeling te combineren met een gegeven statistisch model. In deze paragraaf geven we een zeer beknopte introductie tot
deze methoden.
Gegeven een waarneming X, met realisatie x, met kansdichtheid pθ en
een a priori dichtheid π, is de a posteriori dichtheid proportioneel aan de
functie
θ 7→ pθ (x)π(θ).
In de meeste gevallen is het makkelijk om deze uitdrukking te berekenen,
omdat deze functie direct gerelateerd is aan de specificatie van het statistische model en de a priori verdeling. Om de Bayes-schatter of de a posteriori
verdeling te berekenen, is het echter nodig de integraal van de functie in
het display en de integraal van θ maal de functie relatief ten opzichte van
θ, voor gegeven x, te evalueren. Het feit dat dit lastig kan zijn, heeft de
populariteit van Bayes-schatters geen goed gedaan. Het is weinig attractief gedwongen te zijn tot een bepaalde a priori dichtheid om wille van de
eenvoud van de berekeningen.
Als de parameter θ laagdimensionaal is, bijvoorbeeld reëelwaardig, dan
is het redelijk recht-toe recht-aan om de berekeningen numeriek te implementeren, bijvoorbeeld door de integralen te benaderen met sommen. Voor
hogerdimensionale parameters, bijvoorbeeld van dimensie groter dan of gelijk aan 4, zijn de problemen groter. Simulatie methoden hebben deze problemen sinds 1990 verzacht. MCMC methoden zijn een algemene procedure
voor het simuleren van een Markov keten Y1 , Y2 , . . . waarvan de marginale
verdelingen ongeveer gelijk zijn aan de a posteriori verdeling. Voordat we de
MCMC algoritmen beschrijven, bespreken we in de volgende alinea’s enkele
essentiële begrippen uit de theorie van de Markov ketens.
Een Markov keten is een rij Y1 , Y2 , . . . stochastische grootheden waarvan de voorwaardelijke verdeling van Yn+1 gegeven de voorgaande grootheden Y1 , . . ., Yn alleen van Yn afhangt. Een equivalente formulering is dat
4.5: Bayes-schatters
89
gegeven de “huidige” variabele Yn de “toekomstige” variabele Yn+1 onafhankelijk is van het “verleden” Y1 , . . ., Yn−1 . We kunnen de variabele Yn
dan zien als de toestand op het “tijdstip” n, en voor het simuleren van de
volgende toestand Yn+1 is het voldoende de huidige toestand Yn te kennen, zonder interceptie van de voorgaande toestanden te kennen. We zullen
alleen Markov ketens beschouwen die “tijd-homogeen” zijn. Dit wil zeggen
dat de voorwaardelijke verdeling van Yn+1 gegeven Yn niet afhangt van n,
zodat de overgang van de ene toestand naar de volgende toestand steeds
volgens hetzelfde mechanisme plaats vindt. Het gedrag van de keten wordt
dan volledig bepaald door de overgangskern Q gegeven door
Q(y, B) = P(Yn+1 ∈ B| Yn = y).
Voor een vaste y geeft B 7→ Q(B| y) de kansverdeling op het volgende
tijdstip gegeven de huidige toestand y. Vaak wordt Q gegeven door een
overgangsdichtheid q. Dit is de
R voorwaardelijke dichtheid van Yn+1 gegeven
Yn en voldoet aan Q(y, B) = B q(y, z) dz, waarbij de integraal moet worden
vervangen door een som in het discrete geval.
Een kansverdeling Π heet een stationaire verdeling voor de overgangskern Q als, voor iedere eventualiteit B,
Z
Q(y, B) dΠ(y) = Π(B).
Deze vergelijking zegt precies dat de stationaire verdeling behouden blijft
onder de overgang van Yn naar Yn+1 . Bezit Y1 de stationaire verdeling, dan
bezit ook Y2 de stationaire verdeling, etc. Als Q een overgangsdichtheid q
bezit en Π een dichtheid π (die dan stationaire dichtheid wordt genoemd),
dan is een equivalente vergelijking
Z
q(y, z) π(y) dy = π(z).
Deze laatste vergelijking geeft een eenvoudige manier om stationaire verdelingen te karakteriseren. Een dichtheid π is een stationaire dichtheid als
voldaan is aan de detailed balance relatie
π(y)q(y, z) = π(z)q(z, y).
Deze relatie eist dat een overgang van y naar z even waarschijnlijk is als een
overgang van z naar y, als in beide gevallen het startpunt een random punt is
gekozen volgens π. Een Markov keten met deze eigenschap wordt reversibel
genoemd. Dat de detailed balance relatie impliceert dat π een stationaire
dichtheid is, kan worden gezien door de beide kanten Rvan de relatie naar y
te integreren, en gebruik te maken van de gelijkheid q(z, y) dy = 1, voor
iedere z.
De MCMC algoritmen genereren een Markov keten met een overgangskern waarvan de stationaire dichtheid gelijk is aan de a posteriori verdeling, met de waargenomen waarde x vast genomen. De dichtheid y 7→ π(y)
90
4: Schatters
in de voorgaande algemene discussie van Markov ketens wordt in de toepassing op het berekenen van de a posteriori dichtheid dus vervangen door
de dichtheid die proportioneel is aan θ 7→ pθ (x)π(θ). Gelukkig is in de
simulatie schema’s de proportionaliteits constante onbelangrijk.
Omdat het meestal lastig is de eerste waarde Y1 van de keten te genereren volgens de stationaire dichtheid (= a posteriori dichtheid) is een MCMC
Markov keten meestal niet stationair. Wel convergeert de keten naar stationariteit als n → ∞. In de praktijk simuleert men de keten over een groot
aantal stappen, en gooit vervolgens de eerste gesimuleerde data Y1 , . . ., Yb
weg, de zogenaamde “burn-in”. De resterende variabelen Yb+1 , Yb+2 , . . ., YB
kunnen dan worden opgevat als een realisatie van een Markov keten met
de a posteriori verdeling als stationaire verdeling. Door middel van bijvoorbeeld een histogram van Yb+1 , . . ., YB verkrijgen we dan een goede indruk
van de a posteriori dichtheid, en het gemiddelde van Yb+1 , . . ., YB is een
goede benadering van de Bayes-schatter, de a posteriori verwachting. De
motivatie voor het gebruik van deze “empirische benaderingen” is hetzelfde
als in Paragraaf 3.2.1, met dit verschil dat de variabelen Y1 , Y2 , . . . thans
een Markov keten vormen, en dus niet onafhankelijk zijn. Voor vele Markov
ketens geldt echter ook een Wet van de Grote Aantallen en deze garandeert
dat ook nu gemiddelden zich asymptotisch gedragen als verwachtingen. Wel
blijkt de snelheid van convergentie sterk af te hangen van de overgangskern,
zodat in de praktijk het nog een hele kunst kan zijn om een MCMC algoritme op te zetten dat binnen een redelijke (CPU) tijd goede benaderingen
levert.
Inmiddels bestaan vele typen MCMC algoritmen. De twee belangrijkste
algoritmen, welke vaak ook samen worden gebruikt, zijn het MetropolisHastings algoritme en de Gibbs-sampler.
Voorbeeld 4.40 (Metropolis-Hastings). Zij q een overgangsdichtheid
waarvoor het makkelijk is om te simuleren volgens de kansdichtheid z 7→
q(y, z), voor iedere gegeven y. Definieer
α(y, z) =
π(z)q(z, y)
∧ 1.
π(y)q(y, z)
Merk op dat het voldoende is de vorm van π en q te weten; de proportionaliteits constante valt weg. Neem een vaste beginwaarde Y0 en handel
vervolgens recursief als volgt:
gegeven Yn genereer Zn+1 volgens Q(Yn , ·).
genereer Un+1 volgens de homogene verdeling op [0, 1].
if Un+1 < α(Yn , Zn+1 ) laat Yn+1 : = Zn+1
else laat Yn+1 : = Yn .
De overgangskern P van de Markov keten Y1 , Y2 , . . . bestaat uit twee
stukken, corresponderend met de “if-else” splitsing. Deze kern wordt gege-
4.5: Bayes-schatters
91
ven door
Z
P (y, B) =
Z
³
´
α(y, z)q(y, z) dz + 1 − α(y, z)q(y, z) dµ(y) δy (B).
B
Hierin is δy de gedenereerde verdeling (Dirac maat) in y: gegeven Yn = y
blijven we in y met kans
Z
1 − α(y, z)q(y, z) dz.
Het “andere deel” van de keten beweegt volgens de subovergangsdichtheid
α(y, z)q(y, z). De functie α is zo gekozen dat het bereik in het interval [0, 1]
bevat is en zodanig dat voldaan is aan de detailed balance relatie
(4.4)
π(y)α(y, z)q(y, z) = π(z)α(z, y)q(z, y).
Dit gedeelte van de Markov keten is daarom reversibel. De beweging van y
naar y van het eerste “deel” van de keten is trivialerwijze symmetrisch. Uit
deze vaststellingen is gemakkelijk af te leiden dat π een stationaire dichtheid
voor de Markov keten Y1 , Y2 , . . . is.
Een populaire keuze voor de overgangsdichtheid q is de random walk
kern q(y, z) = f (z − y) voor een gegeven dichtheid f . Als we f symmetrisch
rond 0 kiezen, dan reduceert α(y, z) tot π(z)/π(y). De keuze van een goede
kern is echter niet eenvoudig. Het algemene principe is een overgangskern q
te kiezen die “bewegingen” naar variabelen Zn+1 in de gehele drager van π
voorstelt in de eerste stap van het algoritme, en tegelijkertijd niet te vaak
tot de “else” stap leidt, omdat dit de efficiëntie van het algoritme nadelig
zou beı̈nvloeden. In MCMC jargon heet het dat we een overgangskern q
zoeken die “voldoende mixing is”, “voldoende de ruimte afzoekt”, en “niet
te vaak blijft hangen”.
Voorbeeld 4.41 (Gibbs-Sampler). De Gibbs-sampler reduceert het probleem van simuleren uit een hoogdimensionale a posteriori dichtheid tot
herhaald simuleren uit lagerdimensionale verdelingen. Het algoritme wordt
vaak gebruikt in combinatie met de Metropolis-Hastings sampler, als geen
geschikte overgangsdichtheid q voor de Metropolis-Hastings algoritme voor
handen is.
Veronderstel dat π een dichtheid is afhankelijk van m variabelen, en
veronderstel dat we over een procedure beschikken om variabelen te genereren uit ieder van de voorwaardelijke dichtheden
πi (xi | x1 , . . ., xi−1 , xi+1 , . . .xm ) = R
π(x)
.
π(x) dµi (xi )
Kies een gegeven beginwaarde Y0 = (Y0,1 , . . ., Y0,m ), en handel vervolgens
recursief op de volgende wijze:
92
4: Schatters
Gegeven Yn = (Yn,1 , . . ., Yn,m ),
genereer Yn+1,1 volgens π1 (·| Yn,2 , . . ., Yn,m ).
genereer Yn+1,2 volgens π2 (·| Yn+1,1 , Yn,3 . . ., Yn,m )
.
.
.
genereer Yn+1,m volgens πm (·| Yn+1,1 , . . ., Yn+1,m−1 ).
De coördinaten worden dus om de beurt vervangen door een nieuwe waarde,
steeds conditionerend op de laatst beschikbare waarde van de andere
coördinaten. Men kan nagaan dat de dichtheid π stationair is voor ieder
van de afzonderlijke stappen van het algoritme (zie Opgave 4.40).
Voorbeeld 4.42 (Ontbrekende data). Veronderstel dat in plaats van
“volledige data” (X, Y ) we slechts de data X waarnemen.
Als (x, y) 7→
R
pθ (x, y) een kansdichtheid van (X, Y ) is, dan is x 7→ pθ (x, y) dy een kansdichtheid van de waarneming X. Gegeven een a priori dichtheid π is de a
posteriori dichtheid derhalve proportioneel aan
Z
θ 7→ pθ (x, y) dµ(y) π(θ).
We kunnen de voorgaande MCMC algoritmen toepassen op deze a posteriori dichtheid. Als de marginale dichtheid van X (de integraal in het
voorgaande display) echter niet analytisch kan worden berekend, dan is het
lastig om de MCMC schema’s te implementeren.
Een alternatief is om de marginale verdeling niet te berekenen, en
de niet-waargenomen waarden Y mee te simuleren. In de Bayesiaanse
notatie is de a posteriori verdeling de voorwaardelijke verdeling van een
denkbeeldige variabele Θ gegeven de waarneming X. Dit is de marginale
verdeling van de voorwaardelijke verdeling van het paar (Θ, Y ) gegeven X.
Als we in staat zouden zijn een rij variabelen (Θ1 , Y1 ), . . ., (Θn , Yn ) volgens
de laatste voorwaardelijke verdeling te genereren, dan zouden de eerste
coördinaten Θ1 , . . ., Θn van deze rij trekkingen uit de a posteriori verdeling
zijn. Marginalizeren van een empirische verdeling is hetzelfde als “vergeten”
van sommige variabelen, en dit is computationeel heel gemakkelijk!
Dus kunnen we een MCMC algoritme toepassen om variabelen (Θi , Yi )
te simuleren uit de kansdichtheid die proportioneel is aan de afbeelding
(θ, y) 7→ pθ (x, y)π(θ), met x gelijk aan de waargenomen waarde van de
waarneming. Vervolgens gooien we de Y -waarden weg.
4.6: M-Schatters
93
* 4.6 M-Schatters
Zij M (θ; X) een willekeurige functie van de parameter en de waarneming.
Een M-schatter voor een parameter θ is die waarde van θ die de functie
θ 7→ M (θ; X) maximaliseert (of minimaliseert).
Nemen we M gelijk aan de likelihood-functie, dan vinden we de maximum likelihood-schatter voor θ. Er zijn echter tal van andere mogelijkheden. De meest gebruikte criterium-functies bij onafhankelijke waarnemingen
X = (X1 , . . ., Xn ) hebben een som-structuur:
M (θ; X) =
n
X
mθ (Xi ),
i=1
voor geschikt gekozen functies mθ (x).
Maximaliseren van een functie is vaak hetzelfde als het oplossen van
de vergelijkingen verkregen door een afgeleide 0 te stellen. De term “Mschatter” wordt daarom ook gebruikt voor schatters die een vergelijking
Ψ(θ; X) = 0 oplossen. Zulke vergelijkingen worden schattingsvergelijkingen
(Engels: estimating equations) genoemd.
Voorbeeld 4.43 (Mediaan). Het gemiddelde P
X van stochastische grootn
heden X1 , . . ., Xn minimaliseert de functie θ 7→ i=1 (Xi − θ)2 . Het gemiddelde is een schatting voor het “centrum” van de kansverdeling van de
waarnemingen. Een alternatieve schatter met
Pn ruwweg een zelfde interpretatie wordt verkregen door de functie θ 7→ i=1 |Xi − θ| te minimaliseren.
Men kan laten zien dat dit leidt tot de steekproefmediaan
½
X((n+1)/2) ,
als n oneven,
med{X1 , . . ., Xn } = 1
(X
+
X
),
als n even.
(n/2)
(n+2)/2)
2
Dit is de “middelste waarneming”.
Voorbeeld 4.44 (Kleinste kwadratenschatter). In Voorbeeld 2.7 hebben
we kort het enkelvoudige lineair regressiemodel beschreven (zie ook Paragraaf 8.1). Voor afhankelijke variabelen Y1 , . . ., Yn en verklarende variabelen
x1 , . . ., xn is Yi = α+βxi +ei . Veelal wordt verondersteld dat de meetfouten
e1 , . . ., en onderling onafhankelijk en normaal verdeeld zijn met verwachting
0 en variantie σ 2 . De onbekende parameters α en β kunnen worden geschat
met de kleinste kwadratenschatters (KK-schatters); dat zijn de waarden die
n
X
(Yi − α − βxi )2
i=1
minimaliseren naar α en β. Als de meetfouten normaal verdeeld zijn, dan
komen de kleinste kwadratenschatters overeen met de maximum likelihoodschatters voor α en β (zie Paragraaf 8.1). De KK-schatters zijn ook bruikbaar zonder de normaliteitveronderstelling. Ze zijn dan geen maximum
likelihood-schatters, maar algemene M -schatters.
4: Schatters
5
10
15
94
-4
-2
0
2
4
Figuur 4.13. De functie θ 7→ Σn
i=1 |xi − θ| voor x1 , . . ., xn een steekproef ter grootte van
4 uit de standaard normale verdeling.
Algemener kunnen we de methode van de kleinste kwadraten gebruiken
in het niet-lineaire regressie model Yi = gθ (xi ) + ei , waarin gθ een nietlineaire functie is van θ en e1 , . . ., en niet-waarneembare meetfouten zijn,
en x 7→ gθ (x) een functie is die bekend is op een parameter θ na. De KKschatter voor θ minimaliseert het criterium
θ 7→
n
X
¡
¢2
Yi − gθ (xi ) .
i=1
Als de meetfouten normaal verdeeld zijn, dan is dit ook de maximum
likelihood-schatter. Voor een niet-lineaire functie gθ is meestal een numeriek
algoritme noodzakelijk voor de berekening van de kleinste kwadratenschatting.
Een voorbeeld van niet-lineaire regressie is het fitten van een tijdscurve
wanneer waarnemingen y1 , . . ., yn , inclusief meetfouten, van de curve op een
aantal tijdstippen x1 , . . ., xn bekend zijn. Als een geparametriseerde curve
van de vorm t 7→ gθ (t), bijvoorbeeld gθ (t) = θ0 + θ1 t + θ2 e−θ3 t , met vierdimensionale parameter θ = (θ0 , θ1 , θ2 , θ3 ), dan kunnen we de parameter θ
schatten op grond van de metingen (xi , yi ), i = 1, . . ., n.
Opgaven
1. Geef een theoretisch verklaring voor de vorm van de histogrammen (exponentieel en normaal) in Figure 4.1.
4: Opgaven
95
2. Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en hom[0, θ]-verdeeld zijn,
met θ > 0 onbekend. Bereken de verwachte kwadratische fouten van de schatters cX(n) voor θ, voor iedere waarde van c > 0. Welke waarde voor c geeft de
beste schatter?
3. Zij X binomiaal verdeeld met parameters n en p met n bekend en p ∈ [0, 1]
onbekend. Zij Tc = cX/n een schatter voor p, waarin c > 0 nog onbepaald is.
(i) Voor welke waarde van c is Tc zuiver?
(ii) Bepaal de verwachte kwadratische fout van Tc .
(iii) Voor welke waarde van c is deze schatter optimaal? Is deze optimale
schatter bruikbaar in de praktijk? Leg uit.
(iv) Bepaal de limiet van de optimale waarde voor c voor n → ∞. Welke
schatter Tc krijg je dan?
4. Zij X1 , . . ., Xn een steekproef uit de Poisson(θ)-verdeling. Men wenst θ2 te
schatten.
(i) Is (X)2 een zuivere schatter voor θ2 ?
(ii) Bepaal een zuivere schatter voor θ2 .
5. Zij X1 , . . ., Xm en Y1 , . . ., Yn onafhankelijke steekproeven zijn uit een alt(p)verdeling, met p ∈ [0, 1] onbekend.
Pm
Pn
(i) Bewijs dat (X + Y )/2 en ( i=1 Xi + j=1 Yj )/(m + n) zuivere schatters
zijn voor p.
(ii) Welk van deze twee schatters verdient de voorkeur (als m 6= n)?
6. Bij een onderzoek naar discriminatie in Amsterdam wordt aan proefpersonen gevraagd, of ze persoonlijk discriminatie (naar ras, huidskleur, sekse of
godsdienst) hebben ondervonden. Men trekt een gestratificeerde steekproef:
50 mannen en 50 vrouwen worden aselect uit de volwassen inwoners van Amsterdam getrokken. Zij X het aantal mannen en Y het aantal vrouwen in de
steekproef met discriminerende ervaringen. Definieer:
pM = fractie Amsterdamse mannen met discriminerende ervaring
pV = fractie Amsterdamse vrouwen met discriminerende ervaring
p = fractie Amsterdammers met discriminerende ervaring.
Neem eens aan dat pV = 2pM en dat er evenveel mannen als vrouwen in
Amsterdam wonen.
(i) Bereken de verwachte kwadratische fout van de schatter (X + Y )/100
voor p.
Definieer nu Z als het aantal personen met discriminerende ervaring in een
gewone (niet-gestratificeerde = enkelvoudige) steekproef van 100 volwassen
Amsterdammers.
(ii) Bereken de verwachte kwadratische fout van de schatter Z/100 voor p;
(iii) Vergelijk de beide verwachte kwadratische fouten. Wat is uw conclusie?
7. Men wil onderzoeken in hoeveel Nederlandse huishoudens een pc aanwezig is.
Zij Π de populatie van alle Nederlandse huishoudens. Zij k het aantal gemeenten in Nederland en 1000mi het aantal huishoudens in de ie gemeente, voor
i = 1,P
2, . . ., k. Voor het gemak veronderstellen we dat mi ∈ N. In Π zitten dus
M = i mi duizendtallen huishoudens. Men trekt nu op de volgende manier
een steekproef. Trek eerst uit de verzameling van al deze duizendtallen aselect
zonder teruglegging 100 duizendtallen. Zij Yi het aantal getrokken duizend-
96
4: Schatters
tallen in de ie gemeente. Trek dan vervolgens in de ie gemeente aselect zonder
teruglegging 10Yi huishoudens. Zij pi de fractie huishoudens met pc in de ie
gemeente en p de populatiefractie. Schat p met X/1000, waarin X het totaal
aantal getrokken huishoudens is met pc. Is X/1000 een zuivere schatter voor
p?
8. Bereken de maximum likelihood-schatter voor θ gebaseerd op een steekproef
X1 , . . ., Xn uit de Poisson(θ)-verdeling.
9. Zij X1 , . . ., Xn een steekproef uit een Weibull-verdeling, waarvan de kansdichtheid wordt gegeven door
a
pθ (x) = θaxa−1 e−θx ,
voor x > 0
en 0 anders. Hierin is a een bekend getal en θ > 0 is een onbekende parameter.
(i) Bepaal de maximum likelihood-schatter voor θ.
(ii) Bepaal de maximum likelihood-schatter voor 1/θ.
10. Zij X1 , . . ., Xn een steekproef uit een verdeling met kansdichtheid
pθ (x) = θxθ−1 ,
voor x ∈ (0, 1)
en 0 anders. Hierin is θ > 0 een onbekende parameter.
(i) Bereken µ = g(θ) = Eθ X1 .
(ii) Bepaal de maximum likelihood-schatter voor µ.
11. Een urn bevat een fractie p witte en een fractie 1 − p zwarte ballen. We trekken
één voor één ballen met teruglegging uit de urn net zo lang tot een witte bal
verschijnt. Zij Yi het aantal vereiste trekkingen. We herhalen dit proces n keer,
resulterend in aantallen Y1 , . . ., Yn . Bepaal de maximum likelihood-schatter
voor p.
12. Zij X1 , . . ., Xn een steekproef uit de verdeling met kansdichtheid
pθ (x) = θx−2 ,
en 0
(i)
(ii)
(iii)
voor x ≥ θ
voor x < θ, met θ > 0 onbekend.
Bepaal de maximum likelihood-schatter voor θ.
Is deze schatter zuiver?
Bepaal de verwachte kwadratische fout van deze schatter.
13. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid
pθ (x) = θ(1 + x)−(1+θ) ,
voor x ≥ 0
en 0 anders, waarin θ > 0 onbekend. Bepaal de maximum likelihood-schatter
voor θ.
14. Veronderstel dat X1 , . . ., Xm en Y1 , . . ., Yn twee onafhankelijke steekproeven
zijn uit de normale verdeling met parameters (µ1 , σ 2 ) en (µ2 , σ 2 ), respectievelijk. Bepaal de maximum likelihood-schatter voor θ = (µ1 , µ2 , σ 2 ).
15. Men wil het aantal vissen, zeg N stuks, in een vijver schatten. Daartoe gaat
men als volgt te werk. Men vangt r vissen en voorziet die van een merkteken.
Vervolgens laat men deze vissen weer zwemmen en na verloop van tijd vangt
men n vissen (zonder terug te werpen). Zij Xi gelijk aan 0 of 1 als de ie
gevangen vis wel of niet gemerkt is (i = 1, .., n).
4: Opgaven
97
P
(i) Bepaal de kansverdeling van
Xi , uitgedrukt in r, n en N . P
n
(ii) Bepaal de maximum likelihood-schatter voor N gebaseerd op
X.
i=1 i
16. Zij X1 , . . ., Xn een steekproef uit een verdeling met een onbekende verdelingsfunctie F . De empirische verdelingsfunctie van de steekproef noteren we met
F̂ .
(i) Welke verdeling heeft nF̂ (x)?
(ii) Is F̂ (x) een zuivere schatter voor F (x)?
(iii) Bepaal de variantie van F̂ (x).
(iv) Laat zien dat cov(F̂ (u), F̂ (v)) = n−1 (F (m) − F (u)F (v)) met m =
min{u, v}. Hieruit volgt dat F̂ (u) en F̂ (v) positief gecorreleerd zijn.
17. (k-means clustering.) Veronderstel dat X1 , . . ., Xn onafhankelijke stochastische grootheden zijn, waarbij voor een onbekende partitie {1, . . ., n} = ∪kj=1 Ij
de variabelen (Xi ; i ∈ Ij ) normaal verdeeld zijn met verwachting µj en variantie 1. Laat zien dat de maximum likelihood-schatter
Pk Pvoor de partitie2 en de
parametervector (µ1 , . . ., µk ) de kwadraatsom
(Xi − µj ) minij=1
i∈Ij
maliseert. Interpreteer deze procedure in woorden.
18. Zij X1 , . . ., Xn een steekproef uit de exponentiële verdeling met parameter λ,
waarbij λ > 0 een onbekende parameter is.
(i) Bepaal de maximum likelihood-schatter voor 1/λ2 .
(iv) Bepaal een momentenschatter voor 1/λ2 .
(iii) Bepaal een zuivere schatter voor 1/λ2 .
19. Zij X1 , . . ., Xn een steekproef uit de binomiale verdeling met parameters n en
p, waarbij p ∈ [0, 1] onbekend is. Bepaal de maximum likelihood-schatter en
de momentenschatter voor p.
20. Zij X1 , . . ., Xn een steekproef uit de alternatieve verdeling met p ∈ [0, 1] een
onbekende parameter.
(i) Bepaal de momentenschatter T voor p.
(ii) Laat zien dat de schatter T 2 niet zuiver is voor p2 en bepaal vervolgens
een zuivere schatter voor p2 .
21. Zij X1 , . . ., Xn een steekproef uit de geometrische verdeling met onbekende
parmater p ∈ (0, 1]. Bepaal de momentenschatter voor p.
22. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid
pθ (x) = θ(1 + x)−(1+θ)
voor x > 0,
en 0 anders, met θ > 1 onbekend. Bepaal de momentenschatter voor θ.
23. Zij X1 , . . ., Xn een steekproef uit een verdeling met kansdichtheid
pθ (x) =
2x
1{0≤x≤θ} ,
θ2
waarbij θ > 0 een onbekende parameter is.
(i) Bepaal de momentenschatter T voor θ.
(ii) Laat zien dat T zuiver is voor θ.
(iii) Geef de momentenschatter voor θ2 .
(iv) Laat zien dat de momentenschatter voor θ2 niet zuiver is voor θ2 en
bepaal vervolgens een zuivere schatter voor θ2 .
98
4: Schatters
24. Zij X1 , . . ., Xn een steekproef uit de kansverdeling gegeven door Pθ (X = x) =
1/θ voor x ∈ {1, 2, . . ., θ}. Hierin is θ ∈ N onbekend.
(i) Bepaal de momentenschatter voor θ.
(ii) Bepaal de maximum likelihood-schatter voor θ.
25. Zij X1 , . . ., Xn een steekproef uit de hom[σ, τ ]-verdeling met σ < τ onbekend.
(i) Bepaal de maximum likelihood-schatter voor de vector (σ, τ ).
(ii) Bepaal de momentenschatter voor de vector (σ, τ ).
26. Zij X1 , . . ., Xn een steekproef uit de homogene verdeling op [−θ, θ] met θ > 0
onbekend.
(i) Bepaal de maximum likelihood-schatter voor θ.
(ii) Bepaal de momentenschatter voor θ.
27. Zij X een stochastische grootheid met eindig tweede moment. Toon aan dat
de functie b 7→ E(X − b)2 minimaal is voor b = EX.
28. Zij X een continu verdeelde stochastische grootheid met eindig eerste moment.
Toon aan dat de functie b 7→ E|X − b| minimaal is voor b een punt zodanig
dat P(X < b) = P(X > b) = 1/2, de populatie-mediaan.
29. Zij X1 , . . ., Xn een steekproef uit de Laplace-verdeling (of dubbel-exponentiële
verdeling waarvan de kansdichtheid gelijk is
pθ (x) =
1 −|x−θ|
e
,
2
waarin θ ∈ R.
(i) Bepaal de populatie-mediaan (zie vorige som).
(ii) Bepaal de maximum likelihood-schatter voor θ.
(iii) Bepaal de momentenschatter voor θ.
30. De momentenschatter en maximum likelihood-schatter voor de parameter van
een Laplace-verdeling zijn heel verschillend. Het is mogelijk op grond van
de theoretische argumenten een voorkeur voor één van de twee schatters
uit te spreken, maar de berekeningen zijn aan de ingewikkelde kant. Ga in
plaats daarvan door simulatie na welke schatter de voorkeur verdient. Het
R-programma in Tabel 4.1 kan hiervoor worden gebruikt.
Toelichting: in de eerste regel declareren we twee vectoren (arrays) ter
lengte 1000, waarin we 1000 realisaties gaan zetten van de twee schatters.
In de laatste twee regels berekenen we de gemiddelde kwadratische afwijking
van de twee vectoren tot de echte waarde van de parameter (die 0 is in dit
geval). Dit zijn niet de echte verwachte kwadratische fouten, maar wel goede
benaderingen ervoor. In de for-loop wordt op de eerste regel een steekproef ter
grootte n(n = 100) uit de standaard Laplace-verdeling genomen (op een wat
ingewikkelde wijze). Vervolgens wordt op basis van de steekproef de maximum
likelihood-schatting en de momentenschatting berekend. Dit wordt 1000 maal
herhaald.
31. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid
pθ (x) = θxθ−1
voor 0 ≤ x ≤ 1
en 0 anders, met θ > 0 onbekend.
(i) Bepaal de momentenschatter voor θ.
4: Opgaven
99
momenten = mls = numeric(1000)
n = 100
for (i in 1:1000) {
x = rexp(n)*(2*rbinom(n,1,0.5)-1)
momenten[i] = mean(x)
mls[i] = median(x) }
msemomenten = mean(momenten^2)
msemls = mean(mls^2)
Tabel 4.1. R-code voor het vergelijken van de momentenschatter en de maximum
likelihood-schatter.
(ii) Bepaal de maximum likelihood-schatter voor θ.
(iii) Bepaal de Bayes schatter voor θ ten opzichte van de a priori dichtheid
π(θ) = e−θ voor θ > 0 en 0 anders.
32. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op
een waarneming X met de negatieve binomiale verdeling met parameters k
(bekend) en θ, relatief ten opzichte van een a priori Bèta-verdeling.
33. Bereken de Bayes-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de
hom[0, θ]-verdeling relatief ten opzichte van een hom[0, M ] a priori verdeling.
34. Bereken de Bayes-schatter voor θ gebaseerd op een waarneming X uit de
Poisson-verdeling met parameter θ relatief ten opzichte van een Gammaverdeling met parameters α en λ,
(i) voor α = 1.
(ii) voor algemene α > 0.
35. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een
steekproef X1 , . . ., Xn uit de verdeling met kansdichtheid
pθ (x) = 2θxe−θx
2
voor x > 0
en 0 anders, relatief ten opzichte van de Gamma-verdeling met parameters α
en λ.
36. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op
een steekproef X1 , . . ., Xn uit de N (θ, 1)-verdeling relatief ten opzichte van
een N (0, τ 2 )-a priori verdeling. Welke schatter vinden we voor τ → ∞? Hoe
kan de a priori verdeling voor τ ≈ ∞ worden gekarakteriseerd?
37. Zij X1 , . . ., Xn een steekproef uit een alternatieve verdeling met onbekende
parameter p ∈ [0, 1]. We willen de variantie varp (Xi ) = p(1 − p) Bayesiaans
schatten relatief ten opzichte van een Bèta(α, β) a priori verdeling voor de
parameter p.
(i) Bepaal de a posteriori dichtheid voor p relatief ten opzichte van de
Bèta(α, β) verdeling.
(ii) Bepaal de Bayes-schatters voor p en varp (Xi ).
100
4: Schatters
38. Veronderstel dat we in plaats van de verwachte kwadratische fout de mean absolute deviation (MAD) gebruiken voor het definiëren
van een Bayes-schatter:
R
we vervangen R(π; T ) in Paragraaf 4.5 door Eθ |T − θ| π(θ) dθ en definiëren
een Bayes-schatter als de schatter T waarvoor deze uitdrukking minimaal is.
Laat zien de mediaan van de a posteriori verdeling in dat geval een Bayesschatter is.
39. Implementeer een Metropolis-Hastings algoritme voor de berekening van de a
posteriori verdeling voor θ gebaseerd op een steekproef uit de N (θ, 1)-verdeling,
relatief ten opzichte van een normale of een Cauchy a priori dichtheid. Experimenteer met verschillende proposal overgangskernen q.
40. Zij Y = f (X) een functie van een stochastische vector X met verdeling Π en
zij Q(y, B) = P(X ∈ B| Y = y) de voorwaardelijke verdeling van X gegeven
Y = y. Als we X genereren volgens Π, “coarsen” X tot Y = f (X) en vervolgens
Z genereren volgens de kansverdeling Q(Y, ·), dan bezit Z verdeling Π.
(i) Bewijs dit.
(ii) Pas dit toe met f (x) = xi om te bewijzen dat de Gibbs-sampler stationaire dichtheid π bezit.
ERFELIJKHEIDSONDERZOEK
Ouders met blauwe ogen hebben kinderen met blauwe ogen. Daarentegen
hoeven ouders met obesitas geen kinderen met obesitas te hebben. Sommige
eigenschappen, als oogkleur, worden geheel genetisch bepaald en liggen bij
de geboorte al vast. Andere eigenschappen, als het hebben van obesitas, zijn
slechts deels erfelijk bepaald, en worden tevens door omgevingsfactoren, als
voeding en levensstijl, beı̈nvloed. Onderzoek bij een- en twee-eiige tweelingen
kan inzicht geven in hoeverre eigenschappen van mensen bepaald worden
door erfelijke of omgevingsfactoren of een wisselwerking tussen beide.
Een eeneiige tweeling ontstaat als een bevruchte eicel zich in tweeën
splitst voordat de cel zich in de baarmoederwand innestelt. Eeneiige tweelingen zijn genetisch gezien identiek en daardoor ook altijd van hetzelfde geslacht. Twee-eiige tweelingen ontstaan doordat de moeder een dubbele eisprong had en beide eicellen bevrucht werden. Gemiddeld genomen hebben
twee-eiige tweeling 50% van het erfelijk materiaal gemeen en zijn in genetisch opzicht gewoon broers en zusters van elkaar. Tweelingen groeien
veelal op in hetzelfde gezin, gaan naar dezelfde school en hebben dezelfde
levensstijl; zij worden dus blootgesteld aan min of meer dezelfde omgevingsfactoren. Als voor een bepaalde eigenschap de correlatie binnen eeneiige
tweelingparen groter is dan die binnen twee-eiige tweelingparen, dan is dit
verschil toe te schrijven aan de mate van overeenkomsten in het genetische materiaal; immers omgevingsfactoren binnen tweelingen komen nagenoeg overeen. De betreffende eigenschap wordt dan dus deels erfelijk bepaald.
Zijn, daarentegen, de correlaties min of meer aan elkaar gelijk (en ongelijk
aan 0), dan wordt de eigenschap met name door omgevingsfactoren bepaald.
Het Nederlands Tweelingen Register (zie: www.tweelingenregister.org)
bevat gegevens van tweelingen en hun familieleden ten behoeve van wetenschappelijk onderzoek op het gebied van gezondheid, levensstijl en persoonlijkheid. Het register bevat onder andere gegevens van de lichaamslengte van
tweelingen. Op basis van deze gegevens willen we een indicatie krijgen in hoeverre individuele verschillen in volwassen lichaamslengte genetisch bepaald
worden.
Mannen zijn gemiddeld genomen langer dan vrouwen. In onderzoek
naar de erfelijkheid van lichaamslengte moeten we daarom rekening houden
met het geslacht. Om de notatie eenvoudig te houden, beperken we ons hier
tot mannelijke een- en twee-eiige tweelingen; een uitbreiding naar vrouwelijke en gemengde tweelingen is qua methode eenvoudig, maar qua notatie
lastig. We noteren de lichaamslengte van een jongvolwassen tweelingpaar
van het mannelijke geslacht met (X1 , X2 ) en veronderstellen dat de lengten
X1 en X2 geschreven kunnen worden als de som van een gemiddelde lengte
µ en drie stochastische componenten:
X1 = µ + G1 + C + E1
X2 = µ + G2 + C + E2 ,
102
4: Schatters
welke staan voor de afwijking van de gemiddelde populatielengte door genetische invloeden (G1 en G2 ), door omgevingsfactoren die de tweeling gemeenschappelijk heeft (C) en voor individueel specifieke invloeden, zowel genetische als omgevingsinvloeden (E1 en E2 ). Veelal wordt verondersteld dat
de variabelen voor genetische, omgevings en individueel specifieke invloeden onafhankelijk van elkaar zijn: (G1 , G2 ), C en (E1 , E2 ) zijn onderling
onafhankelijk. Dit betekent dat aangenomen wordt dat er geen interactie
bestaat tussen de omgeving en genetische invloeden (of aan deze aanname
is voldaan, valt te betwijfelen).
We veronderstellen dat G1 en G2 gelijk verdeeld zijn met verwachting
0 en onbekende variantie σg 2. De variabelen G1 en G2 beschrijven genetische invloeden op de variatie van lichaamslengte van individuen waarvan
het genetisch materiaal geheel of deels overeen komen; G1 en G2 zijn dus
gecorreleerd. Eeneiige tweelingen zijn in genetisch opzicht identiek; voor
hen geldt dat G1 = G2 (met kans 1) en dus de correlatie tussen G1 en G2
gelijk is aan cor(G1 , G2 ) = 1. Twee-eiige tweelingen delen slechts een deel
van hun genen, zodat G1 en G2 niet aan elkaar gelijk zijn, maar wel gecorreleerd. Gemiddeld genomen hebben twee-eiige tweelingparen 50% van hun
genetisch materiaal gemeenschappelijk. Onder de aanname van bovenstaand
additief model (en enkele andere aannamen) kan worden aangetoond dat de
correlatie tussen G1 en G2 gelijk is aan cor(G1 , G2 ) = 1/2. De individueel
specifieke invloeden E1 en E2 worden onafhankelijk en gelijk verdeeld verondersteld, met verwachting 0 en onbekende variantie σ2e . De verwachting en
variantie van C zijn 0 en σ2c . Met bovenstaande aannames geldt dat X1 en
X2 gelijk verdeeld zijn met verwachting EXi = µ en variantie σ2: = var Xi
gelijk aan
σ2 = var(µ + Gi + C + Ei )
= var Gi + var C + var Ei
= σ2g + σ2c + σ2e ,
i = 1, 2
waarbij de tweede gelijkheid geldt vanwege de onderlinge onafhankelijkheid
van de verschillende componenten.
De term h2: = var Gi / var Xi = σg 2/σ2 wordt ook wel “heritabiliteit”
genoemd. Heritabiliteit beschrijft de mate waarin variatie tussen, in dit
geval, lichaamslengte van individuen veroorzaakt wordt door genetische verschillen. Heritabiliteit is minimaal gelijk aan 0 en maximaal 1, omdat
σ2g ≤ σ2. Als heritabiliteit voor lichaamslengte gelijk aan 1 is, dan is
σg 2 = σ2 en σ2c = σ2e = 0; variatie van lichaamslengte tussen mensen is
dan volledig genetisch bepaald. Als de heritabiliteit gelijk aan 0 is, dan is
σg 2 = 0. Omdat tevens de verwachtingen EG1 = EG2 = 0, zijn G1 en G2
gelijk aan 0 met kans 1; variatie in lichaamslengte wordt dan geheel niet
genetisch bepaald.
Het doel is h2 te schatten op basis van een steekproef van lichaamslengtes van een- en twee-eiige tweelingenparen. Daartoe schrijven we eerst
h2 in termen van de correlaties tussen de lichaamslengtes binnen een- en
4: Erfelijkheidsonderzoek
103
twee-eiige tweelingparen, ρ1 en ρ2 , en schatten deze parameters vervolgens
met de steekproef correlaties. De correlatie tussen de lichaamslengtes binnen
een tweelingpaar is gelijk aan
cov(X1 , X2 )
cov(µ + G1 + C + E1 , µ + G2 + C + E2 )
√
√
=
var X1 var X2
var X1 var X2
cov(G1 , G2 ) cov(C, C)
cov(G1 , G2 ) σ2c
=
+
=
+
,
σ2
σ2
σ2
σ2
waar de tweede gelijkheid volgt uit de onafhankelijkheidsaannames. De covariantie van de genetische componenten G1 en G2 binnen eeneiige tweelingparen is gelijk aan cov(G1 , G2 ) = var G1 = σ2g , omdat G1 = G2 met
kans 1. Binnen twee-eiige tweelingparen is deze covariantie gelijk aan
p
1
1
cov(G1 , G2 ) = cor(G1 , G2 ) var G1 var G2 = var G1 = σg 2.
2
2
Uit bovenstaande berekeningen volgt nu dat de correlaties ρ1 en ρ2 gelijk
zijn aan:
1
σg 2 + σc 2
σg 2 + σc 2
ρ1 =
ρ2 = 2
.
σ2
σ2
Er volgt direct dat ρ1 ≥ ρ2 met een gelijkheid als σg 2 = 0. Ofwel, de
correlatie tussen de lichaamslengtes binnen eeneiige tweelingparen is groter
dan of gelijk aan de correlatie tussen de lichaamslengtes binnen twee-eiige
tweelingparen. Gelijkheid is er alleen als er geen genetische invloeden zijn
op de variatie van lichaamslengte en het verschil is maximaal als de variatie
in lichaamslengte volledig genetisch bepaald is; als σ2c = 0.
Uit de uitdrukkingen van de correlaties ρ1 en ρ2 volgt dat de heritabiliteit gelijk is aan
h2 = 2(ρ1 − ρ2 ).
Om een schatting voor h2 te vinden, kunnen we ρ1 en ρ2 schatten met hun
steekproef correlaties,
Pn
(X1,i − X 1 )(X2,i − X 2 )
p
p
rX1 ,X2 = i=1
(n − 1) S2X1 S2X2
op basis van alleen een- en twee-eiige tweelingen, respectievelijk. In de voorgaande formule staan X1,i en X2,i voor het eerste en tweede individu van het
ie tweelingpaar, zijn X 1 en X 2 gelijk aan de steekproefgemiddelden van de
eerste en tweede individuen binnen de tweelingparen, en zijn S2X1 en S2X2
de corresponderende steekproefvarianties. Deze methode voor het schatten
van heritabiliteit heeft veel overeenkomsten met de methode van de momentenschatter; immers de onbekende parameters worden gevonden door
een theoretische kwantiteit, in dit geval de correlatie, gelijk te stellen aan
de steekproef waarde van dezelfde kwantiteit. Omdat de marginale verdeling
voor lichaamslengte voor alle individuen in de data-set gelijk is, ligt het voor
104
4: Schatters
de hand X 1 en X 2 te vervangen door een gemiddelde lichaamslengte over
alle individuen, zowel één- als twee-eiig en zowel eerste als twee individu in
een tweelingpaar. Hetzelfde kan worden overwogen voor de steekproefvariantie in de noemer van rX1 ,X2 .
In de Figuren 3.11 en 3.12 zijn de lichaamslengtes van een- (Figuur 3.11) en twee-eiige (Figuur 3.12) tweelingen tegen elkaar uitgezet.
Duidelijk te zien is dat de correlatie tussen de lengten binnen eeneiige tweelingparen groter is dan binnen twee-eiige tweelingparen. De steekproefcorrelaties voor eeneiige tweelingen zijn gelijk aan 0.87 en 0.96 voor mannelijke
en vrouwelijke eeneiige tweelingen en 0.55 en 0.50 voor mannelijke en vrouwelijke twee-eiige tweelingen. Verder wordt heritabiliteit geschat met 0.64
voor mannen en 0.92 voor vrouwen.
Een andere methode om de heritabiliteit te schatten is de maximum
likelihood-methode. Veronderstel dat de lichaamslengte van een volwassen
tweelingpaar van het mannelijke geslacht (X1 , X2 ) tweedimensionaal normaal verdeeld is (voor uitleg over de meerdimensionale normale verdeling,
zie Appendix 10) met verwachtingsvector ν = (µ, µ)T en covariantiematrix
voor eeneiige (Σ1 ) en twee-eiige (Σ2 ) tweelingparen
µ
¶
µ
¶
1
σ2
σ2g + σ2c
σ2
σ2g + σ2c
2
Σ1 =
Σ2 = 1
σ2g + σ2c
σ2
σ2
2 σ2g + σ2c
met σ2 = σg 2 + σc 2 + σe 2. De diagonaalelementen van de covariantiematrices zijn gelijk aan de variantie van X1 en X2 ; de andere twee termen
zijn gelijk aan de covarianties tussen X1 en X2 . De kansdichtheid van de
lichaamslengte van een tweelingpaar is gelijk aan
x 7→
1
T −1
1
√
e− 2 (x−ν) Σ (x−ν) ,
2π det Σ
met x = (x1 , x2 )T , Σ gelijk aan Σ1 of Σ2 naar gelang het type tweeling en
ν = (µ, µ) de vector als eerder beschreven. Met det Σ wordt de determinant
van Σ bedoeld. We veronderstellen dat de lichaamslengte van verschillende
tweelingparen onafhankelijk van elkaar zijn, waardoor de likelihood gelijk is
aan een product van marginale dichtheden en de log likelihood gelijk is aan
lµ,σ2g ,σ2c ,σ2e (X1 , . . ., Xn1 , Y1 , . . ., Yn2 ) =
n1
n2
− (n1 + n2 ) log 2π −
log(det Σ1 ) −
log(det Σ2 )
2
2
n1
n2
1X
1X
−
(Xi − ν)T Σ−1
(X
−
ν)
−
(Yi − ν)T Σ−1
i
1
2 (Yi − ν),
2 i=1
2 i=1
met X1 , . . ., Xn1 de lengtes van de eeneiige tweelingparen en Y1 , . . ., Yn2 die
van twee-eiige tweelingparen; dus Xi = (Xi,1 , Xi,2 )T en Yi = (Yi,1 , Yi,2 )T
met Xi,1 en Xi,2 de lichaamslengte van het eerste en tweede individu
binnen het ie eeneiige tweelingpaar. Maximalisatie van de log likelihood
4: Erfelijkheidsonderzoek
105
naar (µ, σ2g , σ2c , σ2e ) over de parameterruimte [0, ∞)4 geeft de maximum
likelihood-schattingen; en heritabilitiet σ2g /σ2 wordt geschat de waarden in
te vullen: ĥ2 = σ̂2g /σ̂2 = 0.61.
Dezelfde berekeningen kunnen we uitvoeren voor een- en twee-eiige
tweelingparen van het vrouwelijke geslacht. Dit levert een geschatte heritabiliteit van 0.93. Wanneer een gecombineerde likelihood wordt opgesteld
voor data van mannen en vrouwen wordt veelal verondersteld dat de verwachte lengte van vrouwen wel verschilt van die van mannen, maar dat
de covariantiematrices, en dus ook heritabiliteit, gelijk zijn. Maximaliseren
van de likelihood geeft een schatting van 0.79 voor de heritabiliteit.
Heritabiliteit is een maat voor de variatie van een eigenschap, lichaamslengte in ons geval, binnen een populatie. Dat de heritabiliteit bijna
gelijk aan 1 is, betekent niet dat lichaamslengte bijna volledig genetisch
bepaald wordt; wel dat de variatie van lichaamslengte binnen de populatie
waaruit onze data afkomstig zijn, bijna geheel door verschillen in het erfelijk
materiaal wordt bepaald. Omgevingsfaktoren hebben wel degelijk invloed op
lichaamslengte (zie Voorbeeld 2.7) maar zijn waarschijnlijk zo uniform over
de populatie waaruit de data getrokken is, dat alleen genetische verschillen
nog waar te nemen zijn in de variatie van lichaamslengte.
Related documents
Download