4 Schatters 4.1 Introductie Een statistisch model bestaat uit alle kansverdelingen welke a priori mogelijk worden geacht voor de gegeven data. Gegeven een correct opgesteld model gaan we ervan uit dat de data volgens één van de kansverdelingen in het model is gegenereerd. Na het opstellen van een geschikt statistisch model is de volgende stap het bepalen welke kansverdeling binnen het model het best aansluit bij de gegevens. Als het model wordt gegeven door een parameter, dan is dit equivalent met het bepalen van de best passende parameterwaarde, vaak aangeduid als de “ware” parameter. In de statistiek heet dit proces “schatten”. Andere namen zijn “fitten” en “leren”. Veronderstel dat de kansverdeling van X afhangt van een onbekende parameter θ, zodat het statistische model de vorm {Pθ : θ ∈ Θ} heeft, voor Pθ de kansverdeling van X als θ de “ware” parameterwaarde is. Op grond van een waarneming x willen we de ware waarde van θ schatten, of wellicht de waarde van een functie g(θ) van θ, bijvoorbeeld de eerste coördinaat θ1 als θ = (θ1 , θ2 ). “Schatten” betekent hier het doen van een uitspraak over θ of g(θ) van de vorm: “ik denk dat g(θ) bij benadering gelijk is aan T (x)”, voor zekere waarde T (x) die van de waargenomen waarde x afhangt. Definitie 4.1. Een schatter (Engels: estimator) of statistiek (Engels: statistic) is een stochastische vector T (X) die alleen van de waarneming X afhangt. De bijbehorende schatting (Engels: estimate), bij gerealiseerde waarneming x, is T (x). Volgens deze definitie zijn heel veel objecten schatters. Waar het om gaat is dat T (X) een functie van X is die niet van de parameter θ mag 4.2: Mean Square Error 45 afhangen: we moeten T (x) kunnen uitrekenen op grond van de data x. Na verrichting van de waarneming krijgt T een gerealiseerde waarde t = T (x), waarmee we θ (of g(θ)) schatten. We korten T (X) heel vaak af tot T . Het (Vlaamse) woord “statistiek” heeft wiskundig precies dezelfde definitie als “schatter”, maar wordt in een andere context gebruikt. Zowel schatters als schattingen van θ worden vaak aangegeven met θ̂. Het dakje geeft aan dat θ̂ een functie van de waarneming is, maar deze notatie maakt geen verschil tussen de stochastische vector of zijn realisatie: θ̂ kan zowel θ̂(X) als θ̂(x) betekenen. Er zijn veel schattingsmethoden. In dit hoofdstuk bespreken we een aantal algemene principes, zoals de maximum likelihood-methode, de momentenmethode en de Bayes-methode. We beginnen echter met het opzetten van een kader om schatters onderling te kunnen vergelijken in hun prestatie. 4.2 Mean Square Error Hoewel iedere functie van de waarneming een schatter is, is niet iedere schatter een goede schatter. Een goede schatter voor g(θ) is een functie T van de waarneming zodanig dat ° ° T “dichtbij” de te schatten waarde g(θ) ligt. Nu is de afstand °T −g(θ)° een onbevredigende maat om twee redenen: - deze maat hangt af van de onbekende waarde θ; - deze maat is stochastisch en niet uit te rekenen alvorens het experiment is uitgevoerd. Om aan ° de tweede°moeilijkheid te ontkomen, beschouwen we de kansverdeling van °T − g(θ)° onder de aanname dat θ de ware waarde is. De mooiste situatie zou zijn dat deze kansverdeling ° ° gedegeneerd is in 0, d.w.z. als θ de ware waarde is, dan is °T − g(θ)° met kans 1 gelijk aan 0. Dit zou betekenen dat we geen schattingsfout maken, de schatting T (x) zou met zekerheid gelijk zijn aan de te schatten waarde. In de praktijk is dit helaas onmogelijk, en moeten we ons tevreden stellen met (gemiddeld) een zo klein mogelijke fout. We zoeken dan een schatter waarvan de verdeling onder de ware waarde θ zoveel mogelijk geconcentreerd is rond g(θ); of equivalent ° ° waarvoor de verdeling van °T − g(θ)° zo veel mogelijk geconcentreerd is in een omgeving van 0. Voorbeeld 4.2 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk hom[0, θ]-verdeeld zijn. De waarneming is de vector X = (X1 , . . ., Xn ), en we willen de onbekende θ schatten. Omdat Eθ Xi = 12 θ is het niet onredelijk om 12 θ te schatten met het steekproefgemiddelde X, en θ met 2X; immers volgens de wet van de grote aantallen convergeert het steekproefgemiddelde (in kans) naar Eθ Xi = 12 θ. Veronderstel eens dat 46 4: Schatters 40 30 20 10 0 0 10 20 30 40 n = 10 en dat de data de volgende waarden hebben: 3.03, 2.70, 7.00, 1.59, 5.04, 5.92, 9.82, 1.11, 4.26, 6.96, zodat 2x = 9.49. Deze schatting is met zekerheid te klein! Immers één van de waarnemingen is 9.82, zodat in elk geval θ ≥ 9.82. Is er een betere schatter te verzinnen? We kunnen het zojuist gesignaleerde probleem ontlopen door het maximum X(n) van de waarnemingen te nemen. Ook het maximum is echter met zekerheid een onderschatting van de echte waarde. Alle waarnemingen xi zullen immers binnen het interval [0, θ] liggen. Een kleine correctie naar boven ligt voor de hand. We zouden bijvoorbeeld (n + 2)/(n + 1) X(n) als schatter kunnen gebruiken. Er zijn dus meerdere gegadigden. Welke schatter is nu de beste? Om inzicht in deze vraag te verkrijgen, voerden we het volgende simulatieexperiment uit. We kozen n = 50 en simuleerden 1000 onafhankelijke steekproeven ter grootte van 50 uit de homogene verdeling op [0, 1]. Voor iedere steekproef berekenden we de schatters 2X en (n+2)/(n+1)X(n) . Figuur 4.1 toont histogrammen van de twee verzamelingen van 1000 schattingen van de parameter θ, links gebruikmakend van de schatter (n + 2)/(n + 1)X(n) en rechts van 2X. Deze histogrammen kunnen worden opgevat als benaderingen van de kansdichtheden van de schatters. De kansdichtheid in de figuur links is meer geconcentreerd rond de ware waarde θ = 1, dan de kansdichtheid rechts. We geven daarom de voorkeur aan de schatter (n+2)/(n+1)X(n) : “gemiddeld” ligt deze dichter bij de ware waarde. (Opmerkelijk is ook het verschil in vorm van de twee histogrammen: het linker lijkt wel wat op een (omgekeerde) exponentiële dichtheid, terwijl het rechter histogram een normale dichtheid benadert. Dat is theoretisch heel goed te verklaren. Hoe?) 0.7 0.8 0.9 1.0 1.1 1.2 1.3 0.7 0.8 0.9 1.0 1.1 1.2 1.3 Figuur 4.1. Histogrammen van 1000 realisaties van de schatters (n + 2)/(n + 1)X(n) en 2X voor de parameter 1 van een homogene verdeling ieder gebaseerd op n = 50 waarnemingen. Overigens is het niet zo, dat de schatter (n+2)/(n+1)X(n) op ieder van 4.2: Mean Square Error 47 -0.2 -0.1 0.0 de 1000 steekproeven de beste schatting gaf. Dit is zichtbaar in Figuur 4.2, waarin op de verticale as het verschil |(n + 2)/(n + 1)x(n) − 1| − |2x − 1| is uitgezet. Meestal was dit verschil negatief, maar soms was het positief in welk geval de schatter 2X een waarde gaf die dichter bij de ware waarde θ = 1 ligt. Omdat we in de praktijk de ware waarde niet kennen, is het niet mogelijk om hier de “best of both worlds” te kiezen. We zullen de schatter gebruiken die gemiddeld het beste is. 0 200 400 600 800 1000 Figuur 4.2. Verschillen |(n + 2)/(n + 1)x(n) − 1| − |2x − 1| van de absolute afstanden van de schattingen (n + 2)/(n + 1)x(n) en 2x tot de te schatten waarde 1 in Figuur 4.1. Ons simulatie-experiment geeft alleen aan dat (n + 2)/(n + 1)X(n) de betere schatter is als de ware waarde van θ gelijk is aan 1. Om te bepalen welke schatter beter is als θ een andere waarde bezit, zouden we het simulatie-experiment moeten herhalen met gesimuleerde steekproeven uit de homogene verdeling op [0, θ], voor iedere θ. Dit gaat natuurlijk niet, en dat is één reden om een wiskundige studie van het schattingsprobleem te maken. Een andere reden is dat we in plaats van paren schatters te ordenen, liever de absoluut beste schatter zouden willen bepalen. Omdat een kansverdeling een ingewikkeld object is, is het vergelijken van “concentratie” niet eenduidig bepaald. Het is daarom handig om concentratie in een getalswaarde uit te drukken, zodat we vervolgens alleen getallen hoeven te vergelijken. Dit kan op veel manieren. Een concentratiemaat die wiskundig relatief eenvoudig is te hanteren is de verwachte kwadratische fout (Engels: mean square error of MSE). Voor een schatter T voor de waarde g(θ) wordt deze gedefinieerd als ° °2 MSE(θ; T ) = Eθ °T − g(θ)° . Het subscript θ in Eθ is essentieel: de MSE is de verwachte kwadratische afstand van T tot g(θ) aangenomen dat θ de ware waarde van de para- 48 4: Schatters meter is (twee keer dezelfde θ in deze zin). We beschouwen de verwachte kwadratische fout als de functie θ 7→ MSE(θ; T ) voor een gegeven statistiek T . Een volledigere notatie zou zijn MSE(θ; T, g), maar omdat g vast ligt in de context van het probleem, laten we g weg in de notatie. De eerste moeilijkheid – dat de kwaliteitsmaat afhangt van θ – is nog niet opgelost: de verwachte kwadratische fout is een functie van θ. In principe is het genoeg als MSE(θ; T ) zo klein mogelijk is in de “ware waarde” van θ. Aangezien we deze niet kennen, streven we ernaar dat de verwachte kwadratische fout (relatief) klein is voor alle waarden van θ tegelijk. Afspraak 4.3. We geven de voorkeur aan een schatter met een kleine verwachte kwadratische fout (MSE) voor alle parameterwaarden van θ tegelijk. Als voor twee schatters T1 en T2 geldt dat ° °2 ° °2 Eθ °T1 − g(θ)° ≤ Eθ °T2 − g(θ)° , voor alle θ ∈ Θ, met stricte ongelijkheid voor ten minste één waarde van θ, dan geven we de voorkeur aan T1 . De schatter T2 heet dan niet-toelaatbaar (Engels: inadmissible). Het kan echter voorkomen dat deze ongelijkheid voor sommige θ correct is, maar voor andere θ strikt omgekeerd moet worden. Dan is het niet direct duidelijk aan welke van de twee schatters we de voorkeur moeten geven. Omdat de ware waarde van θ, zeg θ0 , onbekend is, weten we dan immers niet welke van MSE(θ0 ; T1 ) en MSE(θ0 ; T2 ) de kleinste is. In Paragraaf 7.2 bespreken we optimaliteitscriteria voor schatters en hoe optimale schatters te vinden zijn. In het huidige hoofdstuk bespreken we een aantal methoden om schatters te vinden waarvan intuı̈tief duidelijk is dat ze redelijk zijn, en vergelijken we verwachte kwadratische fouten. De verwachte kwadratische fout van een reëelwaardige schatter T kan worden ontbonden in twee termen: ¡ ¢2 MSE(θ; T ) = varθ T + Eθ T − g(θ) (ga na). Beide termen in deze decompositie zijn niet-negatief. Dus de verwachte kwadratische fout kan alleen klein zijn als beide termen klein zijn. Als de tweede term gelijk aan 0 is, dan heet de schatter zuiver. Definitie 4.4. Een schatter T heet zuiver (Engels: unbiased) voor het schatten van g(θ) als Eθ T = g(θ) voor alle θ ∈ Θ. De onzuiverheid (Engels: bias) is gedefinieerd als Eθ T − g(θ). De tweede term in de ontbinding van MSE(θ; T ) is dus het kwadraat van de onzuiverheid. Voor een zuivere schatter is deze term identiek nul. Dit lijkt zeer wenselijk, maar is het lang niet altijd. De eis dat een schatter zuiver is kan namelijk veroorzaken dat de variantie juist heel groot is, zodat 4.2: Mean Square Error 49 we ruimschoots verliezen in de eerste term wat we bij de tweede gewonnen zouden hebben. In het algemeen leidt een kleine variantie tot een grotere onzuiverheid, en een kleine onzuiverheid tot een grote variantie. We moeten de twee termen dus tegen elkaar afwegen. √ De standaarddeviatie σθ (T ) = varθ T van een schatter noemt men wel de standaardfout (Engels: standard error, of s.e.). Deze moet niet verward worden met de standaarddeviatie van de waarnemingen. De standaardfout σθ (T ) hangt in principe af van de onbekende parameter θ en is dus zelf ook een onbekende. Omdat de onzuiverheid van redelijke schatters vaak klein is, geeft de standaardfout vaak een indruk van de kwaliteit van een schatter. Een schatting van de standaardfout wordt vaak gerapporteerd samen met de schatting zelf. Bij de bespreking van betrouwbaarheidsgebieden in Hoofdstuk 6 komen we hierop terug. We zoeken dus schatters met een kleine standaardfout en een kleine onzuiverheid. Voorbeeld 4.5 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en hom[0, θ]-verdeeld zijn. De schatter 2X is zuiver, want, voor alle θ > 0, n Eθ (2X) = n 2X 2 Xθ = θ. Eθ Xi = n i=1 n i=1 2 De verwachte kwadratische fout van deze schatter is: MSE(θ; 2X) = 4 varθ X = n 4X θ2 . var X = θ i n2 i=1 3n De schatter X(n) is niet zuiver, want, voor alle θ > 0, Z Eθ X(n) = θ 0 xnxn−1 1 n dx = θ n θ n+1 (zie Opgave 9.9 voor de verdeling van X(n) ). Toch geven we (voor niet te kleine n) de voorkeur aan X(n) boven 2X, want deze schatter heeft een kleinere verwachte kwadratische fout: ¡ ¢2 MSE(θ; X(n) ) = varθ X(n) + Eθ X(n) − θ ³ n ´2 n 2 = θ2 + θ − 1 (n + 2)(n + 1)2 n+1 2θ2 . = (n + 2)(n + 1) We kunnen de onzuiverheid in X(n) opheffen door met een constante te vermenigvuldigen: de schatter (n + 1)/n X(n) is zuiver voor θ. De onzuivere 50 4: Schatters schatter (n + 2)/(n + 1) X(n) is echter beter dan alle tot nu toe genoemde schatters, want ³ n+2 ´ θ2 MSE θ; X(n) = . n+1 (n + 1)2 0.00 0.05 0.10 0.15 0.20 Figuur 4.3 toont de verwachte kwadratische fout van deze laatste schatter tezamen met de verwachte kwadratische fouten van X(n) en 2X als een functie van θ voor n = 50. Voor waarden van θ dicht bij 0, is het verschil tussen de verwachte kwadratische fout van 2X en de andere twee schatters gering, maar het loopt snel op bij toenemende waarden van θ. Bij nadere beschouwing blijkt voor niet te kleine waarden van n het verschil in verwachte kwadratische fout tussen (n + 2)/(n + 1)X(n) en X(n) klein te zijn. De grotere precisie van (n + 2)/(n + 1)X(n) ten opzichte van 2X is echter wel snel zichtbaar bij toenemende n, omdat de verwachte kwadratische fout van de eerste een factor n kleiner is. We merkten al op (zie Figuur 4.2) dat de schatter (n + 2)/(n + 1) X(n) niet op iedere steekproef een beter resultaat geeft dan de schatter 2X. ¡ ¢ Het feit dat MSE 1; (n + 2)/(n + 1) X(n) < MSE(1; 2X) sluit dit zeker niet uit, omdat de verwachte kwadratische fout een verwachting is, en kan worden geı̈nterpreteerd als een gemiddelde waarde over een groot aantal realisaties. Een gemiddelde kan negatief zijn zonder dat alle termen negatief zijn. Gemiddeld is (n + 2)/(n + 1) X(n) (veel) beter. 0 1 2 3 4 5 6 Figuur 4.3. De verwachte kwadratische fouten als functie van θ van de schatters 2X (doorgetrokken lijn), X(n) (gestippelde lijn) en (n + 2)/(n + 1)X(n) (gestreepte lijn) voor de parameter in hom[0,θ] voor n = 50. Definitie 4.6. Zij X1 , . . ., Xn een steekproef. Het steekproefgemiddelde is de stochastische grootheid n X= 1X Xi n i=1 4.2: Mean Square Error 51 en de steekproefvariantie is 2 SX = n 1 X (Xi − X)2 . n − 1 i=1 Voorbeeld 4.7 (Steekproefgemiddelde en -variantie). Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en identiek verdeeld zijn, en een onbekende marginale kansverdeling bezitten. We willen verwachting µ en variantie σ 2 van de waarnemingen schatten. Formeel kunnen we θ gelijk nemen aan de onbekende kansverdeling, het zogenaamde “niet-parametrische model”, dat de onderliggende kansverdeling niet nader specificeert. De “parameters” µ en σ 2 zijn functies van deze onderliggende kansverdeling. Het steekproefgemiddelde is een zuivere schatter voor µ, aangezien n Eθ X = 1X Eθ Xi = µ. n i=1 De verwachte kwadratische fout van deze schatter wordt gegeven door n 1X σ2 MSE(θ; X) = varθ X = 2 varθ Xi = . n i=1 n De verwachte kwadratische fout van X is dus een factor n kleiner dan de verwachte kwadratische fout van de schatter Xi gebaseerd op één waarneming, MSE(θ, Xi ) = varθ Xi = σ 2 . Aangezien de verwachte kwadratische fout een verwachte kwadratische afstand is, concluderen we dat de kwaliteit van de √ schatter X met n toeneemt. Dus voor een twee keer zo goede schatter zijn vier keer zoveel waarnemingen nodig. De steekproefvariantie is een zuivere schatter voor σ 2 , want 2 Eθ S X = Eθ = Eθ = n 1 X ((Xi − µ) + (µ − X))2 n − 1 i=1 n i 1 Xh (Xi − µ)2 + (µ − X)2 + 2(µ − X)(Xi − µ) n − 1 i=1 n 1 X n Eθ (Xi − µ)2 − Eθ (X − µ)2 = σ 2 , n − 1 i=1 n−1 waarbij de laatste gelijkheid volgt uit Eθ (Xi − µ)2 = varθ Xi = σ 2 en 2 Eθ (X − µ)2 = varθ X = σ 2 /n. De verwachte kwadratische fout van SX kan met enig rekenwerk worden uitgedrukt in het vierde steekproefmoment van de waarnemingen, maar dit laten we achterwege. 52 4: Schatters Stel dat we op zoek zijn naar een zuivere schatter voor µ2 . Omdat X 2 een zuivere schatter voor µ is, nemen we in eerste instantie X als schatter voor µ2 . Deze schatter is echter niet zuiver: Eθ (X)2 = varθ X + (Eθ X)2 = σ2 + µ2 . n 2 Hieruit volgt direct dat Eθ (X −σ 2 /n) = µ2 , maar omdat σ 2 een onbekende 2 parameter is, is X − σ 2 /n geen schatter. Als we σ 2 vervangen door zijn 2 2 2 , dan vinden we dat X − SX /n een zuivere schatter is zuivere schatter SX 2 voor µ . * Voorbeeld 4.8 (Steekproeftheorie). Veronderstel dat een fractie p van een populatie een bepaalde eigenschap A bezit. We zullen drie methoden vergelijken om p te schatten, gebaseerd op een steekproef met teruglegging, een steekproef zonder teruglegging, en een gestratificeerde steekproef. Bij de eerste methode nemen we een steekproef ter grootte van n uit de populatie met teruglegging, en schatten p met de fractie X/n, waar X het aantal personen met eigenschap A in de steekproef is. Dan is X bin(n, p)-verdeeld en heeft verwachting np en variantie np(1 − p). Aangezien Ep (X/n) = p voor alle p is X/n een zuivere schatter. De verwachte kwadratische fout is ³ X´ ³ X ´ p(1 − p) MSE p; = varp = . n n n Hieruit volgt, onder andere, dat de schatter beter is als p ≈ 0 of p ≈ 1, en het slechtste als p = 21 . De verwachte kwadratische fout hangt niet af van de grootte van de populatie. Door n voldoende groot te kiezen, bijvoorbeeld n ≥ 1000, kunnen we een schatter krijgen met een verwachte kwadratische fout van maximaal (1/4)/1000=1/4000, onafhankelijk van het feit of de populatie uit 800 of een triljoen personen bestaat. Bij de tweede methode nemen we een steekproef ter grootte van n uit de populatie zonder teruglegging, en schatten p met de fractie Y /n, waar Y het aantal personen met eigenschap A in de steekproef is. Dan is Y hyp(N, pN, n)-verdeeld en heeft verwachting np en variantie np(1 − p)(N − n)/(N − 1). Dus de schatter Y /n is eveneens zuiver; de verwachte kwadratische fout is ³ Y´ ³ Y ´ p(1 − p) N − n MSE p; = varp = . n n n N −1 Dit is kleiner dan MSE(p; X/n), hoewel het verschil te verwaarlozen is als n ¿ N . Dit is niet verbazend: het is niet handig al onderzochte personen eventueel nog eens te onderzoeken, maar als n ¿ N is de kans dat dit gebeurt te verwaarlozen. 4.3: Maximum Likelihood-Schatters 53 Bij de derde methode verdelen we de populatie eerst in een aantal subpopulaties, zogenaamde strata. Dit kan een indeling zijn naar regio, sekse, leeftijd, inkomen, beroep, of naar een andere achtergrondvariabele. Veronderstel dat de gehele populatie en de subpopulaties groottes N en N1 , . . ., Nm bezitten. We trekken nu, voor het gemak van de volgende berekeningen met teruglegging, (Nj /N )n personen uit de j e populatie, een gestratificeerde steekproef, en schatten p met Z/n voor Z het totaal aantal getrokken personen met eigenschap A. Dus Z = Z1 + · · · + Zm voor Zj het aantal getrokken personen met eigenschap¡ A uit de j e populatie. Nu zijn Z1 , . . ., Zm onderling onafhankelijk en bin (Nj /N )n, pj )-verdeeld, met pj de fractie personen met eigenschap A in de j e populatie. Dan is m m m ³Z ´ 1 X 1X 1 X Nj npj = Ep = Ep Zj = Nj pj = p, n n j=1 n j=1 N N j=1 m m ³ Z´ ³Z ´ 1 X Nj n 1X MSE p; = varp = 2 varp Zj = 2 pj (1 − pj ) n n n j=1 n j=1 N m = 1 X Nj p(1 − p) − (pj − p)2 . n n j=1 N De schatter Z/n is dus ook zuiver, en zijn verwachte kwadratische fout is kleiner of gelijk aan de verwachte kwadratische fout van X/n. Het verschil is vooral de moeite waard als de pj sterk verschillen. Gestratificeerde steekproeftrekking verdient dus als regel de voorkeur, hoewel het in de praktijk meer moeite kan betekenen. Soortgelijke resultaten gelden ook bij trekking zonder teruglegging, mits de strata- en steekproefgroottes aan bepaalde voorwaarden voldoen. Het is echter niet waar dat stratificatie in dit geval altijd tot grotere precisie leidt. 4.3 Maximum Likelihood-Schatters De “methode van de maximum likelihood-schatters” (Nederlands: methode van de meest aannemelijke schatters) is de meest gebruikte methode om schatters voor een onbekende parameter te vinden. Voordat deze methode in het algemeen wordt gepresenteerd, wordt voor het (eenvoudige) geval van de binomiale verdeling de maximum likelihood-schatter afgeleid in het volgende voorbeeld. Voorbeeld 4.9 (Binomiale verdeling). Veronderstel dat we 10 keer met een onzuivere munt gooien. De kans p op “kop” is bij deze munt niet noodzakelijkerwijze 1/2. Definieer X als het aantal malen “kop” in de 10 worpen. 54 4: Schatters De stochastische variabele X heeft dan een binomiale verdeling met parameters 10 en onbekende p ∈ [0, 1]. Stel dat we 3 maal “kop” werpen. De kans op deze uitkomst is gelijk aan µ ¶ 10 3 p (1 − p)7 . Pp (X = 3) = 3 0.00 0.05 0.10 0.15 0.20 0.25 De kans p is onbekend en moet geschat worden. Welke waarde voor p is nu meest waarschijnlijk? 0.0 0.2 0.4 0.6 0.8 1.0 p Figuur 4.4. De kans Pp (X = 3) als functie van p waar de stochast X binomiaal verdeeld is met parameters 10 en p. In Figuur 4.4 is de kans Pp (X = 3) getekend als functie van p. We zien dat er precies één waarde voor p is die deze kans maximaliseert, namelijk de waarde 0.3. Deze waarde voor p kent de grootste kans toe aan de waarneming “3 maal kop”. De schatting p̂ = 0.3 blijkt in deze situatie de maximum likelihood-schatting te zijn. De maximum likelihood methode vereist de specificatie van de likelihood-functie, welke wordt afgeleid uit de kansdichtheid van de waarneming. Hierbij verstaan we onder een kansdichtheid pθ van een stochastische vector X de functie x 7→ Pθ (XR = x) als X discreet verdeeld is en de functie pθ zodanig dat Pθ (X ∈ B) = B pθ (x) dx als X continu verdeeld is. Definitie 4.10. Zij X een stochastische vector met een kansdichtheid pθ die van een parameter θ ∈ Θ afhangt. De functie θ 7→ L(θ; x): = pθ (x) 4.3: Maximum Likelihood-Schatters 55 opgevat als functie van θ ∈ Θ voor vaste x heet de likelihood-functie (Nederlands: aannemelijkheidsfunctie). Vaak is X = (X1 , . . ., Xn ) een vector met onderling onafhankelijke identiek verdeelde coördinaten Xi . Dan is de dichtheid van X het product Qn p (x i=1 θ i ) van de dichtheden van de X1 , . . ., Xn , en de likelihood-functie wordt dan n Y θ 7→ L(θ; x1 , . . ., xn ) = pθ (xi ), i=1 waarin nu pθ de (marginale) dichtheid van een enkele Xi weergeeft. De algemene definitie van maximum likelihood-schatters is echter geldig voor een waarnemingsvector van willekeurige vorm, en we geven er daarom de voorkeur aan de waarneming als x te schrijven, in plaats van (x1 , . . ., xn ), en de likelihood-functie als L(θ; x) ≡ pθ (x) . Definitie 4.11. De maximum likelihood-schatting voor θ is die waarde T (x) ∈ Θ die de functie θ 7→ L(θ; x) maximaliseert. De maximum likelihoodschatter (Nederlands: meest aannemelijke schatter) is de bijbehorende schatter T (X). In het geval van een discrete kansverdeling kan de maximum likelihoodschatting worden omschreven als: die waarde van de parameter die de grootste waarschijnlijkheid toekent aan de waargenomen waarde x. We maximaliseren in dat geval immers de kansdichtheid pθ (x) = Pθ (X = x) naar θ voor vaste x (zie Voorbeeld 4.9). Dit is een intuı̈tief redelijk schattingsprincipe en verklaart de naam. Dit principe moet echter alleen beschouwd worden als een schattingsmethode: maximum likelihood-schatters zijn niet noodzakelijkerwijze de beste schatters, ondanks de mooie naam. Onder een “beste” schatter verstaan we een schatter met een zo klein mogelijke verwachte kwadratische fout. Voorbeeld 4.12 (Homogene verdeling). Zij x1 , . . ., xn een waargenomen steekproef uit de homogene verdeling op het interval [0, θ] waarbij θ > 0 onbekend is. De parameter θ willen we schatten met de maximum likelihoodschatter. Omdat de waargenomen x1 , . . ., xn in het interval [0, θ] liggen, moet gelden dat θ ≥ xi voor i = 1, . . ., n. Hieruit volgt direct dat θ ≥ x(n) , waar x(n) de grootste waargenomen ordestatistiek is. De likelihood-functie voor de waargenomen x1 , . . ., xn is gelijk aan de simultane dichtheid van X1 , . . ., Xn in x1 , . . ., xn , opgevat als functie van θ. Omdat X1 , . . ., Xn onafhankelijk en gelijk verdeeld zijn, is de simultane dichtheid gelijk aan het product van de marginale dichtheden, welke gelijk zijn aan 1/θ op het interval [0, θ] en 0 daarbuiten. De likelihood-functie is daarom gelijk aan n ³ 1 ´n Y 1 10≤xi ≤θ = θ 7→ L(θ; x1 , . . ., xn ) = 1x(1) ≥0 1x(n) ≤θ . θ θ i=1 56 4: Schatters 0e+00 2e−06 4e−06 Deze functie van θ is gelijk aan 0 voor θ < x(n) aangezien de indicatorfunctie 1x(n) ≤θ dan gelijk is aan 0. Voor θ ≥ x(n) is de likelihood-functie gelijk aan de dalende functie θ → 1/θn . Figuur 4.5 illustreert het verloop van de likelihood-functie (als functie van θ). De likelihood-functie is discontinu in het punt θ = x(n) . In x(n) is de likelihood-functie rechts-continu en tevens maximaal; de maximum likelihood-schatting voor θ is derhalve gelijk aan x(n) en de bijbehorende maximum likelihood-schatter is X(n) . 0 2 4 6 8 10 theta Figuur 4.5. Realisatie van de likelihood-functie voor een steekproef ter grootte 8 uit de homogene verdeling op [0, 5]. De maximum likelihood-schatting x(n) (de locatie van de piek) is 4.73. Als g: Θ → H een 1 − 1-duidige functie is met een verzameling H als bereik, dan zouden we het model ook door de parameter η = g(θ) ∈ H kunnen parametriseren in plaats van door θ ∈ Θ. Het volgt direct uit de definitie dat g(θ̂) de maximum likelihood-schatter voor η is, als θ̂ de maximum likelihood-schatter voor θ is. In overeenstemming hiermee definiëren we voor iedere willekeurige functie g de maximum likelihood-schatter voor g(θ) simpelweg als g(θ̂). Bij een gegeven model is het uitrekenen van de maximum likelihoodschatter een kwestie van calculus. Vaak geschiedt dit door de likelihoodfunctie te differentiëren en de afgeleiden gelijk aan nul te stellen. (Het geval van de homogene verdeling in Voorbeeld 4.12 is hier echter een uitzondering op.) Een trucje dat het rekenwerk beperkt (vooral bij onafhankelijke waarnemingen) is om eerst de logaritme van de likelihood te nemen. Omdat de logaritme een monotone functie is, geldt dat de waarde θ̂ de functie 4.3: Maximum Likelihood-Schatters 57 θ 7→ L(θ; x) maximaliseert dan en slechts dan als deze waarde de functie θ 7→ log L(θ, x) maximaliseert. (Het gaat om de plaats waar het maximum wordt aangenomen, niet de grootte van het maximum!) Voor vaste x wordt de log likelihood-functie gegeven door θ 7→ log L(θ; x) = log pθ (x). Als L differentieerbaar is in θ ∈ Θ ⊂ Rk en zijn maximum in een inwendig punt van Θ aanneemt, dan geldt ∂ log L(θ; x)|θ=θ̂ = 0, ∂θj j = 1, . . ., k. Dit stelsel van likelihood-vergelijkingen is lang niet altijd expliciet oplosbaar. Zonodig gebruikt men iteratietechnieken om stapsgewijs een steeds betere benadering van de oplossing te verkrijgen, uitgaande van een geschikte startwaarde. De vector van partiële afgeleiden (gradiënt) van θ 7→ log L(θ; x) wordt de score-functie van het statistische model genoemd. Als de waarneming X = (X1 , . . ., Xn ) is opgebouwd uit onafhankelijke, identiek verdeelde deelwaarnemingen Xi , dan bezitQde likelihood L(θ; x) voor waargenomen x de productstructuur L(θ; x) = i pθ (xi ). De log likelihood is dan θ 7→ log L(θ; x1 , . . ., xn ) = log n Y pθ (xi ) = i=1 n X log pθ (xi ), i=1 waarin pθ de (marginale) dichtheid van een enkele Xi weergeeft. De afgeleide van log L, de score-functie, is de som van de score-functies voor de individuele waarnemingen. De likelihood-vergelijkingen hebben dan de vorm n X `˙θ (xi )|θ=θ̂ = 0, i=1 met `˙θ (xi ) = ∇θ `θ (xi ) en `θ (xi ) = log pθ (xi ). De gradiënt `˙θ is de “score-functie voor één waarneming”. In verschillende voorbeelden wordt het maximum van de likelihoodfunctie niet in het inwendige van de parameterverzameling aangenomen. Dan is de maximum likelihood-schatter θ̂ meestal niet een stationair punt van de afgeleide van de likelihood-functie maar een randmaximum, en gelden de voorgaande vergelijkingen niet. In weer andere voorbeelden is de likelihood-functie niet overal differentieerbaar (of zelfs continu), en voldoet de maximum likelihood-schatter evenmin aan de likelihood-vergelijkingen. In Voorbeeld 4.12 is deze situatie al geı̈llustreerd. Voorts is het mogelijk dat de likelihood-functie meerdere (locale) maxima en ook minima bezit. Dan kunnen de likelihood-vergelijkingen meer dan één oplossing bezitten. 58 4: Schatters De maximum likelihood-schatter is per definitie het globale maximum van de likelihood-functie. In Definitie 4.11 wordt de maximum likelihood-schatter gebaseerd op de maximum likelihood-schatting. In de praktijk schrijft men echter vaak direct de (log) likelihood-functie in termen van de stochastische grootheid X in plaats van de realisatie x en leidt op die manier direct de schatter af door deze functie te maximaliseren naar θ. Deze verkorte notatie wordt gehanteerd in de volgende voorbeelden van toepassingen van de maximum likelihood-methode. Voorbeelden waarin de methode wordt toegepast op regressiemodellen zijn te vinden in Hoofdstuk 8. Voorbeeld 4.13 (Alternatieve verdeling). De kansdichtheid van de alternatieve verdeling alt(p) kan worden geschreven als x 7→ px (1 − p)1−x ; voor x = 0 staat hier 1 − p en voor x = 1 staat er p. Voor een steekproef X1 , . . ., Xn uit de alt(p)-verdeling is de log likelihood-functie derhalve p 7→ log L(p; X1 , . . ., Xn ) = log n Y pXi (1 − p)1−Xi i=1 n n ³ ´ X X = Xi log p + n − Xi log(1 − p). i=1 i=1 Neem de parameterverzameling gelijk aan het interval [0, 1]. Als 0 < P n i=1 Xi < n, dan geldt log L(p; X) → −∞ als p ↓ 0 of p ↑ 1, zodat L(p; X) zijn maximum aanneemt op (0, 1). Nulstellen van de afgeleide Pn naar p geeft één oplossing; de maximum likelihood-schatter p̂ = X. Als i=1 Xi gelijk is aan 0 of n, dan heeft L(p; X) een randmaximum in 0 of 1. Ook in deze gevallen kan de maximum likelihood-schatter worden geschreven als p̂ = X. Voorbeeld 4.14 (Binomiale verdeling). Veronderstel dat X binomiaal verdeeld is met bekende parameter n en onbekende parameter p. De log likelihood-functie voor X is gelijk aan ³µ n ¶ ´ p 7→ log L(p; X) = log pX (1 − p)n−X X µ ¶ n = log + X log p + (n − X) log(1 − p). X De maximum likelihood-schatter voor p is de waarde in [0, 1] die deze functie maximaliseert. Termen die niet van p afhangen hebben wel invloed op de grootte van het maximum, maar niet op de locatie van het maximum. Deze termen mogen we daarom weglaten bij het bepalen van de maximum likelihood-schatter. Het is dus voldoende de functie p 7→ X log p + (n − X) log(1 − p) 59 0 2*10^-6 6*10^-6 10^-5 4.3: Maximum Likelihood-Schatters 0.0 0.2 0.4 0.6 0.8 1.0 Figuur 4.6. Een realisatie van de likelihood-functie als functie van p voor een steekproef uit de alternatieve verdeling. De waargenomen waarde is Σn i=1 xi = 5 voor n = 20, en de maximum likelihood-schatting is p̂ = 0.25. te maximaliseren naar p ∈ [0, 1]. DezePfunctie is gelijk aan de log likelihoodn functie P in Voorbeeld 4.13 voor X = i=1 Xi . Dit is niet merkwaardig aann gezien i=1 Xi bin(n, p)-verdeeld is als X1 , . . ., Xn onderling onafhankelijk en alternatief verdeeld zijn met parameter p. Maximalisatie van de log likelihood-functie naar p gaat dus analoog aan de maximalisatie in Voorbeeld 4.13. De maximum likelihood-schatter voor p is p̂ = X/n. Dit komt in het geval van de onzuivere munt in Voorbeeld 4.9 overeen met p̂ = 0.3. Voorbeeld 4.15 (Exponentiële verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit de exponentiële verdeling met onbekende parameter λ > 0. Dan is de log likelihood-functie voor X1 , . . ., Xn gelijk aan λ 7→ log n Y i=1 λe−λXi = n log λ − λ n X Xi . i=1 De parameterruimte voor λ is (0, ∞). Nulstellen van de afgeleide van de log likelihood-functie naar λ en de gevonden vergelijking oplossen naar λ geeft λ̂ = 1/X. De tweede afgeleide van de log likelihood-functie naar λ is negatief voor alle λ > 0, dus in λ̂ heeft de likelihood-functie ook daadwerkelijk een maximum. De maximum likelihood-schatter van Eθ Xi kunnen we hieruit afleiden. Definieer de functie g als g(λ) = 1/λ voor λ > 0. Dan geldt EXi = g(λ). De maximum likelihood-schatter voor EXi = 1/λ = g(λ) is daarom gelijk aan g(λ̂) = 1/λ̂ = X. Voorbeeld 4.16 (Verschoven exponentiële verdeling). De kansdichtheid 60 4: Schatters van een stochastische variabele X met een verschoven exponentiële verdeling is gelijk aan fα,λ (x) = λe−λ(x−α) voor x ≥ α, en 0 voor x < α. Hierin is α de verschuivingsparameter en λ de intensiteitsparameter als in de niet verschoven exponentiële verdeling. Veronderstel dat X1 , . . ., Xn een steekproef is uit de verschoven exponentiële verdeling met onbekende parameters α en λ. De likelihood-functie voor deze steekproef is gelijk aan (α, λ) 7→ L(α, λ; X1 , . . ., Xn ) = n Y λe−λ(Xi −α) 1Xi ≥α i=1 Pn = λn e−λ i=1 (Xi −α) 1X(1) ≥α . De likelihood is gelijk aan 0 voor α > X(1) , omdat dan de indicatorfunctie 1X(1) ≥α gelijk aan 0 is. Voor α ≤ X(1) en voor vaste λ > 0 is de likelihoodfunctie stijgend als functie van α en dus maximaal in α = X(1) . De maximum likelihood-schatter voor α is daarom gelijk aan α̂ = X(1) . Substitueren we deze waarde in de likelihood, en maximaliseren we naar λ op dezelfde manier als in Voorbeeld 4.15, dan vinden Pn we dat de maximum likelihoodschatter voor λ gelijk is aan λ̂ = n/ i=1 (Xi − X(1) ). In dit geval kunnen de maximum likelihood-schatters voor de parameters dus in twee stappen worden gevonden, eerst α̂ en daarna λ̂. Dat dit inderdaad het globale maximum van de likelihood oplevert, wordt ook geı̈llustreerd in Figuur 4.7. l 0.2 0.3 0.4 L 1.2 1.4 1.6 a Figuur 4.7. Een realisatie van de likelihood-functie voor een steekproef uit een verschoven exponentiële verdeling ter grootte n = 20. De waargenomen waarden zijn x = 5 en x(1) = 1.5. De maximum likelihood-schattingen zijn α̂ = 1.5 en λ̂ = 1/3.5. 4.3: Maximum Likelihood-Schatters 61 Voorbeeld 4.17 (Normale verdeling). De log likelihood-functie voor een steekproef X1 , . . ., Xn uit de N (µ, σ 2 )-verdeling wordt gegeven door (µ, σ 2 ) 7→ log n Y √ i=1 1 1 2πσ 2 2 e− 2 (Xi −µ) /σ 2 = − 12 n log 2π − 12 n log σ 2 − n 1 X (Xi − µ)2 . 2σ 2 i=1 We nemen de natuurlijke parameterruimte voor de parameter θ = (µ, σ 2 ): Θ = R × (0, ∞). De partiële afgeleiden van de log likelihood naar µ en σ 2 zijn n ∂ 1X log L(µ, σ 2 ; X) = 2 (Xi − µ) ∂µ σ i=1 n ∂ 1 X n 2 log L(µ, σ ; X) = − + (Xi − µ)2 . ∂σ 2 2σ 2 2σ 4 i=1 Nulstellen van de eerste vergelijking geeft één oplossing: µ̂ = X. In deze waarde voor µ heeft de log likelihood inderdaad een globaal maximum voor iedere σ 2 > 0 aangezien de waarde van de log likelihood naar −∞ gaat voor µ → ±∞. Vervolgens substitueren we µ = µ̂ in de tweede partiële afgeleide, stellen deze gelijk aan 0 en lossen de likelihood-vergelijking vervolgens op Pn naar σ 2 . Dit geeft opnieuw één oplossing: σ̂ 2 = n−1 i=1 (Xi − X)2 . Om gelijke reden als hiervoor heeft de log likelihood functie in deze waarde inderdaad een maximum. (Overigens levert het maximaliseren van de log likelihood-functie naar σ in plaats van σ 2 de wortel uit σ̂ 2 als maximum likelihood-schatter voor σ op.) Om te controleren of de (differentieerbare) log likelihood-functie een maximum heeft in de gevonden oplossing van de likelihood-vergelijkingen, kan ook de Hessiaan-matrix van de log likelihoodfunctie in het punt (µ̂, σ̂ 2 ) berekend worden, welke hier gelijk is aan µ ¶ 1 −nσ̂ 2 0 . 0 −n/2 σ̂ 4 Beide eigenwaarden van deze matrix zijn negatief en daarmee heeft de log likelihood een maximum in het punt (µ̂, σ̂ 2 ). De gevonden maximum likelihood-schatter voor (µ, σ 2 ) is gelijk aan ³ ´ ³ n−1 ´ 1X 2 SX (Xi − X)2 = X, n i=1 n n X, met 2 SX = n 1 X (Xi − X)2 . n − 1 i=1 62 4: Schatters Het steekproefgemiddelde is zuiver voor µ, maar de maximum likelihoodschatter σ̂ 2 heeft een lichte onzuiverheid (zie Voorbeeld 4.7). Vanwege de kleine onzuiverheid wordt vaak de voorkeur gegeven aan de steekproefvari2 2 antie SX = (n/(n − 1))σ̂ 2 . De verwachte kwadratische ¡ fout van SX is¢ echter 2 2 groter dan die van σ̂ , en beide verliezen het van (n − 1)/(n + 1) SX in † termen van de verwachte kwadratische fout. Omdat het verschil klein is voor grote aantallen waarnemingen, maakt het meestal niet veel uit welke van deze schatters wordt gebruikt. Een ander model wordt verkregen als we µ bekend veronderstellen. Dan is de parameter θ = σ 2 en de parameterverzameling (0, ∞). P We vinden dan n dat de maximum likelihood-schatter van σ 2 gelijk is aan n−1 i=1 (Xi −µ)2 . Merk op dat dit alleen een schatter is als µ bekend mag worden verondersteld! Voorbeeld 4.18 (Normale verdeling met restrictie). Veronderstel dat de waarnemingen X1 , . . ., Xn onafhankelijk en normaal verdeeld zijn met verwachting µ en variantie 1, waarbij bekend is dat µ ≥ 0. Voor x1 , . . ., xn een realisatie van X1 , . . ., Xn , neemt de likelihood-functie op R een absoluut maximum aan in x. Omdat x negatief kan zijn en bekend is dat µ ≥ 0, is x niet de maximum likelihood-schatting. In het geval dat x ≤ 0, neemt de likelihood-functie op de parameterverzameling [0, ∞) een randmaximum aan in 0. De maximum likelihood-schatting is x als deze niet-negatief is en anders 0. De bijbehorende maximum likelihood-schatter is dan X1X≥0 ; X als X ≥ 0 en 0 anders. Een statistisch model en de maximum likelihood-schatter worden bepaald door zowel de vorm van de dichtheid van de waarneming als de definitie van de parameterverzameling! Voorbeeld 4.19 (Gamma-verdeling). Stel dat X1 , . . ., Xn een steekproef is uit de Gamma-verdeling met kansdichtheid pα,λ (x) = xα−1 λα e−λx . Γ(α) Hierin zijn α > 0 en λ > 0 de onbekende vorm- en inverse schaalparameter, en Γ de Gamma-functie Z ∞ Γ(α) = sα−1 e−s ds. 0 † Het vereist enig rekenwerk om deze bewering te staven. Stelling 5.26 kan worden gebruikt om dit rekenwerk te vergemakkelijken. Zie Opgave 5.24 in Hoofdstuk 5. 4.3: Maximum Likelihood-Schatters 63 De log likelihood-functie voor X1 , . . ., Xn is dan gelijk aan (α, λ) 7→ log n Y X α−1 λα e−λXi i Γ(α) i=1 = (α − 1) n X log Xi + nα log λ − λ i=1 n X Xi − n log Γ(α). i=1 De parameterruimte voor θ = (α, λ) nemen we gelijk aan Θ = [0, ∞) × [0, ∞). Om de maximum likelihood-schatters voor α en λ te vinden, bepalen we de partiële afgeleiden van de log likelihood-functie naar λ en α n nα X ∂ log L(α, λ; X1 , . . ., Xn ) = − Xi , ∂λ λ i=1 n X ∂ log L(α, λ; X1 , . . ., Xn ) = log Xi + n log λ − n ∂α i=1 R ∞ α−1 s log s e−s ds 0 R . ∞ α−1 −s s e ds 0 (In de afgeleide naar α hebben we de Gamma-functie α 7→ Γ(α) onder het integraalteken gedifferentieerd en gebruikt dat (∂/∂α)sα = sα log s.) De partiële afgeleiden zijn gelijk aan 0 in de maximum likelihood schatters (α̂, λ̂); dit geeft twee likelihood-vergelijkingen. Uit de eerste vergelijking volgt onmiddellijk dat λ̂ = α̂/X. Dit substitueren we in de tweede likelihood-vergelijking. Dit geeft R ∞ α̂−1 n X s log s e−s ds = 0. log Xi + n log α̂ − n log X − n 0 R ∞ α̂−1 −s s e ds 0 i=1 Deze vergelijking heeft geen expliciete oplossing voor α̂, maar kan numeriek, met een iteratieve methode, worden opgelost wanneer een realisatie voor X1 , . . ., Xn is waargenomen. De gevonden waarde α̂ substitueren we vervolgens in de vergelijking λ̂ = α̂/X om λ̂ te vinden. Om te controleren of de log likelihood-functie in de oplossing ook daadwerkelijk een maximum heeft, moeten we de eigenwaarden van de Hessiaan-matrix in (α̂, λ̂) berekenen. Als deze beide eigenwaarden negatief zijn in (α̂, λ̂), dan is (α̂, λ̂) inderdaad de maximum likelihood-schatter voor (α, λ). Voorbeeld 4.20 (Multinomiale verdeling). Veronderstel dat de vector X = (X1 , . . ., Xm ) een multinomiale verdeling heeft met parameters n en (p1 , . . ., pm ), waar p1 + . . . + pm = 1. We veronderstellen dat n bekend is en de kansen p1 , . . ., pm onbekend zijn. De te schatten parameter is dan θ = (p1 , . . ., pm−1 ), omdat pm = 1 − p1 − . . . − pm−1 vastligt zodra p1 , . . ., pm−1 bekend zijn. De likelihood-functie is in dit geval gegeven door µ ¶³ m−1 ´ Y n i θ 7→ pX (1 − (p1 + . . . + pm−1 ))Xm i X1 · · · Xk i=1 64 4: Schatters en de log likelihood-functie is gelijk aan µ ¶ ³ m−1 ´ X n θ 7→ log + Xi log pi + Xm log(1 − (p1 + . . . + pm−1 )). X1 · · · Xk i=1 Differentiatie van de log likelihood-functie naar p1 , . . ., pm−1 geeft de m − 1 likelihood-vergelijkingen: Xm Xi − =0 p̂i 1 − (p̂1 + . . . + p̂m−1 ) voor i = 1, . . ., m − 1. Deze vergelijkingen zijn te schrijven als p̂i = Xi p̂m Xm voor i = 1, . . ., m − 1 Om de vergelijkingen op te lossen sommeren we alle m − 1 vergelijkingen m−1 X i=1 p̂i = m−1 p̂m X p̂m Xi =⇒ 1 − p̂m = (n − Xm ). Xm i=1 Xm Uit deze laatste vergelijking volgt dat p̂m = Xm /n. De maximum likelihoodschatters voor de overige kansen volgen direct uit de gevonden relaties p̂i = p̂m Xi /Xm en zijn gelijk aan p̂i = Xi /n. Om te laten zien dat de (log) likelihood daadwerkelijk een maximum bezit in θ̂ = (p̂1 , . . ., p̂m−1 ) kan men nagaan dat de eigenwaarden van de Hessiaan-matrix in θ̂ negatief zijn. Deze berekening is in dit geval echter complex en laten we hier achterwege. Voorbeeld 4.21 (Toepassing, aantal bacteriën). Bacteriën in vervuild water zijn onmogelijk met het oog of een microscoop te tellen. Om toch een idee te krijgen van de mate van vervuiling maken we een inschatting van het aantal bacteriën in een centiliter water. We gaan als volgt te werk. We veronderstellen dat het aantal bacteriën in een centiliter vervuild water Poisson-verdeeld is met parameter µ. Om een indicatie te krijgen van het aantal bacteriën in het vuile water, willen we µ schatten. We gieten het vuile water in een bak met 1000 liter zuiver water, roeren goed en verdelen het water vervolgens over 1000 kweekbakken. Daarna kijken we in elke kweekbak of zich een kolonie vormt. Is dit het geval, dan zat er tenminste één bacterie in deze liter; is dit niet het geval, dan was deze liter bacterievrij. Definieer X als het totaal aantal bacteriën P1000 in de centiliter vervuild water, dan kunnen we X schrijven als X = i=1 Xi , waarbij Xi het aantal bacteriën is in de ie kweekbak is. De variabelen X1 , . . ., X1000 zijn dan onderling onafhankelijk en Poisson-verdeeld met parameter µ/1000. We kunnen X1 , . . ., X1000 echter niet waarnemen, maar nemen alleen Y1 , . . ., Y1000 waar, met Yi gedefinieerd door n 0 als zich in de ie bak geen kolonie vormt Yi = 1 anders. 4.3: Maximum Likelihood-Schatters 65 De waarnemingen Yi zijn onafhankelijk en alternatief verdeeld met P (Yi = 0) = P (Xi = 0) = e−µ/1000 en P (Yi = 1) = 1 − e−µ/1000 . Definieer p: = P (Yi = 1) = 1 − e−µ/1000 . In Voorbeeld 4.13 is de maximum likelihood-schatter voor de parameter p van de alternatieve verdeling afgeleid.P Gebaseerd op de steekproef Y1 , . . ., Y1000 is deze schatter 1000 gelijk aan p̂ = i=1 Yi /1000. Aangezien p = 1 − e−µ/1000 is µ gelijk aan −1000 log(1 − p) en wordt de maximum likelihood-schatter voor µ gegeven P1000 door µ̂ = −1000 log(1 − i=1 Yi /1000). Voorbeeld 4.22 (Toepassing, Poisson-voorraden). In Voorbeeld 2.6 wordt een statistisch model beschreven voor het totaal aantal verkochte exemplaren van een bepaald artikel per week en per filiaal. Men neemt waar X = (X1,1 , X1,2 , . . ., XI,J ), waarbij Xi,j het aantal artikelen is dat verkocht werd in filiaal i in week j. Veronderstel dat X1,1 , . . ., XI,J onderling onafhankelijk zijn en Xi,j Poisson-verdeeld is met onbekende parameter µi . De parameter µi is slechts afhankelijk van het filiaal en niet van de week. De parameters µ1 , . . ., µI schatten we met de maximum likelihood-methode. De log likelihood-functie voor X1,1 , . . ., XI,J is gelijk aan (µ1 , . . ., µI ) 7→ X ³ µ i,j ´ log e−µi i Xi,j ! i=1 j=1 I X J X =− I X i=1 Jµi + I X J X i=1 j=1 Xi,j log µi − I X J X log(Xi,j !). i=1 j=1 We nemen de natuurlijke parameterverzameling (0, ∞)I voor (µ1 , . . ., µI ). PJ Oplossen van de likelihood-vergelijkingen geeft µ̂k = J −1 j=1 Xk,j , mits PJ j=1 Xk,j > 0. Het is gemakkelijk na te gaan dat de Hessiaan-matrix in een willekeurig punt (µ1 , . . ., µI ) een diagonaal matrix is met slechts negatieve PJ PJ eigenwaarden wanneer j=1 Xk,j > 0 voor alle k. Als j=1 Xk,j = 0 (hetgeen met positieve kans het geval is), bestaat er feitelijk geen maximum likelihood-schatter van µk , omdat de likelihood-functie in dat geval strikt dalend is en dus geen maximum aanneemt op (0, ∞). Definiëren we de Poisson-verdeling met parameter 0 als de in het punt 0 ontaarde kansverdeling en breiden we de parameterverzameling voor µk uit tot [0, ∞) voor PJ iedere k, dan is J −1 j=1 Xk,j de maximum likelihood-schatter voor µk . Als het aantal verkochte artikelen lineair verandert met de weken, kunnen we veronderstellen dat µi,j = µi (1 + βj). Hier nemen we aan dat de verandering β gelijk is voor alle filialen. In dat geval is de log likelihoodfunctie voor X1,1 , . . ., XI,J gelijk aan (µ1 , . . ., µI , β) 7→ I X J ³ ´ X −µi (1 + βj) + Xi,j log(µi (1 + βj)) − log(Xi,j !) . i=1 j=1 66 4: Schatters De likelihood-vergelijkingen voor µk en β zijn gelijk aan J ³ X j=1 −(1 + β̂j) + Xk,j ´ =0 µ̂k voor k = 1, . . ., I I X J ³ X jXi,j ´ −µ̂i j + = 0. 1 + β̂j i=1 j=1 Expliciete oplossingen van deze vergelijkingen zijn er niet, maar de nulpunten van de afgeleiden kunnen met een iteratief algoritme gevonden worden. * Voorbeeld 4.23 (Autoregressie). De maximum likelihood-methode is niet beperkt tot onafhankelijke waarnemingen. We illustreren dit met een model dat vaak wordt gebruikt voor het analyseren van een variabele die in de tijd varieert, het autoregressieve model: Xi = βXi−1 + ei . Hierin is β een onbekende parameter, en de variabelen e1 , . . ., en zijn nietwaarneembare toevalsfluctuaties, in deze context ook wel “innovaties” genoemd. Dit model lijkt veel op het lineaire regressiemodel zonder intercept, behalve dat de waarneming Xi wordt “verklaard” door regressie op de waarneming Xi−1 . Als we de index i ∈ {1, . . ., n} interpreteren als opeenvolgende momenten in de tijd, dan vindt regressie plaats van Xi op het verleden Xi−1 van de reeks zelf, vandaar de term “autoregressie”. We beschouwen hier het autoregressiemodel van orde 1; een uitbreiding naar regressie op meer dan een variabele in het verleden ligt voor de hand. De volgorde van de datapunten is nu van groot belang en een weergave van de data als een functie in de tijd zinvol. Figuur 4.8 geeft drie mogelijke realisaties (x0 , x1 , . . ., xn ) van de vector (X0 , X1 , . . ., Xn ), als plot van de index i op de horizontale as tegen de waarde xi op de verticale as. Alle drie realisaties starten met x0 = 1, maar zijn daarna gegenereerd volgens het model Xi = βXi−1 + ei met onafhankelijke innovaties ei maar met dezelfde waarde van β. Het statistische probleem is de waarde van β te schatten op basis van een waargenomen realisatie (x0 , x1 , . . ., xn ). We zullen dit oplossen met behulp van de maximum likelihood-methode. We maken de beschrijving van het model volledig door aan te nemen dat X0 verdeeld is volgens een kansdichtheid pX0 en dat de innovaties e1 , . . ., en onafhankelijke, normaal N (0, σ 2 )-verdeelde grootheden vormen, die onafhankelijk zijn van X0 . De likelihood-functie is de simultane kansdichtheid van de waarnemingsvector X = (X0 , . . ., Xn ). Daar de waarnemingen X0 , X1 , . . ., Xn stochastisch afhankelijk zijn, is de simultane dichtheid niet het product van de marginale dichtheden. We kunnen echter 67 -4 -2 0 2 4 4.3: Maximum Likelihood-Schatters 0 10 20 30 40 50 Figuur 4.8. Drie realisaties van de vector (X0 , X1 , . . ., X50 ) verdeeld volgens het autoregressieve model met standaard normale innovaties, x0 = 1 en β = 0.7. Ieder van de drie grafieken is een lineaire interpolatie van de punten {(i, xi ): i = 0, . . ., 50}. gebruikmaken van de algemene decompositie voor een simultane dichtheid: pX0 ,. . .,Xn (x0 , . . ., xn ) = pX0 (x0 )pX1 |X0 (x1 | x0 )pX2 |X0 ,X1 (x2 | x0 , x1 )× · · · × pXn |X0 ,. . .,Xn−1 (xn | x0 , . . ., xn−1 ). Deze formule geeft een factorisatie van de simultane dichtheid als een product van voorwaardelijke dichtheden, en generaliseert de productformule voor het geval van onafhankelijke waarnemingen. De formule kan worden bewezen door herhaalde toepassing van de formule f X,Y (x, y) = f X (x)f Y |X (y| x). In het autoregressieve model is de voorwaardelijke dichtheid van Xi gegeven X0 = x0 , . . ., Xi−1 = xi−1 gelijk aan de dichtheid van βxi−1 + ei , dat wil zeggen de dichtheid van de normale verdeling met verwachting βxi−1 en variantie var ei = σ 2 . De likelihood-functie heeft derhalve de vorm (β, σ) 7→ L(β, σ; X0 , . . ., Xn ) = pX0 (X0 ) n Y 1 ³ Xi − βXi−1 ´ φ . σ σ i=1 Hierin hebben we de dichtheid van X0 nog niet nader gespecificeerd. Omdat deze dichtheid slechts één term van de n+1 termen beı̈nvloedt, en n meestal groot is, wordt dit vaak achterwege gelaten. De term pX0 (X0 ) wordt dan weggelaten uit de likelihood-functie, en de analyse wordt “voorwaardelijk de waarde van X0 ” uitgevoerd. Met deze definitie van de likelihood-functie kan de (voorwaardelijke) maximum likelihood-schatter voor de parameter (β, σ) worden bepaald volgens dezelfde berekeningen als in het lineaire regressiemodel (zie Paragraaf 8.1.1). De maximum likelihood-schatter β̂ minimaliseert de kwadraat- 68 4: Schatters som β 7→ Pn i=1 (Xi − βXi−1 )2 en is gelijk aan Pn i=1 Xi Xi−1 β̂ = P . n 2 i=1 Xi−1 De maximum likelihood-schatter voor σ 2 is n σ̂ 2 = 1X (Xi − β̂Xi−1 )2 . n i=1 Afhankelijk van de modellering van de beginwaarneming X0 nemen de maximum likelihood-schatters gebaseerd op de onvoorwaardelijke likelihoodfunctie een iets andere vorm aan. * Voorbeeld 4.24 (Onbekende dichtheid). Veronderstel dat X1 , . . ., Xn een steekproef is uit een verdeling met een onbekende kansdichtheid f . In de voorgaande voorbeelden waren de kansverdelingen bekend op een eindigdimensionale parameter na, bijvoorbeeld de exponentiële verdeling met onbekende parameter λ. In dit voorbeeld veronderstellen we dat er helemaal niets over de dichtheid f bekend is. Om f te schatten zullen we opnieuw de maximum likelihood-methode gebruiken. De log likelihoodfunctie voor de steekproef X1 , . . ., Xn wordt gegeven door f 7→ log L(f ; X1 , . . ., Xn ) = log n Y f (Xi ) = i=1 n X log f (Xi ). i=1 Deze functie moet gemaximaliseerd worden naar de kansdichtheid f over de verzameling van R alle kansdichtheden, dat is over alle niet-negatieve functies f zodanig dat f (x)dx = 1. Dit maximum bestaat echter niet. Om dit in te zien beperken we ons tot kansdichtheden hε met ε > 0 van de vorm hε (x) = n X 1 1[Xi −ε/2,Xi +ε/2] (x), nε i=1 dat wil zeggen dichtheden die een hoogte 1/(nε) hebben op de intervallen [Xi − ε/2, Xi + ε/2] voor i = 1, . . ., n en daarbuiten nul zijn, zie Figuur 4.9. Als de kansverdeling waaruit de steekproef genomen is continu is, dan zullen deze intervallen elkaar niet overlappen mits ε maar klein genoeg is, en is Z ∞ 1 hε (x)dx = nε = 1. nε −∞ De restrictie van de log likelihood-functie tot de dichtheden hε wordt dan gegeven door ε 7→ n X i=1 log hε (Xi ) = n X i=1 log 1 = −n log nε. nε 69 0.0 0.2 0.4 0.6 0.8 1.0 1.2 4.3: Maximum Likelihood-Schatters −2 −1 0 1 Figuur 4.9. De dichtheid hε op basis van een steekproef ter grootte 10 uit de standaard normale verdeling met ε = 0.1. Voor ε ↓ 0, geldt dat log L(ε; X1 , . . ., Xn ) → ∞. Dit betekent dat er binnen de dichtheden van de vorm hε met ε > 0 geen dichtheid bestaat die de log likelihood-functie maximaliseert. Aangezien de limiet limε↓0 hε niet bevat is in de verzameling kansdichtheden bestaat de maximum likelihood-schatter voor dit probleem niet. We kunnen wel het probleem veranderen in een probleem dat wel een oplossing bezit. In plaats van te zoeken naar een dichtheid, zoeken we naar een verdelingsfunctie F ; we schatten dus F , niet f . Als log likelihood nemen we de zogenaamde empirische log likelihood F 7→ n X log F {Xi }. i=1 Deze functie is verkregen door f (Xi ) in de log likelihood-functie te vervangen door F {Xi }, de sprong van F in het punt Xi . We zoeken nu naar de verdelingsfunctie die de empirische log likelihood-functie maximaliseert over alle kansverdelingen. Dit maximum wordt bereikt in de zogenaamde empirische verdelingsfunctie n F̂ (x) = 1X #{i: Xi ≤ x} 1X ≤x = . n i=1 i n Deze verdelingsfunctie is een sprongfunctie met sprongen ter grootte 1/n in de waarnemingen X1 , . . ., Xn (zie Figuur 4.10). De bijbehorende verdeling is discreet met puntmassa’s in de waarnemingen. Zien we een puntmassa als een dichtheid met een oneindig hoge en smalle piek, dan is F̂ in zekere zin de limiet van hε als ε ↓ 0. 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 4: Schatters 1.0 70 −4 −2 0 2 4 −4 −2 0 2 4 Figuur 4.10. De empirische verdelingsfunctie (stapfunctie) op basis van een steekproef ter grootte 10 (links) en 30 (rechts) uit de standaard normale verdeling tezamen met verdelingsfunctie van de standaard normale verdeling. * Voorbeeld 4.25 (Toepassing, samengesteld Poisson-proces). Een ziektekostenverzekeringsmaatschappij betaalt de gemaakte ziektekosten uit aan haar klanten en zorgverleners. De maatschappij wil graag aan het begin van de maand een indruk hebben hoeveel geld zij voor die maand opzij moet zetten om alle gehonoreerde claims voor die maand uit te kunnen betalen. Daartoe wordt een dataset samengesteld met alle uitbetalingen van de afgelopen 120 maanden. Het aantal claims dat uitbetaald wordt, varieert van maand tot maand en is afhankelijk van het aantal klanten dat de verzekeringsmaatschappij heeft in de desbetreffende maand. We definiëren Ni als het aantal gehonoreerde claims in maand i en veronderstellen dat N1 , . . ., N120 onderling onafhankelijke stochastische grootheden zijn met Ni ∼ Poisson(µMi ), i = 1, . . ., 120 waar µ > 0 een onbekende parameter is en Mi het aantal klanten dat de maatschappij aan het begin van maand i heeft. De aantallen Mi worden als bekend en niet stochastisch verondersteld. De hoogte van de j e claim in maand i noteren we met Ci,j . Het uitgePNi Ci,j . We veronderstellen keerde bedrag in maand i is dan gelijk aan j=1 dat de hoogte van de uitbetaalde schadeclaims onderling onafhankelijke stochastische grootheden zijn met Ci,j ∼ exp(θ), i = 1, . . ., 120, j = 1, . . ., Ni waar θ > 0 een onbekende parameter is. Bovendien veronderstellen we dat de hoogtes van de claims Ci,j onafhankelijk zijn van de aantallen claims Ni . Met bovenstaande modelaannames is het mogelijk het verwachte te honoreren bedrag voor de komende maand te bepalen. Wanneer bekend 4.3: Maximum Likelihood-Schatters 71 zou zijn dat het aantal claims voor de komende maand gelijk is aan n, dan is het verwachte te honoreren bedrag gelijk aan Eθ n X j=1 Cj = n θ waar C1 , . . ., Cn de claimgroottes zijn in de komende maand. Het totaal aantal claims is echter onbekend en volgt de Poisson(µM )-verdeling met M het aantal klanten voor de komende maand. Het verwachte uit te keren bedrag wordt dan Eµ,θ N ³X N ´ ³ ³X ´´ ³ N ´ µM . Cj = E µ Eθ Cj |N = Eµ = θ θ j=1 j=1 PN In bovenstaande uitdrukking wordt eerst verwachting van j=1 Cj berekend bij gegeven N , dit levert N/θ en vervolgens wordt de verwachting van N/θ genomen. Wanneer θ en µ bekend zijn, is het verwachte uit te keren bedrag voor de komende maand dus gelijk aan µM/θ. De parameters µ > 0 en θ > 0 zijn onbekend en moeten worden geschat op basis van de gegevens in de dataset. We doen dit met behulp van de maximum likelihood-methode. Om de likelihood-functie af te leiden bepalen we eerst de simultane dichtheid van (C1 , . . ., CN , N ), de waarnemingen voor een maand. Deze dichtheid noteren we met fθ,µ , fθ,µ (c1 , . . ., cN , N = n) = fθ,µ (c1 , . . ., cn |N = n)Pµ (N = n) n ³Y ´ (µM )n = θe−θcj e−µM . n! j=1 We veronderstellen dat de waarnemingen van verschillende maanden en jaren onderling onafhankelijk zijn. De log likelihood-functie voor alle waarnemingen in de dataset van de afgelopen 10 jaar is dan gelijk aan de logaritme van het product van de simultane kansdichtheden van de verschillende maanden: Ni 120 ³ Y ³Y ´ (µMi )Ni ´ (µ, θ) 7→ log θe−θCi,j e−µMi Ni ! i=1 j=1 = 120 X i=1 log Ni ³Y 120 ´ X ³ (µMi )Ni ´ θe−θCi,j + log e−µMi . Ni ! j=1 i=1 De eerste van de twee termen is niet afhankelijk van de parameter µ en de tweede term bevat de parameter θ niet. Om de maximum likelihoodschatters van θ en µ te bepalen, volstaat het dus om de eerste term naar θ te maximaliseren en de tweede term naar µ. Dit geeft P120 P120 i=1 Ni i=1 Ni θ̂ = P120 P en µ̂ = . P120 Ni i=1 Mi i=1 j=1 Ci,j 72 4: Schatters De maximum likelihood-schatter van het uit te keren bedrag is gelijk aan P120 PNi µ̂ i=1 j=1 Ci,j M =M . P120 θ̂ i=1 Mi In dit voorbeeld veronderstellen we dat de parameters µ en θ voor iedere maand en ieder jaar gelijk zijn. Deze aannames zijn aanvechtbaar. Zo zal het uitgekeerde bedrag gemiddeld genomen toenemen door inflatie en het aantal claims in de winter groter zijn dan in de zomermaanden. Het valt te overwegen de parameters afhankelijk te maken van jaar en maand. Zo kunnen we in plaats van één parameter µ twaalf parameters µ1 , . . ., µ12 nemen voor de verschillende maanden. Door het aantal onbekende parameters in het model te vergroten, zullen de schattingen echter minder nauwkeurig worden. * 4.3.1 Fisher-Scoring Hoewel de voorgaande voorbeelden van toepassing van de maximum likelihood-methode een andere indruk zouden kunnen geven, is het vaak niet mogelijk de maximum likelihood-schatter door een expliciete formule in de data uit te drukken (zie Voorbeeld 4.19). In zo’n geval is het noodzakelijk een numerieke benaderingsmethode toe te passen. Bij gegeven waarneming x is de likelihood-functie θ 7→ L(θ; x) een “gewone” functie van de parameter θ, en we zoeken naar de waarde van θ waar deze functie maximaal is. Een aangepaste versie van de methode van Newton-Raphson staat in de statistiek bekend als Fisher-scoring. Deze paragraaf bevat een korte uiteenzetting van deze numerieke methoden. In de meeste gevallen is de gezochte waarde θ̂ een stationair punt van de afgeleide van de log likelihood-functie naar θ. We bespreken daarom het vinden van een nulpunt θ̂ van de functie θ 7→ Λ̇(θ; x), waarin Λ̇ de vector van partiële afgeleiden van de log likelihood-functie θ 7→ Λ(θ; x) = log L(θ; x) is. Het idee van de methode van Newton-Raphson is om uitgaande van een redelijke “begin schatting” θ̃0 voor θ̂ de functie Λ̇ te vervangen door de lineaire benadering Λ̇(θ; x) ≈ Λ̇(θ̃0 ; x) + Λ̈(θ̃0 ; x)(θ − θ̃0 ). Hierin is Λ̈(θ; x) de tweede afgeleide van de log likelihood-functie naar de parameter. In plaats van te zoeken naar de waarde van θ waarvoor de vergelijking Λ̇(θ; x) gelijk aan 0 is, richten, we ons nu op het oplossen van de vergelijking Λ̇(θ̃0 ; x) + Λ̈(θ̃0 ; x)(θ − θ̃0 ) = 0. Het nulpunt van deze tweede vergelijking is gelijk aan (4.1) θ̃1 = θ̃0 − Λ̈(θ̃0 ; x)−1 Λ̇(θ̃0 ; x). Omdat de lineaire benadering niet exact is, zal de waarde θ̃1 meestal niet het gezochte nulpunt θ̂ zijn. We verwachten echter dat de gevonden waarde 4.3: Maximum Likelihood-Schatters 73 θ̃1 een betere benadering voor θ̂ zal zijn dan de startwaarde θ̃0 . We nemen vervolgens θ̃1 als startwaarde en berekenen een derde waarde, etc. Dit geeft een rij benaderingen θ̃0 , θ̃1 , θ̃2 , . . . die onder bepaalde voorwaarden naar een nulpunt θ̂ convergeert. De convergentie is verzekerd als de startwaarde θ̃0 voldoende dicht bij de doelwaarde θ̂ ligt, en de functie Λ̇ voldoende glad is, maar deze garantie is in de praktijk natuurlijk niet te verkrijgen. Verschillende modificaties van het algoritme kunnen de convergentie betrouwbaarder maken. Bezit de log likelihood echter meerdere locale maxima, en/of minima, dan is voorzichtigheid geboden, omdat de convergentie ook kan plaatsvinden naar een ander nulpunt van Λ̇ (corresponderend met een locaal maximum of minimum), naast de mogelijkheid van divergentie van de rij θ̃0 , θ̃1 , θ̃2 , . . .. We zullen in Paragraaf 7.2 zien dat de tweede afgeleide Λ̈(θ̂; x) van de log likelihood-functie geëvalueerd in de maximum likelihood-schatter een speciale betekenis bezit. Deze tweede afgeleide wordt aangeduid als de waargenomen informatie, en is ongeveer gelijk aan de Fisher-informatie (zie Lemma 6.9). In plaats van de tweede afgeleide gebruikt men ook wel een andere matrix in het Newton-Raphson algoritme (4.1). Wordt de Fisherinformatie gebruikt, dan staat het algoritme bekend als Fisher-scoring. Dit is vooral interessant als de Fisher-informatie analytisch kan worden berekend. * 4.3.2 Het EM-Algoritme Naast het Fisher-scoring algoritme is het Expectation-Maximization Algoritme, afgekort EM algoritme, een veel gebruikt algemeen algoritme om maximum likelihood-schatters te berekenen. Het algoritme is bedoeld voor toepassingen waarbij de beoogde data slechts gedeeltelijk worden waargenomen. In veel praktische toepassingen ontstaat een dergelijk missing data model op een natuurlijke wijze, maar het algoritme kan ook worden toegepast door de waargenomen waarnemingen op te vatten als deel van een denkbeeldige “volledige waarneming” (een voorbeeld wordt gegeven in Voorbeeld 4.27). Zoals gebruikelijk noteren we de waarneming als X, maar we veronderstellen dat we “slechts” X waarnemen, in plaats van de “volledige data” (X, Y ), die in theorie ook beschikbaar zou kunnen zijn. Als (x, y) 7→ pθ (x, y) een kansdichtheid van de vector (X, Y ) is, dan verkrijgen we de dichtheid van X door te marginaliseren: Z pθ (x) = pθ (x, y) dy. (In het geval van discreet verdeelde waarnemingen nemen we een som in plaats van een integraal.) De maximum likelihood-schatter voor θ gebaseerd op de waarneming X maximaliseert de likelihood-functie θ 7→ pθ (X). Als de integraal in het voorgaande display expliciet kan worden geëvalueerd, 74 4: Schatters dan is het berekenen van de maximum likelihood-schatter een standaard probleem, dat bijvoorbeeld analytisch of met een iteratief algoritme kan worden opgelost. Als de integraal niet analytisch kan worden geëvalueerd, dan vereist de berekening van de likelihood in iedere gegeven waarde θ een numerieke benadering van de integraal, en het vinden van de maximum likelihood-schatter mogelijk vele van zulke benaderingen. Het EM-algoritme probeert deze benaderingen te ontwijken. Zouden we de beschikking hebben gehad over de “volledige data” (X, Y ), dan zouden we de maximum likelihood-schatter op basis van (X, Y ) hebben bepaald. Deze schatter, die meestal beter zal zijn dan de maximum likelihood-schatter gebaseerd op alleen X, is het punt van maximum van de log likelihood-functie θ 7→ log pθ (X, Y ), welke waarschijnlijk wel gemakkelijk te evalueren is. Een natuurlijke procedure als Y niet beschikbaar is, is om deze likelihood-functie te vervangen door zijn voorwaardelijke verwachting ¡ ¢ (4.2) θ 7→ Eθ0 log pθ (X, Y )| X . Dit is de voorwaardelijke verwachting van de log likelihood voor de volledige data gegeven de waarneming X. Het idee is om de gewone log likelihood te vervangen door de functie (4.2), en het punt van maximum van deze laatste te bepalen. Helaas zal de verwachte waarde in (4.2) meestal afhangen van de ware parameter θ0 , welke om deze reden is meegegeven als subscript van de verwachtingsoperator Eθ0 . Omdat de ware waarde van θ niet bekend is, is de functie in het display niet bruikbaar als basis voor een schattingsmethode. Het EM-algoritme overkomt dit probleem door iteratie. Gegeven een geschikt gekozen eerste gooi θ̃0 naar de ware waarde van θ, bepalen we een schatter θ̃1 door het maximaliseren van het criterium. Vervolgens vervangen we θ̃0 in Eθ̃0 door θ̃1 , maximaliseren het nieuwe criterium, etc. Initialiseer θ̃0 . E-stap:¡ gegeven θ̃i bereken ¢ de functie θ 7→ Eθ̃i log pθ (X, Y )| X = x . M-stap: definieer θ̃i+1 als het punt van maximum van deze functie. Het EM-algoritme geeft een rij waarden θ̃0 , θ̃1 , . . ., en we hopen dat θ̃i voor toenemende i een steeds betere benadering voor de onbekende maximum likelihood-schatter is. De voorgaande beschrijving wekt de indruk dat het resultaat van het EM-algoritme een nieuw type schatter is. Dit is echter niet het geval, want als de rij θ̃0 , θ̃1 , . . . gegenereerd volgens het EM-algoritme naar wens convergeert naar een limiet, dan is deze limiet precies de maximum likelihoodschatter gebaseerd op de waarneming X. Onder regulariteitsvoorwaarden 4.3: Maximum Likelihood-Schatters 75 geldt namelijk dat, voor iedere i, pθ̃i+1 (X) ≥ pθ̃i (X). (4.3) (zie het volgende lemma). De iteraties van het EM-algoritme leveren dus een steeds grotere waarde voor de likelihood-functie van de waarneming X. Als het algoritme “naar wens” werkt, dan zullen de waarden pθ̃i (X) uiteindelijk naar het maximum van de likelihood stijgen, en θ̃i zal convergeren naar de maximum likelihood-schatter. Helaas is een dergelijke convergentie in het algemeen niet gegarandeerd, en dient per geval te worden beoordeeld. De rij θ̃i kan bijvoorbeeld naar een locaal maximum convergeren. Evenmin is de uitvoering van de twee stappen van het algoritme noodzakelijkerwijze eenvoudig. Lemma 4.26. De rij θ̃0 , θ̃1 , θ̃2 , . . . gegenereerd volgens het EM-algoritme geeft een stijgende rij likelihood-waarden pθ̃0 (X), pθ̃1 (X), pθ̃2 (X), . . .. Bewijs. De dichtheid pθ van (X, Y ) kan worden gefactoriseerd als Y |X pθ (x, y) = pθ (y| x)pθ (x). De logaritme verandert dit product in een som, en dus geldt dat ¡ ¡ ¢ ¢ Y |X Eθ̃i log pθ (X, Y )| X = Eθ̃i log pθ (Y | X)| X + log pθ (X). Omdat de waarde θ̃i+1 deze functie over θ maximaliseert, is deze uitdrukking in θ = θ̃i+1 groter dan in θ = θ̃i . Als we kunnen laten zien dat de eerste term rechts groter is in θ = θ̃i dan in θ = θ̃i+1 , dan moet voor de tweede term het omgekeerde gelden (en het verschil moet door de tweede term worden goedgemaakt), zodat (4.3) geldt. Het is dus voldoende te laten zien dat ¢ ¡ ¢ ¡ Y |X Y |X Eθ̃i log pθ̃ (Y | X)| X ≤ Eθ̃i log pθ̃ (Y | X)| X . i+1 i R Deze ongelijkheid is van de vorm log(q/p) dP ≤ 0 voor p en q de voorwaardelijke dichtheid van Y gegeven X onder, respectievelijk, θ̃i en θ̃i+1 . Omdat log x ≤ x−1 voor iedere x ≥ 0, geldt voor ieder paar kansdichtheden p en q dat Z Z log(q/p) dP ≤ Z (q/p − 1) dP = q(x) dx − 1 ≤ 0. p(x)>0 Dit impliceert het voorgaande display, waarmee het bewijs is voltooid. 76 4: Schatters Voorbeeld 4.27 (Mengsel verdelingen). Veronderstel dat een aantal objecten of individuen in principe gegroepeerd kan worden in min of meer homogene clusters. De cluster labels zelf nemen we helaas niet waar, maar in plaats daarvan meten we voor ieder object een vector xi . Op grond van de waarnemingen x1 , . . ., xn willen we de clustering van de objecten vinden. We zouden kunnen aannemen dat iedere waarneming xi de realisatie van een stochastische vector Xi is, met kansdichtheid fj als het object tot het j e cluster behoort. De kwalificatie “min of meer homogeen” in de voorgaande alinea kunnen we dan zo opvatten dat de kansdichtheden f1 , . . ., fk voor de verschillende clusters weinig overlap vertonen. We zullen aannemen dat het aantal clusters k bekend is, hoewel we dit ook met behulp van de data zouden kunnen bepalen. Eén mogelijkheid om de clusters te bepalen is om de likelihood k Y Y fj (Xi ) j=1 i∈Ij te maximaliseren over alle partities (I1 , . . ., Ik ) van {1, . . ., n} in k deelverzamelingen en over alle onbekende parameters in de dichtheden fj . De partitie geeft dan de clustering. Nemen we bijvoorbeeld voor fj de normale dichtheid met verwachtingsvector µj , dan leidt dit tot k-means clustering: de beste klasse-indeling wordt gegeven door de partitie die min (µ1 ,. . .,µk )∈Rk k X X kXi − µj k2 j=1 i∈Ij minimaliseert. Dit is computationeel geen eenvoudig probleem, maar de clusters kunnen worden benaderd door een iteratief algoritme. Een andere mogelijkheid is om aan te nemen dat ieder object aselect is toegewezen aan één van de clusters (door “de natuur”). We kunnen dan spreken over een stochastische vector (C1 , . . ., Cn ), welke de cluster labels geeft (Ci = j als het ie object tot cluster j behoort), en vatten de dichtheid fj op als de voorwaardelijke kansdichtheid van Xi gegeven dat Ci = j. De klassenvector (C1 , . . ., Cn ) wordt niet waargenomen. Als we aannemen dat (C1 , X1 ), . . ., (Cn , Xn ) onafhankelijke identiek verdeelde vectoren zijn met P(Ci = j) = pj voor j = 1, . . ., k, dan kunnen we de maximum likelihoodschatter voor de parameters p = (p1 , . . ., pk ) en de onbekende parameters in f = (f1 , . . ., fk ) bepalen met het EM algoritme. De volledige data bestaat uit (C1 , X1 ), . . ., (Cn , Xn ). De corresponderende likelihood-functie is (p, f ) 7→ n Y k Y ¡ ¢1{Ci =j} pj fj (Xi ) . i=1 j=1 4.3: Maximum Likelihood-Schatters 77 De M-stap van het EM-algoritme is daarom het berekenen van n Y k ³ Y ´ ¡ ¢1{Ci =j} Ep̃,f˜ log pj fj (Xi ) | X1 , . . ., Xn i=1 j=1 = n X k X ³¡ ´ ¢ Ep̃,f˜ log pj + log fj (Xi ) 1{Ci = j}| Xi . i=1 j=1 Met behulp van de regel van Bayes vinden we de voorwaardelijke kansP dichtheid van Ci gegeven Xi als P(Ci = j| Xi = x) = pj fj (x)/ c pc fc (x). De uitdrukking in het voorgaande display is derhalve gelijk aan k X j=1 log pj n k X n X X p̃j f˜j (Xi ) p̃j f˜j (Xi ) + log fj (Xi ) P . P ˜ ˜ c p̃c fc (Xi ) c p̃c fc (Xi ) i=1 j=1 i=1 In de M-stap van het EM-algoritme maximaliseren we deze uitdrukking over p en f . Voor de maximalisatie over p is alleen de eerste term van belang. Argumenten uit de calculus laten zien dat het maximum wordt aangenomen voor n 1 X p̃j f˜j (Xi ) . pj = P n i=1 c p̃c f˜c (Xi ) Voor de maximalisatie over f is alleen de tweede term van belang. Bovendien maximaliseren we ieder van de j termen afzonderlijk over fj als de parameters f1 , . . ., fk onafhankelijk van elkaar variëren: fj maximaliseert in dat geval n X p̃j f˜j (Xi ) fj 7→ log fj (Xi ) P . ˜ c p̃c fc (Xi ) i=1 Kiezen we voor fj bijvoorbeeld de normale dichtheid met verwachtingsvector µj , zodat log fj (x) op een constante na gelijk is aan − 12 kx − µj k2 , en maximaliseren naar µj , dan vinden we Pn p̃j f˜j (Xi ) i=1 αi Xi µj = P , αi = P . n ˜ i=1 αi c p̃c fc (Xi ) Dit is een gewogen gemiddelde van de waarnemingen Xi , waarbij de gewichten gelijk zijn aan de voorwaardelijke kans αi = Pp̃,f˜(Ci = j|Xi ) dat het ie object tot de j e klasse behoort, berekend volgens de huidige schatting (p̃, f˜) van de parameters. Deze updatingformules itereren we nu herhaaldelijk totdat het resultaat nog nauwelijks wijzigt. Uit de maximum likelihood-schattingen van de parameters vinden we ook een maximum likelihood-schatting van de kans Pp,f (Ci = j| Xi ) dat het ie object tot cluster j behoort. We zouden het object kunnen toewijzen aan het cluster waarvoor deze kans het grootst is. 78 4: Schatters 4.4 Momentenschatters De methode van de momenten is een alternatief voor de maximum likelihood-methode. Omdat de momentenmethode vaak niet de volledige informatie uit het statistische model gebruikt, zijn momentenschatters vaak minder efficiënt dan maximum likelihood-schatters. Aan de andere kant is de methode soms makkelijker te implementeren. Bovendien vereist de methode alleen de theoretische vorm van de momenten en niet de gehele kansverdeling van de waarnemingen. Aangezien deze momenten vaak gemakkelijker op een realistische manier zijn te modelleren dan de hele kansverdeling, kan dit een groot voordeel zijn. Het gebruik van een verkeerd model om schatters te construeren kan daardoor worden voorkomen. Het j e moment van een stochastische variablele is gedefinieerd als E(X j ), mits deze verwachting bestaat. Op basis van onderling onafhane kelijke en identiek verdeelde X1 , . . ., Xn kan Pnhet j moment geschat worden met het j e steekproefmoment X j = n−1 i=1 Xij . Bij de methode van de momentenschatters schatten we de parameter θ door vergelijkingen van de volgende vorm op te lossen naar θ: Eθ Xij = X j , j = 1, . . ., k. Hierin wordt k zo laag mogelijk gekozen. Voor een eendimensionale parameter θ volstaat k = 1, mits de verwachtingswaarde van de marginale verdeling afhangt van θ. In dat geval wordt het eerste moment dus geschat met het steekproefgemiddelde en wordt θ̂ vervolgens zodanig gekozen dat dit eerste moment in verwachting gelijk is aan het steekproefgemiddelde onder θ̂. Wanneer het eerste moment niet afhangt van θ of θ een hoger dimensionale parameter is, wordt k > 1 zo laag mogelijk gekozen, onder de voorwaarde dat de vergelijkingen oplosbaar zijn naar θ. De momentenschatter voor g(θ) met g: Θ → H een functie met bereik H is gedefinieerd als g(θ̂) met θ̂ de momentenschatter voor θ. Voorbeeld 4.28 (Exponentiële verdeling). Veronderstel dat X1 , . . ., Xn een steekproef is uit een exponentiële verdeling met onbekende parameter λ. Dan is Eλ Xi = 1/λ. De momentenschatter van λ wordt nu gevonden door de vergelijking X = 1/λ op te lossen naar λ. Dit geeft λ̂ = 1/X als momentenschatter voor λ. Deze schatter is ook de maximum likelihoodschatter voor λ (zie Voorbeeld 4.15). Voorbeeld 4.29 (Homogene verdeling). Veronderstel dat X1 , . . ., Xn een steekproef uit de hom[0, θ]-verdeling is met onbekende parameter θ. Dan is Eθ Xi = θ/2 en de momentenschatter voor θ is gelijk aan θ̂ = 2X. De maximum likelihood-schatter voor θ is gelijk aan X(n) (zie Voorbeeld 4.12). In Voorbeeld 4.5 hebben we gezien dat de verwachte kwadratische fout van X(n) kleiner is dan die van 2X. 4.4: Momentenschatters 79 Voorbeeld 4.30 (Normale verdeling). Veronderstel dat X1 , . . ., Xn een steekproef uit de N(0,σ 2 )-verdeling is met onbekende parameter σ 2 > 0. Dan is Eσ2 Xi = 0 en dus is het eerste moment niet bruikbaar voor het bepalen van de momentenschatter voor σ 2 . Het tweede moment van Xi is gelijk aan Eσ2 Xi2 = σ 2 . De momentenschatter voor σ 2 is dan gelijk aan σ̂ 2 = X 2 . Als de verwachting van Xi onbekend of ongelijk aan nul was geweest, dan hadden we een andere momentenschatter voor σ 2 gevonden (zie Voorbeeld 4.32). Voorbeeld 4.31 (Gamma-verdeling). Veronderstel dat X1 , . . ., Xn de Gamma-verdeling met onbekende vorm- en inverse schaalparameter α en λ hebben. Dan is Eα,λ Xi = α/λ en varα,λ Xi = α/λ2 , en dus is het tweede moment gelijk aan Eα,λ Xi2 = var Xi +(EXi )2 = α(1+α)/λ2 . De momentenschatters voor α en λ worden gevonden uit het oplossen van de volgende twee vergelijkingen Eα,λ Xi = α/λ = X Eα,λ Xi2 = α(1 + α)/λ2 = X 2 naar α en λ. Dit geeft α̂ = (X)2 X2 − (X)2 en λ̂ = X X2 − (X)2 . Het berekenen van de maximum likelihood-schatters voor α en λ is lastig (zie Voorbeeld 4.19), omdat er geen expliciete uitdrukkingen voor de schatters bestaan. Hierboven zijn daarentegen voor de momentenschatters voor α en λ wel expliciete uitdrukkingen afgeleid. Voorbeeld 4.32 (Verwachting en variantie). Zij X1 , . . ., Xn een steekproef met verwachting µ en variantie σ 2 . Het oplossen van µ en σ 2 uit de vergelijkingen Eµ,σ2 Xi = µ = X, Eµ,σ2 Xi2 = µ2 + σ 2 = X 2 , geeft de momentenschatters voor µ en σ 2 : n µ̂ = X, σ̂ 2 = X 2 − (X)2 = 1X (Xi − X)2 . n i=1 Als de onderliggende verdeling N (µ, σ 2 ) is, dan zijn bovenstaande momentenschatters gelijk aan de maximum likelihood-schatters voor µ en σ 2 (zie Voorbeeld 4.17). 80 4: Schatters * 4.4.1 Gegeneraliseerde Momentenschatters De methode van de momentenschatters kan op verschillende manieren worden P gegeneraliseerd. Zo kunnen we in plaats van Pn de steekproefmomenten n n−1 i=1 Xij , gemiddelden van het type n−1 i=1 g(Xi ) gebruiken voor geschikt gekozen functies g. Het is verder niet nodig dat de waarneming X een steekproef is, en we kunnen ook algemene functies van X gebruiken in plaats van gemiddelden. De essentie is het oplossen van een stelsel vergelijkingen van het type g(X) = e(θ) voor geschikt gekozen functies en e(θ) = Eθ g(X). Is de parameter k-dimensionaal, dan ligt het voor de hand om k vergelijkingen te gebruiken voor de definitie van de momentenschatter. De vraag rijst dan: welke functies? In feite reduceert de methode der momenten de waarnemingen eerst tot de waarden van k functies van die waarnemingen, en de momentenschatter is gebaseerd op deze gereduceerde data. Als de oorspronkelijke data niet uit de k waarden zijn te reconstrueren, leidt deze reductie tot een verlies van informatie. De keuze van de gebruikte functies is daarom van belang voor de efficiëntie van de resulterende schatters. Een mogelijke uitweg voor dit verlies aan informatie is om meer momenten te gebruiken dan onbekende parameters. Omdat dit leidt tot meer vergelijkingen dan onbekenden, zal het in dat geval meestal niet mogelijk zijn een parameterwaarde te vinden waarvoor de steekproefmomenten exact gelijk zijn aan de theoretische momenten. We zouden in plaats daarvan een afstandsmaat tussen deze twee typen momenten kunnen minimaliseren, bijvoorbeeld een uitdrukking van de vorm l ³ X n X 1 j=1 n i=1 ´2 gj (Xi ) − Eθ gj (X1 ) . De functies g1 , . . ., gl zijn bekende, vast gekozen functies. De schatter θ̂ is de waarde van θ waarvoor deze uitdrukking minimaal is. Deze methode staat bekend (vooral in de Econometrie) als de generalized method of moments. 4.5 Bayes-schatters De methode van Bayes is de oudste methode voor het construeren van schatters, gesuggereerd door Thomas Bayes aan het eind van de 18e eeuw. De methode is omgeven door een filosofie aangaande de beste manier om onzekerheid uit te drukken. Deze filosofie (in zijn strikte vorm) heeft als uitgangspunt dat het statistische model geen unieke parameterwaarde bevat die correspondeert met de “ware” toestand van de werkelijkheid. Iedere parameterwaarde bezit echter een waarschijnlijkheid, die zo nodig op een subjectieve, persoonlijke manier kan worden vastgesteld. Op dit subjectieve 4.5: Bayes-schatters 81 element wordt veel kritiek geuit. Bayesiaanse methoden in een meer objectieve zin zijn echter breed geaccepteerd en kennen sinds de jaren ’90 van de vorige eeuw een grote populariteit, omdat aanvankelijke problemen met de berekeningen nu kunnen worden opgelost met computersimulatie (zie Paragraaf 4.5.1). Een volledig Bayesiaanse handelswijze begint met de specificatie van een zogenaamde a priori kansverdeling op de parameterverzameling Θ, in aanvulling op de specificatie van een statistisch model (of likelihoodfunctie). Deze kansverdeling wordt vervolgens aangepast aan beschikbare data door middel van een toepassing van de regel van Bayes uit de kansrekening. Deze aangepaste kansverdeling heet de a posteriori kansverdeling. We zullen de methode van Bayes allereerst beschrijven als een methode om schatters te construeren, en zullen dit updatingmechanisme van de kansverdeling nader beschrijven in Paragraaf 4.5.1. Bayes-schatters worden geconstrueerd uitgaande van een a priori kansverdeling op de parameterverzameling Θ. Deze kansverdeling wordt gekozen op grond van ad hoc argumenten, dan wel als een uitdrukking van de a priori, zo nodig subjectieve inschatting van de waarschijnlijkheid van de verschillende parameterwaarden. De noodzaak van het kiezen van een a priori verdeling wordt aan de ene kant vaak als een zwakte van de methode van Bayes-schatters gezien, maar is anderzijds zeer aantrekkelijk voor het genereren van een grote collectie schatters: voor iedere a priori verdeling vinden we een andere schatter. De volledige-klassenstelling (Engels: complete class theorem) laat zelfs zien dat, onder bepaalde voorwaarden, alle toelaatbare schatters willekeurig dicht benaderd kunnen worden door Bayes-schatters. Deze stelling zullen we hier niet behandelen. Voor het gemak nemen we de a priori verdeling continu met dichtheid π, een willekeurige kansdichtheid op Θ. Het Bayes-risico van een schatter T voor een reëelwaardige parameter g(θ) is gedefinieerd als het gewogen gemiddelde van de MSE(θ; T ), gewogen volgens π, Z ¡ ¢2 R(π; T ) = Eθ T − g(θ) π(θ) dθ. Dit is een maat voor de kwaliteit van de schatter T , die meer gewicht toekent aan de waarden θ die a priori waarschijnlijker worden geacht. De Bayes-schatter is gedefinieerd als de beste volgens dit kwaliteitscriterium. Het doel is nog steeds een schatter te vinden waarvoor de MSE(θ; T ) voor alle θ klein is, maar het doel wordt concreet gemaakt door de verschillende waarden van θ te wegen. Definitie 4.33. De Bayes-schatter ten opzichte van de a priori dichtheid π is die schatter T die R(π; T ) minimaliseert over alle schatters T . Schrijven we x 7→ pθ (x) voor de kansdichtheid van X, dan kunnen we de Bayes-schatter uitdrukken als een quotiënt van twee integralen. Terwijl 82 4: Schatters de maximum likelihood-schatter is gedefinieerd als de plaats van het maximum van de likelihood-functie, is een Bayes-schatter een soort gewogen gemiddelde van deze functie. Stelling 4.34. De Bayes-schatting voor g(θ) met betrekking tot de a priori dichtheid π wordt gegeven door R g(θ)pθ (x) π(θ) dθ T (x) = R . pθ (x) π(θ) dθ De Bayes-schatting is dus afhankelijk van zowel de likelihood-functie θ 7→ pθ (x) als de a priori dichtheid π. Voorbeeld 4.35 (Exponentiële verdeling). Veronderstel dat de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de exponentiële verdeling met onbekende parameter θ. Als a priori verdeling voor θ nemen we eveneens de exponentiële verdeling, maar nu met bekende parameter λ. De Bayesschatting Tλ (x) voor θ gebaseerd op x = (x1 , . . ., xn ) en ten opzichte van de gegeven a priori verdeling, is ¢ −λθ R ∞ ¡ Qn R ∞ n+1 −θ(λ+Pn xi ) −θxi i=1 θ θe λe dθ θ λe dθ Pn ¢ R0 ∞ ¡Qni=1 . = 0R ∞ −θx −λθ i x ) −θ(λ+ i λe dθ i=1 dθ θn λe i=1 θe 0 0 Het expliciet uitrekenen van de integralen in de teller en noemer van deze breuk is niet de handigste manier om Tλ (x) te bepalen. We zullen zien dat dit makkelijker wordt door eerst de a posteriori dichtheid te bepalen, zie Voorbeeld 4.37. In dat voorbeeld wordt afgeleid dat Tλ (x) = (n + 1)/(λ + Pn x ) de Bayes-schatting i i=1 Pn is. De Bayes-schatter voor θ is dus gelijk aan Tλ (X) = (n + 1)/(λ + i=1 Xi ). Voor grote waarden van n zijn de Bayesschatter Tλ (X) en de maximum likelihood-schatter θ̂ = 1/X ongeveer aan elkaar gelijk. Het bewijs van Stelling 4.34 is een oefening in het manipuleren van voorwaardelijke verdelingen. De volgende “Bayesiaanse” notatie en begrippen zijn daarvoor handig en ook op zichzelf van groot belang. Ze beschrijven de Bayesiaanse methode in een meer omvattend kader, waarbij de zogenaamde a posteriori verdeling het eindpunt van de analyse vormt. Normaal gesproken beschouwen we de parameter θ als deterministisch en is er één “ware” parameterwaarde die de dichtheid x 7→ pθ (x) van de waarneming X bepaalt. Hiervan afwijkend, beschouwen we in deze paragraaf pθ als de voorwaardelijke dichtheid pX|Θ=θ van de variabele X gegeven dat een (hypothetische) stochastische grootheid Θ de waarde θ aanneemt. Deze grootheid Θ geven we de (marginale) kansdichtheid π. Dan is de simultane dichtheid van (X, Θ) gelijk aan pX,Θ (x, θ) = pX|Θ=θ (x)pΘ (θ) = pθ (x)π(θ). 4.5: Bayes-schatters 83 De marginale dichtheid van X in deze Bayesiaanse setting wordt verkregen door de simultane dichtheid te integreren naar θ en is dus Z Z pX (x) = pX,Θ (x, θ) dθ = pθ (x)π(θ) dθ. Derhalve is de voorwaardelijke dichtheid van Θ gegeven dat X = x gelijk aan pX,Θ (x, θ) pθ (x)π(θ) pΘ|X=x (θ) = =R . pX (x) pθ (x)π(θ) dθ (Deze formule is precies de regel van Bayes uit de kansrekening, zie Paragraaf 9.5.) Deze dichtheid heet de a posteriori dichtheid R van Θ. De term in de noemer is slechts een normeringsconstante zodat pΘ|X=x (θ) dθ = 1. Voordat de waarneming bekend was, kenden we aan Θ de a priori dichtheid π toe. Nadat de waarneming bekend is geworden, geeft de a posteriori dichtheid de herziene kansverdeling. De waarneming leidt zo tot het aanpassen van onze a priori gedachten over de parameter. Deze berekeningen tonen aan dat de uitdrukking T (x) in Stelling 4.34 precies de verwachting van g(Θ) onder de a posteriori kansverdeling is, de voorwaardelijke verwachting van g(Θ) gegeven dat X = x. We kunnen deze stelling daarom als volgt herformuleren. Stelling 4.36. Met gebruikmaking van Bayesiaanse notatie wordt de Bayes-schatting voor g(θ) met betrekking tot de a priori dichtheid π gegeven door Z ¡ ¢ T (x) = E g(Θ)| X = x = g(θ)pΘ|X=x (θ) dθ. Bewijs. Allereerst schrijven we het Bayes-risico in Bayesiaanse notatie. De ¡ ¢2 term Eθ T − g(θ) in de gewone notatie is de voorwaardelijke verwachting £¡ ¢2 ¤ E T (X) − g(Θ) | Θ = θ in de Bayesiaanse notatie. Daaruit kunnen we afleiden dat Z ³ ´ ¡ ¢2 R(π; T ) = E T (X) − g(θ) | Θ = θ π(θ) dθ ¡ ¢2 = E T (X) − g(Θ) Z ³ ´ ¡ ¢2 = E T (x) − g(Θ) | X = x pX (x) dx. In bovenstaande is de rekenregel voor decompositie van verwachtingen ¡ ¢2 R EZ = E(Z| Y = y) fY (y) dy met Z = T (X) − g(Θ) tweemaal gebruikt: in de tweede gelijkheid met Y = Θ en in de derde met Y = X. 84 4: Schatters Om R(π; T ) te minimaliseren naar T kunnen we voor iedere x de integrand minimaliseren, omdat de integrand overal niet-negatief is. We zoeken daarom voor iedere x het getal t = T (x) zodanig dat ³¡ ´ ¢2 E t − g(Θ) | X = x pX (x) minimaal is. Omdat voor een gegeven x de term pX (x) een niet-negatieve constante is, is het minimaliseren van bovenstaande integrand naar t equivalent met het minimaliseren van ³¡ ´ ¢2 E t − g(Θ) | X = x naar t. Daarom kan voor iedere x het getal t = T (x) worden gevonden door de laatste uitdrukking te minimaliseren. Nu geeft het minimaliseren van E(Y − t)2 naar t de waarde t = EY , het minimum van de parabool t 7→ E(t − Y )2 = t2 − 2t EY + EY 2 . Hier moeten we dit principe toepassen met een stochastische grootheid Y die verdeeld is volgens de voorwaardelijke ¡ ¢ verdeling van g(Θ) gegeven X = x, en vinden dus t = E g(Θ)| X = x , ¡ ¢ ofwel de Bayes-schatting wordt gegeven door T (x) = E g(Θ)| X = x . Voorbeeld 4.37 (Exponentiële verdeling, vervolg). Veronderstel dat de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de exponentiële verdeling met onbekende parameter θ en dat de a priori dichtheid voor θ de exponentiële verdeling is met bekende parameter λ. In Voorbeeld 4.35 staat een uitdrukking gegeven voor de Bayes-schatting voor θ. Door eerst de a posteriori verdeling te bepalen, kunnen we Bayes-schatting gemakkelijker expliciet bepalen. De a posteriori verdeling wordt gegeven door ¡Qn ¢ −λθ −θxi λe i=1 θe ¡ ¢ R θ 7→ pΘ|X=x (θ) = ∞ Qn −θxi λe−λθ dθ θe i=1 0 Pn Pn n θn e−θ(λ+ i=1 xi ) θ λe−θ(λ+ i=1 xi ) Pn = = R∞ C(x, λ) θn λe−θ(λ+ i=1 xi ) dθ 0 waar C(x, λ) een normeringsconstante is, afhankelijk van x = (x1 , . . ., xn ) en λ, zodat pΘ|X=x een dichtheid is. In deze a posteriori verdeling herkennen we de Gamma-verdeling Pn met vormparameter n + 1 en inverse schaalparameter gelijk aan λ + i=1 xi . In het algemeen is de verwachtingswaarde behorende bij de Gamma-verdeling met vormparameter α en inverse schaalparameter λ gelijk aan α/λ (zie Voorbeeld 9.13). De Bayes-schatting voor θ is de verwachtingswaardePvan de a posteriori verdeling en is dus gelijk n aan Tλ (x) = (n + 1)/(λ i=1 xi ), en de bijbehorende Bayes-schatter is P+ n Tλ (X) = (n + 1)/(λ + i=1 Xi ). Op analoge wijze vinden we de Bayes-schatter voor θ2 . Deze is volgens Stelling 4.36 gelijk aan het tweede moment van de a posteriori verdeling, in 4.5: Bayes-schatters 85 dit geval de Gamma-verdeling met vormparameter n+1 en inverse schaalpaPn rameter λ + i=1 xi . Het tweede moment van een Gamma(α,λ)-verdeelde 2 stochastische grootheid is gelijk aan α/λ2 + (α/λ)2 = (α + 1)α/λ Pn . De 2 Bayes-schatter voor θ is hier dus gelijk aan (n + 2)(n + 1)/(λ + i=1 Xi )2 . Voorbeeld 4.38 (Binomiale verdeling). Veronderstel dat de waarneming X de binomiale verdeling met parameters n en θ bezit, waarin n bekend en 0 ≤ θ ≤ 1 onbekend is. Een handige klasse van a priori dichtheden op [0, 1] is de klasse van Bèta-dichtheden, geparametriseerd door α en β (zie Voorbeeld 9.14) θα−1 (1 − θ)β−1 π(θ) = 1[0,1] (θ). B(α, β) Wanneer we als a priori verdeling voor Θ de Bèta-verdeling met parameters α en β nemen, dan wordt de a posteriori dichtheid gegeven door ¡n¢ x θ (1 − θ)n−x π(θ) θx+α−1 (1 − θ)n−x+β−1 pΘ|X=x (θ) = R 1 ¡xn¢ = , C(x, α, β) θx (1 − θ)n−x π(θ) dθ 0 x met C(x, α, β) een normeringsconstante zodanig dat pΘ|X=x een dichtheid is. Met andere woorden: de a posteriori verdeling van Θ is de Bèta-verdeling met parameters x + α, n − x + β en met C(x, α, β) = B(x + α, n − x + β) voor B de Bèta-functie. Figuur 4.11 laat tweemaal drie realisaties zien van de a posteriori dichtheid. In alle gevallen is de ware parameterwaarde gelijk aan θ = 12 en de a priori dichtheid (gestippelde curve in de figuur) de Bèta-dichtheid met parameters α = 25 en β = 5. In het bovenste plaatje is n = 20, terwijl in het onderste plaatje n = 100. De a priori dichtheid geeft relatief veel kans aan waarden van Θ in de buurt van 1, en is daarom ongunstig voor het schatten van de ware parameterwaarde θ = 12 . De figuren laten zien dat deze verkeerde a priori dichtheid goed wordt gecorrigeerd als voldoende data beschikbaar is, maar doorwerkt in de a posteriori dichtheid als dit niet het geval is. De Bayes-schatting voor θ is nu gegeven door de verwachtingswaarde behorende bij de Bèta-verdeling met parameters x + α en n − x + β. In het algemeen is de verwachtingswaarde behorende bij de Bèta-verdeling met parameters α en β gelijk aan α/(α+β), waaruit volgt dat de Bayes-schatter voor θ gelijk is aan X +α Tα,β (X) = . n+α+β Voor iedere combinatie van parameters (α, β) met α > 0 en β > 0 vinden we een andere schatting. De natuurlijke schatter X/n behoort niet tot de klasse van Bayes-schatters, maar is het limietgeval (α, β) → (0, 0). Welke schatter moeten we nu gebruiken? Als we sterke gevoelens hebben aangaande een a priori verdeling, dan kunnen we de bijhorende 86 0 2 4 6 8 10 4: Schatters 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 0.0 Figuur 4.11. Drie realisaties van de a posteriori dichtheid in de gevallen n = 20 (boven) en n = 100 (onder). De a priori dichtheid (gestippeld) is in beide gevallen gelijk aan de Bètadichtheid met α = 25 en β = 5. De realisaties (doorgetrokken) zijn gebaseerd op trekkingen uit de binomiale verdeling met parameters n en 21 . Bayes-schatter gebruiken. Een probleem is dat een andere onderzoeker heel andere “gevoelens” zou kunnen hebben en zodoende tot een andere a priori verdeling, en dus een andere schatting, zou komen. Op zich zijn geen van beide Bayes-schatters “verkeerd”. Beide schatters zijn immers het beste op het moment dat we zouden besluiten het corresponderende Bayes-risico als kwaliteitscriterium te nemen. Toch is het verstandig de schatters nader te vergelijken, bijvoorbeeld door de verwachte kwadratische fouten te berekenen. Deze zijn gelijk aan ³ X +α ´2 −θ n+α+β ³ E X +α ´2 varθ X θ = + −θ 2 (n + α + β) n+α+β ¡ ¢ ¢ 2 2 θ (α + β) − n + θ(n − 2α(α + β) + α2 = . (n + α + β)2 MSE(θ; Tα,β ) = Eθ Figuur 4.12 geeft een schets van de verwachte kwadratische fout van enkele schatters als functie van θ. Iedere schatter is wel ergens beter dan een andere, en is er geen absoluut beste schatter. Interessante speciale gevallen 4.5: Bayes-schatters 87 0.0 0.005 0.010 0.015 0.020 0.025 0.030 √ zijn α = β = 12 n (constante verwachte kwadratische fout) en α = β = 0 (schatter X/n). De keuze α = β = 1 correspondeert met de homogene a priori verdeling, die alle θ ∈ [0, 1] a priori dezelfde kans geeft. Dat laatste lijkt redelijk, maar deze schatter wordt toch zelden gebruikt. Gelukkig zijn de verschillen klein als n groot is, en verdwijnen zelfs als n → ∞. Merk op dat in de onderste grafiek (corresponderend met n = 100) in Figuur 4.11 de drie realisaties van de a posteriori verdeling dichter bij de ware waarde 1/2 liggen, maar ook meer geconcentreerd zijn. De a posteriori dichtheden ogen verrassend normaal. We komen hierop terug in Paragraaf 6.6, waar we ook zullen zien dat Bayes- en maximum likelihood-schatters meestal weinig verschillen als het aantal waarnemingen groot is. 0.0 0.2 0.4 0.6 0.8 1.0 Figuur 4.12. Verwachte kwadratische fout van de Bayes-schatters √ √ Tα,β met n = 20, α = β = 12 n (constant), α = β = 0 (krom, doorgetrokken), α = n, β = 0 (gestreept, lineair), α = β = 1 (kort gestreept) als functie van θ. Voorbeeld 4.39 (Geometrische verdeling). Veronderstel dat de waarneming X = (X1 , . . ., Xn ) een steekproef is uit de geometrische verdeling met parameter θ, Pθ (X1 = x) = (1 − θ)x−1 θ, x = 1, 2, . . ., waarbij 0 ≤ θ ≤ 1 onbekend is. Als a priori verdeling voor θ kiezen we de Bèta-verdeling met parameters α = β = 2 met kansdichtheid π(θ) = 6(1 − θ)θ, θ ∈ (0, 1). Dan wordt de a posteriori verdeling gegeven door Qn Pθ (Xi = xi )π(θ) θn+1 (1 − θ)n(x−1)+1 pΘ|X=x (θ) = R 1 Qi=1 = . n C(x1 , . . ., xn ) i=1 Pθ (Xi = xi )π(θ) dθ 0 88 4: Schatters In deze a posteriori verdeling van θ herkennen we de Bèta-verdeling met parameters n+2 en n(x−1)+2. Net als in het voorgaande voorbeeld vinden we nu de Bayes-schatter voor θ uit de verwachting van de Bèta-verdeling, T (X) = (n + 2)/(nX + 4). * 4.5.1 MCMC Methoden Het principe van de methode van Bayes is eenvoudig: uitgaande van een model en een a priori verdeling berekenen we de a posteriori verdeling met behulp van de regel van Bayes. Het rekenwerk in de laatste stap is echter niet altijd eenvoudig. Traditioneel worden vaak a priori verdelingen gekozen die het rekenwerk voor het gegeven model vereenvoudigen. De combinatie van de binomiale verdeling met de Bèta a priori verdeling is daarvan een voorbeeld. Meer recent vervangt men het analytische rekenwerk wel door stochastische simulatie, zogenaamde Markov Chain Monte Carlo (of MCMC) methoden. In principe is het met dergelijke methoden mogelijk een willekeurige a priori verdeling te combineren met een gegeven statistisch model. In deze paragraaf geven we een zeer beknopte introductie tot deze methoden. Gegeven een waarneming X, met realisatie x, met kansdichtheid pθ en een a priori dichtheid π, is de a posteriori dichtheid proportioneel aan de functie θ 7→ pθ (x)π(θ). In de meeste gevallen is het makkelijk om deze uitdrukking te berekenen, omdat deze functie direct gerelateerd is aan de specificatie van het statistische model en de a priori verdeling. Om de Bayes-schatter of de a posteriori verdeling te berekenen, is het echter nodig de integraal van de functie in het display en de integraal van θ maal de functie relatief ten opzichte van θ, voor gegeven x, te evalueren. Het feit dat dit lastig kan zijn, heeft de populariteit van Bayes-schatters geen goed gedaan. Het is weinig attractief gedwongen te zijn tot een bepaalde a priori dichtheid om wille van de eenvoud van de berekeningen. Als de parameter θ laagdimensionaal is, bijvoorbeeld reëelwaardig, dan is het redelijk recht-toe recht-aan om de berekeningen numeriek te implementeren, bijvoorbeeld door de integralen te benaderen met sommen. Voor hogerdimensionale parameters, bijvoorbeeld van dimensie groter dan of gelijk aan 4, zijn de problemen groter. Simulatie methoden hebben deze problemen sinds 1990 verzacht. MCMC methoden zijn een algemene procedure voor het simuleren van een Markov keten Y1 , Y2 , . . . waarvan de marginale verdelingen ongeveer gelijk zijn aan de a posteriori verdeling. Voordat we de MCMC algoritmen beschrijven, bespreken we in de volgende alinea’s enkele essentiële begrippen uit de theorie van de Markov ketens. Een Markov keten is een rij Y1 , Y2 , . . . stochastische grootheden waarvan de voorwaardelijke verdeling van Yn+1 gegeven de voorgaande grootheden Y1 , . . ., Yn alleen van Yn afhangt. Een equivalente formulering is dat 4.5: Bayes-schatters 89 gegeven de “huidige” variabele Yn de “toekomstige” variabele Yn+1 onafhankelijk is van het “verleden” Y1 , . . ., Yn−1 . We kunnen de variabele Yn dan zien als de toestand op het “tijdstip” n, en voor het simuleren van de volgende toestand Yn+1 is het voldoende de huidige toestand Yn te kennen, zonder interceptie van de voorgaande toestanden te kennen. We zullen alleen Markov ketens beschouwen die “tijd-homogeen” zijn. Dit wil zeggen dat de voorwaardelijke verdeling van Yn+1 gegeven Yn niet afhangt van n, zodat de overgang van de ene toestand naar de volgende toestand steeds volgens hetzelfde mechanisme plaats vindt. Het gedrag van de keten wordt dan volledig bepaald door de overgangskern Q gegeven door Q(y, B) = P(Yn+1 ∈ B| Yn = y). Voor een vaste y geeft B 7→ Q(B| y) de kansverdeling op het volgende tijdstip gegeven de huidige toestand y. Vaak wordt Q gegeven door een overgangsdichtheid q. Dit is de R voorwaardelijke dichtheid van Yn+1 gegeven Yn en voldoet aan Q(y, B) = B q(y, z) dz, waarbij de integraal moet worden vervangen door een som in het discrete geval. Een kansverdeling Π heet een stationaire verdeling voor de overgangskern Q als, voor iedere eventualiteit B, Z Q(y, B) dΠ(y) = Π(B). Deze vergelijking zegt precies dat de stationaire verdeling behouden blijft onder de overgang van Yn naar Yn+1 . Bezit Y1 de stationaire verdeling, dan bezit ook Y2 de stationaire verdeling, etc. Als Q een overgangsdichtheid q bezit en Π een dichtheid π (die dan stationaire dichtheid wordt genoemd), dan is een equivalente vergelijking Z q(y, z) π(y) dy = π(z). Deze laatste vergelijking geeft een eenvoudige manier om stationaire verdelingen te karakteriseren. Een dichtheid π is een stationaire dichtheid als voldaan is aan de detailed balance relatie π(y)q(y, z) = π(z)q(z, y). Deze relatie eist dat een overgang van y naar z even waarschijnlijk is als een overgang van z naar y, als in beide gevallen het startpunt een random punt is gekozen volgens π. Een Markov keten met deze eigenschap wordt reversibel genoemd. Dat de detailed balance relatie impliceert dat π een stationaire dichtheid is, kan worden gezien door de beide kanten Rvan de relatie naar y te integreren, en gebruik te maken van de gelijkheid q(z, y) dy = 1, voor iedere z. De MCMC algoritmen genereren een Markov keten met een overgangskern waarvan de stationaire dichtheid gelijk is aan de a posteriori verdeling, met de waargenomen waarde x vast genomen. De dichtheid y 7→ π(y) 90 4: Schatters in de voorgaande algemene discussie van Markov ketens wordt in de toepassing op het berekenen van de a posteriori dichtheid dus vervangen door de dichtheid die proportioneel is aan θ 7→ pθ (x)π(θ). Gelukkig is in de simulatie schema’s de proportionaliteits constante onbelangrijk. Omdat het meestal lastig is de eerste waarde Y1 van de keten te genereren volgens de stationaire dichtheid (= a posteriori dichtheid) is een MCMC Markov keten meestal niet stationair. Wel convergeert de keten naar stationariteit als n → ∞. In de praktijk simuleert men de keten over een groot aantal stappen, en gooit vervolgens de eerste gesimuleerde data Y1 , . . ., Yb weg, de zogenaamde “burn-in”. De resterende variabelen Yb+1 , Yb+2 , . . ., YB kunnen dan worden opgevat als een realisatie van een Markov keten met de a posteriori verdeling als stationaire verdeling. Door middel van bijvoorbeeld een histogram van Yb+1 , . . ., YB verkrijgen we dan een goede indruk van de a posteriori dichtheid, en het gemiddelde van Yb+1 , . . ., YB is een goede benadering van de Bayes-schatter, de a posteriori verwachting. De motivatie voor het gebruik van deze “empirische benaderingen” is hetzelfde als in Paragraaf 3.2.1, met dit verschil dat de variabelen Y1 , Y2 , . . . thans een Markov keten vormen, en dus niet onafhankelijk zijn. Voor vele Markov ketens geldt echter ook een Wet van de Grote Aantallen en deze garandeert dat ook nu gemiddelden zich asymptotisch gedragen als verwachtingen. Wel blijkt de snelheid van convergentie sterk af te hangen van de overgangskern, zodat in de praktijk het nog een hele kunst kan zijn om een MCMC algoritme op te zetten dat binnen een redelijke (CPU) tijd goede benaderingen levert. Inmiddels bestaan vele typen MCMC algoritmen. De twee belangrijkste algoritmen, welke vaak ook samen worden gebruikt, zijn het MetropolisHastings algoritme en de Gibbs-sampler. Voorbeeld 4.40 (Metropolis-Hastings). Zij q een overgangsdichtheid waarvoor het makkelijk is om te simuleren volgens de kansdichtheid z 7→ q(y, z), voor iedere gegeven y. Definieer α(y, z) = π(z)q(z, y) ∧ 1. π(y)q(y, z) Merk op dat het voldoende is de vorm van π en q te weten; de proportionaliteits constante valt weg. Neem een vaste beginwaarde Y0 en handel vervolgens recursief als volgt: gegeven Yn genereer Zn+1 volgens Q(Yn , ·). genereer Un+1 volgens de homogene verdeling op [0, 1]. if Un+1 < α(Yn , Zn+1 ) laat Yn+1 : = Zn+1 else laat Yn+1 : = Yn . De overgangskern P van de Markov keten Y1 , Y2 , . . . bestaat uit twee stukken, corresponderend met de “if-else” splitsing. Deze kern wordt gege- 4.5: Bayes-schatters 91 ven door Z P (y, B) = Z ³ ´ α(y, z)q(y, z) dz + 1 − α(y, z)q(y, z) dµ(y) δy (B). B Hierin is δy de gedenereerde verdeling (Dirac maat) in y: gegeven Yn = y blijven we in y met kans Z 1 − α(y, z)q(y, z) dz. Het “andere deel” van de keten beweegt volgens de subovergangsdichtheid α(y, z)q(y, z). De functie α is zo gekozen dat het bereik in het interval [0, 1] bevat is en zodanig dat voldaan is aan de detailed balance relatie (4.4) π(y)α(y, z)q(y, z) = π(z)α(z, y)q(z, y). Dit gedeelte van de Markov keten is daarom reversibel. De beweging van y naar y van het eerste “deel” van de keten is trivialerwijze symmetrisch. Uit deze vaststellingen is gemakkelijk af te leiden dat π een stationaire dichtheid voor de Markov keten Y1 , Y2 , . . . is. Een populaire keuze voor de overgangsdichtheid q is de random walk kern q(y, z) = f (z − y) voor een gegeven dichtheid f . Als we f symmetrisch rond 0 kiezen, dan reduceert α(y, z) tot π(z)/π(y). De keuze van een goede kern is echter niet eenvoudig. Het algemene principe is een overgangskern q te kiezen die “bewegingen” naar variabelen Zn+1 in de gehele drager van π voorstelt in de eerste stap van het algoritme, en tegelijkertijd niet te vaak tot de “else” stap leidt, omdat dit de efficiëntie van het algoritme nadelig zou beı̈nvloeden. In MCMC jargon heet het dat we een overgangskern q zoeken die “voldoende mixing is”, “voldoende de ruimte afzoekt”, en “niet te vaak blijft hangen”. Voorbeeld 4.41 (Gibbs-Sampler). De Gibbs-sampler reduceert het probleem van simuleren uit een hoogdimensionale a posteriori dichtheid tot herhaald simuleren uit lagerdimensionale verdelingen. Het algoritme wordt vaak gebruikt in combinatie met de Metropolis-Hastings sampler, als geen geschikte overgangsdichtheid q voor de Metropolis-Hastings algoritme voor handen is. Veronderstel dat π een dichtheid is afhankelijk van m variabelen, en veronderstel dat we over een procedure beschikken om variabelen te genereren uit ieder van de voorwaardelijke dichtheden πi (xi | x1 , . . ., xi−1 , xi+1 , . . .xm ) = R π(x) . π(x) dµi (xi ) Kies een gegeven beginwaarde Y0 = (Y0,1 , . . ., Y0,m ), en handel vervolgens recursief op de volgende wijze: 92 4: Schatters Gegeven Yn = (Yn,1 , . . ., Yn,m ), genereer Yn+1,1 volgens π1 (·| Yn,2 , . . ., Yn,m ). genereer Yn+1,2 volgens π2 (·| Yn+1,1 , Yn,3 . . ., Yn,m ) . . . genereer Yn+1,m volgens πm (·| Yn+1,1 , . . ., Yn+1,m−1 ). De coördinaten worden dus om de beurt vervangen door een nieuwe waarde, steeds conditionerend op de laatst beschikbare waarde van de andere coördinaten. Men kan nagaan dat de dichtheid π stationair is voor ieder van de afzonderlijke stappen van het algoritme (zie Opgave 4.40). Voorbeeld 4.42 (Ontbrekende data). Veronderstel dat in plaats van “volledige data” (X, Y ) we slechts de data X waarnemen. Als (x, y) 7→ R pθ (x, y) een kansdichtheid van (X, Y ) is, dan is x 7→ pθ (x, y) dy een kansdichtheid van de waarneming X. Gegeven een a priori dichtheid π is de a posteriori dichtheid derhalve proportioneel aan Z θ 7→ pθ (x, y) dµ(y) π(θ). We kunnen de voorgaande MCMC algoritmen toepassen op deze a posteriori dichtheid. Als de marginale dichtheid van X (de integraal in het voorgaande display) echter niet analytisch kan worden berekend, dan is het lastig om de MCMC schema’s te implementeren. Een alternatief is om de marginale verdeling niet te berekenen, en de niet-waargenomen waarden Y mee te simuleren. In de Bayesiaanse notatie is de a posteriori verdeling de voorwaardelijke verdeling van een denkbeeldige variabele Θ gegeven de waarneming X. Dit is de marginale verdeling van de voorwaardelijke verdeling van het paar (Θ, Y ) gegeven X. Als we in staat zouden zijn een rij variabelen (Θ1 , Y1 ), . . ., (Θn , Yn ) volgens de laatste voorwaardelijke verdeling te genereren, dan zouden de eerste coördinaten Θ1 , . . ., Θn van deze rij trekkingen uit de a posteriori verdeling zijn. Marginalizeren van een empirische verdeling is hetzelfde als “vergeten” van sommige variabelen, en dit is computationeel heel gemakkelijk! Dus kunnen we een MCMC algoritme toepassen om variabelen (Θi , Yi ) te simuleren uit de kansdichtheid die proportioneel is aan de afbeelding (θ, y) 7→ pθ (x, y)π(θ), met x gelijk aan de waargenomen waarde van de waarneming. Vervolgens gooien we de Y -waarden weg. 4.6: M-Schatters 93 * 4.6 M-Schatters Zij M (θ; X) een willekeurige functie van de parameter en de waarneming. Een M-schatter voor een parameter θ is die waarde van θ die de functie θ 7→ M (θ; X) maximaliseert (of minimaliseert). Nemen we M gelijk aan de likelihood-functie, dan vinden we de maximum likelihood-schatter voor θ. Er zijn echter tal van andere mogelijkheden. De meest gebruikte criterium-functies bij onafhankelijke waarnemingen X = (X1 , . . ., Xn ) hebben een som-structuur: M (θ; X) = n X mθ (Xi ), i=1 voor geschikt gekozen functies mθ (x). Maximaliseren van een functie is vaak hetzelfde als het oplossen van de vergelijkingen verkregen door een afgeleide 0 te stellen. De term “Mschatter” wordt daarom ook gebruikt voor schatters die een vergelijking Ψ(θ; X) = 0 oplossen. Zulke vergelijkingen worden schattingsvergelijkingen (Engels: estimating equations) genoemd. Voorbeeld 4.43 (Mediaan). Het gemiddelde P X van stochastische grootn heden X1 , . . ., Xn minimaliseert de functie θ 7→ i=1 (Xi − θ)2 . Het gemiddelde is een schatting voor het “centrum” van de kansverdeling van de waarnemingen. Een alternatieve schatter met Pn ruwweg een zelfde interpretatie wordt verkregen door de functie θ 7→ i=1 |Xi − θ| te minimaliseren. Men kan laten zien dat dit leidt tot de steekproefmediaan ½ X((n+1)/2) , als n oneven, med{X1 , . . ., Xn } = 1 (X + X ), als n even. (n/2) (n+2)/2) 2 Dit is de “middelste waarneming”. Voorbeeld 4.44 (Kleinste kwadratenschatter). In Voorbeeld 2.7 hebben we kort het enkelvoudige lineair regressiemodel beschreven (zie ook Paragraaf 8.1). Voor afhankelijke variabelen Y1 , . . ., Yn en verklarende variabelen x1 , . . ., xn is Yi = α+βxi +ei . Veelal wordt verondersteld dat de meetfouten e1 , . . ., en onderling onafhankelijk en normaal verdeeld zijn met verwachting 0 en variantie σ 2 . De onbekende parameters α en β kunnen worden geschat met de kleinste kwadratenschatters (KK-schatters); dat zijn de waarden die n X (Yi − α − βxi )2 i=1 minimaliseren naar α en β. Als de meetfouten normaal verdeeld zijn, dan komen de kleinste kwadratenschatters overeen met de maximum likelihoodschatters voor α en β (zie Paragraaf 8.1). De KK-schatters zijn ook bruikbaar zonder de normaliteitveronderstelling. Ze zijn dan geen maximum likelihood-schatters, maar algemene M -schatters. 4: Schatters 5 10 15 94 -4 -2 0 2 4 Figuur 4.13. De functie θ 7→ Σn i=1 |xi − θ| voor x1 , . . ., xn een steekproef ter grootte van 4 uit de standaard normale verdeling. Algemener kunnen we de methode van de kleinste kwadraten gebruiken in het niet-lineaire regressie model Yi = gθ (xi ) + ei , waarin gθ een nietlineaire functie is van θ en e1 , . . ., en niet-waarneembare meetfouten zijn, en x 7→ gθ (x) een functie is die bekend is op een parameter θ na. De KKschatter voor θ minimaliseert het criterium θ 7→ n X ¡ ¢2 Yi − gθ (xi ) . i=1 Als de meetfouten normaal verdeeld zijn, dan is dit ook de maximum likelihood-schatter. Voor een niet-lineaire functie gθ is meestal een numeriek algoritme noodzakelijk voor de berekening van de kleinste kwadratenschatting. Een voorbeeld van niet-lineaire regressie is het fitten van een tijdscurve wanneer waarnemingen y1 , . . ., yn , inclusief meetfouten, van de curve op een aantal tijdstippen x1 , . . ., xn bekend zijn. Als een geparametriseerde curve van de vorm t 7→ gθ (t), bijvoorbeeld gθ (t) = θ0 + θ1 t + θ2 e−θ3 t , met vierdimensionale parameter θ = (θ0 , θ1 , θ2 , θ3 ), dan kunnen we de parameter θ schatten op grond van de metingen (xi , yi ), i = 1, . . ., n. Opgaven 1. Geef een theoretisch verklaring voor de vorm van de histogrammen (exponentieel en normaal) in Figure 4.1. 4: Opgaven 95 2. Veronderstel dat X1 , . . ., Xn onderling onafhankelijk en hom[0, θ]-verdeeld zijn, met θ > 0 onbekend. Bereken de verwachte kwadratische fouten van de schatters cX(n) voor θ, voor iedere waarde van c > 0. Welke waarde voor c geeft de beste schatter? 3. Zij X binomiaal verdeeld met parameters n en p met n bekend en p ∈ [0, 1] onbekend. Zij Tc = cX/n een schatter voor p, waarin c > 0 nog onbepaald is. (i) Voor welke waarde van c is Tc zuiver? (ii) Bepaal de verwachte kwadratische fout van Tc . (iii) Voor welke waarde van c is deze schatter optimaal? Is deze optimale schatter bruikbaar in de praktijk? Leg uit. (iv) Bepaal de limiet van de optimale waarde voor c voor n → ∞. Welke schatter Tc krijg je dan? 4. Zij X1 , . . ., Xn een steekproef uit de Poisson(θ)-verdeling. Men wenst θ2 te schatten. (i) Is (X)2 een zuivere schatter voor θ2 ? (ii) Bepaal een zuivere schatter voor θ2 . 5. Zij X1 , . . ., Xm en Y1 , . . ., Yn onafhankelijke steekproeven zijn uit een alt(p)verdeling, met p ∈ [0, 1] onbekend. Pm Pn (i) Bewijs dat (X + Y )/2 en ( i=1 Xi + j=1 Yj )/(m + n) zuivere schatters zijn voor p. (ii) Welk van deze twee schatters verdient de voorkeur (als m 6= n)? 6. Bij een onderzoek naar discriminatie in Amsterdam wordt aan proefpersonen gevraagd, of ze persoonlijk discriminatie (naar ras, huidskleur, sekse of godsdienst) hebben ondervonden. Men trekt een gestratificeerde steekproef: 50 mannen en 50 vrouwen worden aselect uit de volwassen inwoners van Amsterdam getrokken. Zij X het aantal mannen en Y het aantal vrouwen in de steekproef met discriminerende ervaringen. Definieer: pM = fractie Amsterdamse mannen met discriminerende ervaring pV = fractie Amsterdamse vrouwen met discriminerende ervaring p = fractie Amsterdammers met discriminerende ervaring. Neem eens aan dat pV = 2pM en dat er evenveel mannen als vrouwen in Amsterdam wonen. (i) Bereken de verwachte kwadratische fout van de schatter (X + Y )/100 voor p. Definieer nu Z als het aantal personen met discriminerende ervaring in een gewone (niet-gestratificeerde = enkelvoudige) steekproef van 100 volwassen Amsterdammers. (ii) Bereken de verwachte kwadratische fout van de schatter Z/100 voor p; (iii) Vergelijk de beide verwachte kwadratische fouten. Wat is uw conclusie? 7. Men wil onderzoeken in hoeveel Nederlandse huishoudens een pc aanwezig is. Zij Π de populatie van alle Nederlandse huishoudens. Zij k het aantal gemeenten in Nederland en 1000mi het aantal huishoudens in de ie gemeente, voor i = 1,P 2, . . ., k. Voor het gemak veronderstellen we dat mi ∈ N. In Π zitten dus M = i mi duizendtallen huishoudens. Men trekt nu op de volgende manier een steekproef. Trek eerst uit de verzameling van al deze duizendtallen aselect zonder teruglegging 100 duizendtallen. Zij Yi het aantal getrokken duizend- 96 4: Schatters tallen in de ie gemeente. Trek dan vervolgens in de ie gemeente aselect zonder teruglegging 10Yi huishoudens. Zij pi de fractie huishoudens met pc in de ie gemeente en p de populatiefractie. Schat p met X/1000, waarin X het totaal aantal getrokken huishoudens is met pc. Is X/1000 een zuivere schatter voor p? 8. Bereken de maximum likelihood-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de Poisson(θ)-verdeling. 9. Zij X1 , . . ., Xn een steekproef uit een Weibull-verdeling, waarvan de kansdichtheid wordt gegeven door a pθ (x) = θaxa−1 e−θx , voor x > 0 en 0 anders. Hierin is a een bekend getal en θ > 0 is een onbekende parameter. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Bepaal de maximum likelihood-schatter voor 1/θ. 10. Zij X1 , . . ., Xn een steekproef uit een verdeling met kansdichtheid pθ (x) = θxθ−1 , voor x ∈ (0, 1) en 0 anders. Hierin is θ > 0 een onbekende parameter. (i) Bereken µ = g(θ) = Eθ X1 . (ii) Bepaal de maximum likelihood-schatter voor µ. 11. Een urn bevat een fractie p witte en een fractie 1 − p zwarte ballen. We trekken één voor één ballen met teruglegging uit de urn net zo lang tot een witte bal verschijnt. Zij Yi het aantal vereiste trekkingen. We herhalen dit proces n keer, resulterend in aantallen Y1 , . . ., Yn . Bepaal de maximum likelihood-schatter voor p. 12. Zij X1 , . . ., Xn een steekproef uit de verdeling met kansdichtheid pθ (x) = θx−2 , en 0 (i) (ii) (iii) voor x ≥ θ voor x < θ, met θ > 0 onbekend. Bepaal de maximum likelihood-schatter voor θ. Is deze schatter zuiver? Bepaal de verwachte kwadratische fout van deze schatter. 13. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid pθ (x) = θ(1 + x)−(1+θ) , voor x ≥ 0 en 0 anders, waarin θ > 0 onbekend. Bepaal de maximum likelihood-schatter voor θ. 14. Veronderstel dat X1 , . . ., Xm en Y1 , . . ., Yn twee onafhankelijke steekproeven zijn uit de normale verdeling met parameters (µ1 , σ 2 ) en (µ2 , σ 2 ), respectievelijk. Bepaal de maximum likelihood-schatter voor θ = (µ1 , µ2 , σ 2 ). 15. Men wil het aantal vissen, zeg N stuks, in een vijver schatten. Daartoe gaat men als volgt te werk. Men vangt r vissen en voorziet die van een merkteken. Vervolgens laat men deze vissen weer zwemmen en na verloop van tijd vangt men n vissen (zonder terug te werpen). Zij Xi gelijk aan 0 of 1 als de ie gevangen vis wel of niet gemerkt is (i = 1, .., n). 4: Opgaven 97 P (i) Bepaal de kansverdeling van Xi , uitgedrukt in r, n en N . P n (ii) Bepaal de maximum likelihood-schatter voor N gebaseerd op X. i=1 i 16. Zij X1 , . . ., Xn een steekproef uit een verdeling met een onbekende verdelingsfunctie F . De empirische verdelingsfunctie van de steekproef noteren we met F̂ . (i) Welke verdeling heeft nF̂ (x)? (ii) Is F̂ (x) een zuivere schatter voor F (x)? (iii) Bepaal de variantie van F̂ (x). (iv) Laat zien dat cov(F̂ (u), F̂ (v)) = n−1 (F (m) − F (u)F (v)) met m = min{u, v}. Hieruit volgt dat F̂ (u) en F̂ (v) positief gecorreleerd zijn. 17. (k-means clustering.) Veronderstel dat X1 , . . ., Xn onafhankelijke stochastische grootheden zijn, waarbij voor een onbekende partitie {1, . . ., n} = ∪kj=1 Ij de variabelen (Xi ; i ∈ Ij ) normaal verdeeld zijn met verwachting µj en variantie 1. Laat zien dat de maximum likelihood-schatter Pk Pvoor de partitie2 en de parametervector (µ1 , . . ., µk ) de kwadraatsom (Xi − µj ) minij=1 i∈Ij maliseert. Interpreteer deze procedure in woorden. 18. Zij X1 , . . ., Xn een steekproef uit de exponentiële verdeling met parameter λ, waarbij λ > 0 een onbekende parameter is. (i) Bepaal de maximum likelihood-schatter voor 1/λ2 . (iv) Bepaal een momentenschatter voor 1/λ2 . (iii) Bepaal een zuivere schatter voor 1/λ2 . 19. Zij X1 , . . ., Xn een steekproef uit de binomiale verdeling met parameters n en p, waarbij p ∈ [0, 1] onbekend is. Bepaal de maximum likelihood-schatter en de momentenschatter voor p. 20. Zij X1 , . . ., Xn een steekproef uit de alternatieve verdeling met p ∈ [0, 1] een onbekende parameter. (i) Bepaal de momentenschatter T voor p. (ii) Laat zien dat de schatter T 2 niet zuiver is voor p2 en bepaal vervolgens een zuivere schatter voor p2 . 21. Zij X1 , . . ., Xn een steekproef uit de geometrische verdeling met onbekende parmater p ∈ (0, 1]. Bepaal de momentenschatter voor p. 22. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid pθ (x) = θ(1 + x)−(1+θ) voor x > 0, en 0 anders, met θ > 1 onbekend. Bepaal de momentenschatter voor θ. 23. Zij X1 , . . ., Xn een steekproef uit een verdeling met kansdichtheid pθ (x) = 2x 1{0≤x≤θ} , θ2 waarbij θ > 0 een onbekende parameter is. (i) Bepaal de momentenschatter T voor θ. (ii) Laat zien dat T zuiver is voor θ. (iii) Geef de momentenschatter voor θ2 . (iv) Laat zien dat de momentenschatter voor θ2 niet zuiver is voor θ2 en bepaal vervolgens een zuivere schatter voor θ2 . 98 4: Schatters 24. Zij X1 , . . ., Xn een steekproef uit de kansverdeling gegeven door Pθ (X = x) = 1/θ voor x ∈ {1, 2, . . ., θ}. Hierin is θ ∈ N onbekend. (i) Bepaal de momentenschatter voor θ. (ii) Bepaal de maximum likelihood-schatter voor θ. 25. Zij X1 , . . ., Xn een steekproef uit de hom[σ, τ ]-verdeling met σ < τ onbekend. (i) Bepaal de maximum likelihood-schatter voor de vector (σ, τ ). (ii) Bepaal de momentenschatter voor de vector (σ, τ ). 26. Zij X1 , . . ., Xn een steekproef uit de homogene verdeling op [−θ, θ] met θ > 0 onbekend. (i) Bepaal de maximum likelihood-schatter voor θ. (ii) Bepaal de momentenschatter voor θ. 27. Zij X een stochastische grootheid met eindig tweede moment. Toon aan dat de functie b 7→ E(X − b)2 minimaal is voor b = EX. 28. Zij X een continu verdeelde stochastische grootheid met eindig eerste moment. Toon aan dat de functie b 7→ E|X − b| minimaal is voor b een punt zodanig dat P(X < b) = P(X > b) = 1/2, de populatie-mediaan. 29. Zij X1 , . . ., Xn een steekproef uit de Laplace-verdeling (of dubbel-exponentiële verdeling waarvan de kansdichtheid gelijk is pθ (x) = 1 −|x−θ| e , 2 waarin θ ∈ R. (i) Bepaal de populatie-mediaan (zie vorige som). (ii) Bepaal de maximum likelihood-schatter voor θ. (iii) Bepaal de momentenschatter voor θ. 30. De momentenschatter en maximum likelihood-schatter voor de parameter van een Laplace-verdeling zijn heel verschillend. Het is mogelijk op grond van de theoretische argumenten een voorkeur voor één van de twee schatters uit te spreken, maar de berekeningen zijn aan de ingewikkelde kant. Ga in plaats daarvan door simulatie na welke schatter de voorkeur verdient. Het R-programma in Tabel 4.1 kan hiervoor worden gebruikt. Toelichting: in de eerste regel declareren we twee vectoren (arrays) ter lengte 1000, waarin we 1000 realisaties gaan zetten van de twee schatters. In de laatste twee regels berekenen we de gemiddelde kwadratische afwijking van de twee vectoren tot de echte waarde van de parameter (die 0 is in dit geval). Dit zijn niet de echte verwachte kwadratische fouten, maar wel goede benaderingen ervoor. In de for-loop wordt op de eerste regel een steekproef ter grootte n(n = 100) uit de standaard Laplace-verdeling genomen (op een wat ingewikkelde wijze). Vervolgens wordt op basis van de steekproef de maximum likelihood-schatting en de momentenschatting berekend. Dit wordt 1000 maal herhaald. 31. Zij X1 , . . ., Xn een steekproef uit een kansverdeling met dichtheid pθ (x) = θxθ−1 voor 0 ≤ x ≤ 1 en 0 anders, met θ > 0 onbekend. (i) Bepaal de momentenschatter voor θ. 4: Opgaven 99 momenten = mls = numeric(1000) n = 100 for (i in 1:1000) { x = rexp(n)*(2*rbinom(n,1,0.5)-1) momenten[i] = mean(x) mls[i] = median(x) } msemomenten = mean(momenten^2) msemls = mean(mls^2) Tabel 4.1. R-code voor het vergelijken van de momentenschatter en de maximum likelihood-schatter. (ii) Bepaal de maximum likelihood-schatter voor θ. (iii) Bepaal de Bayes schatter voor θ ten opzichte van de a priori dichtheid π(θ) = e−θ voor θ > 0 en 0 anders. 32. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een waarneming X met de negatieve binomiale verdeling met parameters k (bekend) en θ, relatief ten opzichte van een a priori Bèta-verdeling. 33. Bereken de Bayes-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de hom[0, θ]-verdeling relatief ten opzichte van een hom[0, M ] a priori verdeling. 34. Bereken de Bayes-schatter voor θ gebaseerd op een waarneming X uit de Poisson-verdeling met parameter θ relatief ten opzichte van een Gammaverdeling met parameters α en λ, (i) voor α = 1. (ii) voor algemene α > 0. 35. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de verdeling met kansdichtheid pθ (x) = 2θxe−θx 2 voor x > 0 en 0 anders, relatief ten opzichte van de Gamma-verdeling met parameters α en λ. 36. Bereken de a posteriori verdeling en de Bayes-schatter voor θ gebaseerd op een steekproef X1 , . . ., Xn uit de N (θ, 1)-verdeling relatief ten opzichte van een N (0, τ 2 )-a priori verdeling. Welke schatter vinden we voor τ → ∞? Hoe kan de a priori verdeling voor τ ≈ ∞ worden gekarakteriseerd? 37. Zij X1 , . . ., Xn een steekproef uit een alternatieve verdeling met onbekende parameter p ∈ [0, 1]. We willen de variantie varp (Xi ) = p(1 − p) Bayesiaans schatten relatief ten opzichte van een Bèta(α, β) a priori verdeling voor de parameter p. (i) Bepaal de a posteriori dichtheid voor p relatief ten opzichte van de Bèta(α, β) verdeling. (ii) Bepaal de Bayes-schatters voor p en varp (Xi ). 100 4: Schatters 38. Veronderstel dat we in plaats van de verwachte kwadratische fout de mean absolute deviation (MAD) gebruiken voor het definiëren van een Bayes-schatter: R we vervangen R(π; T ) in Paragraaf 4.5 door Eθ |T − θ| π(θ) dθ en definiëren een Bayes-schatter als de schatter T waarvoor deze uitdrukking minimaal is. Laat zien de mediaan van de a posteriori verdeling in dat geval een Bayesschatter is. 39. Implementeer een Metropolis-Hastings algoritme voor de berekening van de a posteriori verdeling voor θ gebaseerd op een steekproef uit de N (θ, 1)-verdeling, relatief ten opzichte van een normale of een Cauchy a priori dichtheid. Experimenteer met verschillende proposal overgangskernen q. 40. Zij Y = f (X) een functie van een stochastische vector X met verdeling Π en zij Q(y, B) = P(X ∈ B| Y = y) de voorwaardelijke verdeling van X gegeven Y = y. Als we X genereren volgens Π, “coarsen” X tot Y = f (X) en vervolgens Z genereren volgens de kansverdeling Q(Y, ·), dan bezit Z verdeling Π. (i) Bewijs dit. (ii) Pas dit toe met f (x) = xi om te bewijzen dat de Gibbs-sampler stationaire dichtheid π bezit. ERFELIJKHEIDSONDERZOEK Ouders met blauwe ogen hebben kinderen met blauwe ogen. Daarentegen hoeven ouders met obesitas geen kinderen met obesitas te hebben. Sommige eigenschappen, als oogkleur, worden geheel genetisch bepaald en liggen bij de geboorte al vast. Andere eigenschappen, als het hebben van obesitas, zijn slechts deels erfelijk bepaald, en worden tevens door omgevingsfactoren, als voeding en levensstijl, beı̈nvloed. Onderzoek bij een- en twee-eiige tweelingen kan inzicht geven in hoeverre eigenschappen van mensen bepaald worden door erfelijke of omgevingsfactoren of een wisselwerking tussen beide. Een eeneiige tweeling ontstaat als een bevruchte eicel zich in tweeën splitst voordat de cel zich in de baarmoederwand innestelt. Eeneiige tweelingen zijn genetisch gezien identiek en daardoor ook altijd van hetzelfde geslacht. Twee-eiige tweelingen ontstaan doordat de moeder een dubbele eisprong had en beide eicellen bevrucht werden. Gemiddeld genomen hebben twee-eiige tweeling 50% van het erfelijk materiaal gemeen en zijn in genetisch opzicht gewoon broers en zusters van elkaar. Tweelingen groeien veelal op in hetzelfde gezin, gaan naar dezelfde school en hebben dezelfde levensstijl; zij worden dus blootgesteld aan min of meer dezelfde omgevingsfactoren. Als voor een bepaalde eigenschap de correlatie binnen eeneiige tweelingparen groter is dan die binnen twee-eiige tweelingparen, dan is dit verschil toe te schrijven aan de mate van overeenkomsten in het genetische materiaal; immers omgevingsfactoren binnen tweelingen komen nagenoeg overeen. De betreffende eigenschap wordt dan dus deels erfelijk bepaald. Zijn, daarentegen, de correlaties min of meer aan elkaar gelijk (en ongelijk aan 0), dan wordt de eigenschap met name door omgevingsfactoren bepaald. Het Nederlands Tweelingen Register (zie: www.tweelingenregister.org) bevat gegevens van tweelingen en hun familieleden ten behoeve van wetenschappelijk onderzoek op het gebied van gezondheid, levensstijl en persoonlijkheid. Het register bevat onder andere gegevens van de lichaamslengte van tweelingen. Op basis van deze gegevens willen we een indicatie krijgen in hoeverre individuele verschillen in volwassen lichaamslengte genetisch bepaald worden. Mannen zijn gemiddeld genomen langer dan vrouwen. In onderzoek naar de erfelijkheid van lichaamslengte moeten we daarom rekening houden met het geslacht. Om de notatie eenvoudig te houden, beperken we ons hier tot mannelijke een- en twee-eiige tweelingen; een uitbreiding naar vrouwelijke en gemengde tweelingen is qua methode eenvoudig, maar qua notatie lastig. We noteren de lichaamslengte van een jongvolwassen tweelingpaar van het mannelijke geslacht met (X1 , X2 ) en veronderstellen dat de lengten X1 en X2 geschreven kunnen worden als de som van een gemiddelde lengte µ en drie stochastische componenten: X1 = µ + G1 + C + E1 X2 = µ + G2 + C + E2 , 102 4: Schatters welke staan voor de afwijking van de gemiddelde populatielengte door genetische invloeden (G1 en G2 ), door omgevingsfactoren die de tweeling gemeenschappelijk heeft (C) en voor individueel specifieke invloeden, zowel genetische als omgevingsinvloeden (E1 en E2 ). Veelal wordt verondersteld dat de variabelen voor genetische, omgevings en individueel specifieke invloeden onafhankelijk van elkaar zijn: (G1 , G2 ), C en (E1 , E2 ) zijn onderling onafhankelijk. Dit betekent dat aangenomen wordt dat er geen interactie bestaat tussen de omgeving en genetische invloeden (of aan deze aanname is voldaan, valt te betwijfelen). We veronderstellen dat G1 en G2 gelijk verdeeld zijn met verwachting 0 en onbekende variantie σg 2. De variabelen G1 en G2 beschrijven genetische invloeden op de variatie van lichaamslengte van individuen waarvan het genetisch materiaal geheel of deels overeen komen; G1 en G2 zijn dus gecorreleerd. Eeneiige tweelingen zijn in genetisch opzicht identiek; voor hen geldt dat G1 = G2 (met kans 1) en dus de correlatie tussen G1 en G2 gelijk is aan cor(G1 , G2 ) = 1. Twee-eiige tweelingen delen slechts een deel van hun genen, zodat G1 en G2 niet aan elkaar gelijk zijn, maar wel gecorreleerd. Gemiddeld genomen hebben twee-eiige tweelingparen 50% van hun genetisch materiaal gemeenschappelijk. Onder de aanname van bovenstaand additief model (en enkele andere aannamen) kan worden aangetoond dat de correlatie tussen G1 en G2 gelijk is aan cor(G1 , G2 ) = 1/2. De individueel specifieke invloeden E1 en E2 worden onafhankelijk en gelijk verdeeld verondersteld, met verwachting 0 en onbekende variantie σ2e . De verwachting en variantie van C zijn 0 en σ2c . Met bovenstaande aannames geldt dat X1 en X2 gelijk verdeeld zijn met verwachting EXi = µ en variantie σ2: = var Xi gelijk aan σ2 = var(µ + Gi + C + Ei ) = var Gi + var C + var Ei = σ2g + σ2c + σ2e , i = 1, 2 waarbij de tweede gelijkheid geldt vanwege de onderlinge onafhankelijkheid van de verschillende componenten. De term h2: = var Gi / var Xi = σg 2/σ2 wordt ook wel “heritabiliteit” genoemd. Heritabiliteit beschrijft de mate waarin variatie tussen, in dit geval, lichaamslengte van individuen veroorzaakt wordt door genetische verschillen. Heritabiliteit is minimaal gelijk aan 0 en maximaal 1, omdat σ2g ≤ σ2. Als heritabiliteit voor lichaamslengte gelijk aan 1 is, dan is σg 2 = σ2 en σ2c = σ2e = 0; variatie van lichaamslengte tussen mensen is dan volledig genetisch bepaald. Als de heritabiliteit gelijk aan 0 is, dan is σg 2 = 0. Omdat tevens de verwachtingen EG1 = EG2 = 0, zijn G1 en G2 gelijk aan 0 met kans 1; variatie in lichaamslengte wordt dan geheel niet genetisch bepaald. Het doel is h2 te schatten op basis van een steekproef van lichaamslengtes van een- en twee-eiige tweelingenparen. Daartoe schrijven we eerst h2 in termen van de correlaties tussen de lichaamslengtes binnen een- en 4: Erfelijkheidsonderzoek 103 twee-eiige tweelingparen, ρ1 en ρ2 , en schatten deze parameters vervolgens met de steekproef correlaties. De correlatie tussen de lichaamslengtes binnen een tweelingpaar is gelijk aan cov(X1 , X2 ) cov(µ + G1 + C + E1 , µ + G2 + C + E2 ) √ √ = var X1 var X2 var X1 var X2 cov(G1 , G2 ) cov(C, C) cov(G1 , G2 ) σ2c = + = + , σ2 σ2 σ2 σ2 waar de tweede gelijkheid volgt uit de onafhankelijkheidsaannames. De covariantie van de genetische componenten G1 en G2 binnen eeneiige tweelingparen is gelijk aan cov(G1 , G2 ) = var G1 = σ2g , omdat G1 = G2 met kans 1. Binnen twee-eiige tweelingparen is deze covariantie gelijk aan p 1 1 cov(G1 , G2 ) = cor(G1 , G2 ) var G1 var G2 = var G1 = σg 2. 2 2 Uit bovenstaande berekeningen volgt nu dat de correlaties ρ1 en ρ2 gelijk zijn aan: 1 σg 2 + σc 2 σg 2 + σc 2 ρ1 = ρ2 = 2 . σ2 σ2 Er volgt direct dat ρ1 ≥ ρ2 met een gelijkheid als σg 2 = 0. Ofwel, de correlatie tussen de lichaamslengtes binnen eeneiige tweelingparen is groter dan of gelijk aan de correlatie tussen de lichaamslengtes binnen twee-eiige tweelingparen. Gelijkheid is er alleen als er geen genetische invloeden zijn op de variatie van lichaamslengte en het verschil is maximaal als de variatie in lichaamslengte volledig genetisch bepaald is; als σ2c = 0. Uit de uitdrukkingen van de correlaties ρ1 en ρ2 volgt dat de heritabiliteit gelijk is aan h2 = 2(ρ1 − ρ2 ). Om een schatting voor h2 te vinden, kunnen we ρ1 en ρ2 schatten met hun steekproef correlaties, Pn (X1,i − X 1 )(X2,i − X 2 ) p p rX1 ,X2 = i=1 (n − 1) S2X1 S2X2 op basis van alleen een- en twee-eiige tweelingen, respectievelijk. In de voorgaande formule staan X1,i en X2,i voor het eerste en tweede individu van het ie tweelingpaar, zijn X 1 en X 2 gelijk aan de steekproefgemiddelden van de eerste en tweede individuen binnen de tweelingparen, en zijn S2X1 en S2X2 de corresponderende steekproefvarianties. Deze methode voor het schatten van heritabiliteit heeft veel overeenkomsten met de methode van de momentenschatter; immers de onbekende parameters worden gevonden door een theoretische kwantiteit, in dit geval de correlatie, gelijk te stellen aan de steekproef waarde van dezelfde kwantiteit. Omdat de marginale verdeling voor lichaamslengte voor alle individuen in de data-set gelijk is, ligt het voor 104 4: Schatters de hand X 1 en X 2 te vervangen door een gemiddelde lichaamslengte over alle individuen, zowel één- als twee-eiig en zowel eerste als twee individu in een tweelingpaar. Hetzelfde kan worden overwogen voor de steekproefvariantie in de noemer van rX1 ,X2 . In de Figuren 3.11 en 3.12 zijn de lichaamslengtes van een- (Figuur 3.11) en twee-eiige (Figuur 3.12) tweelingen tegen elkaar uitgezet. Duidelijk te zien is dat de correlatie tussen de lengten binnen eeneiige tweelingparen groter is dan binnen twee-eiige tweelingparen. De steekproefcorrelaties voor eeneiige tweelingen zijn gelijk aan 0.87 en 0.96 voor mannelijke en vrouwelijke eeneiige tweelingen en 0.55 en 0.50 voor mannelijke en vrouwelijke twee-eiige tweelingen. Verder wordt heritabiliteit geschat met 0.64 voor mannen en 0.92 voor vrouwen. Een andere methode om de heritabiliteit te schatten is de maximum likelihood-methode. Veronderstel dat de lichaamslengte van een volwassen tweelingpaar van het mannelijke geslacht (X1 , X2 ) tweedimensionaal normaal verdeeld is (voor uitleg over de meerdimensionale normale verdeling, zie Appendix 10) met verwachtingsvector ν = (µ, µ)T en covariantiematrix voor eeneiige (Σ1 ) en twee-eiige (Σ2 ) tweelingparen µ ¶ µ ¶ 1 σ2 σ2g + σ2c σ2 σ2g + σ2c 2 Σ1 = Σ2 = 1 σ2g + σ2c σ2 σ2 2 σ2g + σ2c met σ2 = σg 2 + σc 2 + σe 2. De diagonaalelementen van de covariantiematrices zijn gelijk aan de variantie van X1 en X2 ; de andere twee termen zijn gelijk aan de covarianties tussen X1 en X2 . De kansdichtheid van de lichaamslengte van een tweelingpaar is gelijk aan x 7→ 1 T −1 1 √ e− 2 (x−ν) Σ (x−ν) , 2π det Σ met x = (x1 , x2 )T , Σ gelijk aan Σ1 of Σ2 naar gelang het type tweeling en ν = (µ, µ) de vector als eerder beschreven. Met det Σ wordt de determinant van Σ bedoeld. We veronderstellen dat de lichaamslengte van verschillende tweelingparen onafhankelijk van elkaar zijn, waardoor de likelihood gelijk is aan een product van marginale dichtheden en de log likelihood gelijk is aan lµ,σ2g ,σ2c ,σ2e (X1 , . . ., Xn1 , Y1 , . . ., Yn2 ) = n1 n2 − (n1 + n2 ) log 2π − log(det Σ1 ) − log(det Σ2 ) 2 2 n1 n2 1X 1X − (Xi − ν)T Σ−1 (X − ν) − (Yi − ν)T Σ−1 i 1 2 (Yi − ν), 2 i=1 2 i=1 met X1 , . . ., Xn1 de lengtes van de eeneiige tweelingparen en Y1 , . . ., Yn2 die van twee-eiige tweelingparen; dus Xi = (Xi,1 , Xi,2 )T en Yi = (Yi,1 , Yi,2 )T met Xi,1 en Xi,2 de lichaamslengte van het eerste en tweede individu binnen het ie eeneiige tweelingpaar. Maximalisatie van de log likelihood 4: Erfelijkheidsonderzoek 105 naar (µ, σ2g , σ2c , σ2e ) over de parameterruimte [0, ∞)4 geeft de maximum likelihood-schattingen; en heritabilitiet σ2g /σ2 wordt geschat de waarden in te vullen: ĥ2 = σ̂2g /σ̂2 = 0.61. Dezelfde berekeningen kunnen we uitvoeren voor een- en twee-eiige tweelingparen van het vrouwelijke geslacht. Dit levert een geschatte heritabiliteit van 0.93. Wanneer een gecombineerde likelihood wordt opgesteld voor data van mannen en vrouwen wordt veelal verondersteld dat de verwachte lengte van vrouwen wel verschilt van die van mannen, maar dat de covariantiematrices, en dus ook heritabiliteit, gelijk zijn. Maximaliseren van de likelihood geeft een schatting van 0.79 voor de heritabiliteit. Heritabiliteit is een maat voor de variatie van een eigenschap, lichaamslengte in ons geval, binnen een populatie. Dat de heritabiliteit bijna gelijk aan 1 is, betekent niet dat lichaamslengte bijna volledig genetisch bepaald wordt; wel dat de variatie van lichaamslengte binnen de populatie waaruit onze data afkomstig zijn, bijna geheel door verschillen in het erfelijk materiaal wordt bepaald. Omgevingsfaktoren hebben wel degelijk invloed op lichaamslengte (zie Voorbeeld 2.7) maar zijn waarschijnlijk zo uniform over de populatie waaruit de data getrokken is, dat alleen genetische verschillen nog waar te nemen zijn in de variatie van lichaamslengte.