Implementations of Tests on the Exogeneity of Selected Variables and Their Performance in Practice M. Pleus Dat economie in essentie geen experimentele wetenschap is maakt de econometrie tot een onmisbaar instrument. Econometrie biedt oplossingen voor veel problemen die zich voordoen wanneer een onderzoeker beleidsadvies wil geven op basis van empirische bewijs. Een van deze problemen ligt ten grondslag aan het onderwerp van dit proefschrift. Alvorens dit te kunnen bespreken moet eerst een aantal zaken worden neergezet. Vaak is het de bedoeling van een econoom om een causaal verband te onderzoeken. De variabelen waarmee men in een economisch model een andere variabele tracht te verklaren, noemen we verklarende variabelen. Omdat de verklarende variabelen nooit de zogenoemde afhankelijke variabele volledig kunnen verklaren bevat het model ook een onverklaard stuk, de storingsterm. Variabelen die niet gecorreleerd zijn met de storingsterm noemen we exogeen. Wanneer alle verklarende variabelen exogeen zijn kan het causale verband onderzocht worden aan de hand van de kleinste kwadraten (OLS) schatter. Zeker wanneer het een onderzoek naar de effectiviteit van beleid betreft zal de aanname van exogeneiteit niet altijd standhouden. Een voorbeeld hiervan is wanneer men de impact van ontwikkelingshulp op de groei van het bruto binnenlands product (BBP) van het ontvangende land wil onderzoeken. Bij het vaststellen van de hoogte van de ontwikkelingshulp wordt onder meer gekeken naar de huidige groei van het BBP. Ofwel, de afhankelijke en de verklarende variabele worden deels simultaan bepaald. Als gevolg zal de verklarende variabele gecorreleerd zijn met de storingsterm. Wanneer een variabele gecorreleerd is met de storingsterm noemen we deze endogeen. Endogeniteit van een of meer verklarende variabelen zorgt ervoor dat de OLS schatter niet meer consistent is, i.e. de schattingsfout verdwijnt niet wanneer de steekproef oneindig groot wordt. Gelukkig bestaan er alternatieve schattingstechnieken zoals de instrumentele variabelen (IV) schatter. Deze techniek staat endogeneiteit van verklarende variabelen toe mits er minstens evenveel niet-verklarende instrumentele variabelen beschikbaar zijn. Zoals de naam al suggereert mogen deze instrumentele variabelen de afhankelijke variabele niet direct verklaren. Indien dit wel het geval is en de instrumentele variabelen ten onrechte niet als verklarende variabelen worden gebruikt, zullen de instrumentele variabelen ongeldig zijn. Ze zijn dan ook endogeen met betrekking tot de storingsterm. De niet-verklarende instrumentele variabelen moeten aan nog een voorwaarde voldoen. Ze moeten voldoende gecorreleerd zijn met de verklarende variabelen die endogeen zijn. Wanneer de correlatie hoog is noemen we de instrumentele variabelen sterk, terwijl ze bij een lage correlatie zwak worden genoemd. De instrumentele variabelen mogen dus niet zwak zijn. De volledige set van instrumentele variabelen bestaat uit de niet-verklarende instrumentele variabelen en de exogene verklarende variabelen. De nauwkeurigheid van de IV schatter wordt bepaald door de correlatie tussen de (niet-verklarende) instrumentele variabelen en de endogene verklarende variabelen. Hoe sterker de correlatie, hoe nauwkeuriger de schatter. Wanneer alle verklarende variabelen verondersteld worden exogeen te zijn, dan kunnen alle verklarende variabelen als instrument voor zichzelf worden gebruikt, hetgeen resulteert in een perfecte correlatie. In dit specifieke geval zal de IV schatter gelijk zijn aan de OLS schatter. Verklarende variabelen als endogeen behandelen terwijl ze exogeen zijn gaat dus ten koste van de nauwkeurigheid van de schatter. Ze ten onrechte als exogeen classificeren resulteert in een onbetrouwbare schatter. Dit proefschrift onderzoekt de implementatie en het gedrag van technieken die gebruikt kunnen worden om variabelen te classificeren met betrekking tot hun correlatie met de storingsterm. Deze technieken kunnen worden toegepast om de exogeniteit van verklarende variabelen te toetsen, maar ook om, eventueel tegelijk, de exogeniteit van niet-verklarende instrumentele variabelen te onderzoeken. Ze zijn van cruciaal belang voor onderzoekers aangezien ze informatie verschaffen over belangrijke eigenschappen van de schatters van causale verbanden. Deze familie van toetsen kent twee typen. Het eerste type wordt gebruikt om een volledige set van variabelen te toetsen, bijvoorbeeld alle potenti\"{e}le endogene verklarende variabelen of alle instrumentele variabelen. Met het tweede type is het mogelijk om een subset van variabelen te classificeren. Het zijn met name de subset varianten die in dit proefschrift aandacht krijgen. In het eerste deel wordt de betrouwbaarheid van deze toetsen onderzocht voor data zonder tijdsdimensie (cross-sectie data) en in het tweede gedeelte wordt gekeken naar implementaties in lineaire dynamische panel data modellen. In hoofdstuk 2 worden verschillende toetsen op de exogeniteit van arbitraire subsets van verklarende variabelen gemotiveerd en worden hun prestaties vergeleken door middel van verschillende simulatie experimenten. Gevonden wordt dat subset-toetsen een onbetwistbare rol spelen in een sequentiële strategie om verklarende variabelen als endogeen of exogeen te herkennen. Toetsen op alle potentiële endogene verklarende variabelen hebben een grote kans om een exogene verklarende variabele als endogeen aan te merken als deze slechts gecorreleerd is met een endogene variabele. Het gedrag van de toetsgrootheden kan substantieel worden verbeterd wanneer de zogeheten bootstrap wordt toegepast. Hierbij moet echter wel worden opgemerkt dat de instrumenten niet zwak mogen zijn. De bootstrap versie van de toets volgens het Wald principe blijkt vaak het beste in staat om de endogeniteit van een verklarende variabele te constateren. De Wald-toets schat de variantie onder de aanname dat de getoetste verklarende variabelen endogeen zijn. In combinatie met het gebruik van de bootstrap kunnen de volledige set en de subset-toetsen samen succesvol gebruikt worden om verklarende variabelen of groepen daarvan als exogeen of endogeen te classificeren. Met behulp van de resultaten wordt een populaire studie naar het effect van scholing op het loon opnieuw bekeken. Verschillende implementaties van toetsen op de validiteit van niet-verklarende instrumentele variabelen worden onderzocht in hoofdstuk 3. In deze context worden de toetsen op de volledige set van variabelen vaak overidentificatietoetsen genoemd. Deze en hun subset versies worden bekeken, evenals twee subset-toetsen volgens het Hausman principe. Recentelijk hebben verschillende artikelen besproken dat overidentificatietoetsen niet altijd in staat zijn om invalide instrumenten te herkennen. Dit statement wordt verhelderd en uitgebreid naar het toetsen van een subset van niet-verklarende instrumentele variabelen. De verdeling van de meeste toetsgrootheden wordt afgeleid onder de aanname dat de steekproefomvang oneindig groot wordt. Het is echter mogelijk om rekening te houden met het feit dat de steekproefomvang vaak klein is. Een hogere orde Cornish-Fisher correctie bepalen is een manier om dit te doen. Het nut van deze correctie voor de meest gebruikte overidentificatietoets wordt opnieuw bekeken omdat deze zelden wordt gebruikt in de praktijk. De correctietermen laten zien dat het gedrag van de standaard overidentificatietoetsen in een kleine steekproef afhankelijk is van een aantal factoren. Zowel de correlatie tussen verklarende variabelen en de storingsterm, alsmede de mate van overidentificatie, beïnvloeden de betrouwbaarheid van de toetsen. De mate van overidentificatie is het verschil tussen het aantal niet-verklarende instrumentele variabelen en het aantal endogene verklarende variabelen. De rol van deze twee factoren wordt bevestigd door de simulatieresultaten. Uit dezelfde simulatieresultaten blijkt dat de gecorrigeerde toetsgrootheid beter is dan de ongecorrigeerde varianten, tenzij de instrumenten zwak zijn. Met betrekking tot de subset-toetsen wordt gevonden dat hun kwaliteit ook afhankelijk is van de correlatie tussen de verklarende variabelen en de storingsterm. Het gebruik van de subset-toetsen vereist een additionele aanname, namelijk dat de groep van nietverklarende instrumentele variabelen die niet getoetst worden valide is. Uit de resultaten blijkt dat een schending van deze aanname ernstige consequenties heeft voor de toepasbaarheid van de subsettoetsen. De twee volgende hoofdstukken gaan over de betrouwbaarheid van verschillende toetsen en schattingstechnieken op basis van GMM in lineaire dynamische panel data modellen wanneer slechts enkele tijdreeksobservaties beschikbaar zijn. GMM is een algemene schattingstechniek die zowel OLS als IV als speciale gevallen kent, maar flexibeler is met betrekking tot eigenschappen van de storingsterm. Het is bijvoorbeeld mogelijk om rekening te houden met de aanwezigheid van heteroskedasticiteit. Dat wil zeggen dat de variantie van de storingsterm mag verschillen per tijdstip en individu. Een groot voordeel van panel data is de mogelijkheid om rekening te houden met verklarende variabelen die constant zijn in de tijd, maar niet geobserveerd zijn. Deze ontbrekende verklarende variabelen noemen we ook wel individuele effecten. De individuele effecten maken dus deel uit van de storingsterm en kunnen door middel van een transformatie worden verwijderd. Waar het vinden van instrumentele variabelen vaak lastig is voor cross-sectionele data, biedt panel data nog een voordeel. Niet-verklarende instrumentele variabelen zijn direct beschikbaar in de vorm van vertragingen van de verklarende variabelen. Deze instrumenten zijn echter niet noodzakelijkerwijs voldoende gecorreleerd met de verklarende variabelen. Hoofdstuk 4 bevat het theoretische kader dat de basis vormt voor de simulatiestudie van hoofdstuk 5. Gevonden wordt dat bij een gelimiteerd aantal cross-sectionele waarnemingen de kwaliteit van de analyse afhangt van een aantal factoren. Deze factoren zijn onder andere het aantal tijdswaarnemingen, de snelheid waarmee het dynamische proces zich aanpast, de eigenschappen van de heteroskedasticiteit, de relatieve omvang van de variantie van de individuele effecten, de aanwezigheid van endogene verklarende variabelen en de (niet-)stationariteit van verklarende variabelen. Een specifieke toepassing van subset-toetsen op de validiteit van niet-verklarende instrumentele variabelen wordt onderzocht. Deze subset van instrumenten is alleen valide onder de aanname dat de correlatie tussen verklarende variabelen en het individuele effect constant is in de tijd. Dit wordt ook wel effect stationariteit genoemd. Opmerkelijk genoeg wordt gevonden dat deze toets op effect stationariteit de neiging heeft om de schatter te selecteren die het meest accuraat is en niet per definitie degene die consistent is. Het is namelijk mogelijk dat een schatter wel consistent is, maar een grote variantie heeft zodat een inconsistente schatter met een kleinere variantie over het algemeen accurater is. Met behulp van de conclusies die volgen uit de simulatieresultaten wordt een studie naar arbeidsaanbod opnieuw tegen het licht gehouden. Een belangrijke conclusie van hoofdstuk 5 is dat de betrouwbaarheid van standaard GMM inferentietechnieken er op achteruit gaat in de aanwezigheid van een echte (of onterecht als zodanig behandelde) endogene verklarende variabele. Vandaar dat in hoofdstuk 6 wordt onderzocht in hoeverre subset-toetsen in staat zijn verklarende variabelen te classificeren in dynamische panel data modellen wanneer alle verklarende variabelen die variëren in de tijd, zijn meegenomen in het model voor de causale relatie. De tijdsdimensie staat een verder onderscheid toe, verklarende variabelen kunnen nu worden geclassificeerd als strikt exogeen, zwak exogeen en endogeen. Strikte exogeniteit betekent dat een verklarende variabele ongecorreleerd is met alle storingstermen in de tijd. Zwak exogene variabelen mogen gecorreleerd zijn met storingstermen uit het verleden. Zoals voorheen zijn variabelen die gecorreleerd zijn met de huidige storingsterm endogeen. De verklarende variabelen kunnen dus worden geclassificeerd aan de hand van de validiteit van een subset van instrumenten. Deze subset bestaat uit bepaalde recente vertragingen van de verklarende variabelen. In hoofdstuk 6 worden verschillende nieuwe toetsgrootheden voorgesteld. Twee hiervan zijn toetsen volgens het Hausman principe, die een eindige-steekproef-correctie bevatten voor de geschatte variantie. Wat betreft controle over de kans om een valide hypothese te verwerpen wordt gevonden dat het zinvol is om de varianties onder deze hypothese te schatten. Het collapsen van de instrumenten, een manier om het aantal instrumenten terug te dringen, heeft een positieve invloed op het gedrag van de subset-toetsen wanneer veel instrumenten beschikbaar zijn. Deze manier van instrumentreductie komt het vermogen van de subsettoetsen om een invalide hypothese te verwerpen echter niet altijd ten goede. De gecorrigeerde Hausman-toetsen presteren altijd beter dan de standaard implementaties van het Hausman principe. Echter, de toetsen volgens het Hausman principe kunnen alleen worden toegepast wanneer er gebruik wordt gemaakt van collapsen. Een subset-versie van de meest populaire overidentificatietoets presteert bijna even goed als de best presterende Hausman-toets, maar behoeft geen instrumentreductie. De simulatieresultaten worden gebruikt om een klassieke studie naar het effect van criminaliteitsbestrijding te herzien.