University of Groningen Linguistic Knowledge and Word Sense Disambiguation Gaustad, Tanja IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to cite from it. Please check the document version below. Document Version Publisher's PDF, also known as Version of record Publication date: 2004 Link to publication in University of Groningen/UMCG research database Citation for published version (APA): Gaustad, T. (2004). Linguistic Knowledge and Word Sense Disambiguation Groningen: s.n. Copyright Other than for strictly personal use, it is not permitted to download or to forward/distribute the text or part of it without the consent of the author(s) and/or copyright holder(s), unless the work is under an open content license (like Creative Commons). Take-down policy If you believe that this document breaches copyright please contact us providing details, and we will remove access to the work immediately and investigate your claim. Downloaded from the University of Groningen/UMCG research database (Pure): http://www.rug.nl/research/portal. For technical reasons the number of authors shown on this cover page is limited to 10 maximum. Download date: 18-07-2017 Samenvatting De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst zijn voor de lexicale desambiguatie van (Nederlandse) woorden. De structuur van dit proefschrift reflecteert dan ook de verschillende niveaus van taalkundige informatie die getoetst zijn op hun nut voor lexicale desambiguatie. Deze niveaus zijn morfologie, de woordsoort van het ambigue woord en de syntactische structuur van de zin waarin het woord voorkomt. Elk type taalkundige kennis wordt individueel getoetst en geëvalueerd om de waarde ervan voor lexicale desambiguatie vast te stellen. Uiteindelijk worden ook combinaties van verschillende typen taalkundige kennis getoetst en geëvalueerd. Het doel van dit project was de ontwikkeling van een module die automatisch de juiste betekenis kan toewijzen aan een ambigu woord in een bepaalde context. Dit wordt ook wel word sense disambiguation (WSD) genoemd. De betekenistoekenning vindt plaats op basis van de informatie uit de context van het ambigue woord. Deze informatie kan zowel bestaan uit de woorden rondom het te desambigueren woord alsook extra informatie zoals syntactische klasse of structuur en met deze kennis wordt een statistisch taalmodel gebouwd. Het model voorspelt vervolgens voor een bepaald ambigu woord in een nieuwe context de juiste betekenis. Na de algemene inleiding in WSD en een overzicht van de belangrijkste onderzoeksvragen in hoofdstuk 1 geeft hoofdstuk 2 een overzicht van eerder onderzoek op het gebied van WSD, opgesplitst naar de informatiebronnen en de informatietypen die de gepresenteerde systemen gebruiken. Met informatiebronnen worden de primaire bronnen bedoeld die gebruikt worden om informatie over de verschillende betekenissen van woorden te extraheren, terwijl informatietypen verwijzen naar de verschillende soorten taalkundige kennis die de systemen gebruiken om de juiste betekenis te vinden. Verder komt in dit hoofdstuk ook de evaluatiemethode zelf aan bod, en in het bijzonder de Senseval WSD evaluatierondes. Een beschrijving van de algemene aanpak voor dit onderzoek sluit de introductie en het literatuuroverzicht af. Hoofdstuk 3 laat zien dat de inzet van zogenaamde pseudowoorden, die 139 140 Samenvatting vaak gebruikt worden om de behoefte aan handmatig met betekenis geannoteerde data te omzeilen, geen geldige vervanging is voor data van echte ambigue woorden. De belangrijkste reden hiervoor is dat de “betekenissen” van pseudowoorden uit twee (of meer) duidelijk van elkaar gescheiden woorden bestaan, terwijl ambigue woorden in werkelijkheid over het algemeen betekenissen en onderbetekenissen hebben die in nauwe relatie tot elkaar staan en die om deze reden moeilijker correct van elkaar te onderscheiden zijn, ook voor mensen. In hoofdstuk 4 wordt de experimentele opzet van het supervised en corpusgebaseerde WSD-systeem geı̈ntroduceerd. Deze introductie omvat onder meer een beschrijving van het corpus, het classificatie-algoritme dat gebruikt wordt voor desambiguatie en de implementatie hiervan. Ook worden de eerste resultaten op de tuning data met een leave-one-out aanpak gepresenteerd waarbij alleen minimale features, zoals de context rond om het ambigue woord en het bijbehorende lemma, gebruikt worden. Op basis van deze resultaten concluderen we dat maximale entropie (MaxEnt) als classificatiealgoritme voor WSD beter presteert dan de op frequentie gebaseerde baseline. De resultaten van de verschillende experimenten met de minimale features bepalen welke instellingen het beste gebruikt kunnen worden wanneer er meer soorten taalkundige kennis aan het systeem worden toegevoegd. Er is met name onderzocht of het gebruik van een drempelwaarde voor het aantal trainingsinstanties van elk ambigu woord in het corpus een voordeel oplevert. De resultaten laten zien dat MaxEnt (in combinatie met smoothing met Gaussian priors) robuust genoeg is om infrequente data te verwerken. Om deze reden gebruiken we in dit onderzoek geen drempelwaarde voor de frequentie. Bovendien hebben we het effect getoetst van verschillende contextgrootten (alleen contextwoorden in dezelfde zin als het ambigue woord worden meegenomen). Uit deze experimenten blijkt dat een context van drie woorden links en rechts van het ambigue woord tot een beter resultaat leidt dan grotere contexten, wat eerdere resultaten in de literatuur over WSD bekrachtigt. Het laatste belangrijke resultaat van hoofdstuk 4 is dat de combinatie van contextlemmas gecombineerd met de relatieve positie van de context ten opzichte van het ambigue woord beter werkt dan contextwoorden en/of de context als een bag-of-words te zien. Na de algemene introductie van het WSD-systeem voor het Nederlands en de experimentele opzet, introduceert hoofdstuk 5 een aanpak voor het bouwen van een classifier die gebruik maakt van een eerste type taalkundige kennis, namelijk morfologische informatie. In plaats van een classifier te maken voor iedere individuele woordvorm, worden nu classifiers geconstrueerd voor de meer algemene lemma’s. Een ambigu woord wordt vervolgens geclassificeerd op basis van zijn lemma. Samenvatting 141 Lemmatisering leidt tot een compactere en meer algemene informatierepresentatie door alle geı̈nflecteerde vormen van een ambigu woord samen te groeperen. Meer inflectie in een taal zal zorgen voor een grotere compressie en generalisatie van de data. De toepassing van lemmatisering zorgt ervoor dat elke classifier meer trainingsmateriaal tot zijn beschikking heeft en het resulterende WSD-systeem compacter is. Door te abstraheren van woordvorm wordt het systeem bovendien robuuster. Een vergelijking tussen de lemma-gebaseerde aanpak en de traditionele op woordvorm gebaseerde aanpak op de Nederlandse Senseval-2 testdata laat duidelijk zien dat het gebruik van lemmatisering de accuratesse verbetert. De eerdere resultaten van een op Memory-Based Learning (MBL) gebaseerd WSD-systeem leveren dezelfde resultaten als de op lemma’s gebaseerde aanpak wanneer dezelfde features gebruikt worden. Een groot verschil is dat op het systeem met lemmatisering (nog) geen parameter optimalisatie toegepast is. Een tweede type taalkundige informatie die op zijn waarde voor WSD getoetst wordt is part-of-speech (PoS), oftewel de syntactische klasse of woordsoort van een woord (hoofdstuk 6). De PoS van een potentieel ambigu woord bevat belangrijke informatie, omdat de Nederlandse Senseval-2 data tegelijkertijd morfo-syntactisch en lexicaal-semantisch gedesambigueerd moet worden. Twee hypothesen worden getest. Aan de ene kant is gekeken naar de invloed van de kwaliteit van de PoS-tagger op de accuratesse van het WSD-systeem met PoS-informatie. De resultaten bekrachtigen de verwachting dat de PoS-tagger die op zichzelf de hoogste accuratesse behaalt, ook in een applicatie-gerichte evaluatie beter presteert dan minder accurate PoStaggers. Aan de andere kant is onderzocht of het expliciet toevoegen van features die een bepaald soort kennis coderen de desambiguatieaccuratesse doet toenemen of dat deze informatie reeds impliciet in het model aanwezig was. De resultaten laten duidelijk zien dat het expliciet toevoegen van bepaalde features het systeem verbetert. Enerzijds is het effect gemeten van features voor de woordsoort van het ambigue woord zelf, en anderzijds het effect van features voor de syntactische categorieën van de woorden in de context. Beide kennisbronnen leiden tot significante verbeteringen van de prestatie van het op MaxEnt gebaseerde WSD-systeem. Het derde type informatie, de tweede soort syntactische kennis, die gebruikt wordt voor desambiguatie is informatie over syntactische afhankelijkheidsrelaties, ook wel dependencies genoemd (beschreven in hoofdstuk 7). De impliciete onderzoeksvraag is of diepe taalkundige kennis helpt in een WSD-applicatie. Na een overzicht van eerder onderzoek met WSD-systemen die gebruik maken van syntactische informatie, worden dependencyrelaties 142 Samenvatting en hun invloed op het gebied van NLP geı̈ntroduceerd, alsmede Alpino, de dependencyparser die gebruikt werd om de data te annoteren. Twee verschillende feature-instellingen met dependencyrelaties worden gebruikt. Aan de ene kant testen we een configuratie met twee features, waarbij de features alleen de namen van de relaties van het ambigue woord bevatten. Het ene feature bevat de head relaties, terwijl het andere feature dependent relaties van het ambigue woord bevat. Aan de andere kant experimenteren we met een configuratie met diezelfde twee features, maar nu met zowel de naam van de relatie als het woord dat door middel van deze relatie met het ambigue woord verbonden is. De resultaten in hoofdstuk 7 laten zien dat het toevoegen van diepe taalkundige kennis aan een statistisch WSD-systeem voor het Nederlands een significante verbetering van de desambiguatieaccuratesse oplevert ten opzichte van alle resultaten die tot nu toe op de tuning data zijn bereikt. Enkel het gebruik van dependencyrelaties leidt al tot een significant beter resultaat dan de baseline en de combinatie van het lemma en de PoS van het ambigue woord samen met dependencyrelaties werken zelfs beter dan het model met contextinformatie. De beste resultaten (op de tuning data) met 86.6% worden bereikt met het lemma, de PoS en de dependencyrelaties van het ambigue woord in combinatie met de lemmas in de context. In hoofdstuk 8 worden de resultaten van de beste feature-modellen (op basis van de tuningexperimenten) op de (ongeziene) Senseval-2 testdata besproken. Uit de experimenten op de testdata kunnen verschillende conclusies getrokken worden. Allereerst leidt het toevoegen van structurele syntactische informatie in de vorm van dependencyrelaties in plaats van PoS van de context tot een error rate reductie van 8% voor het op woordvorm gebaseerde model. Bovendien werkt de op lemma gebaseerde aanpak beter dan de op woordvorm gebaseerde aanpak, onafhankelijk van de features die in het model toegevoegt worden. De beste resultaten op de testdata worden bereikt met lemmatisering gecombineerd met het featuremodel met informatie over de woordsoort van de ambigue woordvorm of het ambigue lemma, de dependencylabels en de contextlemmas. Dit leidt tot een reductie van de error rate van 10% met betrekking tot het lemmamodel met PoS van de context en een foutreductie van 6% met betrekking tot het beste model gebaseerd op woordvormen. Als de resultaten op de testdata vergeleken worden met de resultaten met een ander bestaand systeem, dat MBL als classificatie algorithme gebruikt (Hendrickx et al., 2002), zien we dat zowel de op woordvorm gebaseerde classifiers als ook de op lemma gebaseerde classifiers leiden tot een hogere accuratesse. Dit heeft vooral te maken met het feit dat ons featuremodel o.a. diepe taalkundige informatie in de vorm van dependencyrelaties bevat Samenvatting 143 terwijl het systeem van Hendrickx et al. PoS van de context gebruikt. Het lemmamodel leidt tot een error rate reductie van 10% in vergelijking met het WSD-systeem op basis van MBL. Het op MaxEnt gebaseerde systeem is dus state-of-the-art voor Nederlandse WSD en toont daarmee aan dat een combinatie van classifiers op basis van lemmas in plaats van woordvormen enerzijds en het gebruik van dependencylabels als taalkundige features (samen met contextlemmas) anderzijds de beste resultaten oplevert. Bij wijze van algemene conclusie suggereren de resultaten van dit onderzoek dat voor een statistisch desambiguatiealgoritme de combinatie van verscheidene orthogonale taalkundige features tot de beste resultaten leidt. Dit betekent dat WSD voor het Nederlands van verschillende typen taalkundige kennis profijt heeft. Het is niet mogelijk een beste type taalkundige kennis aan te wijzen, maar een aantal (zorgvuldig geselecteerde) features die in combinatie het beste werken. Vooral het toevoegen van diepe taalkundige kennis verbetert de accuratesse aanzienlijk. In combinatie met een aanpak die het voordeel van het gebruik van morfologische informatie in aanmerking neemt, het lemmamodel, worden de beste resultaten voor WSD van het Nederlands op de Senseval-2 dataset bereikt. Dit systeem werkt significant beter dan alle tot op heden in de literatuur gepubliceerde resultaten. 144