University of Groningen Linguistic Knowledge and Word Sense

advertisement
University of Groningen
Linguistic Knowledge and Word Sense Disambiguation
Gaustad, Tanja
IMPORTANT NOTE: You are advised to consult the publisher's version (publisher's PDF) if you wish to
cite from it. Please check the document version below.
Document Version
Publisher's PDF, also known as Version of record
Publication date:
2004
Link to publication in University of Groningen/UMCG research database
Citation for published version (APA):
Gaustad, T. (2004). Linguistic Knowledge and Word Sense Disambiguation Groningen: s.n.
Copyright
Other than for strictly personal use, it is not permitted to download or to forward/distribute the text or part of it without the consent of the
author(s) and/or copyright holder(s), unless the work is under an open content license (like Creative Commons).
Take-down policy
If you believe that this document breaches copyright please contact us providing details, and we will remove access to the work immediately
and investigate your claim.
Downloaded from the University of Groningen/UMCG research database (Pure): http://www.rug.nl/research/portal. For technical reasons the
number of authors shown on this cover page is limited to 10 maximum.
Download date: 18-07-2017
Samenvatting
De belangrijkste onderzoeksvraag waarop het werk in dit proefschrift een antwoord probeert te vinden, is welke typen taalkundige informatie het nuttigst
zijn voor de lexicale desambiguatie van (Nederlandse) woorden. De structuur
van dit proefschrift reflecteert dan ook de verschillende niveaus van taalkundige informatie die getoetst zijn op hun nut voor lexicale desambiguatie. Deze
niveaus zijn morfologie, de woordsoort van het ambigue woord en de syntactische structuur van de zin waarin het woord voorkomt. Elk type taalkundige
kennis wordt individueel getoetst en geëvalueerd om de waarde ervan voor
lexicale desambiguatie vast te stellen. Uiteindelijk worden ook combinaties
van verschillende typen taalkundige kennis getoetst en geëvalueerd.
Het doel van dit project was de ontwikkeling van een module die automatisch de juiste betekenis kan toewijzen aan een ambigu woord in een bepaalde
context. Dit wordt ook wel word sense disambiguation (WSD) genoemd. De
betekenistoekenning vindt plaats op basis van de informatie uit de context
van het ambigue woord. Deze informatie kan zowel bestaan uit de woorden
rondom het te desambigueren woord alsook extra informatie zoals syntactische klasse of structuur en met deze kennis wordt een statistisch taalmodel
gebouwd. Het model voorspelt vervolgens voor een bepaald ambigu woord
in een nieuwe context de juiste betekenis.
Na de algemene inleiding in WSD en een overzicht van de belangrijkste
onderzoeksvragen in hoofdstuk 1 geeft hoofdstuk 2 een overzicht van eerder
onderzoek op het gebied van WSD, opgesplitst naar de informatiebronnen
en de informatietypen die de gepresenteerde systemen gebruiken. Met informatiebronnen worden de primaire bronnen bedoeld die gebruikt worden
om informatie over de verschillende betekenissen van woorden te extraheren,
terwijl informatietypen verwijzen naar de verschillende soorten taalkundige
kennis die de systemen gebruiken om de juiste betekenis te vinden. Verder
komt in dit hoofdstuk ook de evaluatiemethode zelf aan bod, en in het bijzonder de Senseval WSD evaluatierondes. Een beschrijving van de algemene
aanpak voor dit onderzoek sluit de introductie en het literatuuroverzicht af.
Hoofdstuk 3 laat zien dat de inzet van zogenaamde pseudowoorden, die
139
140
Samenvatting
vaak gebruikt worden om de behoefte aan handmatig met betekenis geannoteerde data te omzeilen, geen geldige vervanging is voor data van echte
ambigue woorden. De belangrijkste reden hiervoor is dat de “betekenissen”
van pseudowoorden uit twee (of meer) duidelijk van elkaar gescheiden woorden bestaan, terwijl ambigue woorden in werkelijkheid over het algemeen
betekenissen en onderbetekenissen hebben die in nauwe relatie tot elkaar
staan en die om deze reden moeilijker correct van elkaar te onderscheiden
zijn, ook voor mensen.
In hoofdstuk 4 wordt de experimentele opzet van het supervised en corpusgebaseerde WSD-systeem geı̈ntroduceerd. Deze introductie omvat onder
meer een beschrijving van het corpus, het classificatie-algoritme dat gebruikt
wordt voor desambiguatie en de implementatie hiervan. Ook worden de
eerste resultaten op de tuning data met een leave-one-out aanpak gepresenteerd waarbij alleen minimale features, zoals de context rond om het ambigue woord en het bijbehorende lemma, gebruikt worden. Op basis van deze
resultaten concluderen we dat maximale entropie (MaxEnt) als classificatiealgoritme voor WSD beter presteert dan de op frequentie gebaseerde baseline.
De resultaten van de verschillende experimenten met de minimale features bepalen welke instellingen het beste gebruikt kunnen worden wanneer
er meer soorten taalkundige kennis aan het systeem worden toegevoegd. Er is
met name onderzocht of het gebruik van een drempelwaarde voor het aantal
trainingsinstanties van elk ambigu woord in het corpus een voordeel oplevert. De resultaten laten zien dat MaxEnt (in combinatie met smoothing
met Gaussian priors) robuust genoeg is om infrequente data te verwerken.
Om deze reden gebruiken we in dit onderzoek geen drempelwaarde voor de
frequentie. Bovendien hebben we het effect getoetst van verschillende contextgrootten (alleen contextwoorden in dezelfde zin als het ambigue woord
worden meegenomen). Uit deze experimenten blijkt dat een context van
drie woorden links en rechts van het ambigue woord tot een beter resultaat leidt dan grotere contexten, wat eerdere resultaten in de literatuur over
WSD bekrachtigt. Het laatste belangrijke resultaat van hoofdstuk 4 is dat de
combinatie van contextlemmas gecombineerd met de relatieve positie van de
context ten opzichte van het ambigue woord beter werkt dan contextwoorden
en/of de context als een bag-of-words te zien.
Na de algemene introductie van het WSD-systeem voor het Nederlands
en de experimentele opzet, introduceert hoofdstuk 5 een aanpak voor het
bouwen van een classifier die gebruik maakt van een eerste type taalkundige kennis, namelijk morfologische informatie. In plaats van een classifier te
maken voor iedere individuele woordvorm, worden nu classifiers geconstrueerd voor de meer algemene lemma’s. Een ambigu woord wordt vervolgens
geclassificeerd op basis van zijn lemma.
Samenvatting
141
Lemmatisering leidt tot een compactere en meer algemene informatierepresentatie door alle geı̈nflecteerde vormen van een ambigu woord samen te
groeperen. Meer inflectie in een taal zal zorgen voor een grotere compressie
en generalisatie van de data. De toepassing van lemmatisering zorgt ervoor
dat elke classifier meer trainingsmateriaal tot zijn beschikking heeft en het resulterende WSD-systeem compacter is. Door te abstraheren van woordvorm
wordt het systeem bovendien robuuster.
Een vergelijking tussen de lemma-gebaseerde aanpak en de traditionele op
woordvorm gebaseerde aanpak op de Nederlandse Senseval-2 testdata laat
duidelijk zien dat het gebruik van lemmatisering de accuratesse verbetert.
De eerdere resultaten van een op Memory-Based Learning (MBL) gebaseerd
WSD-systeem leveren dezelfde resultaten als de op lemma’s gebaseerde aanpak wanneer dezelfde features gebruikt worden. Een groot verschil is dat op
het systeem met lemmatisering (nog) geen parameter optimalisatie toegepast
is.
Een tweede type taalkundige informatie die op zijn waarde voor WSD getoetst wordt is part-of-speech (PoS), oftewel de syntactische klasse of woordsoort van een woord (hoofdstuk 6). De PoS van een potentieel ambigu woord
bevat belangrijke informatie, omdat de Nederlandse Senseval-2 data tegelijkertijd morfo-syntactisch en lexicaal-semantisch gedesambigueerd moet
worden. Twee hypothesen worden getest. Aan de ene kant is gekeken naar
de invloed van de kwaliteit van de PoS-tagger op de accuratesse van het
WSD-systeem met PoS-informatie. De resultaten bekrachtigen de verwachting dat de PoS-tagger die op zichzelf de hoogste accuratesse behaalt, ook
in een applicatie-gerichte evaluatie beter presteert dan minder accurate PoStaggers. Aan de andere kant is onderzocht of het expliciet toevoegen van
features die een bepaald soort kennis coderen de desambiguatieaccuratesse
doet toenemen of dat deze informatie reeds impliciet in het model aanwezig was. De resultaten laten duidelijk zien dat het expliciet toevoegen van
bepaalde features het systeem verbetert.
Enerzijds is het effect gemeten van features voor de woordsoort van het
ambigue woord zelf, en anderzijds het effect van features voor de syntactische
categorieën van de woorden in de context. Beide kennisbronnen leiden tot
significante verbeteringen van de prestatie van het op MaxEnt gebaseerde
WSD-systeem.
Het derde type informatie, de tweede soort syntactische kennis, die gebruikt wordt voor desambiguatie is informatie over syntactische afhankelijkheidsrelaties, ook wel dependencies genoemd (beschreven in hoofdstuk 7).
De impliciete onderzoeksvraag is of diepe taalkundige kennis helpt in een
WSD-applicatie. Na een overzicht van eerder onderzoek met WSD-systemen
die gebruik maken van syntactische informatie, worden dependencyrelaties
142
Samenvatting
en hun invloed op het gebied van NLP geı̈ntroduceerd, alsmede Alpino, de
dependencyparser die gebruikt werd om de data te annoteren. Twee verschillende feature-instellingen met dependencyrelaties worden gebruikt. Aan
de ene kant testen we een configuratie met twee features, waarbij de features
alleen de namen van de relaties van het ambigue woord bevatten. Het ene
feature bevat de head relaties, terwijl het andere feature dependent relaties
van het ambigue woord bevat. Aan de andere kant experimenteren we met
een configuratie met diezelfde twee features, maar nu met zowel de naam van
de relatie als het woord dat door middel van deze relatie met het ambigue
woord verbonden is.
De resultaten in hoofdstuk 7 laten zien dat het toevoegen van diepe taalkundige kennis aan een statistisch WSD-systeem voor het Nederlands een significante verbetering van de desambiguatieaccuratesse oplevert ten opzichte
van alle resultaten die tot nu toe op de tuning data zijn bereikt. Enkel het
gebruik van dependencyrelaties leidt al tot een significant beter resultaat
dan de baseline en de combinatie van het lemma en de PoS van het ambigue woord samen met dependencyrelaties werken zelfs beter dan het model
met contextinformatie. De beste resultaten (op de tuning data) met 86.6%
worden bereikt met het lemma, de PoS en de dependencyrelaties van het
ambigue woord in combinatie met de lemmas in de context.
In hoofdstuk 8 worden de resultaten van de beste feature-modellen (op
basis van de tuningexperimenten) op de (ongeziene) Senseval-2 testdata besproken. Uit de experimenten op de testdata kunnen verschillende conclusies
getrokken worden. Allereerst leidt het toevoegen van structurele syntactische
informatie in de vorm van dependencyrelaties in plaats van PoS van de context tot een error rate reductie van 8% voor het op woordvorm gebaseerde
model. Bovendien werkt de op lemma gebaseerde aanpak beter dan de op
woordvorm gebaseerde aanpak, onafhankelijk van de features die in het model toegevoegt worden. De beste resultaten op de testdata worden bereikt
met lemmatisering gecombineerd met het featuremodel met informatie over
de woordsoort van de ambigue woordvorm of het ambigue lemma, de dependencylabels en de contextlemmas. Dit leidt tot een reductie van de error
rate van 10% met betrekking tot het lemmamodel met PoS van de context
en een foutreductie van 6% met betrekking tot het beste model gebaseerd op
woordvormen.
Als de resultaten op de testdata vergeleken worden met de resultaten met
een ander bestaand systeem, dat MBL als classificatie algorithme gebruikt
(Hendrickx et al., 2002), zien we dat zowel de op woordvorm gebaseerde
classifiers als ook de op lemma gebaseerde classifiers leiden tot een hogere
accuratesse. Dit heeft vooral te maken met het feit dat ons featuremodel
o.a. diepe taalkundige informatie in de vorm van dependencyrelaties bevat
Samenvatting
143
terwijl het systeem van Hendrickx et al. PoS van de context gebruikt. Het
lemmamodel leidt tot een error rate reductie van 10% in vergelijking met
het WSD-systeem op basis van MBL. Het op MaxEnt gebaseerde systeem is
dus state-of-the-art voor Nederlandse WSD en toont daarmee aan dat een
combinatie van classifiers op basis van lemmas in plaats van woordvormen
enerzijds en het gebruik van dependencylabels als taalkundige features (samen met contextlemmas) anderzijds de beste resultaten oplevert.
Bij wijze van algemene conclusie suggereren de resultaten van dit onderzoek dat voor een statistisch desambiguatiealgoritme de combinatie van
verscheidene orthogonale taalkundige features tot de beste resultaten leidt.
Dit betekent dat WSD voor het Nederlands van verschillende typen taalkundige kennis profijt heeft. Het is niet mogelijk een beste type taalkundige
kennis aan te wijzen, maar een aantal (zorgvuldig geselecteerde) features die
in combinatie het beste werken.
Vooral het toevoegen van diepe taalkundige kennis verbetert de accuratesse aanzienlijk. In combinatie met een aanpak die het voordeel van het
gebruik van morfologische informatie in aanmerking neemt, het lemmamodel,
worden de beste resultaten voor WSD van het Nederlands op de Senseval-2
dataset bereikt. Dit systeem werkt significant beter dan alle tot op heden in
de literatuur gepubliceerde resultaten.
144
Download