Processing Unknown Words

advertisement
Processing Unknown Words
Wouter Schellekens
Merlijn Hutteman
Introductie




Mensen begrijpen onbekende woorden
Veel NLP systemen gaan uit van een
gecompleteerd lexicon
Gaan veelal uit van ‘general concept
learning’
Besproken HPSG systeem richt zich
op extractie van linguïstische
eigenschappen
Introductie


Andere systemen: uit grote corpora
analyse door statistiek
Dit systeem: meer gericht op
grammaticale analyse van individuele
zinnen
Doelstellingen
i


Incorporeren van informatiegebaseerd concept ‘unknowness’
Woorden zijn niet geheel onbekend,
bevatten ‘revisable’ informatie
Hierdoor onderscheid tussen ‘open-’ en
‘closed class’ woorden
Doelstellingen
ii



Maximaal gebruiken kenmerken
HPSG
Zoveel mogelijk ‘rich representations’ als
HPSG
Daarbij gebruik van zelfde grammatica en
lexicon
Van belang voor hergebruik bestaande
grammatica’s en feedback voor
theorievorming
Doelstellingen
iii

Mogelijkheid tot domein-onafhankelijke
inferentie en lexicon updates
Lexiconschrijver moet kunnen aangeven,
welke informatie nog mogelijk te reviseren is
Lexicale acquisitie

Nieuwe contextuele verschijning:
- vergelijkbaar
- nieuwe
- of conflicterende informatie
Lexicale acquisitie
(1)
(2)
(3)
a. Im Axon tritt ein Ruhepotential auf.
b. Das Potential wandert über das Axon.
a. Das Ohr reagiert auf akustische
Reize.
b. Ein Sinnesorgan reagiert auf Reize.
a. Die Nase ist für Gerüche sensibel.
b. Die sensible Nase reagiert auf
Gerüche.
Lexicale acquisitie




De reviseerbare informatie indelen in de
twee klassen: ‘specializable’ en
‘generalizable’
Specializable: gender, case, etc.
Generalizable: restricties in
argumentselectie, predactief vs. attributief
gebruik
Beiden kunnen in dezelfde lexicale entry
voorkomen
Representatie




Alle reviseerbare informatie uitdrukbaar in
formele typen
Specialisatie: informatie omzetten in simpele
type unificatie: non_fem & neut = neut
Generalisatie vereist echter type vereniging:
pred V attr = prd
Generalisatie maakt gebruik van hulptype
u_g, voor markering beginstate onbekende
informatie
Representatie



Om problemen als incorrecte unificatie
bij generalisatie te voorkomen twee
nieuwe features: gen en ctxt
ctext is de opslag voor contekstgeünificeerde informatie, bij conflicten
→ ongrammaticaliteit
gen bevat generaliseerbare informatie,
alle gen waarden: u_g als disj. type
Representatie
In HPSG als volgt gedefinieerd:
Processing



Allereerst gewone parsing
Bij een onbekend woord failt het
parsen niet, maar gebruikt een
generieke entry
Hierna: updaten van lexical entries,
bestaat uit 4 stappen
Processing


Projecteren FS op alle woorden
Gevolg: alle woorden context verrijkt en lijst
van ‘update candidates’
Bepalen concrete update waarden

Bij een matchende generalisatie clause:
vereniging van gen waarde van het oude woord
met de ctxt waarde van de parse projectie

Bij een matchende specialisatie clause wordt het
parseresultaat van de specialisatie gebruikt
Processing


Controleer of de update een verschil
maakt, dwz. dat een generalisatie
geen minder algemeen resultaat
oplevert, en vice versa
Wijzigingen daadwerkelijk doorvoeren;
oude entry verwijderen, herzien, en
toevoegen
Voorbeeld
1)
2)
3)
Die Nase ist ein Sinnesorgan.
Das Ohr perzipiert.
Eine verschnupfte Nase perzipiert
den Gestank.
Voorbeeld
Na: Die Nase ist ein Sinnesorgan.
Na: Das Ohr perzipiert
Voorbeeld
Na: Das Ohr perzipiert
Na: Eine verschnupfte Nase perzipiert den Gestank.
Punten van discussie




Methode lijkt niet overeenkomstig met
de mens; menselijke redenering op
basis van incompleet bewijs
Systeem heeft moeite met ambiguïteit
Gevaar van overgeneratie
Grens tussen stricte, grammaticale
voorspellingen en openheid tot revisie
Credits
Download