Processing Unknown Words Wouter Schellekens Merlijn Hutteman Introductie Mensen begrijpen onbekende woorden Veel NLP systemen gaan uit van een gecompleteerd lexicon Gaan veelal uit van ‘general concept learning’ Besproken HPSG systeem richt zich op extractie van linguïstische eigenschappen Introductie Andere systemen: uit grote corpora analyse door statistiek Dit systeem: meer gericht op grammaticale analyse van individuele zinnen Doelstellingen i Incorporeren van informatiegebaseerd concept ‘unknowness’ Woorden zijn niet geheel onbekend, bevatten ‘revisable’ informatie Hierdoor onderscheid tussen ‘open-’ en ‘closed class’ woorden Doelstellingen ii Maximaal gebruiken kenmerken HPSG Zoveel mogelijk ‘rich representations’ als HPSG Daarbij gebruik van zelfde grammatica en lexicon Van belang voor hergebruik bestaande grammatica’s en feedback voor theorievorming Doelstellingen iii Mogelijkheid tot domein-onafhankelijke inferentie en lexicon updates Lexiconschrijver moet kunnen aangeven, welke informatie nog mogelijk te reviseren is Lexicale acquisitie Nieuwe contextuele verschijning: - vergelijkbaar - nieuwe - of conflicterende informatie Lexicale acquisitie (1) (2) (3) a. Im Axon tritt ein Ruhepotential auf. b. Das Potential wandert über das Axon. a. Das Ohr reagiert auf akustische Reize. b. Ein Sinnesorgan reagiert auf Reize. a. Die Nase ist für Gerüche sensibel. b. Die sensible Nase reagiert auf Gerüche. Lexicale acquisitie De reviseerbare informatie indelen in de twee klassen: ‘specializable’ en ‘generalizable’ Specializable: gender, case, etc. Generalizable: restricties in argumentselectie, predactief vs. attributief gebruik Beiden kunnen in dezelfde lexicale entry voorkomen Representatie Alle reviseerbare informatie uitdrukbaar in formele typen Specialisatie: informatie omzetten in simpele type unificatie: non_fem & neut = neut Generalisatie vereist echter type vereniging: pred V attr = prd Generalisatie maakt gebruik van hulptype u_g, voor markering beginstate onbekende informatie Representatie Om problemen als incorrecte unificatie bij generalisatie te voorkomen twee nieuwe features: gen en ctxt ctext is de opslag voor contekstgeünificeerde informatie, bij conflicten → ongrammaticaliteit gen bevat generaliseerbare informatie, alle gen waarden: u_g als disj. type Representatie In HPSG als volgt gedefinieerd: Processing Allereerst gewone parsing Bij een onbekend woord failt het parsen niet, maar gebruikt een generieke entry Hierna: updaten van lexical entries, bestaat uit 4 stappen Processing Projecteren FS op alle woorden Gevolg: alle woorden context verrijkt en lijst van ‘update candidates’ Bepalen concrete update waarden Bij een matchende generalisatie clause: vereniging van gen waarde van het oude woord met de ctxt waarde van de parse projectie Bij een matchende specialisatie clause wordt het parseresultaat van de specialisatie gebruikt Processing Controleer of de update een verschil maakt, dwz. dat een generalisatie geen minder algemeen resultaat oplevert, en vice versa Wijzigingen daadwerkelijk doorvoeren; oude entry verwijderen, herzien, en toevoegen Voorbeeld 1) 2) 3) Die Nase ist ein Sinnesorgan. Das Ohr perzipiert. Eine verschnupfte Nase perzipiert den Gestank. Voorbeeld Na: Die Nase ist ein Sinnesorgan. Na: Das Ohr perzipiert Voorbeeld Na: Das Ohr perzipiert Na: Eine verschnupfte Nase perzipiert den Gestank. Punten van discussie Methode lijkt niet overeenkomstig met de mens; menselijke redenering op basis van incompleet bewijs Systeem heeft moeite met ambiguïteit Gevaar van overgeneratie Grens tussen stricte, grammaticale voorspellingen en openheid tot revisie Credits