slides

advertisement
Syntaxis 3
Grammaticale modellen
Inleiding
Wat we gezien hebben:
Eindige automaten: fonologie, morfologie
 Regels: fonologie (n  / Ə _ #)
 Herschrijfregels: syntaxis (S  NP VP)
 Verplaatsingen: syntaxis (V2)

Inleiding
Wat is de kracht van deze formele
mechanismen?
Wat kunnen ze en wat kunnen ze niet?
Wat voor mechanismen zijn nodig om
bepaalde taalkundige fenomenen te
karakteriseren?
Wat zijn de computationele en
psychologische aspecten van die
mechanismen?
Inleiding
Formele talen
Complexiteit in natuurlijke talen
Conclusie
Formele talen:
Omschrijving
Een formele taal is een verzameling van
strings (symbolenrijtjes) gedefinieerd
over een alfabet van symbolen.
Bijvoorbeeld: de verzameling van
strings a*b* (eerst nul of meer a’s, dan
nul of meer b’s).
Formele talen:
Grammatica, automaat
Een taal kan op twee manieren
gedefinieerd worden:
Door een grammatica, die de strings van
de taal genereert (bijv. een context-vrije
herschrijfgrammatica).
 Door een automaat, die de strings van de
taal herkent (bijv. een finite-state
automaat).

Formele talen: Vier
typen
Vier typen formele talen worden
onderscheiden, met bijbehorende typen
grammatica’s en automaten.
Deze vier typen vormen een hiërarchie
van krachtig naar zwak, de Chomsky
hiërarchie.
Kracht betekent hier: meer talen
omvattend (genererend, herkennend).
Formele talen:
Basisbegrippen
Noties bij een (formele) grammatica:
Startsymbool: S
 Niet-terminaal symbool: categorie
 Terminaal symbool: ook element van het
alfabet
 Nul:  (of iets dergelijks)

Voorbeeld:
S  NP VP
N  man
Formele talen: Type 3
Type 3: Reguliere taal
Kan herkend worden door eindige
automaat.
Kan gegenereerd worden door reguliere
grammatica.
Regels van de vorm A  xB of A  x.
Voorbeeld: S  aS, S  b:
a*b
Formele talen: Type 2
Type 2: context-vrije taal
Herkennen: push-down automaat
Genereren: context-vrije
herschrijfgrammatica
Regels van de vorm A  rijtje symbolen
S  a S b, S  
(anbn)
Formele talen:
Vergelijking
Elke type 3 taal is ook een type 2 taal.
Een type 2 grammatica kan talen
genereren die een type 3 grammatica
niet kan genereren.
De taal anbn is zo´n type 2 taal.
Door de vorm van de regel S  a S b
kunnen er evenveel a’s als b’s zijn.
Formele talen:
Palindromen
S  a S b, S  
(anbn)
Hoe ziet een grammatica eruit die
palindromen genereert over {a,b}?
{ , a, b, aa, bb, aba, bab, aaa, bbb, …}
S  a S a, S  b S b,
S  , S  a, S  b
Kan niet met eindige automaat!
Formele talen: Type 1
Type 1: context-gevoelige taal
Genereren: context-gevoelige
grammatica
Regels van de vorm A  ,
waarbij  niet  is (dus geen verkorting).
Herkennen: lineair gebonden automaat
Formele talen: Type 1
S  abc
S  aSBc
cB  Bc
bB  bb
anbncn met n  1
S  aSBc  aabcBc  aabBcc 
aabbcc
Kan niet context-vrij
Formele talen: Type 0
Herkennen: Turing machine
Genereren: Onbeperkte grammatica
Recursief opsombare talen
Regels van de vorm   , met de
enige beperking dat  
Omvat alle andere typen talen.
Formele talen:
Chomsky-hiërarchie
type 0
type 1
type 2
type 3
Complexiteit: natuurlijk
taal
Wat voor type grammatica (automaat)
hebben we nodig om bepaalde
taalkundige fenomenen te beschrijven?
Een mechanisme dat krachtig genoeg is
om bepaalde patronen te genereren
(herkennen).
Maar niet te krachtig! Geen Turingkracht!
Complexiteit: Niet te
We willen een mechanisme gebruiken
dat niet te krachtig is.
Omdat te krachtige mechanismen ons
minder leren over de eigenschappen van
menselijke cognitie.
 Omdat te krachtige mechanismen
computationeel ook lastiger zijn.

Complexiteit: Fonologie
Generatieve fonologie: contextgevoelige herschrijfregels voor
fonologische processen.
VV  VjV
Computationele fonologie: lastig soort
regels, en het kan veel makkelijker:
eindige automaat.
Complexiteit: Fonologie
Fonologische (en ook morfologische)
verschijnselen kunnen gemodelleerd
worden met het ‘zwakste’, meest
beperkte mechanisme.
Reden: de afhankelijkheden tussen
fonemen en morfemen in woorden zijn
altijd heel locaal.
Complexiteit: Syntaxis
Zijn misschien alle talige fenomenen te
modelleren met eindige automaten
(reguliere grammatica’s)?
Of kunnen we verschijnselen vinden die
de kracht van een context-vrije
herschrijfgrammatica (CFG) vereisen?
Complexiteit:
Palindromen
CFG’s zijn nodig voor palindromen
reinier
| | |__| | |
| |____| |
|_______|
We zien hier geneste afhankelijkheden.
Ook in natuurlijke taal?
Complexiteit: Center
embedding
The cat likes tuna fish
The cat the dog chased likes tuna fish
The cat the dog the rat bit chased likes
tuna fish
The cat the dog the rat the elephant
admired bit chased likes tuna fish
Complexiteit: Chomsky
Chomsky maakt een belangrijk onderscheid
Competence: taalkennis, los van geheugen,
aandacht, …
Performance: gebruik van taalkennis,
beïnvloed door geheugen, aandacht, …
Center-embedding: moeilijk (performance),
maar grammaticaal (competence)
Complexiteit: Nesting
The cat the dog chased likes tuna fish
|
|______|
|
|___________________|
The cat the dog the rat bit chased likes
tuna fish
|____|
Complexiteit: Nesting
Nog een zelfde soort voorbeeld
Niet moeilijk te verwerken:
This is the dog that worried the cat that
killed the rat that ate the malt that lay in
the house that Jack built.
Geen nesting!
Complexiteit: Nesting
Maar dan:
Jack built the house that the malt that
the rat that the cat that the dog worried
killed ate lay in
Nesting doet hier een te groot beroep
op onze geheugencapaciteit.
Complexiteit: Pumping
Er is een lemma (pumping lemma) dat
het mogelijk maakt om te bewijzen dat
deze patronen niet regulier zijn.
Dus syntaxis natuurlijke taal vereist
minstens een context-vrije grammatica.
Maar is context-vrij voldoende voor
andere fenomenen?
Complexiteit: Crossing
Voorbeelden van niet-contextvrije talen:
{ xx | x  {a,b}* }
 a n b mc n d m

Er is een kruisende afhankelijkheid:

a n b mc n d m
|__|_| |
|___|
Komen die ook in natuurlijke talen voor?
Complexiteit: Zürich
Jan säit das … (Jan zei dat …)
mer em Hans es huus hälfed aastriiche
wij de Hans het huis hielpen verven
 mer d’chind
em Hans es huus haend
wij de kinderen de Hans het huis hebben
wele laa hälfe aastriiche
wille laten helpen verven

Complexiteit: Naamval
Jan säit das … (Jan zei dat …)

mer em Hans es huus hälfed aastriiche
wij de Hans het huis hielpen verven
DAT
ACC
|
|
|_________|_______|
|
|____________ |
Relatie tussen werkwoorden en
objecten is niet-CF in Zwitser-Duits
Complexiteit:
Nederlands
omdat ik Cecilia Henk de nijlpaarden zag helpen voeren
|____|_____|______________|
|
|
|_____|_________________ |
|
|________________________ |
Ook in het Nederlands kunnen crossing
dependencies gedemonstreerd worden.
Conclusie
Er zijn verschijnselen in natuurlijke taal
die krachtiger modellen vereisen dan
eindige automaten of context-vrije
grammatica’s.
Maar er zijn twee kanttekeningen te
maken.
Conclusie
De taalkundige verschijnselen zijn
beperkt, marginaal, speciaal.
Ze zijn moeilijk te begrijpen voor mensen
(center-embedding).
 Ze komen weinig voor in talen (crossing).
 Ze zijn beperkt tot de syntaxis.

Conclusie
Voor computationele toepassingen
volstaan vaak eindige of context-vrije
mechanismen.
Voor cognitieve doeleinden lijken dit
soort mechanismen ook adequater.
Download