Inleiding Taalkunde Syntaxis – 7 mei 2013 Eva Poortman Inleiding Vorige week: morfologie, eerste discipline binnen de taalkunde Deze week: syntaxis Inleiding – structuur in taal Taal maakt combinaties op verschillende niveaus! Vorige week: Morfologie - morfemen combineren tot woorden Bestudeert woordstructuur en woordvorming (1) (2) bezem – bezems viool – violen +s +en (*bezemen) (*viools, *vioolen) Vandaag: Syntaxis - woorden combineren tot zinnen Bestudeert zinsstructuur en zinsopbouw (2) Jan eet, Jan eet een appel Jan dineert, *Jan dineert een appel Later: semantiek (Marieke), fonologie (Hanna), .. (1) Inleiding – structuur in taal Taal maakt combinaties op verschillende niveaus! Vorige week: Morfologie - morfemen combineren tot woorden Bestudeert woordstructuur en woordvorming (1) (2) bezem – bezems viool – violen +s +en (*bezemen) (*viools, *vioolen) Vandaag: Syntaxis - woorden combineren tot zinnen Bestudeert zinsstructuur en zinsopbouw (2) Jan eet, Jan eet een appel Jan dineert, *Jan dineert een appel Later: semantiek (Marieke), fonologie (Hanna), .. (1) Stof bij dit college Uit het boek van Jurafsky & Martin (J&M) Hoofdstuk 12 (t/m 12.3) Dit college (1) (2) (3) (4) (5) (6) Wat is syntaxis? Syntactische verschijnselen Doelstellingen Constituentie Contextvrije grammatica Praktische applicaties 1 Wat is syntaxis? 1 Wat is syntaxis? Syntax comes from the greek sýntaxis, meaning “setting out together” or “arrangement”, and refers to the way words are arranged together (J&M, 2009) Syntaxis identificeert de bouw van een zin Volgens welke regels combineren woorden tot grammaticale woordgroepen en zinnen? Wat is syntaxis? Als taalgebruiker weet je dat (1) grammaticaal is en (2) niet (1) (2) De student is te laat gearriveerd *Gearriveerd de student is te laat Onbewuste mentale “syntaxis regels” specificeren hoe woorden met elkaar mogen combineren (onderdeel van linguistic competence) Grammaticaal betekent dat de grammatica (het taalsysteem) die zin genereert Generatieve grammatica Formele regels 2 Syntactische verschijnselen 2 Syntactische verschijnselen Wat zijn de meest interessante syntactische verschijnselen? Hoe modelleren we deze? Grammaticaliteit Structurele ambiguïteit Recursie en oneindigheid Subcategorisatie Verplaatsing Grammaticaliteit Moedertaalsprekers weten welke zinnen grammaticaal zijn en welke niet Wijst op systematiek/regels Bewijs: patronen van (on)grammaticaliteit Patronen van (on)grammaticaliteit *De mannen is thuis De mannen zijn thuis De man is thuis *De man zijn thuis *De vogels is in de lucht De vogels zijn in de lucht De vogel is in de lucht *De vogel zijn in de lucht Niet per zin beoordelen, maar een patroon herkennen Regelmatigheid: congruentie onderwerp en persoonsvorm Patronen van (on)grammaticaliteit Jan vindt een schat *Jan vindt Jan slaapt *Jan slaapt een dutje Piet ziet Jan *Piet ziet Piet gaapt *Piet gaapt een gaap Niet per zin beoordelen, maar een patroon herkennen Regelmatigheid: type werkwoord (later meer) (On)grammaticaliteit Sidenote: niet altijd duidelijk wat grammaticaal is Voor iedereen ongrammaticaal Hun doen maar wat Een aantal studenten zijn afwezig *Hem is ziek *Een student zijn afwezig naamval congruentie Hun komt steeds meer voor als onderwerp van een zin (http://www.ru.nl/grammarandcognition/publicati ons/leve_hun!/) http://dewerelddraaitdoor.vara.nl/media/66145 Structurele ambiguïteit Een zin kan meer dan één betekenis hebben Wijst op verschillende interne structuren – structurele ambiguïteit Wat betekenen de volgende zinnen? Oude mannen en vrouwen eerst! Jan zag de man met de verrekijker Structurele ambiguïteit Oude mannen en vrouwen eerst (1) Oude mannen en oude vrouwen (2) Oude mannen en alle vrouwen Jan zag de man met de verrekijker (1) De man die een verrekijker had (2) De man door een verrekijker zien Recursie en oneindigheid Recursie: het optreden van een constructie als onderdeel van zichzelf In de taalkunde doet zich recursie voor in zinsbouw Recursie en oneindigheid Jan vond de sleutel Jan vond de sleutel van de deur Jan vond de sleutel van de deur van de garage … Jan vond de sleutel van de deur Jan vond de sleutel van de deur van de garage Jan vond de sleutel van de deur van de garage van de limousine ….. Subcategorisatie Jan vindt een schat *Jan vindt Jan slaapt *Jan slaapt een dutje Vinden is een transitief werkwoord: een werkwoord met twee argumenten (twee-plaatsig) De vinder (subject) Het gevondene (direct object) Slapen is een intransitief werkwoord: een werkwoord met één argument (één-plaatsig) De slaper (subject) Subcategorisatie Hoeveel argumenten heeft geven? Drie argumenten (drie-plaatsig) De gever (subject) Het gegevene (direct object) De ontvanger (indirect object) Hoeveel argumenten heeft regenen? Geen argumenten (nul-plaatsig) Het regent heeft een zogenaamd expletief subject, een subject zonder betekenis Subcategorisatie Hoeveel argumenten hebben de volgende werkwoorden? Hiermee kunt u het laatst gekozen nummer herhalen Het lampje brandt onafgebroken in de handsfree- of handsetmodus Hiermee kunt u informatie krijgen over de voorgeprogrammeerde toetsen Wanneer hier door een z.g. automatische telefoniste om gevraagd wordt Verplaatsing Soms verschijnen woorden in een andere volgorde dan je gewend bent binnen die specifieke taal Bijvoorbeeld in vraagzinnen (wh-questions) Analyseren als de verplaatsing van een woord of woordgroep Jan beschrijft een film Jan beschrijft wat Wat beschrijft Jan? Verplaatsing Wederom patronen Jan zag de man met de verrekijker *Jan zag wie? *Jan zag de man hoe? *Wie Jan zag? *Hoe Jan zag de man met de verrekijker? Wie zag Jan? Hoe zag Jan de man met de verrekijker? 3 Doelstellingen Doelstelling (1) Karakterisering van onbewuste kennis van een taalgebruiker (linguistic competence) Twee onderzoeksperspectieven Karakterisering van het oneindige, grammaticale gebruik van eindige middelen (creativiteit) Descriptief, nooit prescriptief Hoe bouw je een zin? Hoe begrijp je zinsstructuur? Taalproductie Taalverwerking Zowel vanuit de mens als door een computer Doelstelling (1) Processing: verwerking in het menselijk brein, waarbij de onderliggende structuur van een stroom woorden wordt herkend Verwerkingsstap van auditieve perceptie (herkenning van klanken) -> interpretatie Parsing (computationele toepassingen): omzetten van strings van woorden in representatie van structuur Doelstelling (2) Expliciete karakterisering van taalkennis door middel van precieze, formele regels Generatieve grammatica (Chomsky) = een definitie van de verzameling van alle grammaticale zinnen en woordgroepen Daarom precies gedefinieerde regels, leidt tot de tweedeling grammaticaal/ongrammaticaal Generatie van alle grammaticale uitdrukkingen Uitsluiting van alle ongrammaticale uitdrukkingen 4 Constituentie Constituentie Een zin is nooit een platte rij woorden Opbouw, structuur Vergelijk met structuur van woorden (morfologie) Belangrijk onderdeel van zinsstructuur is de constituent [Constituent]: een woordgroep die zich als een eenheid gedraagt binnen een structuur Wat is “als eenheid gedragen”? Testen voor constituentie Topicalization/fronting Ik ga naar college op 7 mei. [Op 7 mei], ga ik naar college. *7 mei, ga ik naar college op. *Op, ga ik naar college 7 mei. Testen voor constituentie Vervanging Ik ken [de man die daar loopt] niet. Ik ken de man die daar loopt niet. Ik ken hem niet *Ik ken hem die daar loopt niet. Ik heb [een ontzettend groot cadeau met mooie verpakking met toeters en bellen] gekregen. Ik heb het gekregen. Testen voor constituentie Zelfde syntactische omgeving the Broadway coppers They a high-class spot such as Mindy’s three parties from Brooklyn Kunnen allemaal in hun geheel voor een werkwoord staan Dat geldt niet voor elk los woord Terug naar een aantal belangrijke verschijnselen Ambiguïteit Recursie en oneindigheid Verplaatsing Hoe kan constituentie ons helpen? Structurele ambiguïteit Ambiguïteit – andere opdeling in constituenten Oude mannen en vrouwen eerst Oude [mannen en vrouwen] eerst [Oude mannen] en vrouwen Jan zag de man met de verrekijker Jan zag [de man met de verrekijker] Jan [zag [ de man]] [met de verrekijker] Structureel ambigu: twee interne structuren voor één zin Interne structuur Jan zag [de man met de verrekijker] [De man met de verrekijker] werd gisteren nog gezien Jan zag [de man] [met de verrekijker] [De man] die Jan zag [met de verrekijker] liep hard weg Nog meer constituenten? Jan zag [de man met de verrekijker] De verrekijker ? Met de verrekijker Zag de man met de verrekijker vervanging fronting vervanging Nog meer constituenten? Jan zag [de man] [met de verrekijker] De verrekijker Zag de man vervanging vervanging Recursie en oneindigheid Constituenten binnen constituenten van hetzelfde type NP in NP in NP.. Jan vond [de sleutel] Jan vond [de sleutel van [de deur]] Jan vond [de sleutel van [de deur van [de garage]]] PP in PP in PP.. Jan vond de sleutel [van de deur] Jan vond de sleutel [van de deur [van de garage]] Jan vond de sleutel [van de deur [van de garage [van de limousine]]] Jan vond [de sleutel van [de deur van [de garage]]] Verplaatsing Verplaatsing altijd per constituent Jan kent [de man die daar loopt] niet Wie kent Jan niet? Jan kent de man die daar loopt niet *Wie kent Jan die daar loopt niet? Tot zo ver Centrale rol voor constituentie Fenomenen bespreken in termen van constituentie Bomen als representatie van constituentie Nu naar formeel model van syntaxis 5 Contextvrije grammatica Contextvrije grammatica We hebben gezien dat constituentie cruciaal is voor het verklaren van syntactische verschijnselen Onderdeel van linguistic competence Een contextvrije grammatica is een systeem waarmee we constituent structuur modelleren Contextvrije grammatica “A context-free grammar consists of a set of rules or productions, each of which expresses the ways that symbols of the language can be grouped and ordered together” (J&M) Eerst kijken naar syntactische categorieën Syntactische categorieën Vorige week: woord categorieën Nu gaat het om de categorieën van constituenten De categorie van het hoofd van de constituent geeft de naam aan de woordgroep Syntactische categorieën Frases NP (noun phrase, hoofd: zelfstandig naamwoord) man, man met de verrekijker, Sinterklaas DP (determinor phrase, hoofd: determinator) de man, iedere student VP (verb phrase, hoofd: werkwoord) ziet de man met de verrekijker, kijkt PP (preposition phrase, hoofd: prepositie) met de verrekijker, op de stoel, in de tuin AP (adjective phrase, hoofd: adjectief) oude, heel oude Syntactische categorieën man = N de man = DP of de man = NP (J&M) Herschrijfregels “A context-free grammar consists of a set of rules or productions, each of which expresses the ways that symbols of the language can be grouped and ordered together” (J&M) Ook wel: herschrijfregels, productieregels “Formules” om woordgroepen te maken Contextvrij: de regels worden ‘blind’ toegepast, onafhankelijk van context en betekenis Herschrijfregels Vorm: A → B Twee typen symbolen A bestaat uit B terminaal symbool: woorden non-terminaal symbool: categorie, moet nog omgezet worden in woord(en) volgens andere herschrijfregels Links van de pijl (A): één non-terminaal symbool Rechts van de pijl (B): één of meer terminalen of nonterminalen Start symbool: S Herschijfregels - voorbeelden S → NP VP NP → D N S (zin) bestaat uit NP (noun phrase) en VP (verb phrase) VP volgt op NP Allemaal non-terminalen NP (noun phrase) bestaat uit D (determinor) en N (noun) N volgt op D Allemaal non-terminalen D → the | a N → chair D (determinator) kan herschreven worden als “the” of “a”, N (noun) kan herschreven worden als “chair” Links van de pijlen non-terminalen, rechts terminalen Herschrijfregels Doordat rechts van de pijl ook weer nonterminale symbolen kunnen voorkomen, ontstaat recursie Voorbeeld NP → N | A NP NP besaat uit N (noun) of; NP besaat uit A (adjectief) en nóg een NP man oude man heel oude man CFG - derivatie Je kunt een CFG zien als Een mechanisme waarmee je zinnen genereert Een mechanisme waarmee je structuur toekent aan een gegeven zin In het geval van genereren spreken we ook wel van derivatie: de stapsgewijze productie van een rijtje woorden (en tegelijk een boomstructuur) door een grammatica CFG voorbeeld Een kleine CFG S → NP VP NP → D N VP → V NP N → man | vrouw D → de V → ziet | groet Deze grammatica genereert bijv. de zin: De man ziet de vrouw Haakjesnotatie Een CFG produceert zinnen met bijbehorende boomstructuren Compactere notatie: haakjesnotatie [SDe man ziet de vrouw] [S[NPDe man] [VPziet de vrouw]] [S[NP[DDe][Nman]] [VPziet de vrouw]] [S[NP[DDe][Nman]] [VP[Vziet] [NPde vrouw]]] [S[NP[DDe][Nman]] [VP[Vziet] [NP[Dde] [Nvrouw]]]] Welke zinnen produceert deze CFG? S → NP VP NP → D N VP → V NP PP PP → P NP N → tuin | hond | postbode D → de | een V → bijt P → in Formele definitie CFG N Σ R S - Een contextvrije grammatica G wordt gedefinieerd adhv 4 parameters N, Σ, R, S Een verzameling niet-terminale symbolen (variabelen) Een verzameling terminale symbolen Een verzameling herschrijfregels van de vorm A → β, waar A niet-terminaal is en β een string is uit (Σ ⋃ N) * Een start-symbool (meestal S є N) Meestal hoofdletters voor non-terminalen Meestal kleine letters voor terminalen Terug naar subcategorisatie VP → V VP → V NP VP → V NP PP VP → V PP slaapt ziet de man ziet de man op straat loopt op straat (Of: VP → V | V NP | V NP PP | V PP) (Of: VP → V (NP) (PP)) Maar: niet elk werkwoord werkt met elke regel! *loopt de man, *slaapt de man op straat Terug naar subcategorisatie Werkwoorden verschillen in welk soort complement ze kunnen hebben We noemen dit het subcategorization frame van het werkwoord Stanford parser Natural language processing group, Stanford University Natural language parser, voor iedereen te gebruiken Geeft de structuur van elke willekeurige zin 6 Praktische applicaties 6 Praktische applicaties Hoe kunnen we syntactische parsing gebruiken in taal & spraak technologie? Een aantal voorbeelden Input zinnen (in een tekst) Output structurele informatie frases (NP, VP, ..) Praktische applicaties Grammaticacontrole Doel: een “regelboek” met structuur/frase informatie dat kan bepalen of een zin grammaticaal/ongrammaticaal is Maar: vooral morfologische informatie, en congruentie *Jan lees een boek *Jan dineert een appel *Jan een boek leest wordt verbeterd wordt niet verbeterd wordt niet verbeterd Praktische applicaties Machine translation Doel: een “regelboek” met structuur/frase informatie én dat vergelijken met het “regelboek” van een andere taal Praktische applicaties Internet (chat) bots Voorbeeld: ELIZA User: Men are all alike ELIZA: In what way? User: They’re always bugging us with something or another ELIZA: Can you think of a specific example? User: Well, my boyfriend made me come here ELIZA: Your boyfriend made you come here User: He says I’m depressed much of the time ELIZA: I am sorry to hear you are depressed Meer applicaties? Terugblik (1) (2) (3) (4) (5) (6) Wat is syntaxis? Syntactische verschijnselen Doelstellingen Constituentie Contextvrije grammatica Praktische applicaties Vragen over syntax?