Taalkennis, taalverwerving, en taalevolutie Henriëtte de Swart Inleiding op vandaag Indeling van het vakgebied Formele structuur van taal. Taal in het brein: software en ‘wetware’, taal en denken. Hoe komt taal in het brein? (i) eerste taalverwerving (ii) taalevolutie Literatuur: Kirby (2007) Taal en communicatie Spreker Hoorder Begrip boodschap Verstaan Formulering Horen Spreken spraakklanken Taalkennis Het menselijk taalvermogen is complex Mensen hebben veel soorten kennis over hun taal: Kennis over productie en begrip van klanken Kennis over productie en begrip van woorden Kennis over productie en begrip van structuren (complexe woorden, combinaties van woorden in zinnen, combinaties van zinnen in teksten). Die kennis is onbewust: je kunt het meestal niet uitleggen. Kennis van woorden We weten wat welk woord bij dit concept hoort. We weten hoe we dat woord uitspreken. We kunnen het woord herkennen als iemand anders het uitspreekt. We weten wat variaties op het woord betekenen: tafel-s, tafel-tje, tafelen. Kennis van wat niet kan ‘Mrok’ kan geen Nederlands woord zijn, ‘wrok’ is dat wel. ‘Man de vrouw kust elke’ is geen Nederlandse zin, ‘Elke man kust de vrouw’ is dat wel. Ook al weten we niet wat een ‘flimp’ is of ‘plit’, toch begrijpen we de essentie van: ‘Elke flimp is plit’ (als iemand een voorbeeld laat zien van een ‘flimp’ weten we gelijk dat dit object de eigenschap ‘plit’ heeft) Taalkunde opgedeeld (1) Fonologie (klankleer, p/b, a/o). pak/bak/bok. Fonemen hebben geen betekenis, maar zijn betekenisonderscheidend. Fonetiek (fysische eigenschappen van spraak, geluidsgolven, intonatie). B.v. de klankloze ‘k’ wordt in bepaalde conteksten uitgesproken als klankhebbend, b.v. zakdoek. Fysieke eisen aan spraak Strottenhoofd (achter in keel, waar luchtweg en slokdarm gescheiden worden) Stembanden (waar lucht door wordt geperst) Mond (tong, lippen: articulatie) Bewegende stembanden tijdens spraak Verlaagde larynx Mensen hebben een verlaagd strottenhoofd. Ademhaling en spijsvertering liggen daardoor dicht bij elkaar (‘in verkeerde keelgat schieten’) Baby’s hebben dat nog niet, en kunnen tegelijk drinken en ademhalen. Nodig voor praten (apen hebben dat niet, en kunnen niet praten). Taalkunde opgedeeld (2) Morfologie (vormleer, kind/kindje, tafel/tafels/tafelen). Morfeem: kleinste betekenisdragende eenheid. Woordniveau. Classificatie van morfemen naar hun rol in grotere gehelen: zelfstandig naamwoord, werkwoord, deelwoord, lidwoord, inflectie, derivatie.. Taalkunde opgedeeld (3) Syntaxis (grammatica) Combinatie van woorden in grotere structurele eenheden (naamwoordelijke constituenten, werkwoordelijke constituenten, zinnen, ..) (boven woordniveau, niet hoger dan zinsniveau) hij loopt loopt hij? Jan slaat Piet Piet slaat Jan. Recursie Onze kennis staat oneindig veel structuren toe, en in principe oneindig lange zinnen. Neem ‘Jan slaapt’. Voeg daaraan toe: ‘Ik denk dat..’, Piet hoorde dat..’ De oom van een bijzonder intelligente en succesvolle student van een bevriende professor van mij hoorde dat Jan de auto die ik van de broer van de buurman van mijn tandarts gekregen heb niet wilde poetsen. Dit spel heeft maar één regel en die luidt: dit spel heeft maar één regel en die luidt: dit .. Indeling vakgebied (3) Semantiek: betekenis van woorden en constructies binnen de taal pen/schrijven/papier (lexicale semantiek), naar/langs/richting de rivier alle/geen/de meeste boeken (semantiek van complexe structuren) Pragmatiek (taal in contekst) ik/hier/nu:deixis), mogen/moeten (implicaturen), beleefdheid (u/jij), teksten (discourse semantiek). Rode draad door alle disciplines Fonologie – morfologie – syntaxis – semantiek – pragmatiek Methode: vergelijk (een aspect) van natuurlijke taal met een formel taal. Natuurlijke taal: we hebben meestal geen complete beschrijving. Formele talen: we hebben expliciete kennis. Formele eigenschappen van grammatica’s. Denk ook aan: implementaties, taaltechnologie. Formele structuur Chomsky hiërarchie: indeling in klassen van formele talen naar het type formele grammatika dat alle talen binnen een bepaalde klasse kan genereren. Oorspronkelijk: informatica, toegepast op natuurlijke taal door Chomsky. http://nl.wikipedia.org/wiki/Chomskyhi%C3%ABrarchie Fonologie Talen hebben beperkingen op welke fonemen op elkaar mogen volgen, b.v. ‘mrok’ vs. ‘wrok’. Japans: sofuto wea (software) *soft sofuto Vraag: wat voor soort grammatica heb je hiervoor nodig? Formele talen (1) Een formele taal is een verzameling symbolen-rijtjes (strings) Formele talen over het alfabet {0,1}: o {01, 0101, 010101, 01010101, …} o {01, 001, 0001, 00001, ..} o {01, 0011, 000111, 00001111, …} Wat is een welgevormde uitdrukking? Formele talen (2) Formele talen over het alfabet {a, b, c, …z} o {ab, ac, ad, …, abab, abac, …} o {sofuto, kanazawa, riku, arugato, …} Wat is een welgevormde uitdrukking? Formele talen (3) Formele talen over het alfabet {Jan, Marie, slaapt, zingt, haat, kust, …} {Jan slaapt, Marie zingt, Jan haat Marie, Marie kust Jan, …} Wat is een welgevormde uitdrukking? algoritme Formele grammatica’s Een taal kun je karakteriseren door de grammatica (automaat) die ‘m herkent. {01, 0101, 0101, 010101, ...}: finite state {01, 0011, 000111, 00001111, …}: phrase structure grammar. Finite state grammatica Hiermee kunnen we een eindige toestands automaat bouwen voor de taal {01, 0101, 010101, 01010101, …}. Push down automaat Geen eindige toestandsautomaat voor {01, 0011, 000111, 00001111, …}, want we moeten ‘onthouden’ dat er evenveel nullen als enen zijn ~ stapelautomaat. S 01 S 0S1 Geheugen bestaat uit een stack: last in first out. Recursie Finiete bouwstenen + beperkt aantal regels oneindig aantal uitdrukkingen. Recursie in finite state sekwenties: (AB)n. ABABAB,… Recursie in contextvrije talen: AnBn. AAA…BBB… Phrase structure: [A[A[AB]B]B]. Drie klassen talen Reguliere grammatica (finite state): Contekstvrije grammatica (push down automaat) Contekstgevoelige grammatica (lineair gebonden Türing machine). Contekstgevoelige grammatica Lineair gebonden automaat: geheugen is tape; regels kunnen op verschillende cellen aangrijpen. Tape is oneindig, maar alleen eindig deel toegankelijk. Restrictie op contekstgevoelige taal: geen string afbeelden op een kortere string dan zichzelf. Chomsky hiërarchie Elke taal die je kunt herkennen met een push down automaat kun je ook herkennen met een eindige toestands automaat (maar niet andersom). Contekstvrije talen Reguliere talen Formele talen en natuurlijke talen Veel fonologische regels kun je schrijven m.b.v. een eindige toestandsautomaat (b.v. restricties op foneem volgorde in Japans) Voor syntaxis lukt dat niet: minimaal phrase structure automaat (contekstvrije grammatica). Hebben we te maken met contekstvrije grammatica? Nederlands/Duits …omdat ik Jan Piet de nijlpaarden zag helpen voeren. …weil ich Jan Piet die hippopotamus füttern helfen sag. Taal in het brein Taal als kennissysteem: ‘software’. Opgeslagen in brein: ‘wetware’ Bij rechtshandige mensen vooral in linkerhersenhelft. Gebieden specifiek voor taal: Wernicke’s gebied (taalbegrip), Broca’s area (spraakproductie). Taal: uniek menselijk Wat is er uniek aan menselijke taal? Meerdere kandidaten: (i) recursie Chomsky, Hauser and Fitch (2004) Science. (ii) dubbele articulatie (iii) parametrische variatie (iv) groot lexicon Homo erectus Onderzoek naar taalevolutie Taal laat geen fossielen achter – hoe doe je onderzoek naar taalevolutie? Vergelijkend gedragsonderzoek (communicatie bij dieren) ‘Restricted linguistic systems’ waaruit je conclusies trekt over taalevolutie (b.v. pidgins, homesign) Computationele modellering. Lexicon bij dieren Rhesusapen: 3 verschillende roepen, voor verschillende roofdieren. http://www.wjh.harvard.edu/~mnkylab/m edia/vervetcalls.html Lexicon beperkt tot 3 uitdrukkingen – geen samenstelling tot complexere uitdrukkingen. Lexicon bij getrainde dieren mensen, 6 jaar: 14.000 woorden volwassen mensen: 60.000 woorden tussen mensen opgegroeide dieren: Washoe (chimpanzee): 250 woorden Koko (gorilla): 1000-2000 woorden Rico (border collie): 200 woorden Vergelijkbaar: dolfijnen, zeeleeuwen, papagaaien Links Sign language used by Koko the gorilla http://www.koko.org/world/signlanguage .html Spoken language understanding by Kanzi the bonobo http://www.greatapetrust.org/media/vide o-bonobo-kanzi.php Recursie in apen Fitch en Hauser (2004): Tamarin monkeys kunnen een finite state grammar leren herkennen, maar geen contextvrije, phrase structure grammatica. Claim: phrase structure grammatica (contekstvrij/gevoelig) uniek menselijk. Link Computational Constraints on Syntactic Processing in a Nonhuman Primate W. Tecumseh Fitch and Marc D. Hauser Science 16 January 2004: Vol. 303. no. 5656, pp. 377 – 380. http://www.sciencemag.org/cgi/content/full/30 3/5656/377/DC1 Maar vgl. recente nieuwe experimenten waar apen het beter zouden doen. http://news.bbc.co.uk/2/hi/8139322.stm Recursie in spreeuwen Gertner, Fenn et al. (2006), Nature: motieven (‘rattle’, ‘warble’). Sekwenties worden herkend in finite state grammar en contekstvrije grammatica. Niet alleen geheugen, generalizatie naar nieuwe patronen: regels! Vogelzang heeft geen compositionele betekenis. Phrase structure? Syllabe structuur in vinkenzang Link Recursive syntactic pattern learning by songbirds, byTimothy Q. Gentner, Kimberly M. Fenn, Daniel Margoliash, Howard C. Nusbaum, Nature 440, 1204 – 1207. http://www.nature.com/nature/journal/v440/n7 088/abs/nature04675.html Grote discussie op Language Log over interpretatie van de resultaten. Universele recursie? Everett (2005), Science: Pirahã geen syntactische embedding. Jan leest. Jan leest dat Marie droomt. Jan leest dat Marie droomt dat Tom kwam. Pirahã: Jan zegt. Marie droomde. Tom kwam. Links Dan Everett (2005) Cultural constraints on grammar and cognition in Pirahã, Cultural Anthropology 46, 621-646. More on Dan Everett: http://www.llc.ilstu.edu/dlevere/ More on Pirahã: http://en.wikipedia.org/wiki/Pirah%C3%A 3_language Dubbele articulatie Fonemen zijn zelf betekenisloos, maar vormen in combinatie betekenisvolle eenheden (morfemen, woorden): pak/bak/bok. Die woorden kunnen in combinatie met elkaar weer nieuwe betekenissen uitdrukken (compositionele semantiek). Voordeel van dubbele articulatie Door deze dubbele articulatie kunnen we met weinig klanken toe (beperking van spraakproductie organen), en kunnen we toch oneindig veel betekenissen uitdrukken. Niet in dieren Spreeuwen: ‘rattles’ en ‘warbles’ (motieven), maar geen ‘fonemen’, geen compositionele semantiek. Vervet monkey calls: verschillende calls, voor verschillende roofdieren (arend, luipaard, slang), marginale sekwentie van calls, geen ‘fonemen’, geen compositionele semantiek. Parametrische variatie Vogelzang van spreeuwen op verschillende geografische locaties nauwelijks verschillend. Calls van apen overal gelijk, gebaren wel groepsgebonden. Mensentaal: grote variatie in lexicon, parametrische variatie in fonologie, syntaxis (binnen UG). Joint attention als basis Mensen: joint attention driehoek spreker-hoorder-referent. Hebben mensenkinderen van nature (v.a. 3 maanden). Tomasello Bij apen veel minder ontwikkeld. samenwerking, vertrouwen, culturele ontwikkeling ~ wil tot communicatie Conclusie Groot gat tussen communicatiesystemen van dieren (anders dan de mens) en de mens. Hoe heeft de mens dat gat overbrugd? Waren er tussenstadia? vgl. discussie over ontwikkeling oog in evolutionaire biologie). Wat heb je aan een ‘beetje oog’? http://www.kennislink.nl/publicaties/oge n-in-de-evolutie Ogen van weekdieren: Wat heb je aan ‘beetje taal’? Tussenstadium in taalevolutie: prototaal. Evidentie komt van ‘restricted linguistic systems’: pidgins, homesign, L2 verwerving. Eenvoudig taalsysteem, toch nuttig in communicatie ~ prototaal. Pidgin Pidgin zijn talen die spontaan ontstaan door contact tussen taalgemeenschappen Meestal wordt de taal van de meest dominante gemeenschap vereenvoudigd Klein lexicon, eenvoudige zinsbouw, gebruikt als lingua franca, nooit L1. Indien het contact aanhoudt, ontstaat een creole: wordt geleerd door kinderen. Hawaiian pidgin Ontstaan als lingua franca onder plantagewerkers. Grotendeels gebasseerd op het Engels. Ook invloed van Hawaiiaans, Portugees, Cantonees, Japans. Geen lidwoorden, geen markering van tijd, geen copula’s (is, zijn), geen markering van geslacht (hij/zij) of getal (sg/pl). Hawaiian pidgin When time up I go to boss and say you take old woman back now. He get verra mad, and make me pay all up. Marie, he good woman, but talk, talk all time, make me mad then pilikia again. (Een Portugese immigrant, 19e eeuw.) Uit: Hopper & Traugott 2003, citerend S. Roberts 1998, citerend Vergne 1898. Prototaal Eigenschappen van prototaal: Beperkt lexicon, mogelijk geen onderscheid tussen naamwoorden en werkwoorden. Simpele Predikaat-argumentstructuur (geen kwantoren, etc.). Rol van informatiestructuur: agent first, focus last. Transitie naar taal Prototaal verdere ontwikkeling van cognitie (o.a. geheugen) verdere ontwikeling van taal cognitie etc. Leerbaarheid: overdracht op volgende generatie. Verankerd in genen? (Baldwin effect) Beperkt ons brein mogelijke talen door beperkingen op leerbaarheid van taal? Cultuur Rol van cultuur: begravingsrituelen, maken van objecten zoals kralen, ontwikkeling van religie. Taal als ‘niche’: anders dan andere soorten. Ontwikkeling van externe geheugens: schrift. Tot slot Kennis van taal is complex: veel verschillende soorten van kennis van taal. Taalevolutie vereist interdisciplinair onderzoek: veel verschillende factoren die met elkaar samenhangen (fysiek, cognitief, cultureel). Om verankering taalkennis in menselijke cognitie en ontwikkelingen als taalevolutie en taalverwerving beter te begrijpen moeten we meer weten van structuur van taal.