Wat is taalkunde?

advertisement
Taalkennis,
taalverwerving, en
taalevolutie
Henriëtte de Swart
Inleiding op vandaag
Indeling van het vakgebied
Formele structuur van taal.
Taal in het brein: software en ‘wetware’,
taal en denken.
Hoe komt taal in het brein?
 (i) eerste taalverwerving
 (ii) taalevolutie
Literatuur: Kirby (2007)
Taal en communicatie
Spreker
Hoorder
Begrip
boodschap
Verstaan
Formulering
Horen
Spreken
spraakklanken
Taalkennis
Het menselijk taalvermogen is complex
Mensen hebben veel soorten kennis over hun taal:
 Kennis over productie en begrip van klanken
 Kennis over productie en begrip van woorden
 Kennis over productie en begrip van structuren
(complexe woorden, combinaties van woorden in
zinnen, combinaties van zinnen in teksten).
Die kennis is onbewust: je kunt het meestal niet
uitleggen.
Kennis van
woorden
We weten wat welk woord bij dit concept hoort.
We weten hoe we dat woord uitspreken.
We kunnen het woord herkennen als iemand
anders het uitspreekt.
We weten wat variaties op het woord
betekenen: tafel-s, tafel-tje, tafelen.
Kennis van wat niet kan
‘Mrok’ kan geen Nederlands woord zijn, ‘wrok’
is dat wel.
‘Man de vrouw kust elke’ is geen Nederlandse
zin, ‘Elke man kust de vrouw’ is dat wel.
Ook al weten we niet wat een ‘flimp’ is of ‘plit’,
toch begrijpen we de essentie van:
‘Elke flimp is plit’
(als iemand een voorbeeld laat zien van een
‘flimp’ weten we gelijk dat dit object de
eigenschap ‘plit’ heeft)
Taalkunde opgedeeld (1)
Fonologie (klankleer, p/b, a/o). pak/bak/bok.
Fonemen hebben geen betekenis, maar zijn
betekenisonderscheidend.
Fonetiek (fysische eigenschappen van
spraak, geluidsgolven, intonatie).
B.v. de klankloze ‘k’ wordt in bepaalde
conteksten uitgesproken als klankhebbend,
b.v. zakdoek.
Fysieke eisen aan spraak
Strottenhoofd (achter in keel, waar luchtweg
en slokdarm gescheiden worden)
Stembanden (waar lucht door wordt geperst)
Mond (tong, lippen: articulatie)
Bewegende stembanden tijdens spraak
Verlaagde larynx
Mensen hebben een verlaagd strottenhoofd.
Ademhaling en spijsvertering liggen daardoor
dicht bij elkaar (‘in verkeerde keelgat
schieten’)
Baby’s hebben dat nog niet, en kunnen
tegelijk drinken en ademhalen.
Nodig voor praten (apen hebben dat niet, en
kunnen niet praten).
Taalkunde opgedeeld (2)
Morfologie (vormleer, kind/kindje,
tafel/tafels/tafelen).
Morfeem: kleinste betekenisdragende
eenheid. Woordniveau.
Classificatie van morfemen naar hun rol
in grotere gehelen: zelfstandig
naamwoord, werkwoord, deelwoord,
lidwoord, inflectie, derivatie..
Taalkunde opgedeeld (3)
Syntaxis (grammatica)
Combinatie van woorden in grotere
structurele eenheden (naamwoordelijke
constituenten, werkwoordelijke constituenten,
zinnen, ..) (boven woordniveau, niet hoger
dan zinsniveau)
hij loopt  loopt hij?
Jan slaat Piet  Piet slaat Jan.
Recursie
Onze kennis staat oneindig veel structuren toe, en
in principe oneindig lange zinnen.
Neem ‘Jan slaapt’. Voeg daaraan toe: ‘Ik denk
dat..’, Piet hoorde dat..’
De oom van een bijzonder intelligente en
succesvolle student van een bevriende professor
van mij hoorde dat Jan de auto die ik van de broer
van de buurman van mijn tandarts gekregen heb
niet wilde poetsen.
Dit spel heeft maar één regel en die luidt: dit spel
heeft maar één regel en die luidt: dit ..
Indeling vakgebied (3)
Semantiek: betekenis van woorden en constructies
binnen de taal
pen/schrijven/papier (lexicale semantiek),
naar/langs/richting de rivier alle/geen/de meeste
boeken (semantiek van complexe structuren)
Pragmatiek (taal in contekst)
ik/hier/nu:deixis), mogen/moeten (implicaturen),
beleefdheid (u/jij), teksten (discourse semantiek).
Rode draad door alle disciplines
Fonologie – morfologie – syntaxis – semantiek –
pragmatiek
Methode: vergelijk (een aspect) van natuurlijke taal
met een formel taal.
Natuurlijke taal: we hebben meestal geen complete
beschrijving.
Formele talen: we hebben expliciete kennis.
Formele eigenschappen van grammatica’s.
Denk ook aan: implementaties, taaltechnologie.
Formele structuur
Chomsky hiërarchie: indeling in klassen
van formele talen naar het type formele
grammatika dat alle talen binnen een
bepaalde klasse kan genereren.
Oorspronkelijk: informatica, toegepast
op natuurlijke taal door Chomsky.
http://nl.wikipedia.org/wiki/Chomskyhi%C3%ABrarchie
Fonologie
Talen hebben beperkingen op welke
fonemen op elkaar mogen volgen, b.v.
‘mrok’ vs. ‘wrok’.
Japans: sofuto wea (software)
*soft  sofuto
Vraag: wat voor soort grammatica heb
je hiervoor nodig?
Formele talen (1)
Een formele taal is een verzameling
symbolen-rijtjes (strings)
Formele talen over het alfabet {0,1}:
o {01, 0101, 010101, 01010101, …}
o {01, 001, 0001, 00001, ..}
o {01, 0011, 000111, 00001111, …}
Wat is een welgevormde uitdrukking?
Formele talen (2)
Formele talen over het alfabet {a, b, c,
…z}
o {ab, ac, ad, …, abab, abac, …}
o {sofuto, kanazawa, riku, arugato, …}
Wat is een welgevormde uitdrukking?
Formele talen (3)
Formele talen over het alfabet {Jan,
Marie, slaapt, zingt, haat, kust, …}
{Jan slaapt, Marie zingt, Jan haat Marie,
Marie kust Jan, …}
Wat is een welgevormde uitdrukking?
algoritme
Formele grammatica’s
Een taal kun je karakteriseren door de
grammatica (automaat) die ‘m herkent.
{01, 0101, 0101, 010101, ...}: finite state
{01, 0011, 000111, 00001111, …}:
phrase structure grammar.
Finite state grammatica
Hiermee kunnen
we een eindige
toestands
automaat bouwen
voor de taal {01,
0101, 010101,
01010101, …}.
Push down automaat
Geen eindige toestandsautomaat voor
{01, 0011, 000111, 00001111, …}, want
we moeten ‘onthouden’ dat er evenveel
nullen als enen zijn ~ stapelautomaat.
S  01
S  0S1
Geheugen bestaat uit een stack: last in
first out.
Recursie
Finiete bouwstenen + beperkt aantal
regels  oneindig aantal uitdrukkingen.
Recursie in finite state sekwenties:
(AB)n. ABABAB,…
Recursie in contextvrije talen: AnBn.
AAA…BBB…
Phrase structure: [A[A[AB]B]B].
Drie klassen talen
Reguliere grammatica (finite state):
Contekstvrije grammatica (push down
automaat)
Contekstgevoelige grammatica (lineair
gebonden Türing machine).
Contekstgevoelige
grammatica
Lineair gebonden automaat: geheugen
is tape; regels kunnen op verschillende
cellen aangrijpen. Tape is oneindig,
maar alleen eindig deel toegankelijk.
Restrictie op contekstgevoelige taal:
geen string afbeelden op een kortere
string dan zichzelf.
Chomsky hiërarchie
Elke taal die je kunt herkennen met een
push down automaat kun je ook
herkennen met een eindige toestands
automaat (maar niet andersom).
Contekstvrije talen
Reguliere talen
Formele talen en
natuurlijke talen
Veel fonologische regels kun je schrijven m.b.v.
een eindige toestandsautomaat (b.v. restricties
op foneem volgorde in Japans)
Voor syntaxis lukt dat niet: minimaal phrase
structure automaat (contekstvrije grammatica).
Hebben we te maken met contekstvrije
grammatica?
Nederlands/Duits
…omdat ik Jan Piet de nijlpaarden zag helpen voeren.
…weil ich Jan Piet die hippopotamus füttern helfen sag.
Taal in het brein
Taal als kennissysteem:
‘software’.
Opgeslagen in brein:
‘wetware’
Bij rechtshandige mensen
vooral in linkerhersenhelft.
Gebieden specifiek voor
taal: Wernicke’s gebied
(taalbegrip), Broca’s area
(spraakproductie).
Taal: uniek menselijk
Wat is er uniek aan menselijke taal?
Meerdere kandidaten:
 (i) recursie Chomsky, Hauser and Fitch
(2004) Science.
 (ii) dubbele articulatie
 (iii) parametrische variatie
 (iv) groot lexicon
Homo erectus
Onderzoek naar
taalevolutie
Taal laat geen fossielen achter – hoe
doe je onderzoek naar taalevolutie?
Vergelijkend gedragsonderzoek
(communicatie bij dieren)
‘Restricted linguistic systems’ waaruit je
conclusies trekt over taalevolutie (b.v.
pidgins, homesign)
Computationele modellering.
Lexicon bij dieren
Rhesusapen: 3 verschillende
roepen, voor verschillende
roofdieren.
http://www.wjh.harvard.edu/~mnkylab/m
edia/vervetcalls.html
Lexicon beperkt tot 3 uitdrukkingen –
geen samenstelling tot complexere
uitdrukkingen.
Lexicon bij
getrainde dieren
mensen, 6 jaar: 14.000
woorden
volwassen mensen: 60.000
woorden
tussen mensen opgegroeide dieren:
 Washoe (chimpanzee): 250 woorden
 Koko (gorilla): 1000-2000 woorden
 Rico (border collie): 200 woorden
Vergelijkbaar: dolfijnen, zeeleeuwen, papagaaien
Links
Sign language used by Koko the gorilla
http://www.koko.org/world/signlanguage
.html
Spoken language understanding by
Kanzi the bonobo
http://www.greatapetrust.org/media/vide
o-bonobo-kanzi.php
Recursie in apen
Fitch en Hauser (2004): Tamarin monkeys
kunnen een finite state grammar leren
herkennen, maar geen contextvrije, phrase
structure grammatica.
Claim: phrase structure grammatica
(contekstvrij/gevoelig) uniek menselijk.
Link
Computational Constraints on Syntactic
Processing in a Nonhuman Primate
W. Tecumseh Fitch and Marc D. Hauser
Science 16 January 2004:
Vol. 303. no. 5656, pp. 377 – 380.
http://www.sciencemag.org/cgi/content/full/30
3/5656/377/DC1
Maar vgl. recente nieuwe experimenten waar
apen het beter zouden doen.
http://news.bbc.co.uk/2/hi/8139322.stm
Recursie in spreeuwen
Gertner, Fenn et al. (2006), Nature:
motieven (‘rattle’, ‘warble’). Sekwenties
worden herkend in finite state grammar
en contekstvrije grammatica.
Niet alleen geheugen, generalizatie
naar nieuwe patronen: regels!
Vogelzang heeft geen compositionele
betekenis. Phrase structure?
Syllabe structuur in
vinkenzang
Link
Recursive syntactic pattern learning by
songbirds, byTimothy Q. Gentner, Kimberly
M. Fenn, Daniel Margoliash, Howard C.
Nusbaum, Nature 440, 1204 – 1207.
http://www.nature.com/nature/journal/v440/n7
088/abs/nature04675.html
Grote discussie op Language Log over
interpretatie van de resultaten.
Universele recursie?
Everett (2005), Science:
Pirahã geen syntactische
embedding.
Jan leest. Jan leest dat
Marie droomt. Jan leest
dat Marie droomt dat Tom
kwam.
Pirahã: Jan zegt. Marie
droomde. Tom kwam.
Links
Dan Everett (2005)
Cultural constraints
on grammar and
cognition in Pirahã,
Cultural Anthropology 46, 621-646.
More on Dan Everett:
http://www.llc.ilstu.edu/dlevere/
More on Pirahã:
http://en.wikipedia.org/wiki/Pirah%C3%A
3_language
Dubbele articulatie
Fonemen zijn zelf betekenisloos, maar
vormen in combinatie betekenisvolle
eenheden (morfemen, woorden):
pak/bak/bok.
Die woorden kunnen in combinatie met
elkaar weer nieuwe betekenissen
uitdrukken (compositionele semantiek).
Voordeel van dubbele
articulatie
Door deze dubbele articulatie kunnen
we met weinig klanken toe (beperking
van spraakproductie organen), en
kunnen we toch oneindig veel
betekenissen uitdrukken.
Niet in dieren
Spreeuwen: ‘rattles’ en
‘warbles’ (motieven), maar
geen ‘fonemen’, geen
compositionele semantiek.
Vervet monkey calls:
verschillende calls, voor
verschillende roofdieren
(arend, luipaard, slang),
marginale sekwentie van calls,
geen ‘fonemen’, geen
compositionele semantiek.
Parametrische
variatie
Vogelzang van spreeuwen
op verschillende geografische locaties nauwelijks verschillend.
Calls van apen overal gelijk, gebaren wel
groepsgebonden.
Mensentaal: grote variatie in lexicon,
parametrische variatie in fonologie,
syntaxis (binnen UG).
Joint attention
als basis
Mensen: joint attention
driehoek spreker-hoorder-referent.
Hebben mensenkinderen van nature
(v.a. 3 maanden). Tomasello
Bij apen veel minder ontwikkeld.
samenwerking, vertrouwen, culturele
ontwikkeling ~ wil tot communicatie
Conclusie
Groot gat tussen
communicatiesystemen van dieren
(anders dan de mens) en de mens.
Hoe heeft de mens dat gat overbrugd?
Waren er tussenstadia?
vgl. discussie over ontwikkeling oog in
evolutionaire biologie).
Wat heb je aan een
‘beetje oog’?
http://www.kennislink.nl/publicaties/oge
n-in-de-evolutie
Ogen van weekdieren:
Wat heb je aan
‘beetje taal’?
Tussenstadium in taalevolutie:
prototaal.
Evidentie komt van ‘restricted linguistic
systems’: pidgins, homesign, L2
verwerving.
Eenvoudig taalsysteem, toch nuttig in
communicatie ~ prototaal.
Pidgin
Pidgin zijn talen die spontaan ontstaan
door contact tussen taalgemeenschappen
Meestal wordt de taal van de meest
dominante gemeenschap vereenvoudigd
Klein lexicon, eenvoudige zinsbouw,
gebruikt als lingua franca, nooit L1.
Indien het contact aanhoudt, ontstaat een
creole: wordt geleerd door kinderen.
Hawaiian pidgin
Ontstaan als lingua franca onder
plantagewerkers.
Grotendeels gebasseerd op het Engels.
Ook invloed van Hawaiiaans, Portugees,
Cantonees, Japans.
Geen lidwoorden, geen markering van tijd,
geen copula’s (is, zijn), geen markering
van geslacht (hij/zij) of getal (sg/pl).
Hawaiian pidgin
When time up I go to boss and say you
take old woman back now. He get verra
mad, and make me pay all up. Marie, he
good woman, but talk, talk all time,
make me mad then pilikia again.
(Een Portugese immigrant, 19e eeuw.)
Uit: Hopper & Traugott 2003, citerend S.
Roberts 1998, citerend Vergne 1898.
Prototaal
Eigenschappen van prototaal:
Beperkt lexicon, mogelijk geen
onderscheid tussen naamwoorden en
werkwoorden.
Simpele Predikaat-argumentstructuur
(geen kwantoren, etc.).
Rol van informatiestructuur: agent first,
focus last.
Transitie naar taal
Prototaal  verdere ontwikkeling van
cognitie (o.a. geheugen)  verdere
ontwikeling van taal  cognitie etc.
Leerbaarheid: overdracht op volgende
generatie.
Verankerd in genen? (Baldwin effect)
Beperkt ons brein mogelijke talen door
beperkingen op leerbaarheid van taal?
Cultuur
Rol van cultuur: begravingsrituelen,
maken van objecten zoals kralen,
ontwikkeling van religie.
Taal als ‘niche’: anders dan andere
soorten.
Ontwikkeling van externe geheugens:
schrift.
Tot slot
Kennis van taal is complex: veel verschillende
soorten van kennis van taal.
Taalevolutie vereist interdisciplinair onderzoek:
veel verschillende factoren die met elkaar
samenhangen (fysiek, cognitief, cultureel).
Om verankering taalkennis in menselijke cognitie
en ontwikkelingen als taalevolutie en
taalverwerving beter te begrijpen moeten we meer
weten van structuur van taal.
Download