Computerpracticum 5 Woorden in vertaling 2010 Inleiding In een recent paper merken Fausey, Long, Inamori & Boroditsky op dat sprekers van het Engels vaker actieve constructies gebruiken dan sprekers van het Japans die verhoudingsgewijs een grotere voorkeur hebben voor passieve constructies. Fausey et al. beargumenteren bovendien dat dit verschil in taal ook overeenkomt met een verschil in denken. Ze stellen o.a. experimenteel vast dat sprekers van het Engels zich beter herinneren wie de agens is van een bepaalde gebeurtenis.1 In dit practicum gaan we onderzoeken of er een vergelijkbaar verschil bestaat tussen sprekers van het Frans en sprekers van het Nederlands. De hoofdvraag hierbij is of het Frans – en mogelijk de spreker van het Frans – meer gefocust is op de agens dan het Nederlands – en mogelijk dus ook de spreker van het Nederlands. Het vermoeden dat er een verschil bestaat tussen het Frans en het Nederlands werd verwoord in een (minder recent) artikel geschreven door van Baardewijk en van Willigen, twee docenten Frans die proberen te achterhalen wat een tekst typisch Frans maakt om de Nederlandstalige student te helpen bij het schrijven van Franse teksten. Zij merken op dat een Nederlandstalige student vaker een passiefconstructie gebruikt dan naar hun aanvoelen standaard is in het Frans. Voor dit specifieke onderzoek maken we gebruik van ‘comparable corpora’: twee corpora – een Frans en een Nederlands – die we onafhankelijk van elkaar onderzoeken. In zekere zin blijven we echter in de buurt van de parallelle corpora aangezien we gebruik zullen maken van een onderdeel van het Europarlementcorpus dat parallel is gezet voor het Frans en het Nederlands. Deze keuze heeft vooral een praktische motivatie – nl. de mogelijkheid om Paraconc te gebruiken – maar heeft ook een belangrijk voor- en een belangrijk nadeel. Het voordeel bestaat erin dat parallelle teksten bij uitstek geschikt zijn om als comparable corpus te dienen. Het nadeel is dat we (deels) te maken hebben met vertaalde teksten en dus niet noodzakelijk te maken hebben met natuurlijke taal. Dit nadeel wordt deels geneutraliseerd door het feit dat de vertalers in principe moedertaalsprekers zijn van de doeltaal. Je kan het corpus downloaden van de cursuswebsite zoals tijdens vorige practica en het laden in Paraconc. Vergeet UTF-8 niet aan te vinken na het laden! Vergeet ook niet de Search Options aan te passen (in het menu Search): Max. Search Hits 500 9999. In totaal zijn er drie opdrachten die allemaal gebruik maken van Paraconc. De deadline voor het indienen van deze opdracht is vrijdag 15 oktober, 18.00 uur. Mocht je na het practicum nog vragen tegenkomen, aarzel dan niet om me te contacteren via [email protected]. 1 Je kan de volledige paper vinden via scholar google. De titel is Constructing agency: the role of language en het tijdschrift waarin het verschenen is heet Frontiers in Psychology (Vol.20, September 2010). 1 Opdracht 1 In deze eerste opdracht gaan we kijken of we aan de hand van de passiefconstructie kunnen vaststellen of het Frans meer gefocust is op de agens dan het Nederlands. De eenvoudigste methode hiervoor zou zijn om voor elk van beide talen een zoekopdracht te formuleren die alle passiefconstructies identificeert. Voor het Nederlands is dit nog enigszins mogelijk aangezien voltooide deelwoorden makkelijk te identificeren zijn aan de hand van het voorvoegsel ge- maar voor het Frans is dit bijna onmogelijk. Dit heeft te maken met het feit dat de voltooide deelwoorden van de ruim 9000 werkwoorden die het Frans telt niet te identificeren zijn zonder eerst een lijst te maken van al hun vormen. Om je een idee te geven van de moeilijkheden geef ik hierbij een lijstje van vormelijke kenmerken die ‘typisch’ zouden genoemd kunnen worden voor voltooide deelwoorden en enkele voorbeelden die aantonen dat deze vormelijke kenmerken minder ‘typisch’ zijn dan ze op het eerste zicht lijken: (i) Alle regelmatige werkwoorden op –ER vormen hun voltooid deelwoord met een é, vb. parler parlé. Een zoekopdracht die gebruik zou maken van dit onderscheidend kenmerk zou echter in de problemen komen met woorden als futé (‘gewiekst’) (ii) Alle regelmatige werkwoorden op –IR vormen hun voltooid deelwoord met een i, vb. dormir dormi. Een zoekopdracht die gebruik zou maken van dit onderscheidend kenmerk zou echter in de problemen komen met woorden als poli (‘beleefd’) Je kan dit lijstje verder aanvullen met bijvoorbeeld de regelmatige werkwoorden op – RE en alle onregelmatige werkwoorden. De conclusie die zich snel zal opdringen is dat er geen enkele zoekopdracht is die betrouwbare resultaten zou geven als ze niet een enorme lijst met alle mogelijke vormen van voltooide deelwoorden bevat. Aangezien het maken van deze lijst te veel werk met zich zou meebrengen gaan we op zoek naar een andere mogelijkheid om de passiefconstructie te kunnen gebruiken om een antwoord te formuleren op onze onderzoeksvraag. Zowel voor het Frans als voor het Nederlands bestaan er contexten waarin we met een aan zekerheid grenzende waarschijnlijkheid kunnen stellen dat ze een echte passiefconstructie bevatten. Voor het Frans is dit a été … en voor het Nederlands is dit werd ge… Controleer dit voor de eerste twintig hits die je krijgt met de volgende zoekopdrachten. Schrijf ook de aantallen hits op die je voor elke zoekopdracht krijgt. 2 Merk op dat er geen reden is om aan te nemen dat beide zoekopdrachten een gelijk aantal hits zouden opleveren. A été is namelijk niet het perfecte equivalent van werd ge… Aangenomen dat a été en werd ge… contexten zijn die bijna altijd passiefconstructies zijn is er een eenvoudige test om te checken welke taal meer aandacht hecht aan de agens: in een taal waarin de agens belangrijk is verwachten we dat de agens in de passiefconstructie (die standaard gebruikt wordt om het vermelden van de agens te omzeilen) verhoudingsgewijs vaker wordt vermeld dan in een taal waarin de agens minder belangrijk is. Om dit voor het Frans en het Nederlands te checken kunnen we het percentage berekenen van gevallen waarin a été gevolgd wordt door par en werd ge gevolgd wordt door door. Hiervoor hebben we de aantallen nodig die je met je vorige searches verkregen hebt en de aantallen hits voor de volgende zoekopdrachten (lees nog wel even de opmerkingen die volgen op de afbeeldingen!): Cruciaal voor beide zoekopdrachten is dat ze worden uitgevoerd met Regular Expressions. Wat er speciaal is voor het Frans is dat we tussen été en par een voltooid deelwoord willen verkrijgen zonder dat we specifiëren welk woord dit is. Dit kunnen we doen door gebruik te maken van vierkante haken en een sterretje. De betekenis van de vierkante haken is ‘er mag één ding voorkomen van wat er tussen ons in staat’, de betekenis van het sterretje is ‘alles wat er aan mij voorafgaat mag zo vaak voorkomen als het wil’. Binnen de vierkante haakjes zie je dat je alle letters van het alfabet kort kan samenvatten als a-z maar dat je voor het Frans ook nog wel even alle speciale tekens moet specifiëren. Wat het Nederlands betreft is de zoekopdracht iets eenvoudiger aangezien het aantal woorden waarin extra accenten voorkomen verwaarloosbaar is. Schrijf de verkregen frequenties op voor beide zoekopdrachten en bereken voor het Frans het percentage van a été passiefconstructies die par bevatten en voor het Nederlands het percentage werd ge… passiefconstructies die door bevatten.2 Formuleer hierover ook een voorlopige conclusie die gelinkt is aan de vraag of het Frans meer aandacht besteedt aan de agens dan het Nederlands. 2 Als je even vergeten bent hoe je een percentage berekent: neem het aantal gevallen dat a été door par gevolgd wordt, deel het door het aantal gevallen van a été en vermenigvuldig het resultaat met 100. 3 Opdracht 2 In deze tweede opdracht gaan we kijken naar een tweede constructie waarin de agens naar de achtergrond verdwijnt: de nominalisatie van een werkwoord. Om te laten zien hoe de agens hierin kan verdwijnen geef ik twee voorbeelden, 1 met een normaal werkwoord en 1 met een nominalisatie: Toen ik binnenkwam… Bij het binnenkomen… Als het Frans inderdaad een taal is die meer focust op de agens dan het Nederlands verwachten we dat het minder gebruik maakt van nominalisaties. Dit kunnen we checken door te kijken naar de meest frequente vormen van nominalisaties in beide talen en de frequenties ervan met elkaar te vergelijken. Voor het Nederlands is dit het gebruik van het morfeem –ing (toevoegen toevoeging) en het toevoegen van een definiet lidwoord (toevoegen het toevoegen). Voor het Frans is de laatste mogelijkheid ook voorhanden maar is er ook een scala aan morfemen (laver lavage, revendiquer revendication, changer changement, couper coupure). Ook in deze opdracht is het belangrijk een context te identificeren waarin we met een aan zekerheid grenzende waarschijnlijkheid kunnen stellen dat er een nominalisatie in voorkomt. Aangezien we bovendien de frequenties van nominalisaties in beide talen gaan vergelijken is het bovendien noodzakelijk om één context voor beide talen te vinden. Eén zo’n context is de volgende: op het moment van / bij / tijdens de/het …en/…ing van vb.: bij de zegening van au moment du / pendant le / au / lors du … er/…ir/…re/…age/…ation/…ment/…ure du/de/des vb.: lors de la bénédiction de de De zoekopdrachten die je kan gebruiken om de frequenties van deze contexten te achterhalen zijn de volgende (lees nog wel even de opmerkingen die volgen op de zoekopdrachten!): [French(Standard) | Advanced Search | Regular Expression] (pendant le|au moment du|lors du|au) [a-z,ç,à,é,è,ê,ô,û]*(er|re|ir|age|tion|ment|ure) (de|du|des) [Dutch(Standard) | Advanced Search | Regular Expression] (op het moment van|tijdens|bij) (de|het) [a-z]*(ing|en) van Wat we hier toevoegen aan mogelijkheden in vergelijking met eerdere zoekopdrachten is het gebruik van de ronde haakjes en verticale streepjes. Tussen de ronde haakjes krijg je een aantal sequenties die van elkaar gescheiden worden met een verticaal streepje. Als je deze notatie gebruikt wil dit zeggen dat exact één van de sequenties moet voorkomen. 4 Schrijf voor elk van de zoekopdrachten op hoeveel hits je verkrijgt en formuleer hierover ook een voorlopige conclusie die gelinkt is aan de vraag of het Frans meer aandacht besteedt aan de agens dan het Nederlands. Opdracht 3 In de laatste opdracht zoomen we in op een interessant grammaticaal verschil tussen het Nederlands en het Frans. Als we in het Nederlands willen zeggen dat een tak omwille van een of andere reden breekt dan zeggen we simpelweg de tak breekt. In het Frans kan dit echter niet; La branche casse is een ongrammaticale zin. De enige manier om te zeggen dat de tak breekt in het Frans is La branche se casse. Het gebruik van se ‘zich’ is hier enigszins verrassend: het schijnt te suggereren dat de tak verantwoordelijk is voor zijn eigen breken. Dit is een indicatie dat het Frans sterk focust op een agens (zelfs in de gevallen dat er niet echt een concrete agens is). Vraag is nu hoe frequent dit fenomeen is. Om een schatting te maken kunnen we als uitgangspunt nemen dat het aantal pronominale werkwoorden in het Frans en het Nederlands hetzelfde is en dat we dus in principe dezelfde frequentie verwachten voor zich en se. Het volstaat dan om te kijken naar het verschil in frequentie tussen zich en se om vast te stellen hoe vaak het Frans de se constructie gebruikt in contexten waar het Nederlands dit niet zou doen. De zoekopdrachten die bij deze opdracht horen zijn vrij eenvoudig: Schrijf voor elk van de zoekopdrachten op hoeveel hits ze opleveren en formuleer hierover een voorlopige conclusie die gelinkt is aan de vraag of het Frans meer aandacht besteedt aan de agens dan het Nederlands. Conclusie Je hebt nu in totaal drie opdrachten uitgevoerd die elk aan de hand van een andere constructie probeerden na te gaan of het Frans meer agensgericht is dan het Nederlands. Formuleer op basis van de verkregen resultaten je eindconclusies. In deze conclusies kan je ook verdere opmerkingen verwerken i.v.m. methode en resultaten. 5