practicum

advertisement
Computerpracticum 5 Woorden in vertaling 2010
Inleiding
In een recent paper merken Fausey, Long, Inamori & Boroditsky op dat sprekers van
het Engels vaker actieve constructies gebruiken dan sprekers van het Japans die
verhoudingsgewijs een grotere voorkeur hebben voor passieve constructies. Fausey et
al. beargumenteren bovendien dat dit verschil in taal ook overeenkomt met een
verschil in denken. Ze stellen o.a. experimenteel vast dat sprekers van het Engels zich
beter herinneren wie de agens is van een bepaalde gebeurtenis.1 In dit practicum gaan
we onderzoeken of er een vergelijkbaar verschil bestaat tussen sprekers van het Frans
en sprekers van het Nederlands. De hoofdvraag hierbij is of het Frans – en mogelijk
de spreker van het Frans – meer gefocust is op de agens dan het Nederlands – en
mogelijk dus ook de spreker van het Nederlands.
Het vermoeden dat er een verschil bestaat tussen het Frans en het Nederlands werd
verwoord in een (minder recent) artikel geschreven door van Baardewijk en van
Willigen, twee docenten Frans die proberen te achterhalen wat een tekst typisch Frans
maakt om de Nederlandstalige student te helpen bij het schrijven van Franse teksten.
Zij merken op dat een Nederlandstalige student vaker een passiefconstructie gebruikt
dan naar hun aanvoelen standaard is in het Frans.
Voor dit specifieke onderzoek maken we gebruik van ‘comparable corpora’: twee
corpora – een Frans en een Nederlands – die we onafhankelijk van elkaar
onderzoeken. In zekere zin blijven we echter in de buurt van de parallelle corpora
aangezien we gebruik zullen maken van een onderdeel van het Europarlementcorpus
dat parallel is gezet voor het Frans en het Nederlands. Deze keuze heeft vooral een
praktische motivatie – nl. de mogelijkheid om Paraconc te gebruiken – maar heeft ook
een belangrijk voor- en een belangrijk nadeel. Het voordeel bestaat erin dat parallelle
teksten bij uitstek geschikt zijn om als comparable corpus te dienen. Het nadeel is dat
we (deels) te maken hebben met vertaalde teksten en dus niet noodzakelijk te maken
hebben met natuurlijke taal. Dit nadeel wordt deels geneutraliseerd door het feit dat de
vertalers in principe moedertaalsprekers zijn van de doeltaal.
Je kan het corpus downloaden van de cursuswebsite zoals tijdens vorige practica en
het laden in Paraconc. Vergeet UTF-8 niet aan te vinken na het laden! Vergeet ook
niet de Search Options aan te passen (in het menu Search): Max. Search Hits 500 
9999.
In totaal zijn er drie opdrachten die allemaal gebruik maken van Paraconc.
De deadline voor het indienen van deze opdracht is vrijdag 15 oktober, 18.00 uur.
Mocht je na het practicum nog vragen tegenkomen, aarzel dan niet om me te
contacteren via [email protected].
1
Je kan de volledige paper vinden via scholar google. De titel is Constructing agency: the role of
language en het tijdschrift waarin het verschenen is heet Frontiers in Psychology (Vol.20, September
2010).
1
Opdracht 1
In deze eerste opdracht gaan we kijken of we aan de hand van de passiefconstructie
kunnen vaststellen of het Frans meer gefocust is op de agens dan het Nederlands. De
eenvoudigste methode hiervoor zou zijn om voor elk van beide talen een
zoekopdracht te formuleren die alle passiefconstructies identificeert. Voor het
Nederlands is dit nog enigszins mogelijk aangezien voltooide deelwoorden makkelijk
te identificeren zijn aan de hand van het voorvoegsel ge- maar voor het Frans is dit
bijna onmogelijk. Dit heeft te maken met het feit dat de voltooide deelwoorden van de
ruim 9000 werkwoorden die het Frans telt niet te identificeren zijn zonder eerst een
lijst te maken van al hun vormen. Om je een idee te geven van de moeilijkheden geef
ik hierbij een lijstje van vormelijke kenmerken die ‘typisch’ zouden genoemd kunnen
worden voor voltooide deelwoorden en enkele voorbeelden die aantonen dat deze
vormelijke kenmerken minder ‘typisch’ zijn dan ze op het eerste zicht lijken:
(i) Alle regelmatige werkwoorden op –ER vormen hun voltooid deelwoord met een é,
vb. parler  parlé. Een zoekopdracht die gebruik zou maken van dit onderscheidend
kenmerk zou echter in de problemen komen met woorden als futé (‘gewiekst’)
(ii) Alle regelmatige werkwoorden op –IR vormen hun voltooid deelwoord met een i,
vb. dormir  dormi. Een zoekopdracht die gebruik zou maken van dit
onderscheidend kenmerk zou echter in de problemen komen met woorden als poli
(‘beleefd’)
Je kan dit lijstje verder aanvullen met bijvoorbeeld de regelmatige werkwoorden op –
RE en alle onregelmatige werkwoorden. De conclusie die zich snel zal opdringen is
dat er geen enkele zoekopdracht is die betrouwbare resultaten zou geven als ze niet
een enorme lijst met alle mogelijke vormen van voltooide deelwoorden bevat.
Aangezien het maken van deze lijst te veel werk met zich zou meebrengen gaan we op
zoek naar een andere mogelijkheid om de passiefconstructie te kunnen gebruiken om
een antwoord te formuleren op onze onderzoeksvraag.
Zowel voor het Frans als voor het Nederlands bestaan er contexten waarin we met een
aan zekerheid grenzende waarschijnlijkheid kunnen stellen dat ze een echte
passiefconstructie bevatten. Voor het Frans is dit a été … en voor het Nederlands is dit
werd ge… Controleer dit voor de eerste twintig hits die je krijgt met de volgende
zoekopdrachten. Schrijf ook de aantallen hits op die je voor elke zoekopdracht krijgt.
2
Merk op dat er geen reden is om aan te nemen dat beide zoekopdrachten een gelijk
aantal hits zouden opleveren. A été is namelijk niet het perfecte equivalent van werd
ge…
Aangenomen dat a été en werd ge… contexten zijn die bijna altijd passiefconstructies
zijn is er een eenvoudige test om te checken welke taal meer aandacht hecht aan de
agens: in een taal waarin de agens belangrijk is verwachten we dat de agens in de
passiefconstructie (die standaard gebruikt wordt om het vermelden van de agens te
omzeilen) verhoudingsgewijs vaker wordt vermeld dan in een taal waarin de agens
minder belangrijk is. Om dit voor het Frans en het Nederlands te checken kunnen we
het percentage berekenen van gevallen waarin a été gevolgd wordt door par en werd
ge gevolgd wordt door door. Hiervoor hebben we de aantallen nodig die je met je
vorige searches verkregen hebt en de aantallen hits voor de volgende zoekopdrachten
(lees nog wel even de opmerkingen die volgen op de afbeeldingen!):
Cruciaal voor beide zoekopdrachten is dat ze worden uitgevoerd met Regular
Expressions. Wat er speciaal is voor het Frans is dat we tussen été en par een voltooid
deelwoord willen verkrijgen zonder dat we specifiëren welk woord dit is. Dit kunnen
we doen door gebruik te maken van vierkante haken en een sterretje. De betekenis van
de vierkante haken is ‘er mag één ding voorkomen van wat er tussen ons in staat’, de
betekenis van het sterretje is ‘alles wat er aan mij voorafgaat mag zo vaak voorkomen
als het wil’. Binnen de vierkante haakjes zie je dat je alle letters van het alfabet kort
kan samenvatten als a-z maar dat je voor het Frans ook nog wel even alle speciale
tekens moet specifiëren. Wat het Nederlands betreft is de zoekopdracht iets
eenvoudiger aangezien het aantal woorden waarin extra accenten voorkomen
verwaarloosbaar is.
Schrijf de verkregen frequenties op voor beide zoekopdrachten en bereken voor het
Frans het percentage van a été passiefconstructies die par bevatten en voor het
Nederlands het percentage werd ge… passiefconstructies die door bevatten.2
Formuleer hierover ook een voorlopige conclusie die gelinkt is aan de vraag of het
Frans meer aandacht besteedt aan de agens dan het Nederlands.
2
Als je even vergeten bent hoe je een percentage berekent: neem het aantal gevallen dat a été door par
gevolgd wordt, deel het door het aantal gevallen van a été en vermenigvuldig het resultaat met 100.
3
Opdracht 2
In deze tweede opdracht gaan we kijken naar een tweede constructie waarin de agens
naar de achtergrond verdwijnt: de nominalisatie van een werkwoord. Om te laten zien
hoe de agens hierin kan verdwijnen geef ik twee voorbeelden, 1 met een normaal
werkwoord en 1 met een nominalisatie:
Toen ik binnenkwam…
Bij het binnenkomen…
Als het Frans inderdaad een taal is die meer focust op de agens dan het Nederlands
verwachten we dat het minder gebruik maakt van nominalisaties. Dit kunnen we
checken door te kijken naar de meest frequente vormen van nominalisaties in beide
talen en de frequenties ervan met elkaar te vergelijken. Voor het Nederlands is dit het
gebruik van het morfeem –ing (toevoegen  toevoeging) en het toevoegen van een
definiet lidwoord (toevoegen  het toevoegen). Voor het Frans is de laatste
mogelijkheid ook voorhanden maar is er ook een scala aan morfemen (laver 
lavage, revendiquer  revendication, changer  changement, couper  coupure).
Ook in deze opdracht is het belangrijk een context te identificeren waarin we met een
aan zekerheid grenzende waarschijnlijkheid kunnen stellen dat er een nominalisatie in
voorkomt. Aangezien we bovendien de frequenties van nominalisaties in beide talen
gaan vergelijken is het bovendien noodzakelijk om één context voor beide talen te
vinden. Eén zo’n context is de volgende:
op het moment van / bij / tijdens de/het …en/…ing van
vb.: bij de zegening van
au moment du / pendant le / au / lors du … er/…ir/…re/…age/…ation/…ment/…ure
du/de/des
vb.: lors de la bénédiction de de
De zoekopdrachten die je kan gebruiken om de frequenties van deze contexten te
achterhalen zijn de volgende (lees nog wel even de opmerkingen die volgen op de
zoekopdrachten!):
[French(Standard) | Advanced Search | Regular Expression]
(pendant le|au moment du|lors du|au) [a-z,ç,à,é,è,ê,ô,û]*(er|re|ir|age|tion|ment|ure) (de|du|des)
[Dutch(Standard) | Advanced Search | Regular Expression]
(op het moment van|tijdens|bij) (de|het) [a-z]*(ing|en) van
Wat we hier toevoegen aan mogelijkheden in vergelijking met eerdere
zoekopdrachten is het gebruik van de ronde haakjes en verticale streepjes. Tussen de
ronde haakjes krijg je een aantal sequenties die van elkaar gescheiden worden met een
verticaal streepje. Als je deze notatie gebruikt wil dit zeggen dat exact één van de
sequenties moet voorkomen.
4
Schrijf voor elk van de zoekopdrachten op hoeveel hits je verkrijgt en formuleer
hierover ook een voorlopige conclusie die gelinkt is aan de vraag of het Frans meer
aandacht besteedt aan de agens dan het Nederlands.
Opdracht 3
In de laatste opdracht zoomen we in op een interessant grammaticaal verschil tussen
het Nederlands en het Frans. Als we in het Nederlands willen zeggen dat een tak
omwille van een of andere reden breekt dan zeggen we simpelweg de tak breekt. In
het Frans kan dit echter niet; La branche casse is een ongrammaticale zin. De enige
manier om te zeggen dat de tak breekt in het Frans is La branche se casse. Het
gebruik van se ‘zich’ is hier enigszins verrassend: het schijnt te suggereren dat de tak
verantwoordelijk is voor zijn eigen breken. Dit is een indicatie dat het Frans sterk
focust op een agens (zelfs in de gevallen dat er niet echt een concrete agens is). Vraag
is nu hoe frequent dit fenomeen is. Om een schatting te maken kunnen we als
uitgangspunt nemen dat het aantal pronominale werkwoorden in het Frans en het
Nederlands hetzelfde is en dat we dus in principe dezelfde frequentie verwachten voor
zich en se. Het volstaat dan om te kijken naar het verschil in frequentie tussen zich en
se om vast te stellen hoe vaak het Frans de se constructie gebruikt in contexten waar
het Nederlands dit niet zou doen.
De zoekopdrachten die bij deze opdracht horen zijn vrij eenvoudig:
Schrijf voor elk van de zoekopdrachten op hoeveel hits ze opleveren en formuleer
hierover een voorlopige conclusie die gelinkt is aan de vraag of het Frans meer
aandacht besteedt aan de agens dan het Nederlands.
Conclusie
Je hebt nu in totaal drie opdrachten uitgevoerd die elk aan de hand van een andere
constructie probeerden na te gaan of het Frans meer agensgericht is dan het
Nederlands. Formuleer op basis van de verkregen resultaten je eindconclusies. In deze
conclusies kan je ook verdere opmerkingen verwerken i.v.m. methode en resultaten.
5
Download