Inhoud van de lexiconvelden 1. CGN_MLEXICON.Orthografie Meerwoord ::= ([0-9][A-Z][a-z][ &'*-;])+ Orthografische representatie van de meerwoordsuitdrukking. Het flexieparadigma behorend bij het meerwoordslemma is hier opgenomen, voor zover die flexies voorkomen in het CGN-corpus. Diakritische tekens worden weergegeven in SGMLformaat, in de volgende standaardsequentie: "&" + hoofdletterteken/kleine letterteken + accentrepresentatie + ";" In concreto: "&" + "a" + "grave" "c" "acute" (= aigu) "circ" (= circonflexe) "uml" (= trema) "cedil" (= cedille) "tilde" "ring" "e" b.v. "i" "n" "o" "u" "A" "C" "E" "I" "N" "O" "U" 'à la carte' voor 'à la carte' en 'Gustaf Åkermans' voor 'Gustaf Åkermans' + ";" Daarnaast wordt het SGML-symbool '&' gebruikt ter representatie van het leesteken '&'. 2. CGN_MLEXICON.Volgnummer ::= [1-9]+ Dit nummer geeft de positie van de woordvorm aan in de zin ten opzichte van de andere leden van de meerwoordsuitdrukking. 3. CGN_MLEXICON.Orthografie Woordvorm ::= ([0-9][A-Z][a-z][&'-;])+ Orthografische representatie van de woordvorm, d.w.z. de afzonderlijke leden van de meerwoordsuitdrukking. Diakritische tekens als bij woordvorm. 4. CGN_MLEXICON.Woordsoort Woordvorm ::= "ADJ(" waarde ("," waarde)* ")" | "BW("")" | "LID(" waarde ("," waarde)* ") | "N(" waarde ("," waarde)* ")" | "SPEC(deeleigen)" | "SPEC(meta)" | "SPEC(onverst)" | "SPEC(vreemd)" | "TSW()" | "TW(" waarde ("," waarde)* ")" | "VG(" waarde ")" | "VNW(" waarde ("," waarde)* ")" | "VZ(" waarde ")" | "WW(" waarde ("," waarde)* ")" De woordsoort van de woordvorm, d.w.z. van de afzonderlijke leden van de meerwoordsuitdrukking. Waarden voor de open woordklassen volgens het document Part of Speech Tagging en Lemmatisering (Van Eynde 2003): ADJ adjectief BW bijwoord LID lidwoord N substantief SPEC(deeleigen) code voor deel van een meerledige eigennaam SPEC(meta) code voor woord in zelfnoemfunctie SPEC(onverst) code voor onverstaanbare uiting SPEC(vreemd) code voor uiting in vreemde taal of niet ingeburgerd leenwoord TSW tussenwerpsel TW telwoord VG voegwoord VNW voornaamwoord VZ voorzetsel WW werkwoord 5. CGN_MLEXICON.Woordsoort Meerwoord De woordsoort van de meerwoordsuitdrukking, indien men de gehele uitdrukking grammaticaal als één woord wenst te beschouwen. Waarden als bij de woordsoort van de woordvorm, met de volgende aanvulling: COMB(eigen) code voor meerledige eigennaam of meerledige titel waarvoor geen nadere attributen als genus en getal zijn vastgesteld 6. CGN_LEXICON.Id-Nummer Meerwoordslemma ::= [0-9]+ Volgnummer (Id = 'identificatie') dat aangeeft welke meerwoordsuitdrukkingen kunnen worden beschouwd als behorend tot één flexieparadigma. Het onderscheid is alleen relevant voor scheidbaar samengestelde werkwoorden. Het vóórkomen van orthografisch identieke (meerwoords)lemmata met verschillende Id-Nummers impliceert dat het gaat om lemmata met onderscheiden morfosyntactische (b.v. sterke of zwakke vervoeging) of fonetische (b.v. klemtoon) eigenschappen, in combinatie met een betekenisverschil. Het betekenisonderscheid wordt bondig aangeduid in het veld Definitie Meerwoordslemma. 7. CGN_MLEXICON.Meerwoordslemma ::= ([0-9][A-Z][a-z][&'*-;_])* Het lemma van meerwoordsuitdrukkingen, zoals 'uitademen' bij meerledige woordvormen als '(ik) adem uit'. Bij continue meerwoordsuitdrukkigen, namelijk meerledige ingeburgerde vreemdtalige expressies, meerledige eigennamen en titels, wordt een 'dummy' lemmavorm gepostuleerd die gelijk is aan de expressie, waarbij de delen verbonden zijn door underscores, als volgt: pro forma\1\pro\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\ pro forma\2\forma\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\ Kim Clijsters\1\Kim\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J\ Kim Clijsters\2\Clijsters\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J 8. CGN_LEXICON.Morfologie Meerwoordslemma Hiërarchische morfologische segmentatie van het meerwoordslemma. Deze representatie betreft het meerwoordslemma, en omvat dus slechts derivationele en compositionele morfologie, en geen karakterisering van de inflectionele kenmerken van de woordvorm. De morfologische segmentatie is alleen relevant voor scheidbaar samengestelde werkwoorden. De representatie is in zoverre redundant, dat voor elke woordvorm de morfologische representatie van het meerwoordslemma herhaald wordt. De verschillende niveaus van segmentatie, van het gehele meerwoordslemma tot op diens atomaire (ondeelbare) morfemen, worden weergegeven door elkaar omvattende paren van ronde haken, waarbij elk morfeem voorzien is van een woordsoortaanduiding tussen rechte haken. Gebonden morfemen (affixen) worden aangegeven door punten, of de letter 'x' in het geval van een discontinu affix (in combinatie met een punt voor het andere lid). Overzicht van de woordsoortcodes: o o o o o o o o o o o o o N = substantief A = adjectief Q = telwoord V = werkwoord D = lidwoord O = voornaamwoord B = bijwoord P = voorzetsel C = voegwoord I = tussenwerpsel X = restcategorie . = affix x = deel van discontinu affix De rol van het affix in de afleiding of samenstelling wordt weergegeven door een verticale streep, waarbij de woordsoort achter de streep duidt op de woordsoorten van de morfemen die dienen als input voor het morfologisch proces, en de woordsoort vóór de streep duidt op de woordsoort van de output van het morfologisch proces, m.a.w. de woordsoort van het uit de morfemen gevormde complexe morfeem. Zo staat '[V|.A]' bij 'voorverwarmen' voor het affigeringsproces waarbij een adjectief d.m.v. een voorvoegsel 'ver-' tot een werkwoord kan worden omgevormd: voorverwarmen ((voor)[B],((ver)[V|.A],(warm)[A])[V])[V] Voorbeelden van morfologische segmentatie: dichtmaken: ((dicht)[A],(maak)[V])[V] navertellen: ((na)[P],((ver)[V|.V],(tel)[V])[V])[V] achteruitdeinzen: (((achter)[B],(uit)[B])[B],(deins)[V])[V] 9. CGN_LEXICON.Definitie Meerwoordslemma Voor alle meerwoordslemmata die meer dan eens met dezelfde woordsoort zijn opgenomen om reden van onderscheiden vormkenmerken (zoals morfosyntactische eigenschappen of klemtoon) in combinatie met een betekenisverschil, is een bondige definitie opgenomen ter onderscheiding van de lemmata. Dit veld is alleen relevant voor scheidbaar samengestelde werkwoorden. Gevallen van dergelijke ambiguïteit zullen slechts sporadisch in dit lexicon optreden. Bijvoorbeeld: zweren af\WW(pv,tgw,mv)\501131\afzweren\((af)[P],(zweer)[V])[V]\door een zwering verliezen\J\N\ zweren af\WW(pv,tgw,mv)\501132\afzweren\((af)[P],(zweer)[V])[V]\onder ede afwijzen\J\N\ 10. CGN_MLEXICON.Optioneel lid ::= ( "J" | "N" ) Als de Woordvorm optioneel deel uitmaakt van een meerwoordsuitdrukking, dan bevat dit veld de waarde 'J'. Als de Woordvorm verplicht deel uitmaakt van een meerwoordsuitdrukking, dan bevat dit veld de waarde 'N'. Zodoende krijgt 'ademt' als lid van 'inademen' en 'uitademen' de waarde 'J', terwijl 'apen' als lid van 'na-apen' de waarde 'N' krijgt. ) 11. CGN_MLEXICON.Continu meerwoord ::= ( "J" | "N" ) Als de meerwoordsuitdrukking niet onderbroken kan worden in de zin, zoals bij 'Tien Voor Taal' of 'per se', krijgt de meerwoordsuitdrukking als geheel hier de waarde 'J', anders 'N', zoals voor scheidbaar samengestelde werkwoordsvormen. Uiteraard is deze waarde niet absoluut op te vatten in een corpus van gesproken taal, waar onderbreking door gevocaliseerde pauzes of correcties altijd mogelijk is.