Inhoud van de lexiconvelden - TST

advertisement
Inhoud van de lexiconvelden
1. CGN_MLEXICON.Orthografie Meerwoord ::= ([0-9][A-Z][a-z][ &'*-;])+
Orthografische representatie van de meerwoordsuitdrukking. Het flexieparadigma
behorend bij het meerwoordslemma is hier opgenomen, voor zover die flexies
voorkomen in het CGN-corpus. Diakritische tekens worden weergegeven in SGMLformaat, in de volgende standaardsequentie:
"&" + hoofdletterteken/kleine letterteken + accentrepresentatie + ";"
In concreto:
"&"
+
"a" +
"grave"
"c"
"acute" (= aigu)
"circ" (=
circonflexe)
"uml" (= trema)
"cedil" (= cedille)
"tilde"
"ring"
"e"
b.v.
"i"
"n"
"o"
"u"
"A"
"C"
"E"
"I"
"N"
"O"
"U"
'à la carte' voor 'à la carte'
en
'Gustaf Åkermans' voor 'Gustaf
Åkermans'
+
";"
Daarnaast wordt het SGML-symbool '&' gebruikt ter representatie van het
leesteken '&'.
2. CGN_MLEXICON.Volgnummer ::= [1-9]+
Dit nummer geeft de positie van de woordvorm aan in de zin ten opzichte van de
andere leden van de meerwoordsuitdrukking.
3. CGN_MLEXICON.Orthografie Woordvorm ::= ([0-9][A-Z][a-z][&'-;])+
Orthografische representatie van de woordvorm, d.w.z. de afzonderlijke leden van de
meerwoordsuitdrukking. Diakritische tekens als bij woordvorm.
4. CGN_MLEXICON.Woordsoort Woordvorm ::=
"ADJ(" waarde ("," waarde)* ")" |
"BW("")" |
"LID(" waarde ("," waarde)* ") |
"N(" waarde ("," waarde)* ")" |
"SPEC(deeleigen)" |
"SPEC(meta)" |
"SPEC(onverst)" |
"SPEC(vreemd)" |
"TSW()" |
"TW(" waarde ("," waarde)* ")" |
"VG(" waarde ")" |
"VNW(" waarde ("," waarde)* ")" |
"VZ(" waarde ")" |
"WW(" waarde ("," waarde)* ")"
De woordsoort van de woordvorm, d.w.z. van de afzonderlijke leden van de
meerwoordsuitdrukking. Waarden voor de open woordklassen volgens het document
Part of Speech Tagging en Lemmatisering (Van Eynde 2003):
ADJ
adjectief
BW
bijwoord
LID
lidwoord
N
substantief
SPEC(deeleigen)
code voor deel van een meerledige eigennaam
SPEC(meta)
code voor woord in zelfnoemfunctie
SPEC(onverst)
code voor onverstaanbare uiting
SPEC(vreemd)
code voor uiting in vreemde taal of niet ingeburgerd leenwoord
TSW
tussenwerpsel
TW
telwoord
VG
voegwoord
VNW
voornaamwoord
VZ
voorzetsel
WW
werkwoord
5. CGN_MLEXICON.Woordsoort Meerwoord
De woordsoort van de meerwoordsuitdrukking, indien men de gehele uitdrukking
grammaticaal als één woord wenst te beschouwen. Waarden als bij de woordsoort van
de woordvorm, met de volgende aanvulling:
COMB(eigen)
code voor meerledige eigennaam of meerledige titel waarvoor geen nadere attributen
als genus en getal zijn vastgesteld
6. CGN_LEXICON.Id-Nummer Meerwoordslemma ::= [0-9]+
Volgnummer (Id = 'identificatie') dat aangeeft welke meerwoordsuitdrukkingen
kunnen worden beschouwd als behorend tot één flexieparadigma. Het onderscheid is
alleen relevant voor scheidbaar samengestelde werkwoorden. Het vóórkomen van
orthografisch identieke (meerwoords)lemmata met verschillende Id-Nummers
impliceert dat het gaat om lemmata met onderscheiden morfosyntactische (b.v. sterke
of zwakke vervoeging) of fonetische (b.v. klemtoon) eigenschappen, in combinatie
met een betekenisverschil. Het betekenisonderscheid wordt bondig aangeduid in het
veld Definitie Meerwoordslemma.
7. CGN_MLEXICON.Meerwoordslemma ::= ([0-9][A-Z][a-z][&'*-;_])*
Het lemma van meerwoordsuitdrukkingen, zoals 'uitademen' bij meerledige
woordvormen als '(ik) adem uit'. Bij continue meerwoordsuitdrukkigen, namelijk
meerledige ingeburgerde vreemdtalige expressies, meerledige eigennamen en titels,
wordt een 'dummy' lemmavorm gepostuleerd die gelijk is aan de expressie, waarbij de
delen verbonden zijn door underscores, als volgt:
pro forma\1\pro\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
pro forma\2\forma\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
Kim Clijsters\1\Kim\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J\
Kim Clijsters\2\Clijsters\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J
8. CGN_LEXICON.Morfologie Meerwoordslemma
Hiërarchische morfologische segmentatie van het meerwoordslemma. Deze
representatie betreft het meerwoordslemma, en omvat dus slechts derivationele en
compositionele morfologie, en geen karakterisering van de inflectionele kenmerken
van de woordvorm. De morfologische segmentatie is alleen relevant voor scheidbaar
samengestelde werkwoorden. De representatie is in zoverre redundant, dat voor elke
woordvorm de morfologische representatie van het meerwoordslemma herhaald
wordt. De verschillende niveaus van segmentatie, van het gehele meerwoordslemma
tot op diens atomaire (ondeelbare) morfemen, worden weergegeven door elkaar
omvattende paren van ronde haken, waarbij elk morfeem voorzien is van een
woordsoortaanduiding tussen rechte haken. Gebonden morfemen (affixen) worden
aangegeven door punten, of de letter 'x' in het geval van een discontinu affix (in
combinatie met een punt voor het andere lid).
Overzicht van de woordsoortcodes:
o
o
o
o
o
o
o
o
o
o
o
o
o
N = substantief
A = adjectief
Q = telwoord
V = werkwoord
D = lidwoord
O = voornaamwoord
B = bijwoord
P = voorzetsel
C = voegwoord
I = tussenwerpsel
X = restcategorie
. = affix
x = deel van discontinu affix
De rol van het affix in de afleiding of samenstelling wordt weergegeven door een
verticale streep, waarbij de woordsoort achter de streep duidt op de woordsoorten van
de morfemen die dienen als input voor het morfologisch proces, en de woordsoort
vóór de streep duidt op de woordsoort van de output van het morfologisch proces,
m.a.w. de woordsoort van het uit de morfemen gevormde complexe morfeem. Zo staat
'[V|.A]' bij 'voorverwarmen' voor het affigeringsproces waarbij een adjectief d.m.v.
een voorvoegsel 'ver-' tot een werkwoord kan worden omgevormd:
voorverwarmen ((voor)[B],((ver)[V|.A],(warm)[A])[V])[V]
Voorbeelden van morfologische segmentatie:
dichtmaken:
((dicht)[A],(maak)[V])[V]
navertellen:
((na)[P],((ver)[V|.V],(tel)[V])[V])[V]
achteruitdeinzen:
(((achter)[B],(uit)[B])[B],(deins)[V])[V]
9. CGN_LEXICON.Definitie Meerwoordslemma
Voor alle meerwoordslemmata die meer dan eens met dezelfde woordsoort zijn
opgenomen om reden van onderscheiden vormkenmerken (zoals morfosyntactische
eigenschappen of klemtoon) in combinatie met een betekenisverschil, is een bondige
definitie opgenomen ter onderscheiding van de lemmata. Dit veld is alleen relevant
voor scheidbaar samengestelde werkwoorden. Gevallen van dergelijke ambiguïteit
zullen slechts sporadisch in dit lexicon optreden. Bijvoorbeeld:
zweren af\WW(pv,tgw,mv)\501131\afzweren\((af)[P],(zweer)[V])[V]\door een
zwering verliezen\J\N\
zweren af\WW(pv,tgw,mv)\501132\afzweren\((af)[P],(zweer)[V])[V]\onder ede
afwijzen\J\N\
10. CGN_MLEXICON.Optioneel lid ::= ( "J" | "N" )
Als de Woordvorm optioneel deel uitmaakt van een meerwoordsuitdrukking, dan
bevat dit veld de waarde 'J'. Als de Woordvorm verplicht deel uitmaakt van een
meerwoordsuitdrukking, dan bevat dit veld de waarde 'N'. Zodoende krijgt 'ademt' als
lid van 'inademen' en 'uitademen' de waarde 'J', terwijl 'apen' als lid van 'na-apen' de
waarde 'N' krijgt. )
11. CGN_MLEXICON.Continu meerwoord ::= ( "J" | "N" )
Als de meerwoordsuitdrukking niet onderbroken kan worden in de zin, zoals bij 'Tien
Voor Taal' of 'per se', krijgt de meerwoordsuitdrukking als geheel hier de waarde 'J',
anders 'N', zoals voor scheidbaar samengestelde werkwoordsvormen. Uiteraard is deze
waarde niet absoluut op te vatten in een corpus van gesproken taal, waar onderbreking
door gevocaliseerde pauzes of correcties altijd mogelijk is.
Download