retrieval en ontsluiting problemen bij het zoeken (en hun oplossing?)

advertisement
retrieval en ontsluiting
taaltechnologische aanpak voor zoekproblemen
eric sieverts
instituut voor media en informatie management
hogeschool van amsterdam
waarin uiten zoekstrategische problemen zich?
(in variabele mate in zeer uiteenlopende soorten
systemen, zoals bibliografische databases, full-text
bestanden, het web, ….)
• onvoldoende recall
 met zoekvraag mis je te veel relevante informatie
• onvoldoende precisie
 zoekvraag levert (te) veel niet-relevante informatie
oorzaken voor lage recall (de recall-killers)
inherent aan free-text zoeken in documenten:
•
•
•
•
variatie in gebruikte woorden (spelling, woordvorm, taal)
in tekst staan synoniemen, impliciete aanduidingen, …
variëteit aan woorden voor generieke begrippen
term-armoede van documenten (catalogus)
schuld van de zoeker:
• verkeerde zoekterm (spelling, betekenis)
• te weinig varianten met OR gecombineerd
• te veel zoek-elementen met AND gecombineerd
oorzaken voor lage precisie (de precisie-killers)
inherent aan free-text zoeken in documenten :
• verkeerde verbanden tussen ge-AND-e termen
• niet eenduidige betekenis (homoniemen, acroniemen)
• term-rijkdom van full-text documenten (laag term-gewicht)
schuld van de zoeker :
• verkeerde zoekterm (te algemeen)
• te weinig concepten met AND gecombineerd
klassieke oplossing :
gebruik van:
classificatie / taxonomie
thesaurus
waarop berust het feit dat we denken dat dit een
oplossing biedt?
•
•
•
•
formaliseert betekenis
uniformeert term-rijkdom (dus term-gewicht)
legt inhoudelijke relaties tussen onderwerpen/termen
kan verband leggen tussen facetten van onderwerp
(precoordinatie)
nadelen van klassieke oplossing
• gebrek aan flexibiliteit
(schrik van de vak-specialist)
• je moet (kunstmatige) informatietaal gebruiken
(schrik van de ergonoom)
• duur omdat mensen termen moeten toekennen
(schrik van de manager)
taaltechnologische alternatieven
•
•
•
•
best-match zoeken met relevantie-ordening
truncatie, woordstemming, fuzzy search
semantische kennis toevoegen
zoekresultaat in "domeinen/contexten” laten
clusteren
• genereren van suggesties voor aanvullende
zoektermen
• terugkoppeling van zoekersoordeel
relevance ranking factoren
1. meer van de gevraagde termen in een document
2. gevraagde termen op belangrijke plek in document
(titel, koppen, eerste paar regels, ….)
3. gevraagde termen komen in document herhaald voor
4. gevraagde termen staan in document dicht bij elkaar
5. termen in document staan in zelfde volgorde als in vraag
6. zeldzame termen krijgen zwaarder gewicht dan algemene
7. hoeveelheid hyperlinks die naar document verwijst
8. hoe vaak een document / site wordt "bezocht"
google bewijst dat dat op het web goed werkt,
maar ook op een intranet?
relevance ranking factoren
1.
2.
3.
4.
5.
6.
7.
8.
meer termen
 meer concepten ge-AND
termen in titel/kop/begin
 hoger term-gewicht
termen herhaald
 hoger term-gewicht
termen dicht bij elkaar
 juiste verband
termen in volgorde
 juiste verband
zeldzame termen zwaarder  belang specifieke term
hyperlinks naar document  (kwaliteit) [alleen als er links zijn]
bezoek aan document
 (kwaliteit)
relevance ranking factoren
1.
2.
3.
4.
5.
6.
7.
8.
meer van de gevraagde termen in een document
gevraagde termen op belangrijke plek in document
(titel, koppen, eerste paar regels, …)
gevraagde termen komen in document herhaald voor
gevraagde termen staan in document dicht bij elkaar
termen in document staan in zelfde volgorde als in vraag
zeldzame termen krijgen zwaarder gewicht dan
algemene
hoeveelheid hyperlinks die naar document verwijst
hoe vaak een document / site wordt "bezocht"
truncatie / stemming / fuzzy
• trunceren
computer  computeronderwijs
• stemming
computer  computing, computation,
computed, computers
communism  community, communication ??
sieverts  sievert ??
• fuzzy
duivendak  duijvendak, duyvendak
serajevo  sarajevo
chebychev  chebyshev, chebyschef
kok  kop, kak, ... ??
truncatie / stemming / fuzzy
• trunceren
computer  computeronderwijs
• stemming
computer  computing, computation,
computed, computers
communism  community, communication ??
sieverts  sievert ??
• fuzzy
duivendak  duijvendak, duyvendak
maar
pas
serajevo 
sarajevo
op voor
effecten !!
chebychevongewenste
 chebyshev, chebyschef
kok  kop, kak, ... ??
semantische kennis
in semantisch netwerk worden verbanden gelegd
tussen inhoudelijk verwante woorden
(in één of meer talen)
• door omgeving van woord in het netwerk kan betekenis
worden onderscheiden (in document en in query)
• omgeving van woord in het netwerk kan termen leveren
om query mee te expanderen (woorden binnen
bepaalde "semantische afstand" van zoekwoord)
voorbeeld: retrievalware van convera
twenty-one van irion
visualisatie
van “wordnet”
bepaalde
gewenste
betekenissen
van zoekterm
geselecteerd
semantische kennis
in semantisch netwerk worden verbanden
gelegd tussen inhoudelijk verwante woorden
(in één of meer talen)
• omgeving van woord in het netwerk kan betekenissen
onderscheiden (in document en in query)
• omgeving van woord in het netwerk kan termen
leveren om query te expanderen
maar semantisch netwerk
voor specialistisch domein
moet je zelf nog bouwen
automatisch clusteren/classificeren
• op grond van kennisregels
(en bestaande “taxonomie”)
in feite toepassing automatische classificatie,
waarbij klassen als verdelingscriterium dienen
• op grond van statistiek of patronen
– Ask, Clusty, Collarity, ….
– Autonomy
custom search folders
toekenning document
aan taxonomy-term
gebaseerd op
rules base,
zoals bijvoorbeeld bij
product van Verity
automatisch clusteren/classificeren
• op grond van kennisregels
(en bestaande “taxonomie”)
– [vroeger:] NorthernLight “custom search folders”
– Verity filters/topics
• op grond van statistiek of patronen
– AltaVista (3 jaar geleden)
– Ask, Wisenut, Vivisimo
– Autonomy
werkt niet gegarandeerd
altijd goed
termen extraheren
computer haalt karakteristieke (andere)
woorden/begrippen uit eerste N documenten
van zoekresultaat (statistiek - tfidf)
• gebruiker kiest daaruit termen om zoekactie in te
perken (soms ook termen uit te sluiten, of juist
resultaat met OR uit te breiden)
bijv.:
Quintura (frontend voor Yahoo)
Scirus database van Elsevier
aquabrowser (o.a. bij bibliotheek.nl)
OR
wolk van termen in Aquabrowser:
die termen kunnen uit statistische
analyse, woordenlijst, thesaurus,
semantisch netwerk o.i.d. komen
ook zogenaamd "parametrisch" zoeken,
waarbij zoekresultaat al wordt opgedeeld
aan de hand van daarin aanwezige
"geformaliseerde metadata"
termen extraheren
computer haalt karakteristieke (andere)
woorden/begrippen uit eerste N documenten
van zoekresultaat (statistiek - tfidf)
• gebruiker kiest daaruit termen om zoekactie in te
perken (soms ook termen uit te sluiten, of juist
resultaat met OR uit te breiden)
bijv.:
Quintura (frontend voor Yahoo)
Scirus database van Elsevier
aquabrowser (o.a. bij bibliotheek.nl)
terugkoppeling
gebruiker klikt bij relevante hit op “more like this”
• computer zoekt op grond van daarin aanwezige termen of
patronen naar daarop lijkende documenten
bijv.:
Scirus, Google
Autonomy
gebruiker markeert relevante hits
• zoektermen of patronen die in die documenten voorkomen
krijgen hoger gewicht
→ bij toekomstige zoekacties krijgen documenten met die
termen of patronen een hogere berekende relevantie
bijv.:
Autonomy
terugkoppeling
gebruiker klikt bij relevante hit op “more like this”
• computer zoekt op grond van daarin aanwezige termen of
patronen naar daarop lijkende documenten
bijv.:
Scirus, Google
Autonomy
gebruiker markeert relevante hits
• zoektermen of patronen die in die documenten voorkomen
krijgen hoger gewicht
→ bij toekomstige zoekacties krijgen documenten met die
termen of patronen een hogere berekende relevantie
bijv.:
Autonomy
recall-killer
oplossing met
gecontroleerde
ontsluiting
oplossing met
taaltechnologie
spelling /
woordvorm / taal
synoniemen
ja
generiek begrip
mogelijk
stemming
fuzzy
statistiek
semantisch netwerk
synoniemenlijst
(semantisch netwerk)
impliciete
aanduiding
(te) weinig tekst
mogelijk
nee
diepte-indexering
nee
nieuw onderwerp
nee
ja
automatisch
precisie-killer
fout verband
homoniemen /
acroniemen
te veel tekst
oplossing met
gecontroleerde
ontsluiting
oplossing met
taaltechnologie
precoordinatie
nabijheidsoperator
relevance-rankingfactor
statistiek
semantisch netwerk
kennisregels
more-like-this
term-gewicht bij
relevance ranking
ja
mogelijk
te specialistisch
onderwerp
nee
automatisch
te weinig
zoekelementen
nee
statistiek
resultaat clusteren
Download