retrieval en ontsluiting problemen bij het zoeken (en hun oplossing?)

advertisement
retrieval en ontsluiting
taaltechnologische aanpak voor zoekproblemen
eric sieverts
Inhoudelijk Toegankelijk Maken
najaar 2013
waarin uiten zoekstrategische problemen zich?
in variabele mate in uiteenlopende soorten systemen:
catalogi, bibliografische databases, full-text bestanden,
enterprise search, het web, ….
• onvoldoende recall
 met zoekvraag mis je te veel relevante informatie
• onvoldoende precisie
 zoekvraag levert (te) veel niet-relevante informatie
oorzaken voor lage recall (de recall-killers)
inherent aan free-text zoeken in documenten:
• variatie in spelling en woordvorm van gebruikte woorden
• in tekst staan synoniemen, impliciete aanduidingen,
woorden in andere taal, …
• variëteit aan mogelijke (specifiekere) woorden voor
generieke begrippen
• term-armoede van documenten (catalogus)
schuld van de zoeker:
• verkeerde zoekterm (ongebruikelijk, spelling)
• te weinig varianten met OR gecombineerd
• te veel zoek-elementen met AND gecombineerd
oorzaken voor lage precisie (de precisie-killers)
inherent aan free-text zoeken in documenten :
• in gevonden tekst is geen of onbedoeld verband tussen
met AND gecombineerde termen
• zoekwoorden komen in tekst in andere betekenis voor
(homografen, acroniemen, andere taal)
• term-rijkdom van full-text documenten (laag term-gewicht)
schuld van de zoeker :
• verkeerde zoekterm (te algemeen, betekenis)
• te weinig zoek-elementen met AND gecombineerd
klassieke oplossing :
gebruik van:
classificatie / taxonomie
thesaurus
waarom kan dit een oplossing bieden?
• formaliseert betekenis (homograaf-probleem)
• kan verwijzen naar gebruikelijke(r) term (vervangend zoeken)
• kan term-rijkdom uniformeren
(dus gelijk term-gewicht; o.a. door diepte-indexering)
• legt inhoudelijke relaties tussen onderwerpen/termen
(generiek zoeken)
• kan verband leggen tussen facetten van onderwerp
(precoordinatie)
nadelen van klassieke oplossing
• gebrek aan flexibiliteit
(schrik van de vak-specialist)
• gebruik van kunstmatige informatietaal
(schrik van de ergonoom)
• duur omdat mensen termen moeten toekennen
(schrik van de manager)
(taal)technologische alternatieven
•
•
•
•
•
•
•
best-match zoeken met relevantie-ordening
truncatie, wordstemming, fuzzy search
semantische kennis toevoegen
suggereren van betere zoektermen
suggereren van aanvullende zoektermen
zoekresultaat clusteren in "domeinen/contexten”
terugkoppeling van zoekersoordeel
+ nieuwe semantische technieken [volgende week]
relevance ranking factoren
1. meer van de gevraagde termen in een document
2. gevraagde termen op belangrijke plek in document
(titel, url, koppen, eerste paar regels, ….)
3. gevraagde termen komen in document herhaald voor
4. gevraagde termen staan in document dicht bij elkaar
5. termen staan in document in zelfde volgorde als in vraag »
6. zeldzame termen krijgen zwaarder gewicht dan algemene
7. hoeveel hyperlinks naar document verwijzen
8. hoe vaak een document / site wordt "bezocht"
9. of site/pagina/bericht tot je sociale netwerk hoort
10. …
werkt goed op het web, maar ook op een intranet?
relevance ranking factoren
1.
2.
3.
4.
5.
6.
7.
8.
9.
meer termen
termen in titel/kop/begin
termen herhaald
termen dicht bij elkaar
termen in volgorde
zeldzame termen zwaarder
hyperlinks naar document
bezoek aan document
in sociale netwerk









meer concepten ge-AND
hoger term-gewicht
hoger term-gewicht
juiste verband
juiste verband
belang specifieke term
(kwaliteit) [alleen als er links zijn]
(kwaliteit)
(context) [alleen op open web]
relevance ranking factoren
1. meer van de gevraagde termen in een document
2. gevraagde termen op belangrijke plek in document
(titel, url, koppen, eerste paar regels, …)
3. gevraagde termen komen in document herhaald voor
4. gevraagde termen staan in document dicht bij elkaar
5. termen staan in document in zelfde volgorde als in vraag
6. zeldzame termen krijgen zwaarder gewicht dan algemene
7. hoeveel hyperlinks naar document verwijzen
8. hoe vaak een document / site wordt "bezocht"
9. of site/pagina/bericht tot je sociale netwerk hoort
truncatie / word-stemming / fuzzy
• trunceren
computer  computeronderwijs
• stemming
computer  computing, computation,
computed, computers
communism  community, communication ??
sieverts  sievert ??
• fuzzy
duivendak  duijvendak, duyvendak
serajevo  sarajevo, serajewo
medvedev  medvediev, medwedew, …
kok  kop, kak, ... ??
truncatie / stemming / fuzzy
• trunceren
computer  computeronderwijs
• stemming
computer  computing, computation,
computed, computers
communism  community, communication ??
sieverts  sievert ??
• fuzzy
duivendak  duijvendak, duyvendak
maar
passerajewo
op voor
serajevo 
sarajevo,
effecten !!…
medvedevongewenste
 medvediev, medwedew,
kok  kop, kak, ... ??
semantische kennis
in semantisch netwerk worden betekenissen
van woorden vastgelegd (hele woordenboek) &
worden betekenisrelaties gelegd tussen inhoudelijk
verwante woorden (in één of meer talen)
• door omgeving van woord in het netwerk kan betekenis
worden onderscheiden (in document en in query)
• omgeving van woord in het netwerk kan termen leveren
om query mee te expanderen (woorden binnen
bepaalde "semantische afstand" van zoekwoord)
visualisatie
van “wordnet”
bepaalde
gewenste
betekenissen
van zoekterm
geselecteerd
semantische kennis
in semantisch netwerk worden betekenissen
van woorden vastgelegd (hele woordenboek) &
worden betekenisrelaties gelegd tussen inhoudelijk
verwante woorden (in één of meer talen)
– door omgeving van woord in het netwerk kan betekenis
worden onderscheiden (in document en in query)
– omgeving van woord in het netwerk kan termen leveren
om query mee te expanderen (woorden binnen
bepaalde "semantische afstand" van zoekwoord)
maar semantisch netwerk
voor specialistisch domein
moet je zelf nog bouwen/aanvullen
termen verbeteren
computer suggereert iets afwijkende term
• door fuzzy-search in woordenboek
• door fuzzy search in eigen index >> term die (veel)
meer oplevert
• door generieke kennis van vaak gemaakte tikfouten
bijv.:
Google (did you mean …)
termen verbeteren
computer suggereert iets afwijkende term
• door fuzzy-search in woordenboek
• door fuzzy search in eigen index naar term die (veel)
meer oplevert
• door generieke kennis van vaak gemaakte tikfouten
bijv.:
Google (did you mean …)
aanvullende termen extraheren
computer haalt karakteristieke (andere)
woorden/begrippen uit eerste N documenten
van zoekresultaat (statistiek - tfidf)
• gebruiker kiest daaruit termen om zoekactie in te
perken (soms ook termen uit te sluiten, of juist
resultaat met OR uit te breiden)
bijv.:
Quintura (nu frontend voor Yandex)
Scirus database van Elsevier
Aquabrowser (o.a. bij bibliotheek.nl)
zelf in OR te veranderen !
ook “faceted” zoeken, waarbij
zoekresultaat al wordt opgedeeld
aan de hand van daarin aanwezige
"geformaliseerde metadata"
wolk van termen in Aquabrowser:
die termen kunnen uit statistische
analyse, woordenlijst, thesaurus,
semantisch netwerk o.i.d. komen
ook “faceted” zoeken, waarbij
zoekresultaat wordt opgedeeld
aan de hand van daarin aanwezige
"geformaliseerde metadata"
aanvullende termen extraheren
computer haalt karakteristieke (andere)
woorden/begrippen uit eerste N documenten
van zoekresultaat (statistiek - tfidf)
• gebruiker kiest daaruit termen om zoekactie in te
perken (soms ook termen uit te sluiten, of juist
resultaat met OR uit te breiden)
bijv.:
Quintura (nu frontend voor Yandex)
Scirus database van Elsevier
aquabrowser (o.a. bij bibliotheek.nl)
automatisch clusteren/classificeren
• op grond van kennisregels
(en bestaande “taxonomie”)
in feite toepassing automatische classificatie,
waarbij klassen als verdelingscriterium dienen
• op grond van statistiek of patronen
– Clusty, Polymeta, ….
– Autonomy
custom search folders
toekenning document
aan taxonomy-term
gebaseerd op
rules base,
zoals bijvoorbeeld bij
product van Verity
automatisch clusteren/classificeren
• op grond van kennisregels
(en bestaande “taxonomie”)
in feite toepassing automatische classificatie,
waarbij klassen als verdelingscriterium dienen
• op grond van statistiek of patronen
– Clusty, Polymeta
– Autonomy
werkt niet gegarandeerd
altijd goed
terugkoppeling
gebruiker klikt bij relevante hit op “more like this”
• computer zoekt op grond van daarin aanwezige termen of
patronen naar daarop lijkende documenten
bijv.:
Scirus, Google
Autonomy
gebruiker markeert relevante hits
• zoektermen of patronen die in die documenten voorkomen
krijgen hoger gewicht
→ bij toekomstige zoekacties krijgen documenten met die
termen of patronen een hogere berekende relevantie
bijv.:
Autonomy
en ook personal Google?
max havelaar
keurmerk product
max havelaar het boek
gelijkenis-“patronen” bij Google
site 1
site 2
site 3
site 4
site 5
site 6
site 7
site 8
site 9
hyperlinks
goede
site
similar
site
similar
site
similar
site
similar
site
similar
site
similar
site
similar
site
?
?
terugkoppeling
gebruiker klikt bij relevante hit op “more like this”
• computer zoekt op grond van daarin aanwezige termen of
patronen naar daarop lijkende documenten
bijv.:
Scirus, Google
Autonomy
gebruiker markeert relevante hits
• zoektermen of patronen die in die documenten voorkomen
krijgen hoger gewicht
→ bij toekomstige zoekacties krijgen documenten met die
termen of patronen een hogere berekende relevantie
bijv.:
Autonomy
en ook personal Google?
precisie-verbeterend
relevance ranking
automatisch
onderscheiden van context/betekenis
statistiek (clusty, quintura, scirus)
automatisch
kennisregels + mens-gedefinieerde
categorieën (northernlight, verity)
woordrelaties in semantisch netwerk
half-automatisch
half-automatisch
“more-like-this” vanuit document
in goede context (scirus, google)
automatisch
recall-verbeterend
meenemen van woordvarianten
word-stemming (pas op: taalafhankelijk)
automatisch
fuzzy search
automatisch
did-you-mean
automatisch
toevoegen van andere termen
statistiek (scirus)
automatisch
semantisch netwerk
half-automatisch
synoniemenlijst
half-automatisch
precisie-killer
fout verband
homoniemen /
acroniemen
te veel tekst
oplossing met
gecontroleerde
ontsluiting
oplossing met
taaltechnologie
precoordinatie
nabijheidsoperator
relevance-rankingfactor
statistiek
semantisch netwerk
kennisregels
more-like-this
term-gewicht bij
relevance ranking
ja
mogelijk
te specialistisch
onderwerp
nee
automatisch
te weinig
zoekelementen
nee
statistiek
resultaat clusteren
recall-killer
oplossing met
gecontroleerde
ontsluiting
spelling /
woordvormen
ja
synoniemen /
alternatieven
ja
oplossing met
taaltechnologie
generiek begrip
mogelijk
stemming
fuzzy
did-you-mean
statistiek
semantisch netwerk
synoniemenlijst
(semantisch netwerk)
impliciete
aanduiding
(te) weinig tekst
mogelijk
nee
diepte-indexering
nee
nieuw onderwerp
nee
automatisch
Download