retrieval en ontsluiting taaltechnologische aanpak voor zoekproblemen eric sieverts instituut voor media en informatie management hogeschool van amsterdam waarin uiten zoekstrategische problemen zich? (in variabele mate in zeer uiteenlopende soorten systemen, zoals bibliografische databases, full-text bestanden, het web, ….) • onvoldoende recall met zoekvraag mis je te veel relevante informatie • onvoldoende precisie zoekvraag levert (te) veel niet-relevante informatie oorzaken voor lage recall (de recall-killers) inherent aan free-text zoeken in documenten: • • • • variatie in gebruikte woorden (spelling, woordvorm, taal) in tekst staan synoniemen, impliciete aanduidingen, … variëteit aan woorden voor generieke begrippen term-armoede van documenten (catalogus) schuld van de zoeker: • verkeerde zoekterm (spelling, betekenis) • te weinig varianten met OR gecombineerd • te veel zoek-elementen met AND gecombineerd oorzaken voor lage precisie (de precisie-killers) inherent aan free-text zoeken in documenten : • verkeerde verbanden tussen ge-AND-e termen • niet eenduidige betekenis (homoniemen, acroniemen) • term-rijkdom van full-text documenten (laag term-gewicht) schuld van de zoeker : • verkeerde zoekterm (te algemeen) • te weinig concepten met AND gecombineerd klassieke oplossing : gebruik van: classificatie / taxonomie thesaurus waarop berust het feit dat we denken dat dit een oplossing biedt? • • • • formaliseert betekenis uniformeert term-rijkdom (dus term-gewicht) legt inhoudelijke relaties tussen onderwerpen/termen kan verband leggen tussen facetten van onderwerp (precoordinatie) nadelen van klassieke oplossing • gebrek aan flexibiliteit (schrik van de vak-specialist) • je moet (kunstmatige) informatietaal gebruiken (schrik van de ergonoom) • duur omdat mensen termen moeten toekennen (schrik van de manager) taaltechnologische alternatieven • • • • best-match zoeken met relevantie-ordening truncatie, woordstemming, fuzzy search semantische kennis toevoegen zoekresultaat in "domeinen/contexten” laten clusteren • genereren van suggesties voor aanvullende zoektermen • terugkoppeling van zoekersoordeel relevance ranking factoren 1. meer van de gevraagde termen in een document 2. gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, ….) 3. gevraagde termen komen in document herhaald voor 4. gevraagde termen staan in document dicht bij elkaar 5. termen in document staan in zelfde volgorde als in vraag 6. zeldzame termen krijgen zwaarder gewicht dan algemene 7. hoeveelheid hyperlinks die naar document verwijst 8. hoe vaak een document / site wordt "bezocht" google bewijst dat dat op het web goed werkt, maar ook op een intranet? relevance ranking factoren 1. 2. 3. 4. 5. 6. 7. 8. meer termen meer concepten ge-AND termen in titel/kop/begin hoger term-gewicht termen herhaald hoger term-gewicht termen dicht bij elkaar juiste verband termen in volgorde juiste verband zeldzame termen zwaarder belang specifieke term hyperlinks naar document (kwaliteit) [alleen als er links zijn] bezoek aan document (kwaliteit) relevance ranking factoren 1. 2. 3. 4. 5. 6. 7. 8. meer van de gevraagde termen in een document gevraagde termen op belangrijke plek in document (titel, koppen, eerste paar regels, …) gevraagde termen komen in document herhaald voor gevraagde termen staan in document dicht bij elkaar termen in document staan in zelfde volgorde als in vraag zeldzame termen krijgen zwaarder gewicht dan algemene hoeveelheid hyperlinks die naar document verwijst hoe vaak een document / site wordt "bezocht" truncatie / stemming / fuzzy • trunceren computer computeronderwijs • stemming computer computing, computation, computed, computers communism community, communication ?? sieverts sievert ?? • fuzzy duivendak duijvendak, duyvendak serajevo sarajevo chebychev chebyshev, chebyschef kok kop, kak, ... ?? truncatie / stemming / fuzzy • trunceren computer computeronderwijs • stemming computer computing, computation, computed, computers communism community, communication ?? sieverts sievert ?? • fuzzy duivendak duijvendak, duyvendak maar pas serajevo sarajevo op voor effecten !! chebychevongewenste chebyshev, chebyschef kok kop, kak, ... ?? semantische kennis in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) • door omgeving van woord in het netwerk kan betekenis worden onderscheiden (in document en in query) • omgeving van woord in het netwerk kan termen leveren om query mee te expanderen (woorden binnen bepaalde "semantische afstand" van zoekwoord) voorbeeld: retrievalware van convera twenty-one van irion visualisatie van “wordnet” bepaalde gewenste betekenissen van zoekterm geselecteerd semantische kennis in semantisch netwerk worden verbanden gelegd tussen inhoudelijk verwante woorden (in één of meer talen) • omgeving van woord in het netwerk kan betekenissen onderscheiden (in document en in query) • omgeving van woord in het netwerk kan termen leveren om query te expanderen maar semantisch netwerk voor specialistisch domein moet je zelf nog bouwen automatisch clusteren/classificeren • op grond van kennisregels (en bestaande “taxonomie”) in feite toepassing automatische classificatie, waarbij klassen als verdelingscriterium dienen • op grond van statistiek of patronen – Ask, Clusty, Collarity, …. – Autonomy custom search folders toekenning document aan taxonomy-term gebaseerd op rules base, zoals bijvoorbeeld bij product van Verity automatisch clusteren/classificeren • op grond van kennisregels (en bestaande “taxonomie”) – [vroeger:] NorthernLight “custom search folders” – Verity filters/topics • op grond van statistiek of patronen – AltaVista (3 jaar geleden) – Ask, Wisenut, Vivisimo – Autonomy werkt niet gegarandeerd altijd goed termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tfidf) • gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (frontend voor Yahoo) Scirus database van Elsevier aquabrowser (o.a. bij bibliotheek.nl) OR wolk van termen in Aquabrowser: die termen kunnen uit statistische analyse, woordenlijst, thesaurus, semantisch netwerk o.i.d. komen ook zogenaamd "parametrisch" zoeken, waarbij zoekresultaat al wordt opgedeeld aan de hand van daarin aanwezige "geformaliseerde metadata" termen extraheren computer haalt karakteristieke (andere) woorden/begrippen uit eerste N documenten van zoekresultaat (statistiek - tfidf) • gebruiker kiest daaruit termen om zoekactie in te perken (soms ook termen uit te sluiten, of juist resultaat met OR uit te breiden) bijv.: Quintura (frontend voor Yahoo) Scirus database van Elsevier aquabrowser (o.a. bij bibliotheek.nl) terugkoppeling gebruiker klikt bij relevante hit op “more like this” • computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.: Scirus, Google Autonomy gebruiker markeert relevante hits • zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht → bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy terugkoppeling gebruiker klikt bij relevante hit op “more like this” • computer zoekt op grond van daarin aanwezige termen of patronen naar daarop lijkende documenten bijv.: Scirus, Google Autonomy gebruiker markeert relevante hits • zoektermen of patronen die in die documenten voorkomen krijgen hoger gewicht → bij toekomstige zoekacties krijgen documenten met die termen of patronen een hogere berekende relevantie bijv.: Autonomy recall-killer oplossing met gecontroleerde ontsluiting oplossing met taaltechnologie spelling / woordvorm / taal synoniemen ja generiek begrip mogelijk stemming fuzzy statistiek semantisch netwerk synoniemenlijst (semantisch netwerk) impliciete aanduiding (te) weinig tekst mogelijk nee diepte-indexering nee nieuw onderwerp nee ja automatisch precisie-killer fout verband homoniemen / acroniemen te veel tekst oplossing met gecontroleerde ontsluiting oplossing met taaltechnologie precoordinatie nabijheidsoperator relevance-rankingfactor statistiek semantisch netwerk kennisregels more-like-this term-gewicht bij relevance ranking ja mogelijk te specialistisch onderwerp nee automatisch te weinig zoekelementen nee statistiek resultaat clusteren