metasearch

advertisement
metasearch
• wat is het probleem bij de oplossing?
• welke oplossing bij welk probleem?
behoefte aan integreren van
meer bronnen / zoeksystemen
waarom wil je dat voor je gebruikers?
• het is onhandig als ze dezelfde zoekvraag
aan elk afzonderlijk systeem telkens weer
opnieuw moeten stellen
• het is gebruikersonvriendelijk dat die
systemen vaak allemaal verschillende
zoekinterfaces hebben
© eric sieverts, UB Utrecht
behoefte aan integreren van
meer bronnen / zoeksystemen
waarom wil je dat voor je gebruikers?
• het is onhandig als ze dezelfde zoekvraag
aan elk afzonderlijk systeem telkens weer
opnieuw moeten stellen
• het is gebruikersonvriendelijk dat die
systemen vaak allemaal verschillende
zoekinterfaces hebben
© eric sieverts, UB Utrecht
integreren van meer
bronnen / zoeksystemen
globaal twee soorten aanpak:
• alle bronnen in je eigen centrale systeem
(zoekmachine) indexeren
de OMEGA-aanpak
• meta-zoeksysteem dat de eigen zoeksystemen
van de verschillende bronnen in één keer
parallel bevraagt (gedistribueerde zoekactie)
de METALIB-aanpak
© eric sieverts, UB Utrecht
geïntegreerd systeem
via lokale centrale index
zoeken
mega
centrale index
indexeerregels voor
targets
indexer
internet
full-text links
tekstbestanden
(metadata)
tekstbestanden
eigen centrale index
voorbeelden:
UB Utrecht - Omega-systeem
• metadata van artikelen uit groot aantal
tijdschriften van diverse leveranciers
OAIster
• volgens Open Archive protocol “ge-harveste”
metadata (volgens Dublin Core), uit allerlei
“archieven” met wetenschappelijke publikaties
© eric sieverts, UB Utrecht
eigen centrale index
voordelen:
• garantie van uniforme zoekmogelijkheden
• geavanceerde zoekfunctionaliteit mogelijk, want
wij hebben zelf in de hand welke zoekmachine
we kiezen en hoe we die configureren
nadelen:
• zwaar systeem (eigen zoekmachine) te hosten
en beheren
• kan niet voor alle “content”
© eric sieverts, UB Utrecht
wanneer eigen index ?
als je zelf beheer kunt krijgen over te
doorzoeken “content”
– wel bij materiaal van (sommige / grote)
uitgevers (zoals Elsevier, JStor, etc)
– niet bij materiaal van uitgevers die dat (nog)
niet willen / kunnen / begrijpen
– niet bij databases waar bijbehorend zoeksysteem al verweven is met (de ontsluiting van)
de gegevens (zoals Ovid/ERL, CSA, etc)
© eric sieverts, UB Utrecht
meta-search oplossing
daarvoor is nodig:
• het betreffende materiaal / content moet al een
eigen zoeksysteem hebben
• dat zoeksysteem moet extern (via internet) te
benaderen zijn
• met dat zoeksysteem moet via gestructureerde
interactie gecommuniceerd kunnen worden
(opdrachten versturen, antwoorden binnenhalen)
© eric sieverts, UB Utrecht
geïntegreerd systeem
via meta-zoekmethode
zoeken
configuratie
gegevens
van targets
query-generator / antwoord-inzamelaar
Z39.50
Z39.50
intern
api
zoek
zoek
index
index
bestand
bestand
http
internet
Z39.50
http
http xml
Z39.50
zoek
zoek
zoek
zoek
index
index
index
index
bestand
bestand
bestand
bestand
meta-search oplossing
metasearch software (zoals Metalib) kan
communiceren met verschillende soorten
zoeksystemen:
– Z39.50 protocol (vooral bibliografische databases)
redelijk gestandaardiseerd, maar weinig geavanceerd
– interactie op basis van xml (o.a. nieuw SRU-protocol)
redelijk flexibel, maar nog geen ruime ondersteuning
– http-protocol / web-formulieren ("screen-scraping")
wijd verbreid, maar niet gestructureerd / weinig stabiel
– lokale “legacy”-systemen
© eric sieverts, UB Utrecht
meta-search oplossing
voordelen:
– geen zwaar eigen systeem te beheren
– ook geschikt voor niet zelf indexeerbare content
nadelen:
– grootste gemene deler van zoekfunctionaliteit
– geen geavanceerde zoekfuncties beschikbaar
– soms ingewikkeld configuratie-werk
(zowel voor Z39.50 als voor http:url-syntax en
screen-scraping)
© eric sieverts, UB Utrecht
meta-search toepassingen UBU
wat we zelf niet makkelijk kunnen indexeren
en wel een eigen zoeksysteem heeft
– full-text tijdschriften die we (nog) niet in
Omega-zoekmachine hebben kunnen krijgen
– bibliografische databases, catalogi etc.
die we niet zelf kunnen indexeren
én niet tot de eigen full-text collectie behoort
(dus eigenlijk niet in Omega-zoeksysteem thuishoort)
© eric sieverts, UB Utrecht
meta-search bij Omega
uitgevers die (nog) geen metadata leveren
mogelijke problemen:
– meestal web-interfaces die configuratie met
screen-scraping nodig maken
– meeste waarschijnlijk (nog) niet standaard
ondersteund door Metalib (ExLibris)
© eric sieverts, UB Utrecht
bibliografische meta-search
al die verschillende niet-fulltext zoeksystemen
mogelijke problemen bij Metalib:
– veel “native” interfaces bieden veel betere /
geavanceerder zoekmogelijkheden
– niet meer dan ca. 10 tegelijk doorzoekbaar te
maken
– mergen van zoekresultaten met relevance
ranking geeft problemen
– nog niet allemaal standaard ondersteund
– …..
© eric sieverts, UB Utrecht
mogelijk scenario voor toepassen
van meta-search
scenario 1:
– een systeem dat alle bibliografische bronnen
tegelijk doorzoekbaar maakt via metasearch
(in groepjes van maximaal 10)
– Omega-systeem dat alle full-text beschikbaar
materiaal tegelijk doorzoekbaar maakt via
Omega-zoekmachine + metasearch van
“overige” uitgevers
© eric sieverts, UB Utrecht
scenario 1
bibliografisch zoeken
“biblio”
metasearch
omega zoeken
“full-text”
metasearch
omega
index
internet
zoek
zoek
index
index
Aleph
biblo
graf.
omega
zoekmach.
zoek
zoek
zoek
zoek
index
index
index
index
ncc
biblio
graf.
full
text
full
text
mogelijk scenario voor toepassen
van meta-search
scenario 2:
– één systeem dat “alles” tegelijk doorzoekbaar
maakt via metasearch (in groepjes van
maximaal 10)
daarónder native interfaces van alle
individuele systemen (pubmed, psycinfo, ...),
waarbij ook Omega dat alle full-text materiaal
tegelijk doorzoekbaar maakt
© eric sieverts, UB Utrecht
scenario 2
alles zoeken
omega zoeken
“alles”
metasearch
“full-text”
metasearch
omega
index
internet
zoek
zoek
index
index
Aleph
biblo
graf.
omega
zoekmach.
zoek
zoek
zoek
zoek
index
index
index
index
ncc
biblio
graf.
full
text
full
text
Download