Slide 1 - webzoek

advertisement
zoektechnieken voor
zoekmachines op internet
Eric Sieverts
Universiteitsbibliotheek Utrecht &
opleiding Media, Informatie & Communicatie (HVA)
Avans, januari 2012
programma
•
•
•
•
•
•
•
•
•
•
•
•
Internet zoekstrategieën/zoeksystematiek
Dekking van zoekmachines / not just Google
Ranking van zoekmachines
Zoekresultaten kwantitatief
Gebruik zoektermen
Google Translated search
Booleaans zoeken
Speciale tekens, getallen en exact zoeken
Zoeken op velden / link zoeken
Filteren op formele kenmerken
Automatische attendering
Beheer van zoekacties/zoekresultaten
Eric Sieverts
Avans, januari 2012
systematische aanpak
Vraaganalyse: wat zoek ik eigenlijk + speciale randvoorwaarden
Verkenning
Opstellen zoekprofiel: waaraan moet informatie voldoen, zoekwoorden
Keuze bronnen/zoektools: zoekmachine, database, ...
Daadwerkelijk zoeken: gebruik syntax en opties van zoektool
Noteren afwijkingen van zoekplan, zijpaadjes, bevindingen
Selectie uit zoekresultaat
Evaluatie
Nabewerking per relevante bron: beheren, citeren, delen
Eventueel andere ingangen (verder zoeken op gevonden auteur, links)
of geheel andere typen bronnen (gedrukte literatuur, deskundigen)
11. Expliciete reflectie op zoekproces en zoekresultaat
12. Bij doorlopende interesse instellen van web en page alerts / feeds
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Eric Sieverts
Avans, januari 2012
dekking (omvang) van zoekmachines
• > 15% van webpagina’s in geen van grote zoekmachines
• van resterende wel geïndexeerde pagina’s zelfs Google
maar 76%, Yahoo 69%, MSN 62% (2005)
http://www.cs.uiowa.edu/~asignori/web-size/
geen betrouwbare recentere cijfers
mijn inschatting: Google iets kleiner dan Yahoo ?
Google iets groter dan Bing ?
maar nu: Yahoo==Bing !
Google nu ~10x zo groot als kleinere
• dekking zeer ongelijkmatig
• verschil in actualiteit
• verschil in dekking  verschil in ranking
(vaak zeer weinig overlap bij eerste 10)
Eric Sieverts
Avans, januari 2012
andere algemene zoekmachines
probeer naast Google eens:
• Bing
(microsoft, groot)
• Yahoo!
(content=Bing, groot)
• Exalead
(frans, tamelijk klein, veel geavanceerde functies)
• Gigablast ("groene" zoekmachine, tamelijk klein, paar unieke functies)
• Blekko
("hashtags" om [domein-]selectiever te kunnen zoeken)
• DuckDuckGo (verzekert privacy, geen personalisatie, tamelijk klein)
• Ask
(tamelijk klein, weinig unieks meer)
in US hebben die samen nog 30% marktaandeel; in NL maar 3%
Eric Sieverts
Avans, januari 2012
ranking: Google's pagerank
pagerank van pagina x is:
PR(x) = (1-d) + d*
{PR(y
x) / C(y)}
y
• elke "pagina y" die naar pagina x linkt draagt bij aan die
som 
• PR(yx) = pagerank van pagina y die naar x linkt
[link vanuit pagina die zelf hoge pagerank heeft, draagt meer bij]
• C(y) = aantal links in pagina y
[link vanuit pagina die erg veel links bevat, draagt minder bij]
• d = "dempingsfactor" (ong. 0.85)
waardoor: 0.15  PR(x)  
Eric Sieverts
Avans, januari 2012
ranking: inhoudelijke factoren
pagerank is pas van belang als zoekwoord-gerelateerde
(inhoudelijke) factoren weinig bepalend zijn, zoals:
•
•
•
•
•
•
•
•
•
•
•
pagina relevanter als zoekwoord in titel
pagina relevanter als zoekwoord in URL
pagina relevanter als zoekwoord in koppen <H1> <H2>
pagina relevanter als zoekwoord meer in begin van tekst
pagina relevanter als zoekwoord daarin vaker wordt herhaald
pagina relevanter als zoekwoorden daarin dicht bij elkaar
pagina relevanter als zoekwoorden daarin in zelfde volgorde
zeldzaam zoekwoord telt sterker mee dan heel algemeen
pagina relevanter als zoekwoord ook vaak in verwijzende link-tekst
pagina relevanter als gebruiker eerder soortgelijke pagina's bekeek
....
Eric Sieverts
Avans, januari 2012
aantallen resultaten van zoekmachines
gemelde resultaataantallen zijn vaak zeer onbetrouwbaar
• bij Google (en andere) zijn vermelde aantallen zeer
onbetrouwbaar, niet stabiel, met soms onverklaarbare
effecten
–
–
–
–
inperken geeft soms groter aantal, uitbreiden kleiner aantal
afhankelijk van verdeling index over servers Google
afhankelijk van Google versie / ingelogd zijn / zoekgeschiedenis
afhankelijk van keuze “your part of the world” bij Bing
• Danny Sullivan legt uit waarom Google niet kan tellen:
http://searchengineland.com/why-google-cant-count-results-properly-53559
Why Google Can’t Count Results Properly
Eric Sieverts
Avans, januari 2012
gebruik zoektermen
belang van "juiste" zoektermen:
denk in termen van het te vinden document
(wat zou in relevant document staan?)
– spellingvarianten, enkel-meervoud-werkwoord
(zelf bedenken of automatisch - Google)
– truncatie (alleen Exalead)
– alternatieve zoektermen / synoniemen:
• soms automatisch bij Google
• te vinden met "thesauri" / synoniemenlijsten
(mijnwoordenboek, synoniemen.net, Roget's,
answers.com, Bartleby)
• te vinden via synoniemen uit Word-tekstverwerker
• te vinden door te kijken in wat al is gevonden
– ....
Eric Sieverts
Avans, januari 2012
gebruik zoektermen
denk in termen van het te vinden document
(hoe zou het in relevant document staan?)
– ....
– "exact phrase"  losse woorden
– woordnabijheid: met term-wildcard ( * ) bij Google & Yahoo
"veiligheid * * tunnels"
met NEAR bij Yahoo, Bing, Exalead
veiligheid NEAR tunnels
met AROUND(n) bij Google
veiligheid AROUND(4) tunnels
– eventueel een phrase van losse woorden (zonder "")
! invloed van volgorde van losse woorden op ranking
(zie: Thumbshots – Ranking)
– ....
Eric Sieverts
Avans, januari 2012
gebruik zoektermen
denk in termen van het te vinden document
(hoe zou het in relevant document staan?)
– ....
– voor opsomming: generiek zoeken vs. voorbeeld zoeken
(“overzicht amerikaanse presidenten" vs. "clinton, johnson,
reagan, obama, lincoln, ..." )
– gebruik context-specifieke zoektermen (event. slang, jargon)
om te beperken tot specifieke context waarin onderwerp moet
voorkomen
(populair  wetenschappelijk ; volwassenentaal  jeugdtaal)
– gewicht specifieke term verhogen door herhaling (Google)
– ....
Eric Sieverts
Avans, januari 2012
gebruik zoektermen
belang van "juiste" zoektermen:
– gebruik van gesuggereerde termen
• vooraf: Google, Bing, Yahoo, Exalead
• achteraf inperken: Ask, Exalead, Gigablast, Scirus
Eric Sieverts
Avans, januari 2012
Booleaanse combinaties
gebruik van booleaanse operatoren om woorden te koppelen
– AND
beide woorden gelijktijdig aanwezig
computer AND bibliotheek
– OR
minstens één van de woorden aanwezig
fiets OR rijwiel
– NOT
woorden uitsluiten
greenhouse NOT climatic change
NB: bij webzoekmachines altijd hoofdletters gebruiken
voor die operatoren
Eric Sieverts
Avans, januari 2012
Booleaanse combinaties
veelgebruikte basis voor gestructureerde opzet van
zoekstrategieën is "bouwsteenmethode":
– bepaal de samenstellende concepten van je vraag
– bedenk voor elk concept mogelijke zoekwoorden
veiligheid
OR
lange
veiligheid
veilig
onveiligheid
beveiliging
veiligheidsmaatregelen
....
lang
lengte
...
AND
Eric Sieverts
tunnels
tunnels
verkeerstunnels
autotunnels
spoortunnels
....
OR
AND
Avans, januari 2012
Booleaans combineren bij zoekmachines
bijzonderheden van Booleaans bij Google & Yahoo:
•
•
•
•
je mag de AND's weglaten
hier gaat -nogal uitzonderlijk- OR voor AND
je hoeft dus geen haakjes te gebruiken
je moet i.p.v. "NOT" per losse term - (min)teken gebruiken
voorbeelden:
veilig OR veiligheid tunnels OR autotunnels -spoortunnels
i.p.v.
(veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels
"lange tunnels OR autotunnels"
kort voor:
"lange tunnels" OR "lange autotunnels"
wat helemaal NIET kan bij Google/Yahoo:
(veiligheid AND autotunnels) OR (safety AND "car tunnels")
Eric Sieverts
Avans, januari 2012
Booleaans combineren bij zoekmachines
maar Booleaans bij Bing
• je moet WEL haakjes gebruiken bij OR
• je mag ook NOT gebruiken
dus wel:
(veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels
of
(veilig OR veiligheid) (tunnels OR autotunnels) NOT spoortunnels
maar weer geen:
"lange tunnels OR autotunnels"
dat moet voluit:
"lange tunnels" OR "lange autotunnels"
Eric Sieverts
Avans, januari 2012
Booleaanse bouwsteencombinatie
bouwsteencombinaties met AND's en OR's
(veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels)
stapsgewijze opbouwen bij Google
• zoek op termen voor eerste bouwsteen: veilig OR veiligheid
• als Google-instant "aan" staat, zie je meteen al het resultaat
(zonder op [search] te hoeven klikken)
• tik gewoon door met termen voor tweede bouwsteen; lange
• je ziet meteen weer het resultaat
• tik door met termen voor derde concept:
tunnels OR autotunnels OR verkeerstunnels
enz.
resultaat:
(veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels)
Eric Sieverts
Avans, januari 2012
zoektermen: Google denkt voor ons
Google probeert de zoekvraag te verbeteren / verbreden
• automatische spellingcorrecties (veilgheid >> veiligheid)
• zoekt op woorden met dezelfde woordstam (enkel-/meervoud,
werkwoordsvormen, vervoegingen, verbuigingen)
• afkortingen (jfk >> john f kennedy | wwii >> world war II)
• voegt synoniemen van woorden toe (vaccination >> immunization)
• bij losse zoekwoorden ook samengestelde term en omgekeerd
(veiligheid maatregel >> veiligheidsmaatregel | catfood >> cat food)
• maakt soms een term optional als die niet discriminerend genoeg is
dit alles wat vaker en uitgebreider in Engels dan in Nederlands
• personaliseert zoekactie op basis van eerder zoek/browse-gedrag
en als je dat nou niet wilt ........
Eric Sieverts
>> "verbatim"
Avans, januari 2012
vorige maand nieuw geïntroduceerde optie
verbatim == "woordelijk"
op google.nl: "woord voor woord"
zoektermen: taalaspecten
• taalvoorkeuze eigenlijk alleen belangrijk bij
taalonafhankelijke begrippen en eigennamen
• taalinstelling; bij Google verschil tussen
– zoekresultaattaal
maken ook verschil
– interfacetaal
voor ranking van
resultaten
– landsversie
(pas op: ook bij Bing
“… a search experience tailored to your part of the world” !)
• automatische vertaling:
Google.com language tools, met translated search!
of Yahoo-BabelFish of Systran of Bing Translator
Eric Sieverts
Avans, januari 2012
zoeken in taal die je niet kent
Google "translated search" / "vertaalde zoekopdracht"
•
•
•
•
•
kies in welke talen je resultaten wilt zoeken
kies in welke taal jij je zoekvraag intikt
bekijk in jouw taal terugvertaalde resultatenlijst
bekijk in jouw taal terugvertaalde pagina's
controleer zo nodig hoe het er oorspronkelijk uitzag
Eric Sieverts
Avans, januari 2012
vertaalt Nederlandse
zoekvraag in
aangevinkte taal
en vertaalt daarmee
gevonden resultaten
weer terug naar
het Nederlands
speciale tekens, getallen en exact zoeken
• woordstam-zoeken voorkomen met "" of met Verbatim
( "greenhouses" <geeft NIET> greenhouse effect )
• zoeken naar leestekens kan niet
• zoeken naar alle getallen die binnen een range vallen
(10..20 of $10..$20, uniek voor Google)
• getallen werken net als woorden, maar:
– komma wordt gelezen als spatie, net als andere
leestekens (12,93  12 93 , maar 100,000 wel  100000)
– punt kan wel (12.93  12.93)
Eric Sieverts
Avans, januari 2012
zoeken in "velden"
nuttig als resultaat niet specifiek genoeg
bijv. als woord in elke pagina in navigatiebalk voorkomt
• zoek op woord(en) in paginatitel
intitle:agenda
(limitering/syntax niet aangeboden in geavanceerd zoekscherm)
• zoek op woord in URL
inurl:telefoonlijst
(limitering/syntax niet aangeboden in geavanceerd zoekscherm)
nuttig voor gerelateerde informatie
• zoeken via backlinks (koppelingen naar …) : link:url
maar pas op: Google geeft beperkt resultaat
Eric Sieverts
Avans, januari 2012
filteren op formele kenmerken
• filters op formele vereisten, meestal in "geavanceerd
zoekscherm" : taal, datum, domein, land/werelddeel,
bestandstype, media, ...
• domein (site) : meervoudig sitefilter (bij Gigablast of je
moet Google-syntax kennen)
• in gewone zoekscherm kan met Google-syntax vaak meer
dan in voorgeprogrammeerde “advanced search”; bijv.:
site:microsoft.com OR site:google.com | filetype:rss
• selectie vooraf vs. achteraf inperken via "facetten"
onder "more search tools" in google.com meer/eerder dan in google.nl
• op datum zoeken .... >>
Eric Sieverts
Avans, januari 2012
zoeken / filteren op datum
• op datum beperken : = meestal datum van -recentsteindexering door zoekmachine (niet werkelijke datum van
publicatie)
• in advanced search biedt Google (vooraf) keuze tussen
past 24 hours / week / month / year
• bij Google resultaat achteraf in te perken op periode
(facetten in linker kolom):
 "custom range" / "aangepaste periode" - "from: .. to: .."
• deze datums niet echt betrouwbaar
hoe datum van publicatie van gevonden pagina te controleren?
soms werkt: javascript:alert(document.lastModified)
helaas steeds vaker niet door dynamisch gegenereerde pagina's uit CMS
Eric Sieverts
Avans, januari 2012
nog wat diversen ....
waar zijn "cache" en "vergelijkbaar" van Google gebleven?
(bij google.com: "cached" en "similar")
• links daarvoor zitten nu in pop-up previews rechts
• cache: versie van site ten tijde van indexering
• vergelijkbaar: pagina's die "erop lijken"
Eric Sieverts
Avans, januari 2012
nog wat diversen ....
gebruik van metazoekmachines
• voor snel vergelijken van resultaten
• voor spelden in hooiberg
• online o.a.: Ixquick, Dogpile, Yippy of Polymeta
• desktop: Copernic agent
• ook gespecialiseerde: Searchgov (USA), Worldwidescience, ...
• ook voor social media: SocialMention
• zie ook: nowGoogle, zuula of Browsys-finder
Eric Sieverts
Avans, januari 2012
attendering op nieuwe resultaten
• indien ingelogd, kun je bij Google "alerts" starten op basis
van zoekvragen (per e-mail of RSS)
• indien ingelogd, kun je in de zoekgeschiedenis oude
zoekvragen terugzoeken en opnieuw uitvoeren
(daarin zie je ook wat je uit oude resultaat hebt bekeken)
• bij interessante pagina's veranderingen bijhouden met
page-alerts/spionnen:
– Copernic Tracker / Website Watcher (desktop)
– Watchthatpage / TrackEngine (online diensten)
• RSS feed-reader toont automatisch nieuwe afleveringen
van geselecteerde nieuwsbronnen en weblogs en
nieuwe resultaten uit sommige zoeksystemen
Eric Sieverts
Avans, januari 2012
beheer van zoekacties / resultaten
• in browser: bookmarks/favorieten; geschiedenis
• met Google account: zoekgeschiedenis (vragen + resultaten)
• desktop metasearch tool administreert lokaal je acties:
Copernic Agent
• social bookmarks: Delicious, Diigo, Pinboard, ....
• social scientific bookmarks: CiteUlike, Connotea,
Bibsonomy, ....
• bibliographic bookmarks (lokaal + "in the cloud"):
Mendeley, RefWorks (€), Zotero (firefox add-on), ....
• tweet-links, blogposts etc.: trunk.ly
• knipsels, bookmarks, copieën bewaren in Evernote
Eric Sieverts
Avans, januari 2012
Download