zoektechnieken voor zoekmachines op internet Eric Sieverts Universiteitsbibliotheek Utrecht & opleiding Media, Informatie & Communicatie (HVA) Avans, januari 2012 programma • • • • • • • • • • • • Internet zoekstrategieën/zoeksystematiek Dekking van zoekmachines / not just Google Ranking van zoekmachines Zoekresultaten kwantitatief Gebruik zoektermen Google Translated search Booleaans zoeken Speciale tekens, getallen en exact zoeken Zoeken op velden / link zoeken Filteren op formele kenmerken Automatische attendering Beheer van zoekacties/zoekresultaten Eric Sieverts Avans, januari 2012 systematische aanpak Vraaganalyse: wat zoek ik eigenlijk + speciale randvoorwaarden Verkenning Opstellen zoekprofiel: waaraan moet informatie voldoen, zoekwoorden Keuze bronnen/zoektools: zoekmachine, database, ... Daadwerkelijk zoeken: gebruik syntax en opties van zoektool Noteren afwijkingen van zoekplan, zijpaadjes, bevindingen Selectie uit zoekresultaat Evaluatie Nabewerking per relevante bron: beheren, citeren, delen Eventueel andere ingangen (verder zoeken op gevonden auteur, links) of geheel andere typen bronnen (gedrukte literatuur, deskundigen) 11. Expliciete reflectie op zoekproces en zoekresultaat 12. Bij doorlopende interesse instellen van web en page alerts / feeds 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Eric Sieverts Avans, januari 2012 dekking (omvang) van zoekmachines • > 15% van webpagina’s in geen van grote zoekmachines • van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (2005) http://www.cs.uiowa.edu/~asignori/web-size/ geen betrouwbare recentere cijfers mijn inschatting: Google iets kleiner dan Yahoo ? Google iets groter dan Bing ? maar nu: Yahoo==Bing ! Google nu ~10x zo groot als kleinere • dekking zeer ongelijkmatig • verschil in actualiteit • verschil in dekking verschil in ranking (vaak zeer weinig overlap bij eerste 10) Eric Sieverts Avans, januari 2012 andere algemene zoekmachines probeer naast Google eens: • Bing (microsoft, groot) • Yahoo! (content=Bing, groot) • Exalead (frans, tamelijk klein, veel geavanceerde functies) • Gigablast ("groene" zoekmachine, tamelijk klein, paar unieke functies) • Blekko ("hashtags" om [domein-]selectiever te kunnen zoeken) • DuckDuckGo (verzekert privacy, geen personalisatie, tamelijk klein) • Ask (tamelijk klein, weinig unieks meer) in US hebben die samen nog 30% marktaandeel; in NL maar 3% Eric Sieverts Avans, januari 2012 ranking: Google's pagerank pagerank van pagina x is: PR(x) = (1-d) + d* {PR(y x) / C(y)} y • elke "pagina y" die naar pagina x linkt draagt bij aan die som • PR(yx) = pagerank van pagina y die naar x linkt [link vanuit pagina die zelf hoge pagerank heeft, draagt meer bij] • C(y) = aantal links in pagina y [link vanuit pagina die erg veel links bevat, draagt minder bij] • d = "dempingsfactor" (ong. 0.85) waardoor: 0.15 PR(x) Eric Sieverts Avans, januari 2012 ranking: inhoudelijke factoren pagerank is pas van belang als zoekwoord-gerelateerde (inhoudelijke) factoren weinig bepalend zijn, zoals: • • • • • • • • • • • pagina relevanter als zoekwoord in titel pagina relevanter als zoekwoord in URL pagina relevanter als zoekwoord in koppen <H1> <H2> pagina relevanter als zoekwoord meer in begin van tekst pagina relevanter als zoekwoord daarin vaker wordt herhaald pagina relevanter als zoekwoorden daarin dicht bij elkaar pagina relevanter als zoekwoorden daarin in zelfde volgorde zeldzaam zoekwoord telt sterker mee dan heel algemeen pagina relevanter als zoekwoord ook vaak in verwijzende link-tekst pagina relevanter als gebruiker eerder soortgelijke pagina's bekeek .... Eric Sieverts Avans, januari 2012 aantallen resultaten van zoekmachines gemelde resultaataantallen zijn vaak zeer onbetrouwbaar • bij Google (en andere) zijn vermelde aantallen zeer onbetrouwbaar, niet stabiel, met soms onverklaarbare effecten – – – – inperken geeft soms groter aantal, uitbreiden kleiner aantal afhankelijk van verdeling index over servers Google afhankelijk van Google versie / ingelogd zijn / zoekgeschiedenis afhankelijk van keuze “your part of the world” bij Bing • Danny Sullivan legt uit waarom Google niet kan tellen: http://searchengineland.com/why-google-cant-count-results-properly-53559 Why Google Can’t Count Results Properly Eric Sieverts Avans, januari 2012 gebruik zoektermen belang van "juiste" zoektermen: denk in termen van het te vinden document (wat zou in relevant document staan?) – spellingvarianten, enkel-meervoud-werkwoord (zelf bedenken of automatisch - Google) – truncatie (alleen Exalead) – alternatieve zoektermen / synoniemen: • soms automatisch bij Google • te vinden met "thesauri" / synoniemenlijsten (mijnwoordenboek, synoniemen.net, Roget's, answers.com, Bartleby) • te vinden via synoniemen uit Word-tekstverwerker • te vinden door te kijken in wat al is gevonden – .... Eric Sieverts Avans, januari 2012 gebruik zoektermen denk in termen van het te vinden document (hoe zou het in relevant document staan?) – .... – "exact phrase" losse woorden – woordnabijheid: met term-wildcard ( * ) bij Google & Yahoo "veiligheid * * tunnels" met NEAR bij Yahoo, Bing, Exalead veiligheid NEAR tunnels met AROUND(n) bij Google veiligheid AROUND(4) tunnels – eventueel een phrase van losse woorden (zonder "") ! invloed van volgorde van losse woorden op ranking (zie: Thumbshots – Ranking) – .... Eric Sieverts Avans, januari 2012 gebruik zoektermen denk in termen van het te vinden document (hoe zou het in relevant document staan?) – .... – voor opsomming: generiek zoeken vs. voorbeeld zoeken (“overzicht amerikaanse presidenten" vs. "clinton, johnson, reagan, obama, lincoln, ..." ) – gebruik context-specifieke zoektermen (event. slang, jargon) om te beperken tot specifieke context waarin onderwerp moet voorkomen (populair wetenschappelijk ; volwassenentaal jeugdtaal) – gewicht specifieke term verhogen door herhaling (Google) – .... Eric Sieverts Avans, januari 2012 gebruik zoektermen belang van "juiste" zoektermen: – gebruik van gesuggereerde termen • vooraf: Google, Bing, Yahoo, Exalead • achteraf inperken: Ask, Exalead, Gigablast, Scirus Eric Sieverts Avans, januari 2012 Booleaanse combinaties gebruik van booleaanse operatoren om woorden te koppelen – AND beide woorden gelijktijdig aanwezig computer AND bibliotheek – OR minstens één van de woorden aanwezig fiets OR rijwiel – NOT woorden uitsluiten greenhouse NOT climatic change NB: bij webzoekmachines altijd hoofdletters gebruiken voor die operatoren Eric Sieverts Avans, januari 2012 Booleaanse combinaties veelgebruikte basis voor gestructureerde opzet van zoekstrategieën is "bouwsteenmethode": – bepaal de samenstellende concepten van je vraag – bedenk voor elk concept mogelijke zoekwoorden veiligheid OR lange veiligheid veilig onveiligheid beveiliging veiligheidsmaatregelen .... lang lengte ... AND Eric Sieverts tunnels tunnels verkeerstunnels autotunnels spoortunnels .... OR AND Avans, januari 2012 Booleaans combineren bij zoekmachines bijzonderheden van Booleaans bij Google & Yahoo: • • • • je mag de AND's weglaten hier gaat -nogal uitzonderlijk- OR voor AND je hoeft dus geen haakjes te gebruiken je moet i.p.v. "NOT" per losse term - (min)teken gebruiken voorbeelden: veilig OR veiligheid tunnels OR autotunnels -spoortunnels i.p.v. (veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels "lange tunnels OR autotunnels" kort voor: "lange tunnels" OR "lange autotunnels" wat helemaal NIET kan bij Google/Yahoo: (veiligheid AND autotunnels) OR (safety AND "car tunnels") Eric Sieverts Avans, januari 2012 Booleaans combineren bij zoekmachines maar Booleaans bij Bing • je moet WEL haakjes gebruiken bij OR • je mag ook NOT gebruiken dus wel: (veilig OR veiligheid) AND (tunnels OR autotunnels) NOT spoortunnels of (veilig OR veiligheid) (tunnels OR autotunnels) NOT spoortunnels maar weer geen: "lange tunnels OR autotunnels" dat moet voluit: "lange tunnels" OR "lange autotunnels" Eric Sieverts Avans, januari 2012 Booleaanse bouwsteencombinatie bouwsteencombinaties met AND's en OR's (veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels) stapsgewijze opbouwen bij Google • zoek op termen voor eerste bouwsteen: veilig OR veiligheid • als Google-instant "aan" staat, zie je meteen al het resultaat (zonder op [search] te hoeven klikken) • tik gewoon door met termen voor tweede bouwsteen; lange • je ziet meteen weer het resultaat • tik door met termen voor derde concept: tunnels OR autotunnels OR verkeerstunnels enz. resultaat: (veilig OR veiligheid) AND lange AND (tunnels OR autotunnels OR verkeerstunnels) Eric Sieverts Avans, januari 2012 zoektermen: Google denkt voor ons Google probeert de zoekvraag te verbeteren / verbreden • automatische spellingcorrecties (veilgheid >> veiligheid) • zoekt op woorden met dezelfde woordstam (enkel-/meervoud, werkwoordsvormen, vervoegingen, verbuigingen) • afkortingen (jfk >> john f kennedy | wwii >> world war II) • voegt synoniemen van woorden toe (vaccination >> immunization) • bij losse zoekwoorden ook samengestelde term en omgekeerd (veiligheid maatregel >> veiligheidsmaatregel | catfood >> cat food) • maakt soms een term optional als die niet discriminerend genoeg is dit alles wat vaker en uitgebreider in Engels dan in Nederlands • personaliseert zoekactie op basis van eerder zoek/browse-gedrag en als je dat nou niet wilt ........ Eric Sieverts >> "verbatim" Avans, januari 2012 vorige maand nieuw geïntroduceerde optie verbatim == "woordelijk" op google.nl: "woord voor woord" zoektermen: taalaspecten • taalvoorkeuze eigenlijk alleen belangrijk bij taalonafhankelijke begrippen en eigennamen • taalinstelling; bij Google verschil tussen – zoekresultaattaal maken ook verschil – interfacetaal voor ranking van resultaten – landsversie (pas op: ook bij Bing “… a search experience tailored to your part of the world” !) • automatische vertaling: Google.com language tools, met translated search! of Yahoo-BabelFish of Systran of Bing Translator Eric Sieverts Avans, januari 2012 zoeken in taal die je niet kent Google "translated search" / "vertaalde zoekopdracht" • • • • • kies in welke talen je resultaten wilt zoeken kies in welke taal jij je zoekvraag intikt bekijk in jouw taal terugvertaalde resultatenlijst bekijk in jouw taal terugvertaalde pagina's controleer zo nodig hoe het er oorspronkelijk uitzag Eric Sieverts Avans, januari 2012 vertaalt Nederlandse zoekvraag in aangevinkte taal en vertaalt daarmee gevonden resultaten weer terug naar het Nederlands speciale tekens, getallen en exact zoeken • woordstam-zoeken voorkomen met "" of met Verbatim ( "greenhouses" <geeft NIET> greenhouse effect ) • zoeken naar leestekens kan niet • zoeken naar alle getallen die binnen een range vallen (10..20 of $10..$20, uniek voor Google) • getallen werken net als woorden, maar: – komma wordt gelezen als spatie, net als andere leestekens (12,93 12 93 , maar 100,000 wel 100000) – punt kan wel (12.93 12.93) Eric Sieverts Avans, januari 2012 zoeken in "velden" nuttig als resultaat niet specifiek genoeg bijv. als woord in elke pagina in navigatiebalk voorkomt • zoek op woord(en) in paginatitel intitle:agenda (limitering/syntax niet aangeboden in geavanceerd zoekscherm) • zoek op woord in URL inurl:telefoonlijst (limitering/syntax niet aangeboden in geavanceerd zoekscherm) nuttig voor gerelateerde informatie • zoeken via backlinks (koppelingen naar …) : link:url maar pas op: Google geeft beperkt resultaat Eric Sieverts Avans, januari 2012 filteren op formele kenmerken • filters op formele vereisten, meestal in "geavanceerd zoekscherm" : taal, datum, domein, land/werelddeel, bestandstype, media, ... • domein (site) : meervoudig sitefilter (bij Gigablast of je moet Google-syntax kennen) • in gewone zoekscherm kan met Google-syntax vaak meer dan in voorgeprogrammeerde “advanced search”; bijv.: site:microsoft.com OR site:google.com | filetype:rss • selectie vooraf vs. achteraf inperken via "facetten" onder "more search tools" in google.com meer/eerder dan in google.nl • op datum zoeken .... >> Eric Sieverts Avans, januari 2012 zoeken / filteren op datum • op datum beperken : = meestal datum van -recentsteindexering door zoekmachine (niet werkelijke datum van publicatie) • in advanced search biedt Google (vooraf) keuze tussen past 24 hours / week / month / year • bij Google resultaat achteraf in te perken op periode (facetten in linker kolom): "custom range" / "aangepaste periode" - "from: .. to: .." • deze datums niet echt betrouwbaar hoe datum van publicatie van gevonden pagina te controleren? soms werkt: javascript:alert(document.lastModified) helaas steeds vaker niet door dynamisch gegenereerde pagina's uit CMS Eric Sieverts Avans, januari 2012 nog wat diversen .... waar zijn "cache" en "vergelijkbaar" van Google gebleven? (bij google.com: "cached" en "similar") • links daarvoor zitten nu in pop-up previews rechts • cache: versie van site ten tijde van indexering • vergelijkbaar: pagina's die "erop lijken" Eric Sieverts Avans, januari 2012 nog wat diversen .... gebruik van metazoekmachines • voor snel vergelijken van resultaten • voor spelden in hooiberg • online o.a.: Ixquick, Dogpile, Yippy of Polymeta • desktop: Copernic agent • ook gespecialiseerde: Searchgov (USA), Worldwidescience, ... • ook voor social media: SocialMention • zie ook: nowGoogle, zuula of Browsys-finder Eric Sieverts Avans, januari 2012 attendering op nieuwe resultaten • indien ingelogd, kun je bij Google "alerts" starten op basis van zoekvragen (per e-mail of RSS) • indien ingelogd, kun je in de zoekgeschiedenis oude zoekvragen terugzoeken en opnieuw uitvoeren (daarin zie je ook wat je uit oude resultaat hebt bekeken) • bij interessante pagina's veranderingen bijhouden met page-alerts/spionnen: – Copernic Tracker / Website Watcher (desktop) – Watchthatpage / TrackEngine (online diensten) • RSS feed-reader toont automatisch nieuwe afleveringen van geselecteerde nieuwsbronnen en weblogs en nieuwe resultaten uit sommige zoeksystemen Eric Sieverts Avans, januari 2012 beheer van zoekacties / resultaten • in browser: bookmarks/favorieten; geschiedenis • met Google account: zoekgeschiedenis (vragen + resultaten) • desktop metasearch tool administreert lokaal je acties: Copernic Agent • social bookmarks: Delicious, Diigo, Pinboard, .... • social scientific bookmarks: CiteUlike, Connotea, Bibsonomy, .... • bibliographic bookmarks (lokaal + "in the cloud"): Mendeley, RefWorks (€), Zotero (firefox add-on), .... • tweet-links, blogposts etc.: trunk.ly • knipsels, bookmarks, copieën bewaren in Evernote Eric Sieverts Avans, januari 2012