“resources” en hun zoeksystemen op internet Eric Sieverts juni 2014 GO Opleidingen doelstelling / leerdoelen leerdoelen van deze cursus: • U bent in staat de voor uw onderzoek meest geschikte bronnen te selecteren • U kunt daarbij toe te passen zoeksystemen optimaal gebruiken • U kunt anderen adviseren bij de keuze van informatiebronnen en het zoeken daarin 2 gedachtenbepaling vooraf • wat is een bron? • is Google een bron? • is het web een bron? • NEE (althans voor deze cursus) • Google is een zoekingang op heel veel bronnen • het web is een medium waarop heel veel soorten bronnen beschikbaar zijn 3 gedachtenbepaling vooraf uitgangspunt voor de cursus: • een bron is een collectie van een bepaald soort informatie die online beschikbaar is, • waarbij de soort bepaald kan zijn door de vorm (krantenartikelen, video's, blogs, tweets, plaatjes, ...), en/of door de inhoud (medische informatie, nieuws, wetenschap, ...) 4 gedachtenbepaling vooraf om in "bronnen" te kunnen zoeken / ze te raadplegen, maken we gebruik van zoeksystemen of zoekingangen • in die zin is Yahoo! een zoekingang op een veelheid aan bronnen. • in die zin is IceRocket een zoekingang op weblogs. • in die zin is een zoekingang op wetenschappelijke bronnen. 5 programma • 9:30 / welkom, introductie (0) inleiding, bronnen, zoekingangen (1) boeken, artikelen, wetenschap • ca. 10:45 / thee- en koffiepauze (2) feiten, naslag, vertaling (3) nieuws, kranten, tijdschriften (4) “oud” nieuws • ca. 12:30 / lunchpauze (5) weblogs, feeds, (6) tweets, social (7) multimedia / AV • ca. 15:00 / thee- en koffiepauze (8) algemene versus gespecialiseerde zoekingangen, diepe web, persoonlijke zoekmachines (9) beoordelen van bronnen (10) bijblijven 6 bekend verondersteld • • • • • • • • • verschil tussen soorten diensten op internet typerende aanbieders op internet domeinenstructuur en url-opbouw verschillende soorten zoekstrategieën en -doelen verschil/toepassing gidsen versus zoekmachines werking en geavanceerde opties van zoekmachines betekenis van recall en precision betekenis diepe/onzichtbare web wijze van ranking zoekmachines, werking PageRank startpagina voor zoekhulpmiddelen • http://gostartpagina.pbworks.com 7 soorten informatiebronnen • naar aard van informatie – – – – – – wetenschappelijke informatie naslagwerken nieuwsberichten krantenartikelen (digitale) boeken ... • naar “medium” – – – – – – – – webpagina’s pdf’s images videos weblogs rss-feeds tweets ... ander onderscheid: • • primair - secundair - tertiair – KNMI - weer-startpagina - StartNederland doorzoekbaarheid – alleen metadata - full-text 8 soorten informatiebronnen rss-feed tweet weblog video image pdf webpagina niet al zulke combinaties zijn zinvol/mogelijk wetenschap naslag nieuws kranten eBooks ... 9 informatiebronnen en hun zoekingangen (de zoektools) • kun je alles (ook) met Google vinden? • welke Googles (en Bing’s) zijn er allemaal? (image-, blog-, video-, news-, book-, scholar-, groups-search, maar meeste ook geïntegreerd in gewone Google) • kun je met die Googles alles vinden? • welke alternatieven zijn er voor die Googles? – zie bijv. trovando.it http://www.trovando.it/ of wiinkz http://www.wiinkz.com/ – alternatieven voor het diepe (en betaalde) web 10 1. boeken & (wetenschappelijke) artikelen • boeken – – – – – – – – – – – – Google Books Hathitrust Digital Library (open book scan project) Delpher (gedigitaliseerde boeken -en kranten- van de KB en NL-univ.) Amazon (ook reviews, inhoud, boek-boek citaties) Worldcat (catalogus van 10.000 bibliotheken met postcode-functie) Librarything (catalogus van 58.000.000 boeken van 1.000.000 bezitters) GoodReads (reviews, recommandatie, vrienden, ...) Picarta Bibliotheek.nl DOAB (directory of open access books) Open Textbook Library (open access leerboeken) enz. • artikelen (e.d.) • enz. 11 boeken: Google Books • van kaft tot kaft gescand (en doorzoekbaar!) • sterk voor ontdekken van niet-hoofdinhoud van boeken • vaak beperkt doorbladerbaar (no preview / snippet view / limited preview / full preview) • content via uitgevers en via grote bibliotheken • probleem met copyrighted materiaal uit bibliotheken • vergeleken met Amazon search inside: meer oud, minder recent • ook ‘My Library’ optie vb • NL-boeken niet alleen uit Gent en KB, ook uit US/UK • nu ook enkele ‘magazines’ • metadata op about-this-book-pagina • bibliotheken linken vanuit catalogus (bijv. Picarta) 12 1. boeken & (wetenschappelijke) artikelen (2) • boeken • artikelen (e.d.) – – – – – – – – – – Google Scholar (artikelen, rapporten, proefschriften, ...) sEURch / UvA-library (zoeksystemen van EUR / UvA) ScienceDirect (artikelen van Elsevier) OAIster / BASE (uit academische repositories / Open Access) NARCIS (40.000 proefschriften, 600.000 publicaties [veel artikelen] uit NL) DOAJ (artikelen in Open Access tijdschriften) SciELO (Spaans/Portugees talige wetenschappelijke artikelen) Magportal (ook -Engelstalige- publiekstijdschriften) DeepDyve (wetenschappelijke artikelen "te huur") enz. • enz. 16 wetenschap: Google Scholar • • • • > 100 miljoen wetenschappelijke publicaties verschil full record en aanwezigheid als ‘citation’ verschil full-text links en bibliografische links concurrent voor Web of Science, Scopus, Picarta, OAIster, DOAJ, Ingenta • gericht geïndexeerd in vele bronnen (uitgevers, abstractdatabases, universiteiten, repositories, ...) • met citaties! • aantallen citaties mede gebruikt voor ranking (waardoor recente publicaties relatief laag scoren) • .... >> 17 wetenschap: Google Scholar • .... • advanced search beperkt, nog veel fouten door computergenerated metadata • van zoekresultaat naar volledige tekst vaak een probleem (niet aanwezig, alleen tegen betaling) • soms veel versies van artikel (waaronder wel gratis) • wel zichtbaar welke artikelen gratis versie hebben • koppeling aan bibliotheekbezit, Google Scholar library programme voegt links naar eigen bezit toe • geen info over bronnen, updates 18 open access als dit artikel interessant is, dan deze 23 recentere waarschijnlijk ook ## citaties/ aangehaald abonnement univ. utrecht Maak nu de opdrachten van onderdeel 1 1. boeken & (wetenschappelijke) artikelen (3) • boeken • artikelen (e.d.) vakspecifiek zoeken (gratis zoekingangen; vaak alleen de metadata) – – – – – – – – geneeskunde: Pubmed , PLoS-one economie: RepEc computerkunde, informatica: CiteSeer onderwijs: ERIC (hoge energie-) fysica: SPIRES-HEP, ArXiv bibliotheekwetenschap: LISTA filosofie: International Philosophical Bibliography transport: TRID • enz. 22 2. feiten & naslag • encyclopedieën e.d. – – – – wikipedia overzicht in Yahoo Directory overzicht in Open Directory internet movie database • vragen & antwoorden – Quora – Yahoo-answers – (FAQs: internet FAQ consortium ) • woordenboeken, vertaaldiensten e.d. • dataverzamelingen • ... 23 wikipedia • • • • • in >280 talen levert “wisdom of the crowds” altijd “wisdom”? goed voor “feitelijke” onderwerpen veel detailonderwerpen (>20 miljoen lemma’s, >1 miljoen NL) soms nuttig om relevante eigen publicaties / boeken uit eigen collectie als referenties aan lemma toe te voegen • toch wel beleid & beheer: stewards, administrators • met Google site-commando kun je alle taalversies tegelijk doorzoeken: zoekwoord site:wikipedia.org • Qwika: wikipedia metasearch (1158 wiki's in 12 talen, incl. computer-vertaling) 24 2. feiten & naslag (2) • encyclopedieën e.d. • vragen & antwoorden • woordenboeken, vertaaldiensten e.d. – – – – – – – – – answers.com (voert een metasearch uit) Roget thesaurus Acronymfinder Bartleby Google Translate Mijn Woordenboek synoniemen Synoniemen.net overzicht in Open Directory overzicht in Open Directory Nederlands • dataverzamelingen • enz. 25 2. feiten & naslag (3) • ... • dataverzamelingen – linked (open) data (niet makkelijk bruikbaar voor eindgebruikers): data.overheid.nl, UK-open-data, EU-open-data, data.gov (US), open-data-site-finder, ... – statistieken: statline, eurostat, UNdata, worldbank, oecd, ... – visualisatietool: Google Public Data Explorer – wetenschappelijke datasets: DANS dataportal (NL), Narcisdata, dataverse-network, Re3data, datacite (metasearch), ... – algemene dataset-zoekmachines: datamarket, knoema, quandl, zanran – zoekmachine voor naslagwerkpagina’s + berekeningen Wolfram Alpha Maak nu de opdrachten van onderdeel 2 26 3. nieuws, kranten, tijdschriften • • • • • Google News, Yahoo News, Bing News, ... BBC , CNN e.d. nu.nl € LexisNexis, € Factiva sites van kranten en tijdschriften – overzicht Engelstalig wereldwijd: world-newspapers.com – overzicht Nederlandse kranten: kranten.startnederland.nl – overzicht Nederlandse tijdschriften: tijdschrift.startnederland.nl • Newslink-magazines • .... [weblogs & tweets: zie 5 en 6] [video/tv-nieuws: zie 7] 27 gespecialiseerd: Google News Engelstalig nieuws uit 4500 bronnen + aparte versies in andere talen dan Engels: – – – – – – – – – – – chinees (1000 bronnen) duits (700 bronnen) frans (500 bronnen) hebreeuws (100 bronnen) italiaans (250 bronnen) japans (600 bronnen) koreaans (550 bronnen) nederlands (>400 bronnen) portugees (200 bronnen) spaans (700 bronnen) enz. Maak nu de opdrachten van onderdeel 3 28 4. archief & oud nieuws • web archive ("way-back-machine") (oude versies van websites, terug tot 1996, ingang via -oude- url) • historische nederlandse kranten (versnipperd aanbod) – Delpher (gedigitaliseerde kranten KB -samen met boeken) – landelijke krantendatabank (ook papieren collecties) – Los: Groene Amsterdammer (>1877), Leeuwarder Courant (>1752) • historische buitenlandse kranten – British newspapers 1800-1900 – historic American newspapers / Google news archive – digitized Australian newspapers – internationaal overzicht • € LexisNexis • ‘echte archieven’ via archiefzoeker.nl, archivegrid, ... Maak nu de opdrachten van onderdeel 4 29 5. blogs & rss-feeds • • • • Google blogsearch Icerocket Technorati (Exalead >> achteraf inperken op blogs ) – denk aan verschil tussen ingang op individuele berichten en ingang op blogs of feeds als geheel – wie citeert wie? (google blogsearch) – filtermogelijkheid op “autoriteit” ?=? belang, kwaliteit, .... – filter op termen binnen je feedreader – blogs of onderwerp volgen met blogsalert? – #hashtags 30 5. blogs & rss-feeds zoeken naar RSS feeds (meer dan alleen blogs) – CTRLQ: http://ctrlq.org/rss/ – RSS Searchhub: http://www.rsssearchhub.com/ – overzicht (op "makeuseof") voor vinden van feeds van bepaalde bron / website voor vinden van feeds waarin bepaald onderwerp centraal staat Maak nu de opdrachten van onderdeel 5 31 6. tweets en social search (1) • Twitter in 140 tekens – vaak met verkorte links – vaak met foto- of video-link – vaak met hashtags (#afgesprokentrefwoord) • Twitter als continue informatiebron: – volg de "juiste" personen die interessante nieuwtjes, rapporten, artikelen via Twitter delen • zoeken – – – – – twitter (ook advanced search) topsy snapbird (alle tweets van 1 persoon waarvan je twitternaam kent) twicsy (foto's op twitter) ... 32 6. tweets en social search (2) • veel Twitter hulptools – archief van al weer gewiste tweets van politici: politwoops (ook nl) – twubs (bijv. bij congres) : volg in real-time alles met bepaalde hashtag en voeg die tag automatisch toe aan eigen berichten – ... • links uit tweets automatisch bewaren als social bookmarks – via packrati.us >> delicious, pinboard, diigo, ... • Facebook "graph-search" voor gestructureerd zoeken (in Engelstalig interface) 33 Facebook Graph Search alles wat gebruikers registreren, wordt gestructureerd opgeslagen in Facebook's graph (met gestandaardiseerde betekenis), waardoor ook gestructureerd gezocht kan worden 6. tweets en social search (3) • “Real time / social search engines” – social-searcher, socialmention, whostalkin, … (tweets + blogs + facebook + …) – Google personal results / Google+ ("search plus your world") • Forumdiscussies – omgili, (boardtracker), ... – Google groups (ook oude nieuwgroep-discussies) voor methoden van onderzoek: – zie adviezen van Henk van Ess in "de digitale detective" (2012) – How to: use social media in newsgathering (2012) – zie ook: 50 Top Tools for Social Media Monitoring (2013) Maak nu de opdrachten van onderdeel 6 35 7. multimedia • images – – – – – Google-image (simpele beeldherkenning; ook foto’s uit Picasa) Yahoo-image (ook veel foto’s uit Flickr) Bing-image Ask-image Exalead-image (veel verschillen in zoekresultaten door verschillen in “tekstzoekvelden”) – Flickr (zoekt vooral op tags; ondersteunt “Creative Commons” ) – – – – Andere uploadsites: Pbase, Smugsmug, Photobucket, Zoom, Zenfolio Google (search by image), Tineye (zoekt -bijna- exacte copieën) Retrievr (voorbeeldzoeken met beeldherkenning op Flickr) speciale sites (beeldbank nationaal archief, wikimedia commons, ...) geografische ingang (panoramio [google-maps], worldc.am [instagram], ...) • video • audio 36 voorbeeld 7. multimedia (2) • images • video – YouTube (groei: 70 uur/minuut, ook "filters") • Youtube Edu channel – – – – – – Blinkx (omroepen - 35 miljoen uur video, spraakherkenning?) VoxaleadNews (met spraakherkenning - in meer talen - ook NL!) Bing-video (niet makkelijk te vinden vanuit basis-scherm) Google-video (ook video’s uit YouTube; zoekt alleen in metadata) ScienceCinema (met spraakherkenning! gaat vooral over energie) TV-uitzendingen: • Uitzending gemist (beperkte zoekfunctie) • Beeld & Geluid (doorzoekt metadata; gebruik “uitgebreid zoeken”) • Academia (selectie uit Beeld & Geluid voor hoger onderwijs; betaald) • audio – VoxaleadNews (met spraakherkenning - in meer talen - ook NL) Maak nu de opdrachten van onderdeel 7 40 8. gespecialiseerde versus algemene zoekingangen gespecialiseerde: selectief & vaak “dieper” dan algemene zoekmachine – interne zoekfunctie van individuele site – kant en klare onderwerpsgerichte zoekingangen • • • • • • Worldwidescience (wetenschap algemeen) Findlaw (rechten USA) WebMD / Medscape (geneeskunde) Google-finance (financiële gegevens + nieuws) Searchgov (metasearch Amerikaanse overheidssites) ..... – homemade met : • Google CSE, Blekko (slashtags) zelf selecteren welke sites (url’s) in zoekmachine moeten worden meegenomen 41 ingangen op diepe web toegang tot het diepe web – “handmatig” (elke database afzonderlijk doorzoeken) • geen universele overzichten meer beschikbaar • voor "wetenschap" al eerder verzamelzoeksystemen genoemd – “halfautomatisch” (doorzocht via desktop metasearch engine) • copernic-agent (metasearch vanaf eigen PC) – “automatisch” (gegevens uit bepaalde database/bron zitten ook al -allemaal?- in algemene zoekmachines) bijv. catalogus UB Wageningen Maak nu de opdrachten van onderdeel 8 42 9. vergelijken en beoordelen van (zoekingangen van) bronnen • wat voor soort materiaal zit er in – primaire (c.q. full-text) vs. secundaire informatie – naslag / nieuws / onderzoekresultaten / statistieken / websites / artikelen / boeken / rapporten / ... • welk onderwerpsgebied • welke doelgroep (niveau) • hoeveel zit erin (aantal items, dekkingsgraad, ...) vaak moeilijk te bepalen door verschillen in functionaliteit en onbetrouwbare aantallen voor zoekresultaten uit zoekmachines • hoe goed werkt het zoeksysteem (functionaliteit, gebruiksgemak, selectiviteit, ...) • wat is de kwaliteit van de content zie bijvoorbeeld JISC Academic Database Assessment Tool • bekijk: bron zelf / Wikipedia / leveranciers / JISC 43 beoordelingscriteria voor websites web-gerelateerde factoren • beoordeel domeinnaam (bijv.: edu, edu.au, edu.sg, edu.ng, edu.lb, ac.uk, gov, gov.uk, gov.hk, gov.au, gov.on.ca, gob.es, gob.mx, gob.ve, gob.ec, ...) • Alexa rank van website (hoeveelheid web traffic); tools daarvoor: – http://www.seomastering.com/alexa-rank-checker.php – http://www.alexa.com/ • Google pagerank van website (bepaald door aantal en aard van backlinks); tools daarvoor: – http://www.prchecker.info/ – http://www.checkpagerank.net/ • zoek de "backlinks" zelf – Google: met link: commando - erg incompleet – OpenSiteExplorer: erg compleet - betaalde dienst – Alexa: toont 5 belangrijkste backlinks • wie is eigenaar van domeinnaam; tools daarvoor: – http://centralops.net/co/DomainDossier.aspx – http://whois.domaintools.com/ 44 beoordelingscriteria voor websites Nog wat algemene factoren: • • • • • • • • • • • • • • Goede opmaak Aanduiding maker/auteur (“about us”) Aanduiding postadres, telefoonnummer Aanduiding doel/doelgroep Geen reclame en pop-ups Heldere navigatie Interne zoekfunctie Voldoende snelheid server Backlinks door gezaghebbende organisaties Up to date? Zinnige datering inhoud Geen grof taalgebruik Geen kinderlijk taalgebruik Geen storende taalfouten Zelfs als alles in orde lijkt, bij gevoelige onderwerpen toch nog uitkijken Maak nu de opdrachten van onderdeel 9 45 10. bijblijven met bronnen • Weblogs: – – – – – – – Resourceblog InfoDocket (Gary Price) SearchEngineLand (Sullivan, Sherman) InternetNews/WebSearchGuide (Gwen Harris) Phil Bradley's weblog “Spion” op bronnenlijst (Copernic Tracker, WatchThatPage, …) RSS-feed op lijsten indien aanwezig • Pandia • FreePint 46 bijblijven met behulp van RSS • Rich Site Summary / Really Simple Syndication • voor sites met (on)regelmatig nieuwe actuele inhoud, bijvoorbeeld nieuwsbrieven, weblogs (+ ook sommige databases) • lezen, beheren als ware het email • maakt gebruik van xml-structuur • vereist software (reader), bijv. Feedreader, Feeddemon, Shrook, … of online lezen bijv. bij Netvibes, Bloglines, Digg reader • toevoegen van een ‘feed’: op pagina url onder oranje (soms blauw) rss- of xml-logo copiëren en in reader plakken • drie nauwverwante formats: rss/atom/rdf (readers multiformat) • zoeken van berichten: Google Blogsearch, Technorati, IceRocket, real-time search [zie eerder] • zoeken van feeds: CTRLQ, RSSsearchhub [zie eerder] 47