IZE - PBworks

advertisement
“resources” en hun
zoeksystemen op internet
Eric Sieverts
juni 2014
GO Opleidingen
doelstelling / leerdoelen
leerdoelen van deze cursus:
• U bent in staat de voor uw onderzoek
meest geschikte bronnen te selecteren
• U kunt daarbij toe te passen zoeksystemen
optimaal gebruiken
• U kunt anderen adviseren bij de keuze van
informatiebronnen en het zoeken daarin
2
gedachtenbepaling vooraf
• wat is een bron?
• is Google een bron?
• is het web een bron?
• NEE
(althans voor deze cursus)
• Google is een zoekingang
op heel veel bronnen
• het web is een medium
waarop heel veel soorten
bronnen beschikbaar zijn
3
gedachtenbepaling vooraf
uitgangspunt voor de cursus:
• een bron is een collectie
van een bepaald soort
informatie die online
beschikbaar is,
• waarbij de soort bepaald
kan zijn door de vorm
(krantenartikelen, video's,
blogs, tweets, plaatjes, ...),
en/of door de inhoud
(medische informatie,
nieuws, wetenschap, ...)
4
gedachtenbepaling vooraf
om in "bronnen" te kunnen
zoeken / ze te raadplegen,
maken we gebruik van
zoeksystemen of zoekingangen
• in die zin is Yahoo!
een zoekingang op een
veelheid aan bronnen.
• in die zin is IceRocket
een zoekingang op weblogs.
• in die zin is
een zoekingang op
wetenschappelijke bronnen.
5
programma
•
9:30 / welkom, introductie
(0) inleiding, bronnen, zoekingangen
(1) boeken, artikelen, wetenschap
• ca. 10:45 / thee- en koffiepauze
(2) feiten, naslag, vertaling
(3) nieuws, kranten, tijdschriften
(4) “oud” nieuws
• ca. 12:30 / lunchpauze
(5) weblogs, feeds,
(6) tweets, social
(7) multimedia / AV
• ca. 15:00 / thee- en koffiepauze
(8) algemene versus gespecialiseerde zoekingangen,
diepe web, persoonlijke zoekmachines
(9) beoordelen van bronnen
(10) bijblijven
6
bekend verondersteld
•
•
•
•
•
•
•
•
•
verschil tussen soorten diensten op internet
typerende aanbieders op internet
domeinenstructuur en url-opbouw
verschillende soorten zoekstrategieën en -doelen
verschil/toepassing gidsen versus zoekmachines
werking en geavanceerde opties van zoekmachines
betekenis van recall en precision
betekenis diepe/onzichtbare web
wijze van ranking zoekmachines, werking PageRank
startpagina voor zoekhulpmiddelen
• http://gostartpagina.pbworks.com
7
soorten informatiebronnen
• naar aard van informatie
–
–
–
–
–
–
wetenschappelijke informatie
naslagwerken
nieuwsberichten
krantenartikelen
(digitale) boeken
...
• naar “medium”
–
–
–
–
–
–
–
–
webpagina’s
pdf’s
images
videos
weblogs
rss-feeds
tweets
...
ander onderscheid:
•
•
primair - secundair - tertiair
– KNMI - weer-startpagina - StartNederland
doorzoekbaarheid
– alleen metadata - full-text
8
soorten informatiebronnen
rss-feed
tweet
weblog
video
image
pdf
webpagina
niet al zulke
combinaties zijn
zinvol/mogelijk
wetenschap
naslag
nieuws
kranten
eBooks
...
9
informatiebronnen en hun
zoekingangen (de zoektools)
• kun je alles (ook) met Google vinden?
• welke Googles (en Bing’s) zijn er allemaal?
(image-, blog-, video-, news-, book-, scholar-, groups-search,
maar meeste ook geïntegreerd in gewone Google)
• kun je met die Googles alles vinden?
• welke alternatieven zijn er voor die Googles?
– zie bijv. trovando.it http://www.trovando.it/
of wiinkz http://www.wiinkz.com/
– alternatieven voor het diepe (en betaalde) web
10
1. boeken &
(wetenschappelijke) artikelen
• boeken
–
–
–
–
–
–
–
–
–
–
–
–
Google Books
Hathitrust Digital Library (open book scan project)
Delpher (gedigitaliseerde boeken -en kranten- van de KB en NL-univ.)
Amazon (ook reviews, inhoud, boek-boek citaties)
Worldcat (catalogus van 10.000 bibliotheken met postcode-functie)
Librarything (catalogus van 58.000.000 boeken van 1.000.000 bezitters)
GoodReads (reviews, recommandatie, vrienden, ...)
Picarta
Bibliotheek.nl
DOAB (directory of open access books)
Open Textbook Library (open access leerboeken)
enz.
• artikelen (e.d.)
• enz.
11
boeken: Google Books
• van kaft tot kaft gescand (en doorzoekbaar!)
• sterk voor ontdekken van niet-hoofdinhoud van boeken
• vaak beperkt doorbladerbaar
(no preview / snippet view / limited preview / full preview)
• content via uitgevers en via grote bibliotheken
• probleem met copyrighted materiaal uit bibliotheken
• vergeleken met Amazon search inside: meer oud, minder recent
• ook ‘My Library’ optie vb
• NL-boeken niet alleen uit Gent en KB, ook uit US/UK
• nu ook enkele ‘magazines’
• metadata op about-this-book-pagina
• bibliotheken linken vanuit catalogus (bijv. Picarta)
12
1. boeken &
(wetenschappelijke) artikelen
(2)
• boeken
• artikelen (e.d.)
–
–
–
–
–
–
–
–
–
–
Google Scholar (artikelen, rapporten, proefschriften, ...)
sEURch / UvA-library (zoeksystemen van EUR / UvA)
ScienceDirect (artikelen van Elsevier)
OAIster / BASE (uit academische repositories / Open Access)
NARCIS (40.000 proefschriften, 600.000 publicaties [veel artikelen] uit NL)
DOAJ (artikelen in Open Access tijdschriften)
SciELO (Spaans/Portugees talige wetenschappelijke artikelen)
Magportal (ook -Engelstalige- publiekstijdschriften)
DeepDyve (wetenschappelijke artikelen "te huur")
enz.
• enz.
16
wetenschap: Google Scholar
•
•
•
•
> 100 miljoen wetenschappelijke publicaties
verschil full record en aanwezigheid als ‘citation’
verschil full-text links en bibliografische links
concurrent voor Web of Science, Scopus, Picarta, OAIster,
DOAJ, Ingenta
• gericht geïndexeerd in vele bronnen (uitgevers, abstractdatabases, universiteiten, repositories, ...)
• met citaties!
• aantallen citaties mede gebruikt voor ranking
(waardoor recente publicaties relatief laag scoren)
• ....
>>
17
wetenschap: Google Scholar
• ....
• advanced search beperkt, nog veel fouten door computergenerated metadata
• van zoekresultaat naar volledige tekst vaak een probleem
(niet aanwezig, alleen tegen betaling)
• soms veel versies van artikel (waaronder wel gratis)
• wel zichtbaar welke artikelen gratis versie hebben
• koppeling aan bibliotheekbezit, Google Scholar library
programme voegt links naar eigen bezit toe
• geen info over bronnen, updates
18
open access
als dit artikel interessant is,
dan deze 23 recentere waarschijnlijk ook
## citaties/
aangehaald
abonnement
univ. utrecht
Maak nu de opdrachten van onderdeel 1
1. boeken &
(wetenschappelijke) artikelen
(3)
• boeken
• artikelen (e.d.) vakspecifiek zoeken
(gratis zoekingangen; vaak alleen de metadata)
–
–
–
–
–
–
–
–
geneeskunde: Pubmed , PLoS-one
economie: RepEc
computerkunde, informatica: CiteSeer
onderwijs: ERIC
(hoge energie-) fysica: SPIRES-HEP, ArXiv
bibliotheekwetenschap: LISTA
filosofie: International Philosophical Bibliography
transport: TRID
• enz.
22
2. feiten & naslag
• encyclopedieën e.d.
–
–
–
–
wikipedia
overzicht in Yahoo Directory
overzicht in Open Directory
internet movie database
• vragen & antwoorden
– Quora
– Yahoo-answers
– (FAQs: internet FAQ consortium )
• woordenboeken, vertaaldiensten e.d.
• dataverzamelingen
• ...
23
wikipedia
•
•
•
•
•
in >280 talen
levert “wisdom of the crowds” altijd “wisdom”?
goed voor “feitelijke” onderwerpen
veel detailonderwerpen (>20 miljoen lemma’s, >1 miljoen NL)
soms nuttig om relevante eigen publicaties / boeken uit eigen
collectie als referenties aan lemma toe te voegen
• toch wel beleid & beheer: stewards, administrators
• met Google site-commando kun je alle taalversies tegelijk
doorzoeken: zoekwoord site:wikipedia.org
• Qwika: wikipedia metasearch (1158 wiki's in 12 talen, incl.
computer-vertaling)
24
2. feiten & naslag
(2)
• encyclopedieën e.d.
• vragen & antwoorden
• woordenboeken, vertaaldiensten e.d.
–
–
–
–
–
–
–
–
–
answers.com (voert een metasearch uit)
Roget thesaurus
Acronymfinder
Bartleby
Google Translate
Mijn Woordenboek synoniemen
Synoniemen.net
overzicht in Open Directory
overzicht in Open Directory Nederlands
• dataverzamelingen
• enz.
25
2. feiten & naslag
(3)
• ...
• dataverzamelingen
– linked (open) data (niet makkelijk bruikbaar voor eindgebruikers):
data.overheid.nl, UK-open-data, EU-open-data, data.gov (US),
open-data-site-finder, ...
– statistieken: statline, eurostat, UNdata, worldbank, oecd, ...
– visualisatietool: Google Public Data Explorer
– wetenschappelijke datasets: DANS dataportal (NL), Narcisdata, dataverse-network, Re3data, datacite (metasearch), ...
– algemene dataset-zoekmachines: datamarket, knoema,
quandl, zanran
– zoekmachine voor naslagwerkpagina’s + berekeningen
Wolfram Alpha
Maak nu de opdrachten van onderdeel 2
26
3. nieuws, kranten, tijdschriften
•
•
•
•
•
Google News, Yahoo News, Bing News, ...
BBC , CNN e.d.
nu.nl
€ LexisNexis, € Factiva
sites van kranten en tijdschriften
– overzicht Engelstalig wereldwijd: world-newspapers.com
– overzicht Nederlandse kranten: kranten.startnederland.nl
– overzicht Nederlandse tijdschriften: tijdschrift.startnederland.nl
• Newslink-magazines
• ....
[weblogs & tweets: zie 5 en 6]
[video/tv-nieuws: zie 7]
27
gespecialiseerd: Google News
Engelstalig nieuws uit 4500 bronnen
+ aparte versies in andere talen dan Engels:
–
–
–
–
–
–
–
–
–
–
–
chinees
(1000 bronnen)
duits
(700 bronnen)
frans
(500 bronnen)
hebreeuws (100 bronnen)
italiaans (250 bronnen)
japans
(600 bronnen)
koreaans (550 bronnen)
nederlands (>400 bronnen)
portugees (200 bronnen)
spaans
(700 bronnen)
enz.
Maak nu de opdrachten van onderdeel 3
28
4. archief & oud nieuws
• web archive ("way-back-machine")
(oude versies van websites, terug tot 1996, ingang via -oude- url)
• historische nederlandse kranten (versnipperd aanbod)
– Delpher (gedigitaliseerde kranten KB -samen met boeken)
– landelijke krantendatabank (ook papieren collecties)
– Los: Groene Amsterdammer (>1877), Leeuwarder Courant (>1752)
• historische buitenlandse kranten
– British newspapers 1800-1900
– historic American newspapers / Google news archive
– digitized Australian newspapers
– internationaal overzicht
• € LexisNexis
• ‘echte archieven’ via archiefzoeker.nl, archivegrid, ...
Maak nu de opdrachten van onderdeel 4
29
5. blogs & rss-feeds
•
•
•
•
Google blogsearch
Icerocket
Technorati
(Exalead >> achteraf inperken op blogs )
– denk aan verschil tussen ingang op individuele berichten en
ingang op blogs of feeds als geheel
– wie citeert wie? (google blogsearch)
– filtermogelijkheid op “autoriteit” ?=? belang, kwaliteit, ....
– filter op termen binnen je feedreader
– blogs of onderwerp volgen met blogsalert?
– #hashtags
30
5. blogs & rss-feeds
zoeken naar RSS feeds (meer dan alleen blogs)
– CTRLQ: http://ctrlq.org/rss/
– RSS Searchhub: http://www.rsssearchhub.com/
– overzicht (op "makeuseof")
 voor vinden van feeds van bepaalde bron / website
 voor vinden van feeds waarin bepaald onderwerp centraal
staat
Maak nu de opdrachten van onderdeel 5
31
6. tweets en social search (1)
• Twitter in 140 tekens
– vaak met verkorte links
– vaak met foto- of video-link
– vaak met hashtags (#afgesprokentrefwoord)
• Twitter als continue informatiebron:
– volg de "juiste" personen die interessante nieuwtjes, rapporten,
artikelen via Twitter delen
• zoeken
–
–
–
–
–
twitter (ook advanced search)
topsy
snapbird (alle tweets van 1 persoon waarvan je twitternaam kent)
twicsy (foto's op twitter)
...
32
6. tweets en social search (2)
• veel Twitter hulptools
– archief van al weer gewiste tweets van politici: politwoops (ook nl)
– twubs (bijv. bij congres) :
volg in real-time alles met bepaalde hashtag en voeg die tag
automatisch toe aan eigen berichten
– ...
• links uit tweets automatisch bewaren als social bookmarks
– via packrati.us >> delicious, pinboard, diigo, ...
• Facebook "graph-search" voor gestructureerd zoeken
(in Engelstalig interface)
33
Facebook Graph Search
alles wat gebruikers registreren,
wordt gestructureerd opgeslagen
in Facebook's graph (met
gestandaardiseerde betekenis),
waardoor ook gestructureerd
gezocht kan worden
6. tweets en social search (3)
• “Real time / social search engines”
– social-searcher, socialmention, whostalkin, …
(tweets + blogs + facebook + …)
– Google personal results / Google+ ("search plus your world")
• Forumdiscussies
– omgili, (boardtracker), ...
– Google groups (ook oude nieuwgroep-discussies)
voor methoden van onderzoek:
– zie adviezen van Henk van Ess in "de digitale detective" (2012)
– How to: use social media in newsgathering (2012)
– zie ook: 50 Top Tools for Social Media Monitoring (2013)
Maak nu de opdrachten van onderdeel 6
35
7. multimedia
• images
–
–
–
–
–
Google-image (simpele beeldherkenning; ook foto’s uit Picasa)
Yahoo-image (ook veel foto’s uit Flickr)
Bing-image
Ask-image
Exalead-image
(veel verschillen in zoekresultaten door verschillen in “tekstzoekvelden”)
– Flickr (zoekt vooral op tags; ondersteunt “Creative Commons” )
–
–
–
–
Andere uploadsites: Pbase, Smugsmug, Photobucket, Zoom, Zenfolio
Google (search by image), Tineye (zoekt -bijna- exacte copieën)
Retrievr (voorbeeldzoeken met beeldherkenning op Flickr)
speciale sites (beeldbank nationaal archief, wikimedia commons, ...)
geografische ingang (panoramio [google-maps], worldc.am [instagram], ...)
• video
• audio
36
voorbeeld
7. multimedia
(2)
• images
• video
– YouTube (groei: 70 uur/minuut, ook "filters")
• Youtube Edu channel
–
–
–
–
–
–
Blinkx (omroepen - 35 miljoen uur video, spraakherkenning?)
VoxaleadNews (met spraakherkenning - in meer talen - ook NL!)
Bing-video (niet makkelijk te vinden vanuit basis-scherm)
Google-video (ook video’s uit YouTube; zoekt alleen in metadata)
ScienceCinema (met spraakherkenning! gaat vooral over energie)
TV-uitzendingen:
• Uitzending gemist (beperkte zoekfunctie)
• Beeld & Geluid (doorzoekt metadata; gebruik “uitgebreid zoeken”)
• Academia (selectie uit Beeld & Geluid voor hoger onderwijs; betaald)
• audio
– VoxaleadNews (met spraakherkenning - in meer talen - ook NL)
Maak nu de opdrachten van onderdeel 7
40
8. gespecialiseerde versus
algemene zoekingangen
gespecialiseerde:
selectief & vaak “dieper” dan algemene zoekmachine
– interne zoekfunctie van individuele site
– kant en klare onderwerpsgerichte zoekingangen
•
•
•
•
•
•
Worldwidescience (wetenschap algemeen)
Findlaw (rechten USA)
WebMD / Medscape (geneeskunde)
Google-finance (financiële gegevens + nieuws)
Searchgov (metasearch Amerikaanse overheidssites)
.....
– homemade met :
• Google CSE, Blekko (slashtags)
zelf selecteren welke sites (url’s) in zoekmachine moeten
worden meegenomen
41
ingangen op diepe web
toegang tot het diepe web
– “handmatig” (elke database afzonderlijk doorzoeken)
• geen universele overzichten meer beschikbaar
• voor "wetenschap" al eerder verzamelzoeksystemen genoemd
– “halfautomatisch” (doorzocht via desktop metasearch
engine)
• copernic-agent (metasearch vanaf eigen PC)
– “automatisch” (gegevens uit bepaalde database/bron
zitten ook al -allemaal?- in algemene zoekmachines)
bijv. catalogus UB Wageningen
Maak nu de opdrachten van onderdeel 8
42
9. vergelijken en beoordelen van
(zoekingangen van) bronnen
• wat voor soort materiaal zit er in
– primaire (c.q. full-text) vs. secundaire informatie
– naslag / nieuws / onderzoekresultaten / statistieken / websites /
artikelen / boeken / rapporten / ...
• welk onderwerpsgebied
• welke doelgroep (niveau)
• hoeveel zit erin (aantal items, dekkingsgraad, ...)
vaak moeilijk te bepalen door verschillen in functionaliteit en
onbetrouwbare aantallen voor zoekresultaten uit zoekmachines
• hoe goed werkt het zoeksysteem
(functionaliteit, gebruiksgemak, selectiviteit, ...)
• wat is de kwaliteit van de content
zie bijvoorbeeld JISC Academic Database Assessment Tool
• bekijk: bron zelf / Wikipedia / leveranciers / JISC
43
beoordelingscriteria voor websites
web-gerelateerde factoren
•
beoordeel domeinnaam
(bijv.: edu, edu.au, edu.sg, edu.ng, edu.lb, ac.uk, gov, gov.uk, gov.hk, gov.au,
gov.on.ca, gob.es, gob.mx, gob.ve, gob.ec, ...)
•
Alexa rank van website (hoeveelheid web traffic); tools daarvoor:
– http://www.seomastering.com/alexa-rank-checker.php
– http://www.alexa.com/
•
Google pagerank van website (bepaald door
aantal en aard van backlinks); tools daarvoor:
– http://www.prchecker.info/
– http://www.checkpagerank.net/
•
zoek de "backlinks" zelf
– Google: met link: commando - erg incompleet
– OpenSiteExplorer: erg compleet - betaalde dienst
– Alexa: toont 5 belangrijkste backlinks
•
wie is eigenaar van domeinnaam; tools daarvoor:
– http://centralops.net/co/DomainDossier.aspx
– http://whois.domaintools.com/
44
beoordelingscriteria voor websites
Nog wat algemene factoren:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Goede opmaak
Aanduiding maker/auteur (“about us”)
Aanduiding postadres, telefoonnummer
Aanduiding doel/doelgroep
Geen reclame en pop-ups
Heldere navigatie
Interne zoekfunctie
Voldoende snelheid server
Backlinks door gezaghebbende organisaties
Up to date?
Zinnige datering inhoud
Geen grof taalgebruik
Geen kinderlijk taalgebruik
Geen storende taalfouten
Zelfs als alles in orde lijkt, bij gevoelige onderwerpen toch nog uitkijken
Maak nu de opdrachten van onderdeel 9
45
10. bijblijven met bronnen
• Weblogs:
–
–
–
–
–
–
–
Resourceblog
InfoDocket (Gary Price)
SearchEngineLand (Sullivan, Sherman)
InternetNews/WebSearchGuide (Gwen Harris)
Phil Bradley's weblog
“Spion” op bronnenlijst (Copernic Tracker, WatchThatPage, …)
RSS-feed op lijsten indien aanwezig
• Pandia
• FreePint
46
bijblijven met behulp van RSS
• Rich Site Summary / Really Simple Syndication
• voor sites met (on)regelmatig nieuwe actuele inhoud, bijvoorbeeld
nieuwsbrieven, weblogs (+ ook sommige databases)
• lezen, beheren als ware het email
• maakt gebruik van xml-structuur
• vereist software (reader), bijv. Feedreader, Feeddemon, Shrook, …
of online lezen bijv. bij Netvibes, Bloglines, Digg reader
• toevoegen van een ‘feed’: op pagina url onder oranje (soms blauw)
rss- of xml-logo copiëren en in reader plakken
• drie nauwverwante formats: rss/atom/rdf (readers multiformat)
• zoeken van berichten: Google Blogsearch, Technorati, IceRocket,
real-time search [zie eerder]
• zoeken van feeds: CTRLQ, RSSsearchhub [zie eerder]
47
Download