Internet - Gerrit Tiemens

advertisement
Gerrit Tiemens,
Medewerker HCC
Locatie Arnhem
Zevenaar, 21 mei 2007
Inhoudsopgave
Inleiding ............................................................................................................. 3
1 Internet ........................................................................................................... 3
1.1 Geschiedenis ................................................................................................ 3
1.2 Wie bestuurt het internet? .............................................................................. 4
1.3 Hoe werkt internet? ....................................................................................... 5
1.4 Packet switching en de protocollen TCP en IP .................................................... 5
1.5 IP ................................................................................................................ 6
1.6 TCP ............................................................................................................. 6
1.7 Web-technologie ........................................................................................... 7
1.7.1 Bouwstenen van het Web ......................................................................... 7
1.7.2 De URL ................................................................................................... 7
1.7.3 HTTP en HTTPS ....................................................................................... 8
1.7.4 Hypertext, HTML en actieve content ........................................................... 8
1.8 HTML ........................................................................................................... 9
1.9 Het HTTP-protocol ........................................................................................10
1.9 Cookies .......................................................................................................11
2. Zoekmachines............................................................................................... 12
2.1 Hoe werkt een zoekmachine? .........................................................................12
2.2 De selectiecriteria van zoekmachines ..............................................................13
2.3 Zoekmachine optimalisatie ............................................................................13
2.3.1 Maak het Google makkelijk, vermijd geavanceerde technieken .....................13
2.3.2 Hyperlinks .............................................................................................14
2.3.3 Hoe zorg ik voor een hogere score in Google? ............................................14
2.3.3.1 Hoe zorg ik voor een hogere score in Google? .........................................14
2.2.3.2 Wat kan ik beter niet doen? ..................................................................15
2.4 Het gebruik van een robots.txt bestand ..........................................................16
2.5 Zoektips ......................................................................................................16
2.6 Gespecialiseerde zoekmachines ......................................................................18
2.6.1 Vakgebieden ..........................................................................................18
2.6.2 Naslagwerken (encyclopedieën, adresboeken, woordenboeken) ....................18
2.6.3 Nieuws ..................................................................................................19
2.6.4 Adressen ...............................................................................................19
2.6.5 Multimedia .............................................................................................19
2.6.6 MP3 zoekmachines..................................................................................19
2.6.7 Software en/of ftp-archieven ....................................................................19
2.6.8 Nieuwsgroepen .......................................................................................19
2.6.9 Regionale en nationale zoekmachines ........................................................19
2.6.10 Overzicht van gespecialiseerde zoekmachines ..........................................20
3. Meer informatie ............................................................................................ 20
Inleiding
In deze lezing zal er aandacht worden besteed aan het internet en de werking van
zoekmachines.
Aan de orde komt o.m.:
 het ontstaan van het internet;
 hoe het internet werkt;
 de verschillende protocollen die gebruikt worden, zoals TCP/IP;
 informatie over zoekmachines;
 handige hyperlinks.
1 Internet
1.1 Geschiedenis
De geschiedenis van Internet begint in 1969 toen een experimenteel netwerk tussen een
viertal computers in gebruik werd genomen. Deze computers vormden de eerste
knooppunten van het ARPAnet (Advanced Research Project Agency), een project van het
Amerikaanse Ministerie van Defensie. Dit netwerk bestaat nog steeds. Voor de militairen
was het niet zozeer van belang dat er verbinding tot stand kwam tussen computers, dat
was al eerder op kleine schaal gedaan, maar wel dat de verbindingen duurzaam waren.
Ook bij calamiteiten moest uitwisseling van informatie tussen knooppunten mogelijk
blijven. Bij het ontwerp is er dan ook van uit gegaan dat een netwerk niet altijd
betrouwbaar of niet volledig beschikbaar was.
Dit uitgangspunt geldt nog steeds voor Internet en blijkt zeer nuttig te zijn. De eerste
computers die op ARPAnet werden aangesloten, stonden in onderzoekscentra en bij
universiteiten. Deze centra beschikten vaak over een eigen lokaal netwerk. Door deze
lokale netwerken te koppelen aan de knooppunten van het ARPAnet ontstond al vrij snel
een uitgebreid netwerk met duizenden gebruikers.
De verbindingen en computers die voor Defensie belangrijk waren, werden afgeschermd
van de rest en wat overbleef vormde de basis van een academisch netwerk. Hiermee was
Internet feitelijk geboren, hoewel het nog jaren zou duren voordat de naam Internet zijn
intrede deed en de gebruikte methodes van communicatie door andere netwerken
werden overgenomen en ondersteund.
De echte groei van het netwerk begon pas midden jaren ‘80. Dat was de tijd waarin het
LAN1 razend populair werd. Er ontstond een behoefte om LAN’s uit de hele Verenigde
Staten (VS) aan elkaar te knopen en daarbij werd het ARPAnet als verbindingsmiddel
(backbone) gebruikt. In veel van deze LAN-netwerken werd gewerkt met Berkeley UNIXsystemen. Deze UNIX-systemen waren voorzien van de TCP/IP-netwerkprogrammatuur
waar ook in het ARPAnet mee gewerkt werd. De opkomst van UNIX, TCP/IP en het
Internet zijn gedeeltelijk parallel verlopen.
De groei van het Internet werd ook in de hand gewerkt door het ontstaan van
verschillende andere netwerken naast het ARPAnet. Bekende netwerken die in de jaren
’80 ontstonden waren onder andere het NSFnet in de VS en EUnet in Europa. Het
Amerikaanse NSFnet was een door de National Science Foundation opgezet netwerk dat
diende om (aanvankelijk 5) supercomputercentra met elkaar te verbinden en dat in de
jaren ’80 uitgroeide tot het belangrijkste computernetwerk in de VS. EUnet is een
netwerk dat tientallen landen in Europa met elkaar verbindt. Al snel werden allerlei
koppelingen gelegd tussen het ARPAnet, NSFnet en andere netwerken en zo ontstond het
Internet: een overkoepelend netwerk van allerlei aan elkaar geknoopte netwerken.
Het internet kan gezien worden als een wijd vertakt wegenstelsel: grote backbone
(ruggengraat) netwerken zijn de ‘snelwegwegen’ die allerlei regionale lokale
‘provincieweggetjes’ met elkaar verbinden.
Local Area Network: een computernetwerk binnen een beperkt gebied, bijvoorbeeld
binnen een bedrijfsgebouw of school.
1
blz. 3
Zoals gezegd de laatste jaren is de ontwikkeling van het Internet in een
stroomversnelling gekomen. Het aantal aangesloten netwerken loopt in de vele
tienduizenden en het aantal aangesloten computers is gestegen van een paar duizend
halverwege de jaren ’80 tot vele tientallen miljoenen op dit moment. Alle soorten
systemen komen voor op het internet: van PC’s met Windows, Apple/Macintoshes en
UNIX-systemen tot mainframes en supercomputers. De gemeenschappelijke factor van al
die systemen is dat ze ondersteuning hebben voor de TCP/IP-netwerkprogrammatuur.
Dat is een techniek waar het Internet op gebouwd is. Een van de belangrijkste redenen
voor het succes van het Internet is dat TCP/IP tegenwoordig voor ieder type computer
beschikbaar is.
Door de enorme aanwas van nieuwe abonnees is de belasting van het Internet in korte
tijd explosief toegenomen. Daar komt nog bij dat de moderne multimediatoepassingen
voor een veel zwaardere belasting van het netwerk zorgen dan de tekstgeoriënteerde
toepassingen waar enkele jaren geleden nog mee gewerkt werd. De belasting van het
netwerk is weliswaar fors toegenomen, maar daar staat tegenover dat de bandbreedte
(de capaciteit) van veel belangrijke netwerken enorm is toegenomen. Nederlandse
netwerken als die van UUNET, KPN en Surfnet ontwikkelen zich tot Gigabitinfrastructuren.
Naast verbreding van de Internetsnelwegen zijn er ook allerlei interessante
ontwikkelingen voor wat betreft de ‘oprit’ naar het Internet. Denk hierbij aan Internet via
de kabel en ADSL2.
Toegang tot Internet verkrijgt men middels een organisatie die toegang tot het netwerk
verschaft. Dergelijke organisatie worden Internet Service Providers (ISP) genoemd.
Belangrijke ISP’s voor de zakelijke markt in Nederland zijn UUNET en KPN. Een ISP
beheert zijn eigen netwerk, dat een onderdeel van Internet vormt.
De laatste jaren zien we in toenemende mate het gebruik van centrale knooppunten waar
diverse ISP’s kunnen ‘inprikken’. Het voordeel van een dergelijke organisatie is dat er
minder onderlinge koppelingen tussen ISP’s nodig zijn. De centrale knooppunten noemt
men Internet Exchanges (IX) of Network Access Points (NAP). Een bekende Europese
Internet Exchange is de Amsterdam Internet Exchange.
1.2 Wie bestuurt het internet?
Er is geen organisatie of bedrijf die de verantwoordelijkheid heeft voor het Internet als
geheel. Er zijn wel organisaties die de verantwoordelijkheid hebben voor delen van het
Internet. Dat zijn de ISP’s. Het komt er op neer dat elke ISP ervoor zorgt dat haar eigen
netwerk blijft werken en dat daarom het Internet als geheel in de lucht blijft. De
organisatie UUNET zorgt ervoor er bijvoorbeeld voor dat het UUNET-netwerk blijft
functioneren.
Er zijn een paar zaken die centraal geregeld moeten worden. Deze zijn met name van
administratieve aard, zoals het toekennen van domeinnamen en van IP-adressen. Elke
computer in het netwerk heeft een domeinnaam, zoals www.hccnet.nl, en een IP-adres,
zoals 193.79.203.33. In een netwerk met miljoenen computers is het een probleem op
zich om te voorkomen dat namen en adressen dubbel voorkomen. Daarom zijn speciale
organisaties opgezet die verantwoordelijk zijn voor het uitdelen van namen en adressen.
Een belangrijke organisatie is ICANN (Internet Corporation for Assigned Names and
Numbers), die verantwoordelijk is voor het uitdelen van de domeinnamen op het hoogste
niveau (de top-level domeinen zoals .com en .net) en voor het uitdelen van IP-adressen.
Asymmetric Digital Subscriber Line: een technologie die supersnelle
gegevensoverdracht mogelijk maakt via normale telefoonlijnen.
2
blz. 4
Elke domein heeft zijn eigen organisatie waar namen binnen dat domein aangevraagd
kunnen worden. Voor Nederland is dat de Stichting Internet Domein Registratie
Nederland. Iedere organisatie die onder het Nederlandse domein valt en met Internet
aan de slag wil, krijgt met deze stichting te maken.
Een andere belangrijke Internetorganisatie is de in 1992 opgerichte Internet Society
(ISOC). Dit is een organisatie waarin researchers en vertegenwoordigers van het
bedrijfsleven uit de hele wereld zitting hebben en die zich met name bezighoudt met het
sturen van de sociale, politieke en technische ontwikkelingen van het Internet. Onder
ISOC valt onder meer de Internet Architecture Board (IAB), welke verantwoordelijk is
voor de ontwikkeling en standaardisatie van Internet-technologie.
1.3 Hoe werkt internet?
Dit onderdeel is een wat technisch verhaal over internet. Communicatie tussen
computers is een complex en veel omvattend onderwerp dat een aantal hoogwaardige
specialismen kent. Hier krijgt u een vereenvoudigd beeld geschetst van deze techniek.
Alle communicatie tussen computers kent twee belangrijke componenten: kabel en
protocollen, met andere woorden
Verbinding = kabel + protocol
Een kabel is de (meestal) fysieke hardware-koppeling tussen de computers die op
verschillende wijzen kan zijn aangelegd. In de vorm van een coaxkabel (ethernet),
glasvezel of twisted pair (UTP). Maar het kan ook via radiogolven. Dit deel van de
verbinding draagt het signaal naar de andere computer. In het geval van de PC-gebruiker
is dit meestal de telefoonlijn met modem of, in een kantoor, het lokale netwerk (LAN).
Een protocol is het software-deel van de verbinding De verzender en de ontvanger
moeten het bericht op een uniforme wijze behandelen. Aan de ene zijde wordt het
bericht vertaald in (elektronische) signalen en aan de andere zijde wordt het terug
vertaald. Dit moet op elkaar aansluiten.
Vergelijk dit met de manier waarop mensen met elkaar praten. Mensen gebruiken spraak
(geluid als kabel) om woorden over brengen. Maar als de spreker en de luisteraar voor
elkaar onbekende talen (protocollen) spreken, is er van communicatie geen sprake. Het
eenvoudigst is om alles af te handelen met hetzelfde protocol (taal), maar vaak is dat
niet haalbaar.
In Amerika is dit veel eenvoudiger dan in de Europese Unie. Zoals in Brussel veel
vertaalwerk wordt verricht, zo worden ook in Internet op een aantal plaatsen signalen
vertaald van het ene protocol naar het andere. Dit loopt via zogenaamde gateways
waarmee een verbinding tussen twee verschillende netwerken mogelijk wordt.
Gebruikers merken niets van deze vertaling (conversie). Het is alsof het netwerk een
geheel vormt.
Het aardige van het gebruik van protocollen is dat je kunt combineren (opstapelen).
Hierdoor kan een complex communicatieprobleem worden opgesplitst in een aantal
eenvoudige deelproblemen die elk met een apart protocol worden opgelost. Door de
protocollen aan beide zijden na elkaar toe te passen komt toch en juiste communicatie
tot stand.
1.4 Packet switching en de protocollen TCP en IP
Hoewel we via telefoonlijnen Internet op kunnen en het mogelijk is om aan de hand van
een nummer een verbinding met andere computers tot stand te brengen, is het niet juist
om Internet te vergelijken met een telefoonsysteem. In een aantal opzichten is het beter
om het te vergelijken met het systeem van postbezorging.
Wat is het wezenlijke verschil?
Bij een verbinding tussen twee telefoontoestellen worden in een aantal centrales lijnen zo
verbonden dat er als het ware een speciale kabel loopt van het ene toestel naar het
blz. 5
andere. De kabels zijn dan alleen door deze toestellen te gebruiken, zolang het gesprek
duurt. Dit is vaak een inefficiënt gebruik van de capaciteit van de lijnen. Dit is een
zogenaamd circuit switched netwerk, wat wil zeggen dat tijdens een verbinding een deel
van het netwerk speciaal is toegekend aan één circuit. Tegenwoordig worden, met
speciale technieken, dan ook vaak verschillende gesprekken over één lijn gevoerd. In
wezen is het echter nog steeds een punt-naar-punt verbinding.
Bij een postverbinding is dit allemaal wat losser georganiseerd. Een bericht wordt in een
envelop gestopt met daarop het adres van de ontvanger. Deze enveloppen worden
afgeleverd bij een postkantoor of de dichtstbijzijnde brievenbus en vervolgens worden ze
vervoerd naar het gewenste adres. Daar wordt hij afgeleverd en de geadresseerde opent
de envelop en neemt kennis van het bericht. Hier is dus geen sprake van een punt-naarpunt verbinding. Dit is een zogenaamd packet switched netwerk. Berichten gaan in
pakketten naar hun plaats van bestemming en er zijn geen delen van het netwerk
gereserveerd voor één enkele verbinding. Berichten van gebruikers/verbindingen worden
door elkaar verzonden via dezelfde routes en aan de ontvangende kan gesorteerd.
Bij communicatie via Internet is een vergelijking met het postsysteem het beste.
Wij gaan nu stap voor stap bekijken hoe een bericht via Internet wordt getransporteerd.
Internet is een zogenaamd packet switched netwerk en is de structuur van het netwerk
die van een net van netwerken. Waar de deelnetwerken zijn verbonden, is een
verbindingsstation (een router) geplaatst. Deze stations spelen een belangrijke rol bij het
doorgeven van berichten. Elk pakket krijgt twee adressen, het verzendadres en het
afleveradres. Aan de hand van deze adressen weet een station hoe het pakket moet
worden verwerkt en via een aantal tussenstappen komt het pakket dan op zijn plaats van
bestemming.
De route die een bericht volgt, hoeft niet altijd dezelfde te zijn. Machines in het netwerk
kunnen uitvallen of tijdelijk zwaar belast worden. In zo’n geval kunnen de routers dit
opmerken en een andere route kiezen voor het bericht.
1.5 IP
Het gebruik van de adressen is vastgelegd in een aantal spelregels die het Internet
Protocol (IP) vormen. Dit is zoiets als een norm voor de afmetingen van een envelop om
een brief. Om de verwerking efficiënt te laten verlopen, is in het Internet Protocol een
beperking opgelegd aan de grootte van een pakket. Een pakket bevat tussen 0 en 1500
tekens.
Om een bericht te kunnen versturen, moet de gebruiker het adres kennen. In het
Internet Protocol bestaan adressen uit een combinatie van cijfers, elk tussen de 0 en
255. Bijvoorbeeld 131.211.80.17, met de cijfers van elkaar gescheiden door punten.
Het is voor mensen niet eenvoudig om deze cijfercombinaties te onthouden. Vergissingen
bij het typen zijn snel gemaakt. Daarom kunt u ook werken met meer zinvolle namen,
bijvoorbeeld www.hccnet.nl.
De basis IP-protocol is eenvoudig. Meer dan de adressering en de maximum lengte van
1500 tekens is er niet geregeld.
Alle overige zaken moeten in een volgend protocol geregeld worden en er is een aantal
mogelijke problemen:
 door fouten kunnen berichten verloren gaan;
 door storingen kunnen berichten worden verminkt;
 vaak zijn berichten langer dan 1500 tekens.
1.6 TCP
Het protocol dat voor deze zaken een oplossing moet bieden, is het Transmission Control
Protocol (TCP). Dit protocol is niet zo eenvoudig, maar we beperken ons tot de hiervoor
genoemde problemen.
Als u een groot bericht wilt verzenden, dan zorgt TCP dat het in kleine brokken wordt
gesplitst. Elk deel wordt in een TCP-envelop geplaatst en de belangrijke informatie, zoals
het volgnummer, komt in de envelop. Deze TCP-envelop met inhoud wordt in een IP-
blz. 6
envelop geplaatst en aan het netwerk aangeboden. Aan de ontvangende kant wordt eerst
de TCP-envelop uit de IP-envelop gehaald en vervolgens het bericht, of deel er van, uit
de TCP-envelop. Dit is een voorbeeld van het stapelen van protocollen.
Zijn alle deelberichten overgebracht, dan kan het TCP-protocol van de ontvanger het
bericht reconstrueren. Als de volgorde van ontvangst anders is dan bij het verzenden,
doordat deelberichten langs verschillende wegen op hun bestemming zijn gekomen, dan
wordt dat hier opgelost.
Als een deelpakket tijdens de verzending verloren gaat, dan wordt dat na enige tijd
opgemerkt door het ontvangend TCP-protocol. Dit kan dan een melding terug sturen met
een verzoek om het ontbrekende deel opnieuw te sturen.
Behalve een volgnummer, wordt op de TCP-envelop ook een zogenaamd controlegetal
geplaatst dat wordt berekend aan de hand van de inhoud van het (deel-)bericht. Als bij
ontvangst van het bericht deze berekening een andere uitkomst geeft dan de waarde van
het verstuurde controlegetal, dan betekent dit dat het bericht is verminkt. Dan stuurt het
ontvangende TCP-protocol een verzoek aan de afzender om het (deel-)bericht opnieuw te
sturen.
Het TCP-protocol geeft de communicatie degelijkheid en zorgt voor een betrouwbare
verbinding. TCP wordt zo vaak in combinatie met het IP-protocol gebruikt dat de beide
namen meestal in één term gevat wordt: TCP/IP.
1.7 Web-technologie
De meeste organisaties die zich aansluiten op het Internet bieden informatie over hun
producten en diensten aan via een Web-server.
1.7.1 Bouwstenen van het Web
Het Web is opgebouwd uit vele stukken techniek.
De browser en de Web-server.
Zoals alle Internet-toepassingen is ook het Web volgens het client-server systeem
opgebouwd. De Web-server biedt informatie aan, de Web-client neemt informatie af. Er
zijn vele Web-servers in gebruik, voor de meest uiteenlopende platforms.
Om met het Web te werken is een Web-client nodig. Een Web-client wordt ook wel een
browser (bladerprogramma) genoemd. Op dit moment is Microsoft Internet Explorer de
meest gebruikte browser. Daarnaast zij er ook nog andere browsers, zoals FireFox,
Netscape Navigator, Opera en Mozzilla.
1.7.2 De URL
Een browser kan allerlei soorten informatie benaderen: niet alleen Web-servers, maar
vaak bijvoorbeeld ook ftp-servers. Elk stukje informatie in het Internet heeft een adres:
een zogenaamde Uniform Resource Locator (URL). Een URL is een verwijzing naar een
stukje informatie ergens op het Internet. Om informatie in het Internet te kunnen
benaderen moet men de URL van de informatie kennen.
Enkele voorbeelden van URL’s.
Hypertext-documenten op Web-servers hebben een URL die begint met http://, zoals
bijvoorbeeld: http://www.hccnet.nl.
De aanduiding http staat voor HyperText Transfer Protocol, het protocol dat gebruikt
wordt voor de communicatie tussen browser en Web-server.
Soms wordt in de vermelding van een Web-adres het beginstuk http:// weggelaten. De
meeste browsers plakken dat stuk er dan automatisch voor. Het hoort er dus wel degelijk
bij!
blz. 7
Nieuwsgroepen hebben een URL die begint met news: bijvoorbeeld: news:rec.games.go.
Deze URL verwijst naar de nieuwsgroep voor liefhebbers van de sport Go.
Bestanden op ftp-servers hebben een URL die begint met ftp://, bijvoorbeeld:
ftp://ftp.nl.net/pub/comp/pc/eudora.exe. Dit adres verwijst naar het programma
eudora.exe. Dit programma kan gedownload worden vanaf de computer ftp.nl.net, waar
het in de directory /pub/comp/pc staat.
Samenvattend: een URL bestaat uit een typeveld (het gedeelte voor de dubbele punt) en
een hostnaam (na de dubbele punt). Soms komt er ook nog een filenaam in de URL voor.
URL’s worden op verschillende momenten gebruikt:
 Elke browser biedt de mogelijkheid om het adres (de URL) van de informatie die
men wil benaderen simpelweg in te tikken.
 Elke hypertext-link correspondeert met een URL. Wanneer een hypertext-link
geselecteerd wordt, zal dus een URL benaderd worden.
1.7.3 HTTP en HTTPS
De communicatie tussen browser en Web-server verloopt via het HTTP-protocol
(HyperText Transfer Protocol). In situaties waarin vertrouwelijke informatie (bijvoorbeeld
vertrouwelijke documenten of creditcardnummer) over het Web verstuurd moeten
worden, kan men gebruik maken van de SSL-technologie. Deze zorgt voor encryptie van
het datatransport en voor authenticatie van client en server. Wanneer http gecombineerd
wordt net de SSL-techniek, spreekt men van HTTPS (HTTP Secure).
1.7.4 Hypertext, HTML en actieve content
De informatie die een Web-server aanbiedt bestaat uit hypertext-documenten. Hypertext
is een mechanisme waarmee vanuit documenten verwezen kan worden naar andere
documenten. Daarvoor zijn in een document zogenaamde hypertext-links (ook wel
hyperlinks genaamd) opgenomen: dat zijn de verwijzingen. In een hypertext-document
kan de lezer snel heen en weer springen door het volgen van de hypertext-links.
Bovendien is het mogelijk dat een hypertext-link doorverwijst naar een ander document,
zodat er heen en weer gesprongen kan worden tussen verschillende hypertextdocumenten.
Wanneer een browser een Web-server benadert, stuurt de server een hypertextdocument terug. De volgende stappen vinden plaats:
1. De browser vraagt een document op van de Web-server.
2. De Web-server stuurt het gevraagde document terug. Dit document bevat allerlei
hypertext-links. Dat kunnen verwijzingen zijn naar andere documenten op
dezelfde Web-server, maar het kan ook een hypertext-link zijn naar een andere
computer op het Internet.
3. De gebruiker selecteert een link.
4. De browser vraagt het document op dat correspondeert met de door de gebruiker
geselecteerde link.
Het speciale van het Web is dat het idee van hypertext wordt gebruikt in een wereldwijde
netwerkomgeving. Documenten, databases en menustructuren uit het hele Internet zijn
op deze manier met elkaar verbonden tot een groot ‘Web’. Vandaar ook de naam World
Wide Web (WWW).
In het Web hoeft een hypertext-link niet altijd te verwijzen naar een tekstdocument. De
informatie achter een hypertext-link kan ook bestaan uit een plaatje, een film of een
audiofragment. Wanneer het idee van hypertext gecombineerd wordt met dergelijke
multimedia-informatie spreekt men van hypermedia.
De hypertext-documenten die een Web-server aanbiedt zijn geschreven in een speciale
taal: de Hypertext Markup Language (HTML).
blz. 8
Er zijn de laatste jaren naast het gebruik van HTML diverse andere technieken ontwikkeld
die via het Web aangeboden informatie sterk verlevendigen:
 Sites kunnen voorzien worden van multimedia plug-ins zoals Shockwave en Flash.
Om dergelijke sites te kunnen bezoeken, dient de plug-in tevoren op het clientsysteem geïnstalleerd te zijn.
 Met behulp van Java en ActiveX kunnen programma’s ingebouwd worden in
Webpagina’s. Deze programma’s (Java-applets of ActiveX-controls) worden via
het Web opgehaald en automatisch geactiveerd op het client-systeem. Men noemt
dit active content: de inhoud is niet statisch maar levend. Dit geldt ook voor bij
gebruik van plug-ins, maar daar is de situatie zo dat deze tevoren op het clientsysteem geïnstalleerd dienen te zijn, terwijl dat bij active content niet nodig is: de
Java- en ActiveX-programma’s worden vanzelf opgehaald via het Web. De Javatechnologie wordt zowel door Netscape Navigator als door Microsoft Internet
Explorer ondersteund, terwijl de ActiveX-technologie alleen door Microsoft
Internet Explorer native ondersteund wordt.
 HTML-pagina’s kunnen worden voorzien van scripts: stukjes programmacode in
speciale scripting-talen zoals JavaScript en VBScript. Toepassingen van dergelijke
scripts zijn bijvoorbeeld het openen van nieuwe windows, het dynamisch
veranderen van fonts en of/kleuren, het controleren van door gebruikers
ingevulde formulieren voordat deze verzonden worden. Men spreekt van clientside scripting, omdat de scripting-commando’s door de client (browser) worden
uitgevoerd. Er bestaat dus ook sever-side scripting.
Er zijn meerdere scripting-talen in omloop en is er dus geen standaard op dit gebied.
JavaScript komt uit de hoek van Netscape en wordt ondersteund door Netscape
Navigator. Microsoft heeft zijn eigen variant, dat is JScript.
1.8 HTML
Webdocumenten worden geschreven in HTML (Hypertext Markup Language. Een HTMLdocument is een tekstbestand. Tussen de ‘echte’ tekst staan echter allerlei speciale
aanduidingen: zogenaamde markup-tags. Met deze aanduidingen maakt de Web-server
aan de browser duidelijk wat de eigenschappen van een bepaald stukje tekst zijn.
Een voorbeeld van een HTML-document:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="description" content="Website van Gerrit Tiemens">
<meta name="language" content="Dutch">
<meta name="revisit-after" content="7 Days">
<meta name="author" content="Gerrit Tiemens">
<meta name="robots" content="ALL">
<meta name="keywords" content="Gerrit Tiemens, Website van Gerrit Tiemens">
<meta name="MSSmartTagsPreventParsing" content="TRUE">
<script type="text/javascript" language="JavaScript">
<!-// Document bij openen buiten het juiste frame vervangen door de indexpagina
if (top.frames.length != 3)
top.location.href = "index.html";
//-->
</script>
<title>Welkom</title>
<link rel="stylesheet" href="Includes/WebsiteGti.css" type="text/css">
</head>
<body>
blz. 9
<table width="600" border="1" cellspacing="1" bordercolor="#0000FF">
<tr>
<td bgcolor="#E6E9F2" bordercolor="#FF0000">
<div align="center"><b>Welkom</b></div>
</td>
</tr>
</table>
<br>
<table width="600" border="0" cellspacing="0">
<tr>
<td bgcolor="#E6E9F2">
<div align="center"><img src="Includes/01_welkom.gif" width="211" height="27" alt="Welcome to my
homepage"></div>
</td>
</tr>
<tr>
<td bgcolor="#E6E9F2">
<p><br>
Klik op Intro voor meer informatie over mijzelf.<br>
Onder Foto's vindt u een overzicht van foto's die ik gemaakt heb, maar
ook foto's uit de schoenendoos..<br>
Onder Downloads vindt u informatie over lezingen die ik gegeven heb voor
de HCC afdeling Arnhem.<br>
Onder Links vindt u een aantal interessante hyperlinks naar andere websites.</p>
<p>Heeft u vragen of opmerkingen, stuur mij een e-mail. Mijn e-mail adres
is: <a href="mailto:[email protected]">[email protected]</a>.</p>
</td>
</tr>
</table>
<table width="600" border="0" cellspacing="0">
<tr>
<td bgcolor="#E6E9F2">
<hr>
De spreuk van deze week:<br>
<marquee behavior="slide">Ook hoogvliegers moeten van tijd tot tijd landen.</marquee></td>
</tr>
</table>
<p><font size="1">bijgewerkt
<!-- #BeginDate format:It1 -->25-04-2004<!-- #EndDate -->
</font></p>
</body>
</html>
Uit het voorbeeld blijkt dat de meeste markup-tags bestaan uit een paar <tag> en
</tag> met daartussen tekst.



Een HTML-document als geheel is omgeven door de tags <html> en </html>.
Een HTML-document bestaat uit twee secties: een head-sectie die eigenschappen
van het document als geheel bevat (zoals de titel) en omgeven door <head> en
</head> en een body-sectie die het document zelf bevat en omgeven is door
<body> en </body>.
HTML-tags kunnen attributen hebben. Een attribuut is een aanduiding van de
vorm binnen de markup-tag, bijvoorbeeld <a href=…..>.
Het is aan de browser om te beslissen hoe de markup-tags afgebeeld moeten worden.
Een HTML-document in Internet Explorer kan er anders uitzien dan in FireFox of Opera.
1.9 Het HTTP-protocol
Client-server communicatie in het WEB verloopt via het HyperText Transfer Protocol
(HTTP). Voor een goed begrip van de Web-technologie is een inzicht in het HTTP-protocol
onontbeerlijk.

De client stuurt een HTTP-commando naar de Web-server. Meestal is dat het
commando GET, wanneer een Web-pagina wordt opgevraagd, bijvoorbeeld
http://www.arnhem.hccnet.nl/. Wanneer de browser de homepage wil opvragen,
blz. 10




zou de operatie er als volgt uit zien: GET / HTTP/1.1.
De aanduiding HTTP/1.1 geeft aan welke protocol-versie gewenst is.
Na het commando stuurt de browser ook nog een aantal HTTP-headers naar de
Web-browser. Via deze headers wordt de aanvullende informatie over de browser
en over het verzoek doorgegeven aan de Web-server. Een voorbeeld is de UserAgent:-header, die aangeeft wat de gebruikte browser is.
De eerste regel in het antwoord van de Web-server bevat een statuscode. Als de
code is 200, wil dat zeggen dat de operatie succesvol verlopen is.
De volgende regels bevatten HTTP-headers met controle-informatie die door de
Web-server aan de browser wordt meegestuurd. Een voorbeeld is de Server:header, welke aangeeft wat de gebruikte Web-server is. Een ander voorbeeld is
de Content-Type:-header, die aangeeft welke type informatie de Web-server
opstuurt. Dat gaat via een MIME-type. In veel gevallen zal dat text/html zijn (het
MIME-type voor HTML-documenten), maar een Web-server kan ook heel
andersoortige informatie opsturen: plaatjes, Worddocumenten, multimediainformatie enzovoorts.
De HTTP-headers worden afgesloten door een lege regel. Dan volgt de feitelijk
gevraagde informatie.
Samenvattend:
 Een HTTP client-server transactie verloopt als volgt:
 De gebruiker selecteert een hypertext-link
 De browser neemt contact op met de server op TCP poortnummer 80 en doet een
HTTP GET-operatie.
 De server retourneert het gevraagde document (of een foutboodschap).
 De browser presenteert het document.
 De gebruiker selecteert weer een hyperlink
 Enzovoort.
HTTP-statuscodes
Statuscode
200
204
301
304
401
403
404
500
503
Betekenis
Operatie succesvol uitgevoerd
Operatie succesvol uitgevoerd, client krijgt geen nieuwe pagina.
URL van het document is veranderd (Nieuwe URL in Location:-header)
Client deed een If-Modified-Since en het document is onveranderd.
Client is niet geautoriseerd voor gevraagde operatie.
Gevraagde operatie is verboden.
Gevraagde document bestaat niet.
Interne fout opgetreden in server (mogelijk configuratiefout).
Server niet in momenteel niet in staat verzoek af te handelen, mogelijk
door te hoge belasting.
1.9 Cookies
HTTP is een stateless protocol: HTTP-servers houden geen statusinformatie over
browsers bij. Elk verzoek van een browser staat dus volledig op zichzelf. Dit levert
problemen op in situaties waarin de server wel graag statusinformatie over browsers zou
willen bij houden. Een karakteristiek voorbeeld van een dergelijke situatie vormt een
Web-server waar gewinkeld kan worden: de gebruiker selecteert op verschillende
pagina’s diverse producten en rekent die uiteindelijk af op een pagina met een ‘kassa’. In
deze situatie moet de server weten waar de client allemaal geweest is en wat hij
geselecteerd heeft.
Een oplossing die veel toegepast wordt om statusinformatie te kunnen bewaren is het
gebruik van cookies. Een cookie is een stukje statusinformatie dat door de server naar de
client wordt gestuurd via een speciale HTTP-header (de Set-Cookie:-header). De inhoud
van een cookie heeft alleen betekenis voor de server. Een client stuurt altijd alle eerder
blz. 11
ontvangen cookies terug naar de server via een andere HTTP-header: de Cookie:-header.
Aan de Cookie:-headers die binnenkomen kan de server zien welke verleden de
betreffende client heeft.
Er zijn geen security-problemen met het gebruik van cookies, maar zij kunnen wel een
aantasting van de privacy van Web-gebruikers vormen. Het cookiemechanisme kan
bijvoorbeeld door servers gebruikt worden om te traceren welke ‘wandeling’ een
gebruiker maakt door zijn pagina’s. Daartoe wordt bij de eerste pagina die de client
benadert een Set-Cookie: met een unieke waarde meegestuurd en wordt vervolgens
simpelweg bijgehouden bij welke opgevraagde pagina’s datzelfde cookie meegestuurd
wordt. Zo kunnen de sporen van een gebruiker precies gevolgd worden. Weliswaar is de
naam van de gebruiker daarmee nog niet bekend, maar wanneer bovendien ergens een
formulier wordt ingevuld heeft de server ook de naam te pakken. Wanneer verschillende
Web-servers ook nog eens ‘samenspannen’ door cookies met elkaar uit te wisselen, kan
het surfgedrag van gebruikers nog nauwkeuriger in kaart gebracht worden. Moderne
browsers stellen gebruikers daarom in staat om het gebruik van cookies uit te zetten. Als
men dat doet sluit men echter daarmee ook het gebruik van bepaalde toepassingen af.
Zoekmachines maken ook vaak gebruik van cookies. Daarin wordt dan bijvoorbeeld de
zoekgeschiedenis of het zoekgedrag opgeslagen.
2. Zoekmachines
Zoekmachines zijn al jarenlang een middel om informatie te vinden op het internet. Ze
wijzen ons de weg op internet met de 'kennis' die ze beschikken over het volledige web.
Een goede vergelijking is die met een telefoonboek; als we het telefoonnummer van een
bepaalde persoon of bedrijf al kennen, hebben we het niet nodig, maar is dit niet het
geval dan biedt opzoeken uitkomst.
Een zoekmachine probeert u, net als het telefoonboek, te helpen aan de juiste gegevens,
alleen dan op het internet.
2.1 Hoe werkt een zoekmachine?
Zoekmachines bestaan uit twee delen. Aan de ene kant de zoekmachine zelf, die u
gewend bent te raadplegen als u op het Internet iets wilt zoeken. Voorbeelden hiervan
zijn Google, Altavista, Yahoo!, MSN, Ilse, etc. U gaat naar de betreffende site, typt uw
zoekwoord of combinatie van zoekwoorden in, en vervolgens verschijnt er een lijst van
sites die volgens de betreffende zoekmachine voldoen aan uw zoekopdracht. Omdat
zoekmachines natuurlijk niet op het moment dat u de zoekopdracht intypt het hele
Internet kunnen aflopen zijn er zoekrobots -ook wel spiders of webcrawlers genaamd- die
24 uur per dag het Internet afspeuren op zoek naar Internetsites. De inhoud van alle
door de zoekspiders bezochte sites wordt opgeslagen op een groot netwerk van
computers dat iedere grote zoekmachine tot zijn beschikking heeft. Ze maken dus een
kopie van de gevonden pagina en slaan dit op in, wat genoemd wordt de cache van, hun
eigen computers. Deze kopie bevat echter niet alle elementen van de oorspronkelijke
pagina, maar alleen die zaken die de spiders interessant vinden. Op het moment dat
iemand een zoekopdracht opgeeft wordt razendsnel de cache van de computers
geraadpleegd en wordt er via allerlei zoekalgoritmes bepaald welke pagina’s aan de
zoekopdracht voldoen en in welke mate zij voldoen. De vraag is nu natuurlijk hoe die
zoekalgoritmes er precies uitzien. Als we dat namelijk weten, dan kunnen we daar tijdens
de ontwikkeling van een website meteen zo goed mogelijk rekening mee houden.
De algoritmes die de werking van een zoekmachine voorschrijven, zijn echter geheim.
Google en andere zoekmachines geven in principe dus geen of weinig informatie over de
wijze waarop we onze site kunnen optimaliseren. Google bijvoorbeeld geeft (vanuit wat
ze noemen ‘integriteits oogpunt’) alleen wat algemene Google adviezen. Deze kunt u
vinden op http://www.google.com/intl/nl/webmasters/4.html.
blz. 12
2.2 De selectiecriteria van zoekmachines
Hoe weet een zoekmachine nu welke link voor u waardevol is en welke niet? Vroeger was
dit vrij eenvoudig. Webmasters konden met behulp van zogemaande meta-tags onder
meer omschrijvingen en keywords toevoegen aan hun pagina's. Zoekmachines keken
simpelweg welke meta-tags overeenkwamen met de zoekopdracht.
Een voorbeeld van meta-tags:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="description" content="Website van Gerrit Tiemens">
<meta name="language" content="Dutch">
<meta name="revisit-after" content="7 Days">
<meta name="author" content="Gerrit Tiemens">
<meta name="robots" content="ALL">
<meta name="keywords" content="Gerrit Tiemens, Website van Gerrit Tiemens,
lezingen, HCC, HCC Afdeling Arnhem, humor">
<title>Website van Gerrit Tiemens</title>
</head>
<frameset cols="121,*" frameborder="NO" framespacing="0">
<frame name="navig" scrolling="no" noresize src="navigatie.html">
<frameset rows="80,*">
<frame name="banner" scrolling="no" noresize src="banner.html">
<frame name="content" src="inhoud.html">
</frameset>
<noframes>
<p>This page uses frames, but your browser doesn't support them.</p>
</noframes> </frameset>
</html>
Helaas werkt het tegenwoordig lang niet zo eenvoudig meer. Het systeem van meta-tags
vroeg er namelijk om misbruikt te worden. Aangezien informatie kan worden toegevoegd
die voor de bezoeker niet zichtbaar is, is het vrij eenvoudig om allerhande populaire
keywords toe te voegen die feitelijk niets met de website te maken hebben (bijvoorbeeld
het woord ‘sex’). Zoekmachines beoordelen eigenlijk alleen nog de content die de
bezoeker daadwerkelijk te zien krijgt. Keywords worden voornamelijk uit de teksten en
titels gehaald.
2.3 Zoekmachine optimalisatie
Zoekmachines spelen een belangrijke rol in het genereren van verkeer naar websites.
Door de omvang van het internet stellen ze gebruikers in staat om snel en efficiënt
informatie te vinden. Vanwege het belang van zoekmachines is het belangrijk om goed
vindbaar te zijn.
In deze lezing vindt u een aantal algemene Search Engine Optimization (SEO) tips.
Veel van deze tips zullen niet alleen uw positie in Google verbeteren, maar hebben ook
een positieve invloed op uw website zelf. Sommige veranderingen kunnen een website
gebruiksvriendelijker maken, anderen zorgen er voor dat bezoekers langer op uw website
blijven of vaker terugkomen.
2.3.1 Maak het Google makkelijk, vermijd geavanceerde
technieken
Om internetsites aantrekkelijker te maken voor de bezoeker, kunnen deze volledig
worden opgemaakt met opmaakcodes, waaronder HTML, CSS en JavaScript.
Zoekmachines zijn echter meer geïnteresseerd in de inhoud dan in de vorm. Als u de
hoeveelheid opmaakcode in uw website beperkt houdt, uw tekst indeelt in overzichtelijke
blz. 13
paragrafen en duidelijke titels en navigatiestructuren toepast, zal uw website
gemakkelijker en sneller geïndexeerd kunnen worden, wat u bonuspunten zal opleveren.
Technieken als JavaScript maken mooiste uitklapmenu's en animaties mogelijk in
websites. Zoekmachines zijn er echter niet dol op, omdat ze veel van deze extra code in
de website niet kunnen interpreteren. De spiders van de zoekmachines zijn eigenlijk
alleen geschikt om HTML te lezen. In het ergste geval wordt de hele navigatie niet
herkend door Google, waardoor deze niet in staat is achterliggende pagina's te
indexeren!
Hier dient tijdens de bouw van de website goed rekening mee gehouden te worden. Inzet
van deze technieken kan wel, maar de broncode van de website moet altijd leesbare
HTML blijven, waarbij het met name belangrijk is dat links daadwerkelijk door middel van
zogenaamde anchor-tags worden gedefinieerd. Met de juiste kennis hoeven deze
technische beperkingen zeker niet ten koste te gaan van de uitstraling van de website.
2.3.2 Hyperlinks
De manier waarop de filters van Google en andere sites zijn opgebouwd, is voor een
groot gedeelte gebaseerd op hyperlinks. Deze logica houdt in dat een pagina waarnaar
veel gelinkt wordt, wel haast een 'goede pagina' moet zijn. Naast een duidelijke interne
navigatiestructuur is het daarom van belang om zoveel mogelijk externe links naar uw
website te verwerven.
Linkpopulariteit, oftewel de hoeveelheid links naar uw website, wordt uitgedrukt in een
PageRank. Samen met relevante keywords vormt PageRank de belangrijkste sleutel tot
een hoge positie in Google; hoe hoger de PageRank, hoe hoger de kans op een nummer
1-positie. Via deze link kunt u de huidige PageRank van uw website opzoeken. De
PageRank van de meeste websites schommelt ergens tussen drie en zes. De hoogst
haalbare theoretische waarde is tien. De formule waarmee PageRank wordt berekend is
niet lineair; stel dat u voor een stap van PR4 naar PR5 honderdvijftig nieuwe links nodig
heeft, dan wil dit niet automatisch zeggen dat voor het behalen van PR6 dezelfde
hoeveelheid links nodig zijn.
Meld uw site aan bij linkportalen die te maken hebben met uw activiteiten. Op de site
Startnederland.nl vindt u een overzicht van vrijwel alle startpagina's. Ook kunt u
natuurlijk webmasters van andere sites benaderen of ze een link naar uw pagina willen
plaatsen of ruilen. Daarnaast helpt een goede positie in Google ook bij het verkrijgen van
meer links, wanneer webmasters in zoekmachines op zoek gaan naar interessante links
voor hun site.
Bij het verwerven van links is de linkomschrijving, de tekst waarop geklikt kan worden,
ook van belang. Meestal wordt bij zakelijke sites de bedrijfsnaam als linkomschrijving
gebruikt. De handelsonderneming in gereedschap uit ons voorbeeld wil bij het aanmelden
voor startpagina's echter liever gelinkt worden met de tekst ‘Professioneel gereedschap’,
omdat deze tekst bij de ranking op deze twee woorden extra punten oplevert. Men
beredeneert dat de eigen site bij zoeken op de bedrijfsnaam toch al goed werd
gevonden.
Het mooie aan het verzamelen van hyperlinks is dat de links zelf u ook direct verkeer
opleveren. U hebt dan ook nooit genoeg links naar uw website.
2.3.3 Hoe zorg ik voor een hogere score in Google?
Tot slot volgt hier een overzicht van de belangrijke tips voor het verbeteren van uw
positie in Google en andere zoekmachines. Deze lijst is niet uitputtend, maar vormt een
algemene leidraad. Voor een strategie op maat, neemt u contact met ons op.
2.3.3.1 Hoe zorg ik voor een hogere score in Google?
1. Stel belangrijke keywords vast
Maak een shortlist van de belangrijke zoekwoorden. Onderzoek eventueel wat de huidige
score is op deze keywords en wat de concurrentie doet.
2. Zorg voor voldoende relevante content
blz. 14
Houd bij het vaststellen van een structuur voor de website én het schrijven van
informatieve teksten rekening met mogelijke zoekopdrachten en gewenste keywords.
3. Laat uw broncode optimaliseren
Het gebruik van de juiste HTML-codes zorgt ervoor dat uw content beter geïndexeerd kan
worden. Voorbeelden hiervan zijn het toepassen van officiële standaarden voor het
definiëren van tekstkopjes, geaccentueerde tekst en hyperlinks.
4. Geef alternatieve tekst voor afbeeldingen en mediabestanden
De zoekmachines kunnen de inhoud van afbeeldingen, video's en geluidsbestanden niet
interpreteren en deze dus ook niet meenemen bij het indexeren. Geef deze bestanden
daarom altijd een duidelijke omschrijving.
5. Zorg voor voldoende externe links
Uw positie in Google wordt grotendeels bepaald door het aantal links vanaf het internet
naar uw website. U kunt uw site bijvoorbeeld aanmelden bij linkportalen en andere
relevante sites. Links op websites met een hoge PageRank leveren het meeste op.
6. Kies de juiste meta-tags
Meta-tags zijn al lang niet meer van groot belang bij uw positie in de zoekresultaten,
toch hebben ze bij sommige zoekmachines nog enige invloed. Kies maximaal 20
keywords en een omschrijving van hoogstens 150 karakters. De omschrijving verschijnt
ook bij de zoekresultaten. U kunt ook per pagina verschillende meta-tags hanteren als
deze beter aansluiten bij die pagina.
7. Blijf uw content vernieuwen
Door geregeld teksten te verversen en nieuwe content toe te voegen, biedt u niet alleen
meerwaarde voor de bezoeker. Een site die actueel is en regelmatig wordt vernieuwd
scoort ook extra punten bij de zoekmachine.
8. Kijk niet alleen naar Google
Hoewel Google, vooral in Europa, met afstand marktleider is, wil dit niet zeggen dat het
niet loont om ook goed te scoren in bijvoorbeeld Ilse, Yahoo en MSN Search. Het
marktaandeel is bescheiden maar het gaat nog altijd om honderdduizenden gebruikers.
Let bij experimenteren dus ook eens op de ranking in andere zoekmachines.
2.2.3.2 Wat kan ik beter niet doen?
1. Welkomstpagina's
Een welkomstpagina is voor de zoekmachine spider een obstakel voor het bereiken van
de daadwerkelijke content. Zorg ervoor dat bezoekers direct binnenkomen op uw website
en dat op de homepage de belangrijkste steekwoorden van uw site staan vermeld.
2. Tekst in afbeeldingen
Het vormgeven van tekst voor bijvoorbeeld de navigatie in afbeeldingen is mooi, maar
zoekmachines kunnen de tekst niet meer lezen. Gebruik liever harde tekst of geef op zijn
minst een alt-attribuut met de juiste omschrijving aan afbeeldingen.
3. Macromedia Flash
Soms zijn websites helemaal opgebouwd in technieken als Flash. Grafisch ziet het er
allemaal mooi uit, maar het zorgt er wel voor dat zoekmachines niet bij de content
kunnen. Vaak zijn sites die zwaar leunen op Flash nagenoeg onvindbaar in Google.
Gebruik Flash daarom alleen voor kleine animaties, banners enz.
4. Verborgen tekst en links
Hoewel verleidelijk, valt het af te raden om zoekmachines voor de gek te houden door
voor de bezoeker onzichtbare tekst en links op te nemen.
5. Cloaking
Cloaking is eveneens een techniek om zoekmachines te foppen, bijvoorbeeld door robots
en spiders een andere pagina te tonen dan de bezoeker.
Het Engelse woord cloaking betekent zoiets als een dekmantel hebben. Als men een
website cloakt, dan maakt men twee versies van deze website: een voor de zoekrobot
van de zoekmachine en een voor de reguliere bezoeker. Vervolgens gaat men de
bezoekers sorteren aan de hand van het IP-adres. Als de bezoeker een IP-adres heeft
wat overeenkomt met die van een zoekrobot, dan wordt deze doorgestuurd naar de
‘gecloakte’ website die alleen maar is opgebouwd uit keywords en dergelijke voor een
blz. 15
goede notering. Is het een regulier IP-adres dan wordt men doorgestuurd naar de
gewone website, die niet geoptimaliseerd hoeft te zijn voor de zoekmachines.
6. Geautomatiseerde aanmelding
Veel zoekmachines bieden nog altijd de mogelijkheid om sites aan te melden. Er bestaan
websites die scripts die uw site in één keer bij tientallen zoekmachines aanmelden.
Handmatige aanmelding heeft nauwelijks invloed en gebruik van dergelijke scripts wordt
vaak gezien als spam.
7. Link-spamming
Hoewel het belangrijk is om veel links te verkrijgen, wilt u voorkomen dat Google merkt
dat u uitsluitend uw links verspreidt om hogerop te komen in zoekmachines. Vermijd
linkfarms (websites met uitsluitend links) en houd het maken van reclame voor uw
website in gastenboeken en op weblogs beperkt.
8. Niet relevante keywords
Ook een veel gemaakte vergissing. U wilt bezoekers trekken op zoekwoorden die
betrekking hebben op uw site en dienstverlening. Stop uw teksten dus niet vol met
populaire keywords in de hoop dat dit extra bezoekers oplevert. Een bezoeker die niet
aantreft wat hij denkt te vinden, is snel weer vertrokken.
9. Meerdere domeinnamen
Het registreren van verschillende domeinen zorgt (in tegenstelling tot wat wel wordt
gezegd) niet direct voor een hogere positie. Google kan zelfs een penalty uitdelen
wanneer dezelfde content onder twee verschillende domeinen wordt gepubliceerd. Laat,
om dit te voorkomen, extra geregistreerde domeinnamen altijd doorverwijzen naar het
hoofddomein dat u zo hoog mogelijk in de zoekresultaten wilt.
10. Spammen en andere illegale praktijken
Zoekmachines kunnen op basis van bovengenoemde kenmerken plus- of minpunten
geven. Het staat zoekmachines echter ook vrij om handmatig wijzigingen aan te brengen
of zelfs sites te verwijderen uit hun resultaten. Dit is moeilijk terug te draaien. Zorg voor
een brandschone reputatie en houdt u aan wetgeving.
2.4 Het gebruik van een robots.txt bestand
Wellicht heeft u er wel eens van gehoord, de robots.txt files. Hoe werkt deze nu en wat
kun je ermee? Dit bestand is bedoeld voor zoekmachines. U kunt ermee aangeven of ze
bepaalde informatie moeten overslaan.
Zoals gezegd maken zoekmachines gebruik van zoekrobots (spiders of webcrawlers).
Deze robots doorzoeken en indexeren websites voor deze zoekmachines. Wellicht is het
bij sommige pagina's niet de bedoeling dat ze worden gevonden. In dat geval maakt u
een ‘robots.txt’ bestand aan. Zo'n bestand maakt u gewoon in een tekst-editor en sla je
dus op als tekstbestand, met .txt als extensie. Als u het bestand vervolgens uploadt naar
uw website (gewoon in de hoofdmap plaatsen), dan is het voldoende.
Een voorbeeld van robots.txt:
User-agent: infoseek
Disallow: /artikelen/voorbeeld.html
User-agent: *
Disallow: /cgi-bin/
Disallow: /test/
2.5 Zoektips
Met onderstaande aanwijzingen uit de praktijk kunt u uw zoekresultaten verbeteren.
1. Stel van tevoren vast wat u precies zoekt
Voordat u een zoekopdracht geeft, zult u eerst moeten verwoorden wat u precies zoekt.
Een hulpmiddel vormen de "vijf w's": wie, wat, waar, wanneer en waarom.
blz. 16
Een andere manier is: bedenken wat er (idealiter) staat op de webpagina die u zoekt.
Wat is de titel, welke woorden kunnen er gebruikt worden.
Voorbeeld: op zoek naar een reisverslag vanaf de Himalaya? Aan termen als "bergsport"
of "alpinisme" heeft u niet veel. Termen als: "Himalaya", "basiskamp" of "klimmen"
kunnen u wel eens veel verder helpen.
2. Kies de beste
Kies de beste zoekmachine voor de soort vraag die u heeft. Iedere zoekmachine of -site
is anders en heeft zijn sterke en zwakke kanten. Belangrijk is het verschil tussen robots
(zoals Google en AltaVista) en indexen (zoals Startpagina en Yahoo).
In het algemeen.
 met een zoekrobot gaat u op zoek naar specifieke informatie op een webpagina.
 met een index gaat u op zoek naar een site, waarvan u aanneemt dat de gezochte
informatie er te vinden is.
 Daarnaast kunt u gebruikmaken van gespecialiseerde zoekmachines op allerlei
terreinen (zie verder onder 2.6): juridische startpagina's, medicijnen-robots, enz.
3. Gebruik meerdere zoektermen
Internet is te groot. Over zeer veel onderwerpen is meer geschreven dan u ooit kunt
lezen.
Met uitsluitend termen als: "lespakket", "sesamstraat", "advocatuur" krijgt u veelal niet
de gewenste resultaten. Door specifieker te zijn verhoogt u het resultaat, bijvoorbeeld:
"lespakket basisschool waterbeheersing", "+pino +sesamstraat", en "advocaat" AND
"utrecht".
4. Let op hoofdletters
De meeste zoekmachines maken onderscheid tussen hoofdletters en kleine letters. Wie
op zoek is naar informatie over het softwarebedrijf Baan, doet er goed in het woord met
een hoofdletter te schrijven om niet-relevante pagina's over werk over te slaan. Dat geldt
ook voor pagina's over roofdieren, wanneer u eigenlijk op zoek bent naar artikelen over
het nieuwste type van het automerk Jaguar.
5. Kijk voordat u klikt
Zoekmachines geven niet voor niets het URL van de gevonden pagina. Daar kunt u wat
aan aflezen wanneer het gaat om de betrouwbaarheid en de afzender van de gevonden
informatie.
Let op:
 Is het een particuliere homepage? Te herkenen aan: een tilde, het woord "user" of
domeinnamen bij providers zoals bijvoorbeeld “home.hccnet.nl”, “members.lycos.nl”
of “home.tiscali.nl”.
 Staan er veel "xxx" in de domeinnaam of het URL? Een aanwijzing dat het gaat
om een porno-website.
6. Een keer zoeken is niet goed genoeg
Meestal krijgt u na één keer zoeken nog niet het gewenste resultaat.
Zoeken is vaak een kwestie van proberen. Probeer eerst een globale zoekopdracht,
bijvoorbeeld bij een metazoekmachine. Hiermee kunt u de juiste termen proberen te
achterhalen.
Daarmee kunt u veel specifieker zoeken. Als je iets hebt gevonden, probeer dan
soortgelijke pagina's te achterhalen, bijvoorbeeld door bij Google de optie "similar pages"
aan te klikken, of door "achterstevoren" te zoeken; de eenmaal gevonden site bij Yahoo
of een andere index opzoeken, om zo de concurrentie in kaart te brengen.
7. Leer een zoekmachine kennen
Uit onderzoek blijkt steeds weer dat internetters overstappen naar een andere
zoekmachine wanneer het resultaat ze niet bevalt. Vaak is het verstandiger om een
zoekmachine door en door te leren kennen. Lees eens de helppagina's, ga naar de
"Advanced Search"-optie en maak gebruik van de mogelijkheden er van. Vaak is veel
meer mogelijk dan u denkt, sterker nog: er zijn vaak zelfs niet-gedocumenteerde opties.
8. Let op de Booleaanse syntax
Gevorderde zoekers maken volop gebruik van Booleaanse opdrachten, of beter gezegd:
operatoren zoals AND en OR. Soms kunnen deze vervangen worden voor "+" en "-"tekens. Dit verschilt per zoekmachine.
blz. 17
Ook is de precieze syntax, de schrijfwijze, niet overal gelijk. Hoe een zoekmachine de
syntax verwacht is altijd te lezen op de helppagina's.
Er zijn sites die volstaan met een simpel NOT om zoektermen uit te sluiten, andere
verwachten het gebruik van "AND NOT". Soms is "and" genoeg, bij andere sites moet
"AND" en alle andere operatoren beslist met hoofdletters worden geschreven.
9. Gebruik een algemene index voor algemene vragen
Voor algemene vragen biedt een index (Startpagina, DMOZ, Yahoo enz.) de beste
antwoorden.
Voorbeeld: Een plattegrond van Groningen of Peking, de tekst van het Amerikaanse of
Poolse volkslied, het weer in Brisbane of de vertrektijden van de KLM zijn sneller en
effectiever via een door mensenhand geselecteerde index op te zoeken dan in het wilde
weg met een zoekrobot door 2 miljard webpagina's te zoeken.
10. Twijfel aan uw aanvankelijke aannames
Durf te twijfelen aan uw aanvankelijke aannames. Is de spelling die u gebruikt inderdaad
de juiste, of de enig mogelijke? Is die ene gevonden pagina inderdaad uniek op het web?
Is de domeinnaam inderdaad geregistreerd door een overheidsinstantie? Bestaat de
informatie die je zoekt eigenlijk wel op het net?
11. Gebruik van ‘define:’ in Google.
Als u op zoek bent naar definities op internet, gebruik dan in Google het woord ‘define:’,
bijvoorbeeld ‘define: ADSL’. Op deze wijze gebruikt u de zoekmachine als een soort
woordenboek.
2.6 Gespecialiseerde zoekmachines
Naast de algemene zoekmachines en metazoekmachines zijn er ook de gespecialiseerde
zoekmachines die zich op één bepaald onderwerp of vakgebied richten.
Met de explosieve groei van het Web zullen steeds meer nieuwe zoekmachines zich gaan
richten op één bepaald onderwerp.
De gespecialiseerde zoekmachines maken, net als de bekende wereldwijde
zoekmachines, gebruik van spiders om op een bepaald onderwerpsgebied het Web af te
speuren en met behulp van computerprogramma's omvangrijke indexen aan te maken.
Vaak maken ze hierbij gebruik van de zoektermen uit een gespecialiseerd woordenboek
of de termen uit een thesaurus op een bepaald vakgebied.
Ook voor de gespecialiseerde zoekmachines geldt dat ze zijn samengesteld met behulp
van computerprogramma's, in tegenstelling tot verzamelpagina's en onderwerpsgidsen
die door deskundigen zijn samengesteld.
Bij de grote, wereldwijde zoekmachines vind je ook meer en meer de mogelijkheid om op
deelgebieden te zoeken: nieuws, audiovisueel materiaal, nieuwsgroepen en met behulp
van een directory zoeken naar websites op een bepaald onderwerpsgebied.
2.6.1 Vakgebieden
MedHunt: Medical Document Finder  http://www.hon.ch/MedHunt/
ISN: International Relations and Security Policy Community 
http://isn-search.ethz.ch/cgi-bin/s_lase.cgi?cs=utf-8
Wetenschappelijke publicaties
MyLITsearch  http://www.mylitsearch.org/
Scirus  http://www.scirus.com/
Sciseek  http://www.sciseek.com/
Scinet  http://www.scinet.cc/
2.6.2 Naslagwerken (encyclopedieën, adresboeken,
woordenboeken)
iTools  http://www.itools.com/
OneLook  http://www.onelook.com/
AllRefer.com  http://www.1upinfo.com/
blz. 18
Encyclopedia and Reference Resource
Xrefer  http://www.xrefer.com/
2.6.3 Nieuws
Topix.net  http://www.topix.net
Daypop  http://www.daypop.com
Rocketnews  http://www.rocketnews.com
NewsHub  http://www.newshub.com/
News Index  http://www.newsindex.com/
NewsTrawler  http://www.newstrawler.com/
Yahoo! News Full Coverage  http://fullcoverage.yahoo.com
Google News Search  http://news.google.com/
Pandia Newsfinder  http://www.pandia.com/news/
NU.nl  http://www.nu.nl/
2.6.4 Adressen
Nederland:
E-mailgids  http://www.e-mailgids.net
KPN Telefoongids  http://www.Telefoongids.ptt-telecom.nl/
Internationaal:
Nedsite  http://www.nedsite.nl/search/people.htm
Bigfoot  http://bigfoot.com/
Infospace  http://www.infospace.com/
Internet address.Finder  http://www.iaf.net/
WhoWhere  http://www.whowhere.lycos.com/
AnyWho  http://www.anywho.com/
2.6.5 Multimedia
Alta Vista Image Search  http://www.altavista.com/sites/search/simage
Alta Vista Video Search  http://www.altavista.com/sites/search/svideo
Singing Fish  http://www.singingfish.com
MIDI Explorer  http://www.musicrobot.com/
AlltheWeb  http://www.multimedia.alltheweb.com/
Proteus Image Search  http://www.thrall.org/proimage.html
2.6.6 MP3 zoekmachines
Lycos Music Search  http://music.lycos.com/downloads/
CNET Music Center  http://music.cnet.com/
MP3.com  http://mp3.com/
2.6.7 Software en/of ftp-archieven
CNET's Download.com  http://www.download.com/
ZDNet Software Library  http://downloads-zdnet.com.com/
Alltheweb  http://www.alltheweb.com/
Serverfiles.com  http://www.serverfiles.com/
2.6.8 Nieuwsgroepen
Google  http://groups.google.com/
WebGripeSites.com  http://www.webgripesites.com/gripesites.shtml
2.6.9 Regionale en nationale zoekmachines
Voor een volledig overzicht van regionale en nationale zoekmachines:
Search Engines Worldwide  http://home.inter.net/takakuwa/search/search.html
Search Engine Colossus  http://www.searchenginecolossus.com/
Country based search engines  http://www.philb.com/countryse.htm
blz. 19
European Search Engines, Directories and Lists 
http://www.netmasters.co.uk/european_search_engines/
Nederland:
Track  http://www.track.nl
Ilse  http://ilse.nl/
Vindex  http://www.vindex.nl
Zoek.nl  http://www.zoek.nl
Voor het Europese gebied is dat:
Search Europe  http://searcheurope.com
Euroguide  http://www.euroguide.org/euroguide/subject-listing/
2.6.10 Overzicht van gespecialiseerde zoekmachines
SearchAbility  http://www.searchability.com/
TheBibHub  http://www.thebighub.com/
Deze biedt naast de metasearch-optie eveneens de mogelijkheid te zoeken, via
trefwoorden en een onderwerpsgids, naar zoekmachines die zich richten op een specifiek
onderwerp.
FinderSeeker  http://www.finderseeker.com/
Bloogz  http://www.bloogz.com:/, zoekt alleen naar weblogs.
Zoekned  http://www.zoekned.nl/, online bedrijvengids
3. Meer informatie
Via onderstaande hyperlinks kunt u meer informatie krijgen over de behandelde
onderwerpen in deze lezing.
Meer informatie over het internet:
http://www.socsci.kun.nl/ped/owk/projecten/teleleren/cursus/deel1_1.html
http://www.xs4all.nl/~elma/schalmei/Schalmei.html
Meer informatie over het IP-adres, browser, beeldscherminstelling etc. van uw computer:
http://www.watismijnip.nl/index.php3
Meer informatie over zoekmachines/zoekmachinemarketing:
http://www.jeroen.com/jeroencom/content/zoekmachines.html
http://www.zoekprof.nl/achtergronden/hoewerkt0.html
http://www.seoguru.nl/zoekmachine-handleiding.html
http://www.yes2web.nl/diensten/zoekmachine-marketing/
http://www.uvt.nl/diensten/bibliotheek/instructie/www/onlinecursus/zoekmachines.html
Meer informatie over meta-tags:
http://www.metatags.nl/alle_metatags
Meer informatie over robots:
http://www.robotstxt.org/wc/active/html/ (engels)
http://googleblog.blogspot.com/2007/02/robots-exclusion-protocol.html (engels)
Meer informatie over robots.txt:
http://www.mijnhomepage.nl/artikelen/promotie/robots-txt.php
Meer informatie over het al dan niet afstaan van gegevens van zoekmachines:
http://www.trosradar.nl/?url=PHP/ontgoogle_nieuws/18
Documentaire VPRO’s Tegenlicht  ‘Google: Achter het scherm’
http://www.vpro.nl/programma/tegenlicht/afleveringen/27988731/media/28177289/
blz. 20
Download