Gerrit Tiemens, Medewerker HCC Locatie Arnhem Zevenaar, 21 mei 2007 Inhoudsopgave Inleiding ............................................................................................................. 3 1 Internet ........................................................................................................... 3 1.1 Geschiedenis ................................................................................................ 3 1.2 Wie bestuurt het internet? .............................................................................. 4 1.3 Hoe werkt internet? ....................................................................................... 5 1.4 Packet switching en de protocollen TCP en IP .................................................... 5 1.5 IP ................................................................................................................ 6 1.6 TCP ............................................................................................................. 6 1.7 Web-technologie ........................................................................................... 7 1.7.1 Bouwstenen van het Web ......................................................................... 7 1.7.2 De URL ................................................................................................... 7 1.7.3 HTTP en HTTPS ....................................................................................... 8 1.7.4 Hypertext, HTML en actieve content ........................................................... 8 1.8 HTML ........................................................................................................... 9 1.9 Het HTTP-protocol ........................................................................................10 1.9 Cookies .......................................................................................................11 2. Zoekmachines............................................................................................... 12 2.1 Hoe werkt een zoekmachine? .........................................................................12 2.2 De selectiecriteria van zoekmachines ..............................................................13 2.3 Zoekmachine optimalisatie ............................................................................13 2.3.1 Maak het Google makkelijk, vermijd geavanceerde technieken .....................13 2.3.2 Hyperlinks .............................................................................................14 2.3.3 Hoe zorg ik voor een hogere score in Google? ............................................14 2.3.3.1 Hoe zorg ik voor een hogere score in Google? .........................................14 2.2.3.2 Wat kan ik beter niet doen? ..................................................................15 2.4 Het gebruik van een robots.txt bestand ..........................................................16 2.5 Zoektips ......................................................................................................16 2.6 Gespecialiseerde zoekmachines ......................................................................18 2.6.1 Vakgebieden ..........................................................................................18 2.6.2 Naslagwerken (encyclopedieën, adresboeken, woordenboeken) ....................18 2.6.3 Nieuws ..................................................................................................19 2.6.4 Adressen ...............................................................................................19 2.6.5 Multimedia .............................................................................................19 2.6.6 MP3 zoekmachines..................................................................................19 2.6.7 Software en/of ftp-archieven ....................................................................19 2.6.8 Nieuwsgroepen .......................................................................................19 2.6.9 Regionale en nationale zoekmachines ........................................................19 2.6.10 Overzicht van gespecialiseerde zoekmachines ..........................................20 3. Meer informatie ............................................................................................ 20 Inleiding In deze lezing zal er aandacht worden besteed aan het internet en de werking van zoekmachines. Aan de orde komt o.m.: het ontstaan van het internet; hoe het internet werkt; de verschillende protocollen die gebruikt worden, zoals TCP/IP; informatie over zoekmachines; handige hyperlinks. 1 Internet 1.1 Geschiedenis De geschiedenis van Internet begint in 1969 toen een experimenteel netwerk tussen een viertal computers in gebruik werd genomen. Deze computers vormden de eerste knooppunten van het ARPAnet (Advanced Research Project Agency), een project van het Amerikaanse Ministerie van Defensie. Dit netwerk bestaat nog steeds. Voor de militairen was het niet zozeer van belang dat er verbinding tot stand kwam tussen computers, dat was al eerder op kleine schaal gedaan, maar wel dat de verbindingen duurzaam waren. Ook bij calamiteiten moest uitwisseling van informatie tussen knooppunten mogelijk blijven. Bij het ontwerp is er dan ook van uit gegaan dat een netwerk niet altijd betrouwbaar of niet volledig beschikbaar was. Dit uitgangspunt geldt nog steeds voor Internet en blijkt zeer nuttig te zijn. De eerste computers die op ARPAnet werden aangesloten, stonden in onderzoekscentra en bij universiteiten. Deze centra beschikten vaak over een eigen lokaal netwerk. Door deze lokale netwerken te koppelen aan de knooppunten van het ARPAnet ontstond al vrij snel een uitgebreid netwerk met duizenden gebruikers. De verbindingen en computers die voor Defensie belangrijk waren, werden afgeschermd van de rest en wat overbleef vormde de basis van een academisch netwerk. Hiermee was Internet feitelijk geboren, hoewel het nog jaren zou duren voordat de naam Internet zijn intrede deed en de gebruikte methodes van communicatie door andere netwerken werden overgenomen en ondersteund. De echte groei van het netwerk begon pas midden jaren ‘80. Dat was de tijd waarin het LAN1 razend populair werd. Er ontstond een behoefte om LAN’s uit de hele Verenigde Staten (VS) aan elkaar te knopen en daarbij werd het ARPAnet als verbindingsmiddel (backbone) gebruikt. In veel van deze LAN-netwerken werd gewerkt met Berkeley UNIXsystemen. Deze UNIX-systemen waren voorzien van de TCP/IP-netwerkprogrammatuur waar ook in het ARPAnet mee gewerkt werd. De opkomst van UNIX, TCP/IP en het Internet zijn gedeeltelijk parallel verlopen. De groei van het Internet werd ook in de hand gewerkt door het ontstaan van verschillende andere netwerken naast het ARPAnet. Bekende netwerken die in de jaren ’80 ontstonden waren onder andere het NSFnet in de VS en EUnet in Europa. Het Amerikaanse NSFnet was een door de National Science Foundation opgezet netwerk dat diende om (aanvankelijk 5) supercomputercentra met elkaar te verbinden en dat in de jaren ’80 uitgroeide tot het belangrijkste computernetwerk in de VS. EUnet is een netwerk dat tientallen landen in Europa met elkaar verbindt. Al snel werden allerlei koppelingen gelegd tussen het ARPAnet, NSFnet en andere netwerken en zo ontstond het Internet: een overkoepelend netwerk van allerlei aan elkaar geknoopte netwerken. Het internet kan gezien worden als een wijd vertakt wegenstelsel: grote backbone (ruggengraat) netwerken zijn de ‘snelwegwegen’ die allerlei regionale lokale ‘provincieweggetjes’ met elkaar verbinden. Local Area Network: een computernetwerk binnen een beperkt gebied, bijvoorbeeld binnen een bedrijfsgebouw of school. 1 blz. 3 Zoals gezegd de laatste jaren is de ontwikkeling van het Internet in een stroomversnelling gekomen. Het aantal aangesloten netwerken loopt in de vele tienduizenden en het aantal aangesloten computers is gestegen van een paar duizend halverwege de jaren ’80 tot vele tientallen miljoenen op dit moment. Alle soorten systemen komen voor op het internet: van PC’s met Windows, Apple/Macintoshes en UNIX-systemen tot mainframes en supercomputers. De gemeenschappelijke factor van al die systemen is dat ze ondersteuning hebben voor de TCP/IP-netwerkprogrammatuur. Dat is een techniek waar het Internet op gebouwd is. Een van de belangrijkste redenen voor het succes van het Internet is dat TCP/IP tegenwoordig voor ieder type computer beschikbaar is. Door de enorme aanwas van nieuwe abonnees is de belasting van het Internet in korte tijd explosief toegenomen. Daar komt nog bij dat de moderne multimediatoepassingen voor een veel zwaardere belasting van het netwerk zorgen dan de tekstgeoriënteerde toepassingen waar enkele jaren geleden nog mee gewerkt werd. De belasting van het netwerk is weliswaar fors toegenomen, maar daar staat tegenover dat de bandbreedte (de capaciteit) van veel belangrijke netwerken enorm is toegenomen. Nederlandse netwerken als die van UUNET, KPN en Surfnet ontwikkelen zich tot Gigabitinfrastructuren. Naast verbreding van de Internetsnelwegen zijn er ook allerlei interessante ontwikkelingen voor wat betreft de ‘oprit’ naar het Internet. Denk hierbij aan Internet via de kabel en ADSL2. Toegang tot Internet verkrijgt men middels een organisatie die toegang tot het netwerk verschaft. Dergelijke organisatie worden Internet Service Providers (ISP) genoemd. Belangrijke ISP’s voor de zakelijke markt in Nederland zijn UUNET en KPN. Een ISP beheert zijn eigen netwerk, dat een onderdeel van Internet vormt. De laatste jaren zien we in toenemende mate het gebruik van centrale knooppunten waar diverse ISP’s kunnen ‘inprikken’. Het voordeel van een dergelijke organisatie is dat er minder onderlinge koppelingen tussen ISP’s nodig zijn. De centrale knooppunten noemt men Internet Exchanges (IX) of Network Access Points (NAP). Een bekende Europese Internet Exchange is de Amsterdam Internet Exchange. 1.2 Wie bestuurt het internet? Er is geen organisatie of bedrijf die de verantwoordelijkheid heeft voor het Internet als geheel. Er zijn wel organisaties die de verantwoordelijkheid hebben voor delen van het Internet. Dat zijn de ISP’s. Het komt er op neer dat elke ISP ervoor zorgt dat haar eigen netwerk blijft werken en dat daarom het Internet als geheel in de lucht blijft. De organisatie UUNET zorgt ervoor er bijvoorbeeld voor dat het UUNET-netwerk blijft functioneren. Er zijn een paar zaken die centraal geregeld moeten worden. Deze zijn met name van administratieve aard, zoals het toekennen van domeinnamen en van IP-adressen. Elke computer in het netwerk heeft een domeinnaam, zoals www.hccnet.nl, en een IP-adres, zoals 193.79.203.33. In een netwerk met miljoenen computers is het een probleem op zich om te voorkomen dat namen en adressen dubbel voorkomen. Daarom zijn speciale organisaties opgezet die verantwoordelijk zijn voor het uitdelen van namen en adressen. Een belangrijke organisatie is ICANN (Internet Corporation for Assigned Names and Numbers), die verantwoordelijk is voor het uitdelen van de domeinnamen op het hoogste niveau (de top-level domeinen zoals .com en .net) en voor het uitdelen van IP-adressen. Asymmetric Digital Subscriber Line: een technologie die supersnelle gegevensoverdracht mogelijk maakt via normale telefoonlijnen. 2 blz. 4 Elke domein heeft zijn eigen organisatie waar namen binnen dat domein aangevraagd kunnen worden. Voor Nederland is dat de Stichting Internet Domein Registratie Nederland. Iedere organisatie die onder het Nederlandse domein valt en met Internet aan de slag wil, krijgt met deze stichting te maken. Een andere belangrijke Internetorganisatie is de in 1992 opgerichte Internet Society (ISOC). Dit is een organisatie waarin researchers en vertegenwoordigers van het bedrijfsleven uit de hele wereld zitting hebben en die zich met name bezighoudt met het sturen van de sociale, politieke en technische ontwikkelingen van het Internet. Onder ISOC valt onder meer de Internet Architecture Board (IAB), welke verantwoordelijk is voor de ontwikkeling en standaardisatie van Internet-technologie. 1.3 Hoe werkt internet? Dit onderdeel is een wat technisch verhaal over internet. Communicatie tussen computers is een complex en veel omvattend onderwerp dat een aantal hoogwaardige specialismen kent. Hier krijgt u een vereenvoudigd beeld geschetst van deze techniek. Alle communicatie tussen computers kent twee belangrijke componenten: kabel en protocollen, met andere woorden Verbinding = kabel + protocol Een kabel is de (meestal) fysieke hardware-koppeling tussen de computers die op verschillende wijzen kan zijn aangelegd. In de vorm van een coaxkabel (ethernet), glasvezel of twisted pair (UTP). Maar het kan ook via radiogolven. Dit deel van de verbinding draagt het signaal naar de andere computer. In het geval van de PC-gebruiker is dit meestal de telefoonlijn met modem of, in een kantoor, het lokale netwerk (LAN). Een protocol is het software-deel van de verbinding De verzender en de ontvanger moeten het bericht op een uniforme wijze behandelen. Aan de ene zijde wordt het bericht vertaald in (elektronische) signalen en aan de andere zijde wordt het terug vertaald. Dit moet op elkaar aansluiten. Vergelijk dit met de manier waarop mensen met elkaar praten. Mensen gebruiken spraak (geluid als kabel) om woorden over brengen. Maar als de spreker en de luisteraar voor elkaar onbekende talen (protocollen) spreken, is er van communicatie geen sprake. Het eenvoudigst is om alles af te handelen met hetzelfde protocol (taal), maar vaak is dat niet haalbaar. In Amerika is dit veel eenvoudiger dan in de Europese Unie. Zoals in Brussel veel vertaalwerk wordt verricht, zo worden ook in Internet op een aantal plaatsen signalen vertaald van het ene protocol naar het andere. Dit loopt via zogenaamde gateways waarmee een verbinding tussen twee verschillende netwerken mogelijk wordt. Gebruikers merken niets van deze vertaling (conversie). Het is alsof het netwerk een geheel vormt. Het aardige van het gebruik van protocollen is dat je kunt combineren (opstapelen). Hierdoor kan een complex communicatieprobleem worden opgesplitst in een aantal eenvoudige deelproblemen die elk met een apart protocol worden opgelost. Door de protocollen aan beide zijden na elkaar toe te passen komt toch en juiste communicatie tot stand. 1.4 Packet switching en de protocollen TCP en IP Hoewel we via telefoonlijnen Internet op kunnen en het mogelijk is om aan de hand van een nummer een verbinding met andere computers tot stand te brengen, is het niet juist om Internet te vergelijken met een telefoonsysteem. In een aantal opzichten is het beter om het te vergelijken met het systeem van postbezorging. Wat is het wezenlijke verschil? Bij een verbinding tussen twee telefoontoestellen worden in een aantal centrales lijnen zo verbonden dat er als het ware een speciale kabel loopt van het ene toestel naar het blz. 5 andere. De kabels zijn dan alleen door deze toestellen te gebruiken, zolang het gesprek duurt. Dit is vaak een inefficiënt gebruik van de capaciteit van de lijnen. Dit is een zogenaamd circuit switched netwerk, wat wil zeggen dat tijdens een verbinding een deel van het netwerk speciaal is toegekend aan één circuit. Tegenwoordig worden, met speciale technieken, dan ook vaak verschillende gesprekken over één lijn gevoerd. In wezen is het echter nog steeds een punt-naar-punt verbinding. Bij een postverbinding is dit allemaal wat losser georganiseerd. Een bericht wordt in een envelop gestopt met daarop het adres van de ontvanger. Deze enveloppen worden afgeleverd bij een postkantoor of de dichtstbijzijnde brievenbus en vervolgens worden ze vervoerd naar het gewenste adres. Daar wordt hij afgeleverd en de geadresseerde opent de envelop en neemt kennis van het bericht. Hier is dus geen sprake van een punt-naarpunt verbinding. Dit is een zogenaamd packet switched netwerk. Berichten gaan in pakketten naar hun plaats van bestemming en er zijn geen delen van het netwerk gereserveerd voor één enkele verbinding. Berichten van gebruikers/verbindingen worden door elkaar verzonden via dezelfde routes en aan de ontvangende kan gesorteerd. Bij communicatie via Internet is een vergelijking met het postsysteem het beste. Wij gaan nu stap voor stap bekijken hoe een bericht via Internet wordt getransporteerd. Internet is een zogenaamd packet switched netwerk en is de structuur van het netwerk die van een net van netwerken. Waar de deelnetwerken zijn verbonden, is een verbindingsstation (een router) geplaatst. Deze stations spelen een belangrijke rol bij het doorgeven van berichten. Elk pakket krijgt twee adressen, het verzendadres en het afleveradres. Aan de hand van deze adressen weet een station hoe het pakket moet worden verwerkt en via een aantal tussenstappen komt het pakket dan op zijn plaats van bestemming. De route die een bericht volgt, hoeft niet altijd dezelfde te zijn. Machines in het netwerk kunnen uitvallen of tijdelijk zwaar belast worden. In zo’n geval kunnen de routers dit opmerken en een andere route kiezen voor het bericht. 1.5 IP Het gebruik van de adressen is vastgelegd in een aantal spelregels die het Internet Protocol (IP) vormen. Dit is zoiets als een norm voor de afmetingen van een envelop om een brief. Om de verwerking efficiënt te laten verlopen, is in het Internet Protocol een beperking opgelegd aan de grootte van een pakket. Een pakket bevat tussen 0 en 1500 tekens. Om een bericht te kunnen versturen, moet de gebruiker het adres kennen. In het Internet Protocol bestaan adressen uit een combinatie van cijfers, elk tussen de 0 en 255. Bijvoorbeeld 131.211.80.17, met de cijfers van elkaar gescheiden door punten. Het is voor mensen niet eenvoudig om deze cijfercombinaties te onthouden. Vergissingen bij het typen zijn snel gemaakt. Daarom kunt u ook werken met meer zinvolle namen, bijvoorbeeld www.hccnet.nl. De basis IP-protocol is eenvoudig. Meer dan de adressering en de maximum lengte van 1500 tekens is er niet geregeld. Alle overige zaken moeten in een volgend protocol geregeld worden en er is een aantal mogelijke problemen: door fouten kunnen berichten verloren gaan; door storingen kunnen berichten worden verminkt; vaak zijn berichten langer dan 1500 tekens. 1.6 TCP Het protocol dat voor deze zaken een oplossing moet bieden, is het Transmission Control Protocol (TCP). Dit protocol is niet zo eenvoudig, maar we beperken ons tot de hiervoor genoemde problemen. Als u een groot bericht wilt verzenden, dan zorgt TCP dat het in kleine brokken wordt gesplitst. Elk deel wordt in een TCP-envelop geplaatst en de belangrijke informatie, zoals het volgnummer, komt in de envelop. Deze TCP-envelop met inhoud wordt in een IP- blz. 6 envelop geplaatst en aan het netwerk aangeboden. Aan de ontvangende kant wordt eerst de TCP-envelop uit de IP-envelop gehaald en vervolgens het bericht, of deel er van, uit de TCP-envelop. Dit is een voorbeeld van het stapelen van protocollen. Zijn alle deelberichten overgebracht, dan kan het TCP-protocol van de ontvanger het bericht reconstrueren. Als de volgorde van ontvangst anders is dan bij het verzenden, doordat deelberichten langs verschillende wegen op hun bestemming zijn gekomen, dan wordt dat hier opgelost. Als een deelpakket tijdens de verzending verloren gaat, dan wordt dat na enige tijd opgemerkt door het ontvangend TCP-protocol. Dit kan dan een melding terug sturen met een verzoek om het ontbrekende deel opnieuw te sturen. Behalve een volgnummer, wordt op de TCP-envelop ook een zogenaamd controlegetal geplaatst dat wordt berekend aan de hand van de inhoud van het (deel-)bericht. Als bij ontvangst van het bericht deze berekening een andere uitkomst geeft dan de waarde van het verstuurde controlegetal, dan betekent dit dat het bericht is verminkt. Dan stuurt het ontvangende TCP-protocol een verzoek aan de afzender om het (deel-)bericht opnieuw te sturen. Het TCP-protocol geeft de communicatie degelijkheid en zorgt voor een betrouwbare verbinding. TCP wordt zo vaak in combinatie met het IP-protocol gebruikt dat de beide namen meestal in één term gevat wordt: TCP/IP. 1.7 Web-technologie De meeste organisaties die zich aansluiten op het Internet bieden informatie over hun producten en diensten aan via een Web-server. 1.7.1 Bouwstenen van het Web Het Web is opgebouwd uit vele stukken techniek. De browser en de Web-server. Zoals alle Internet-toepassingen is ook het Web volgens het client-server systeem opgebouwd. De Web-server biedt informatie aan, de Web-client neemt informatie af. Er zijn vele Web-servers in gebruik, voor de meest uiteenlopende platforms. Om met het Web te werken is een Web-client nodig. Een Web-client wordt ook wel een browser (bladerprogramma) genoemd. Op dit moment is Microsoft Internet Explorer de meest gebruikte browser. Daarnaast zij er ook nog andere browsers, zoals FireFox, Netscape Navigator, Opera en Mozzilla. 1.7.2 De URL Een browser kan allerlei soorten informatie benaderen: niet alleen Web-servers, maar vaak bijvoorbeeld ook ftp-servers. Elk stukje informatie in het Internet heeft een adres: een zogenaamde Uniform Resource Locator (URL). Een URL is een verwijzing naar een stukje informatie ergens op het Internet. Om informatie in het Internet te kunnen benaderen moet men de URL van de informatie kennen. Enkele voorbeelden van URL’s. Hypertext-documenten op Web-servers hebben een URL die begint met http://, zoals bijvoorbeeld: http://www.hccnet.nl. De aanduiding http staat voor HyperText Transfer Protocol, het protocol dat gebruikt wordt voor de communicatie tussen browser en Web-server. Soms wordt in de vermelding van een Web-adres het beginstuk http:// weggelaten. De meeste browsers plakken dat stuk er dan automatisch voor. Het hoort er dus wel degelijk bij! blz. 7 Nieuwsgroepen hebben een URL die begint met news: bijvoorbeeld: news:rec.games.go. Deze URL verwijst naar de nieuwsgroep voor liefhebbers van de sport Go. Bestanden op ftp-servers hebben een URL die begint met ftp://, bijvoorbeeld: ftp://ftp.nl.net/pub/comp/pc/eudora.exe. Dit adres verwijst naar het programma eudora.exe. Dit programma kan gedownload worden vanaf de computer ftp.nl.net, waar het in de directory /pub/comp/pc staat. Samenvattend: een URL bestaat uit een typeveld (het gedeelte voor de dubbele punt) en een hostnaam (na de dubbele punt). Soms komt er ook nog een filenaam in de URL voor. URL’s worden op verschillende momenten gebruikt: Elke browser biedt de mogelijkheid om het adres (de URL) van de informatie die men wil benaderen simpelweg in te tikken. Elke hypertext-link correspondeert met een URL. Wanneer een hypertext-link geselecteerd wordt, zal dus een URL benaderd worden. 1.7.3 HTTP en HTTPS De communicatie tussen browser en Web-server verloopt via het HTTP-protocol (HyperText Transfer Protocol). In situaties waarin vertrouwelijke informatie (bijvoorbeeld vertrouwelijke documenten of creditcardnummer) over het Web verstuurd moeten worden, kan men gebruik maken van de SSL-technologie. Deze zorgt voor encryptie van het datatransport en voor authenticatie van client en server. Wanneer http gecombineerd wordt net de SSL-techniek, spreekt men van HTTPS (HTTP Secure). 1.7.4 Hypertext, HTML en actieve content De informatie die een Web-server aanbiedt bestaat uit hypertext-documenten. Hypertext is een mechanisme waarmee vanuit documenten verwezen kan worden naar andere documenten. Daarvoor zijn in een document zogenaamde hypertext-links (ook wel hyperlinks genaamd) opgenomen: dat zijn de verwijzingen. In een hypertext-document kan de lezer snel heen en weer springen door het volgen van de hypertext-links. Bovendien is het mogelijk dat een hypertext-link doorverwijst naar een ander document, zodat er heen en weer gesprongen kan worden tussen verschillende hypertextdocumenten. Wanneer een browser een Web-server benadert, stuurt de server een hypertextdocument terug. De volgende stappen vinden plaats: 1. De browser vraagt een document op van de Web-server. 2. De Web-server stuurt het gevraagde document terug. Dit document bevat allerlei hypertext-links. Dat kunnen verwijzingen zijn naar andere documenten op dezelfde Web-server, maar het kan ook een hypertext-link zijn naar een andere computer op het Internet. 3. De gebruiker selecteert een link. 4. De browser vraagt het document op dat correspondeert met de door de gebruiker geselecteerde link. Het speciale van het Web is dat het idee van hypertext wordt gebruikt in een wereldwijde netwerkomgeving. Documenten, databases en menustructuren uit het hele Internet zijn op deze manier met elkaar verbonden tot een groot ‘Web’. Vandaar ook de naam World Wide Web (WWW). In het Web hoeft een hypertext-link niet altijd te verwijzen naar een tekstdocument. De informatie achter een hypertext-link kan ook bestaan uit een plaatje, een film of een audiofragment. Wanneer het idee van hypertext gecombineerd wordt met dergelijke multimedia-informatie spreekt men van hypermedia. De hypertext-documenten die een Web-server aanbiedt zijn geschreven in een speciale taal: de Hypertext Markup Language (HTML). blz. 8 Er zijn de laatste jaren naast het gebruik van HTML diverse andere technieken ontwikkeld die via het Web aangeboden informatie sterk verlevendigen: Sites kunnen voorzien worden van multimedia plug-ins zoals Shockwave en Flash. Om dergelijke sites te kunnen bezoeken, dient de plug-in tevoren op het clientsysteem geïnstalleerd te zijn. Met behulp van Java en ActiveX kunnen programma’s ingebouwd worden in Webpagina’s. Deze programma’s (Java-applets of ActiveX-controls) worden via het Web opgehaald en automatisch geactiveerd op het client-systeem. Men noemt dit active content: de inhoud is niet statisch maar levend. Dit geldt ook voor bij gebruik van plug-ins, maar daar is de situatie zo dat deze tevoren op het clientsysteem geïnstalleerd dienen te zijn, terwijl dat bij active content niet nodig is: de Java- en ActiveX-programma’s worden vanzelf opgehaald via het Web. De Javatechnologie wordt zowel door Netscape Navigator als door Microsoft Internet Explorer ondersteund, terwijl de ActiveX-technologie alleen door Microsoft Internet Explorer native ondersteund wordt. HTML-pagina’s kunnen worden voorzien van scripts: stukjes programmacode in speciale scripting-talen zoals JavaScript en VBScript. Toepassingen van dergelijke scripts zijn bijvoorbeeld het openen van nieuwe windows, het dynamisch veranderen van fonts en of/kleuren, het controleren van door gebruikers ingevulde formulieren voordat deze verzonden worden. Men spreekt van clientside scripting, omdat de scripting-commando’s door de client (browser) worden uitgevoerd. Er bestaat dus ook sever-side scripting. Er zijn meerdere scripting-talen in omloop en is er dus geen standaard op dit gebied. JavaScript komt uit de hoek van Netscape en wordt ondersteund door Netscape Navigator. Microsoft heeft zijn eigen variant, dat is JScript. 1.8 HTML Webdocumenten worden geschreven in HTML (Hypertext Markup Language. Een HTMLdocument is een tekstbestand. Tussen de ‘echte’ tekst staan echter allerlei speciale aanduidingen: zogenaamde markup-tags. Met deze aanduidingen maakt de Web-server aan de browser duidelijk wat de eigenschappen van een bepaald stukje tekst zijn. Een voorbeeld van een HTML-document: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <meta name="description" content="Website van Gerrit Tiemens"> <meta name="language" content="Dutch"> <meta name="revisit-after" content="7 Days"> <meta name="author" content="Gerrit Tiemens"> <meta name="robots" content="ALL"> <meta name="keywords" content="Gerrit Tiemens, Website van Gerrit Tiemens"> <meta name="MSSmartTagsPreventParsing" content="TRUE"> <script type="text/javascript" language="JavaScript"> <!-// Document bij openen buiten het juiste frame vervangen door de indexpagina if (top.frames.length != 3) top.location.href = "index.html"; //--> </script> <title>Welkom</title> <link rel="stylesheet" href="Includes/WebsiteGti.css" type="text/css"> </head> <body> blz. 9 <table width="600" border="1" cellspacing="1" bordercolor="#0000FF"> <tr> <td bgcolor="#E6E9F2" bordercolor="#FF0000"> <div align="center"><b>Welkom</b></div> </td> </tr> </table> <br> <table width="600" border="0" cellspacing="0"> <tr> <td bgcolor="#E6E9F2"> <div align="center"><img src="Includes/01_welkom.gif" width="211" height="27" alt="Welcome to my homepage"></div> </td> </tr> <tr> <td bgcolor="#E6E9F2"> <p><br> Klik op Intro voor meer informatie over mijzelf.<br> Onder Foto's vindt u een overzicht van foto's die ik gemaakt heb, maar ook foto's uit de schoenendoos..<br> Onder Downloads vindt u informatie over lezingen die ik gegeven heb voor de HCC afdeling Arnhem.<br> Onder Links vindt u een aantal interessante hyperlinks naar andere websites.</p> <p>Heeft u vragen of opmerkingen, stuur mij een e-mail. Mijn e-mail adres is: <a href="mailto:[email protected]">[email protected]</a>.</p> </td> </tr> </table> <table width="600" border="0" cellspacing="0"> <tr> <td bgcolor="#E6E9F2"> <hr> De spreuk van deze week:<br> <marquee behavior="slide">Ook hoogvliegers moeten van tijd tot tijd landen.</marquee></td> </tr> </table> <p><font size="1">bijgewerkt <!-- #BeginDate format:It1 -->25-04-2004<!-- #EndDate --> </font></p> </body> </html> Uit het voorbeeld blijkt dat de meeste markup-tags bestaan uit een paar <tag> en </tag> met daartussen tekst. Een HTML-document als geheel is omgeven door de tags <html> en </html>. Een HTML-document bestaat uit twee secties: een head-sectie die eigenschappen van het document als geheel bevat (zoals de titel) en omgeven door <head> en </head> en een body-sectie die het document zelf bevat en omgeven is door <body> en </body>. HTML-tags kunnen attributen hebben. Een attribuut is een aanduiding van de vorm binnen de markup-tag, bijvoorbeeld <a href=…..>. Het is aan de browser om te beslissen hoe de markup-tags afgebeeld moeten worden. Een HTML-document in Internet Explorer kan er anders uitzien dan in FireFox of Opera. 1.9 Het HTTP-protocol Client-server communicatie in het WEB verloopt via het HyperText Transfer Protocol (HTTP). Voor een goed begrip van de Web-technologie is een inzicht in het HTTP-protocol onontbeerlijk. De client stuurt een HTTP-commando naar de Web-server. Meestal is dat het commando GET, wanneer een Web-pagina wordt opgevraagd, bijvoorbeeld http://www.arnhem.hccnet.nl/. Wanneer de browser de homepage wil opvragen, blz. 10 zou de operatie er als volgt uit zien: GET / HTTP/1.1. De aanduiding HTTP/1.1 geeft aan welke protocol-versie gewenst is. Na het commando stuurt de browser ook nog een aantal HTTP-headers naar de Web-browser. Via deze headers wordt de aanvullende informatie over de browser en over het verzoek doorgegeven aan de Web-server. Een voorbeeld is de UserAgent:-header, die aangeeft wat de gebruikte browser is. De eerste regel in het antwoord van de Web-server bevat een statuscode. Als de code is 200, wil dat zeggen dat de operatie succesvol verlopen is. De volgende regels bevatten HTTP-headers met controle-informatie die door de Web-server aan de browser wordt meegestuurd. Een voorbeeld is de Server:header, welke aangeeft wat de gebruikte Web-server is. Een ander voorbeeld is de Content-Type:-header, die aangeeft welke type informatie de Web-server opstuurt. Dat gaat via een MIME-type. In veel gevallen zal dat text/html zijn (het MIME-type voor HTML-documenten), maar een Web-server kan ook heel andersoortige informatie opsturen: plaatjes, Worddocumenten, multimediainformatie enzovoorts. De HTTP-headers worden afgesloten door een lege regel. Dan volgt de feitelijk gevraagde informatie. Samenvattend: Een HTTP client-server transactie verloopt als volgt: De gebruiker selecteert een hypertext-link De browser neemt contact op met de server op TCP poortnummer 80 en doet een HTTP GET-operatie. De server retourneert het gevraagde document (of een foutboodschap). De browser presenteert het document. De gebruiker selecteert weer een hyperlink Enzovoort. HTTP-statuscodes Statuscode 200 204 301 304 401 403 404 500 503 Betekenis Operatie succesvol uitgevoerd Operatie succesvol uitgevoerd, client krijgt geen nieuwe pagina. URL van het document is veranderd (Nieuwe URL in Location:-header) Client deed een If-Modified-Since en het document is onveranderd. Client is niet geautoriseerd voor gevraagde operatie. Gevraagde operatie is verboden. Gevraagde document bestaat niet. Interne fout opgetreden in server (mogelijk configuratiefout). Server niet in momenteel niet in staat verzoek af te handelen, mogelijk door te hoge belasting. 1.9 Cookies HTTP is een stateless protocol: HTTP-servers houden geen statusinformatie over browsers bij. Elk verzoek van een browser staat dus volledig op zichzelf. Dit levert problemen op in situaties waarin de server wel graag statusinformatie over browsers zou willen bij houden. Een karakteristiek voorbeeld van een dergelijke situatie vormt een Web-server waar gewinkeld kan worden: de gebruiker selecteert op verschillende pagina’s diverse producten en rekent die uiteindelijk af op een pagina met een ‘kassa’. In deze situatie moet de server weten waar de client allemaal geweest is en wat hij geselecteerd heeft. Een oplossing die veel toegepast wordt om statusinformatie te kunnen bewaren is het gebruik van cookies. Een cookie is een stukje statusinformatie dat door de server naar de client wordt gestuurd via een speciale HTTP-header (de Set-Cookie:-header). De inhoud van een cookie heeft alleen betekenis voor de server. Een client stuurt altijd alle eerder blz. 11 ontvangen cookies terug naar de server via een andere HTTP-header: de Cookie:-header. Aan de Cookie:-headers die binnenkomen kan de server zien welke verleden de betreffende client heeft. Er zijn geen security-problemen met het gebruik van cookies, maar zij kunnen wel een aantasting van de privacy van Web-gebruikers vormen. Het cookiemechanisme kan bijvoorbeeld door servers gebruikt worden om te traceren welke ‘wandeling’ een gebruiker maakt door zijn pagina’s. Daartoe wordt bij de eerste pagina die de client benadert een Set-Cookie: met een unieke waarde meegestuurd en wordt vervolgens simpelweg bijgehouden bij welke opgevraagde pagina’s datzelfde cookie meegestuurd wordt. Zo kunnen de sporen van een gebruiker precies gevolgd worden. Weliswaar is de naam van de gebruiker daarmee nog niet bekend, maar wanneer bovendien ergens een formulier wordt ingevuld heeft de server ook de naam te pakken. Wanneer verschillende Web-servers ook nog eens ‘samenspannen’ door cookies met elkaar uit te wisselen, kan het surfgedrag van gebruikers nog nauwkeuriger in kaart gebracht worden. Moderne browsers stellen gebruikers daarom in staat om het gebruik van cookies uit te zetten. Als men dat doet sluit men echter daarmee ook het gebruik van bepaalde toepassingen af. Zoekmachines maken ook vaak gebruik van cookies. Daarin wordt dan bijvoorbeeld de zoekgeschiedenis of het zoekgedrag opgeslagen. 2. Zoekmachines Zoekmachines zijn al jarenlang een middel om informatie te vinden op het internet. Ze wijzen ons de weg op internet met de 'kennis' die ze beschikken over het volledige web. Een goede vergelijking is die met een telefoonboek; als we het telefoonnummer van een bepaalde persoon of bedrijf al kennen, hebben we het niet nodig, maar is dit niet het geval dan biedt opzoeken uitkomst. Een zoekmachine probeert u, net als het telefoonboek, te helpen aan de juiste gegevens, alleen dan op het internet. 2.1 Hoe werkt een zoekmachine? Zoekmachines bestaan uit twee delen. Aan de ene kant de zoekmachine zelf, die u gewend bent te raadplegen als u op het Internet iets wilt zoeken. Voorbeelden hiervan zijn Google, Altavista, Yahoo!, MSN, Ilse, etc. U gaat naar de betreffende site, typt uw zoekwoord of combinatie van zoekwoorden in, en vervolgens verschijnt er een lijst van sites die volgens de betreffende zoekmachine voldoen aan uw zoekopdracht. Omdat zoekmachines natuurlijk niet op het moment dat u de zoekopdracht intypt het hele Internet kunnen aflopen zijn er zoekrobots -ook wel spiders of webcrawlers genaamd- die 24 uur per dag het Internet afspeuren op zoek naar Internetsites. De inhoud van alle door de zoekspiders bezochte sites wordt opgeslagen op een groot netwerk van computers dat iedere grote zoekmachine tot zijn beschikking heeft. Ze maken dus een kopie van de gevonden pagina en slaan dit op in, wat genoemd wordt de cache van, hun eigen computers. Deze kopie bevat echter niet alle elementen van de oorspronkelijke pagina, maar alleen die zaken die de spiders interessant vinden. Op het moment dat iemand een zoekopdracht opgeeft wordt razendsnel de cache van de computers geraadpleegd en wordt er via allerlei zoekalgoritmes bepaald welke pagina’s aan de zoekopdracht voldoen en in welke mate zij voldoen. De vraag is nu natuurlijk hoe die zoekalgoritmes er precies uitzien. Als we dat namelijk weten, dan kunnen we daar tijdens de ontwikkeling van een website meteen zo goed mogelijk rekening mee houden. De algoritmes die de werking van een zoekmachine voorschrijven, zijn echter geheim. Google en andere zoekmachines geven in principe dus geen of weinig informatie over de wijze waarop we onze site kunnen optimaliseren. Google bijvoorbeeld geeft (vanuit wat ze noemen ‘integriteits oogpunt’) alleen wat algemene Google adviezen. Deze kunt u vinden op http://www.google.com/intl/nl/webmasters/4.html. blz. 12 2.2 De selectiecriteria van zoekmachines Hoe weet een zoekmachine nu welke link voor u waardevol is en welke niet? Vroeger was dit vrij eenvoudig. Webmasters konden met behulp van zogemaande meta-tags onder meer omschrijvingen en keywords toevoegen aan hun pagina's. Zoekmachines keken simpelweg welke meta-tags overeenkwamen met de zoekopdracht. Een voorbeeld van meta-tags: <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"> <meta name="description" content="Website van Gerrit Tiemens"> <meta name="language" content="Dutch"> <meta name="revisit-after" content="7 Days"> <meta name="author" content="Gerrit Tiemens"> <meta name="robots" content="ALL"> <meta name="keywords" content="Gerrit Tiemens, Website van Gerrit Tiemens, lezingen, HCC, HCC Afdeling Arnhem, humor"> <title>Website van Gerrit Tiemens</title> </head> <frameset cols="121,*" frameborder="NO" framespacing="0"> <frame name="navig" scrolling="no" noresize src="navigatie.html"> <frameset rows="80,*"> <frame name="banner" scrolling="no" noresize src="banner.html"> <frame name="content" src="inhoud.html"> </frameset> <noframes> <p>This page uses frames, but your browser doesn't support them.</p> </noframes> </frameset> </html> Helaas werkt het tegenwoordig lang niet zo eenvoudig meer. Het systeem van meta-tags vroeg er namelijk om misbruikt te worden. Aangezien informatie kan worden toegevoegd die voor de bezoeker niet zichtbaar is, is het vrij eenvoudig om allerhande populaire keywords toe te voegen die feitelijk niets met de website te maken hebben (bijvoorbeeld het woord ‘sex’). Zoekmachines beoordelen eigenlijk alleen nog de content die de bezoeker daadwerkelijk te zien krijgt. Keywords worden voornamelijk uit de teksten en titels gehaald. 2.3 Zoekmachine optimalisatie Zoekmachines spelen een belangrijke rol in het genereren van verkeer naar websites. Door de omvang van het internet stellen ze gebruikers in staat om snel en efficiënt informatie te vinden. Vanwege het belang van zoekmachines is het belangrijk om goed vindbaar te zijn. In deze lezing vindt u een aantal algemene Search Engine Optimization (SEO) tips. Veel van deze tips zullen niet alleen uw positie in Google verbeteren, maar hebben ook een positieve invloed op uw website zelf. Sommige veranderingen kunnen een website gebruiksvriendelijker maken, anderen zorgen er voor dat bezoekers langer op uw website blijven of vaker terugkomen. 2.3.1 Maak het Google makkelijk, vermijd geavanceerde technieken Om internetsites aantrekkelijker te maken voor de bezoeker, kunnen deze volledig worden opgemaakt met opmaakcodes, waaronder HTML, CSS en JavaScript. Zoekmachines zijn echter meer geïnteresseerd in de inhoud dan in de vorm. Als u de hoeveelheid opmaakcode in uw website beperkt houdt, uw tekst indeelt in overzichtelijke blz. 13 paragrafen en duidelijke titels en navigatiestructuren toepast, zal uw website gemakkelijker en sneller geïndexeerd kunnen worden, wat u bonuspunten zal opleveren. Technieken als JavaScript maken mooiste uitklapmenu's en animaties mogelijk in websites. Zoekmachines zijn er echter niet dol op, omdat ze veel van deze extra code in de website niet kunnen interpreteren. De spiders van de zoekmachines zijn eigenlijk alleen geschikt om HTML te lezen. In het ergste geval wordt de hele navigatie niet herkend door Google, waardoor deze niet in staat is achterliggende pagina's te indexeren! Hier dient tijdens de bouw van de website goed rekening mee gehouden te worden. Inzet van deze technieken kan wel, maar de broncode van de website moet altijd leesbare HTML blijven, waarbij het met name belangrijk is dat links daadwerkelijk door middel van zogenaamde anchor-tags worden gedefinieerd. Met de juiste kennis hoeven deze technische beperkingen zeker niet ten koste te gaan van de uitstraling van de website. 2.3.2 Hyperlinks De manier waarop de filters van Google en andere sites zijn opgebouwd, is voor een groot gedeelte gebaseerd op hyperlinks. Deze logica houdt in dat een pagina waarnaar veel gelinkt wordt, wel haast een 'goede pagina' moet zijn. Naast een duidelijke interne navigatiestructuur is het daarom van belang om zoveel mogelijk externe links naar uw website te verwerven. Linkpopulariteit, oftewel de hoeveelheid links naar uw website, wordt uitgedrukt in een PageRank. Samen met relevante keywords vormt PageRank de belangrijkste sleutel tot een hoge positie in Google; hoe hoger de PageRank, hoe hoger de kans op een nummer 1-positie. Via deze link kunt u de huidige PageRank van uw website opzoeken. De PageRank van de meeste websites schommelt ergens tussen drie en zes. De hoogst haalbare theoretische waarde is tien. De formule waarmee PageRank wordt berekend is niet lineair; stel dat u voor een stap van PR4 naar PR5 honderdvijftig nieuwe links nodig heeft, dan wil dit niet automatisch zeggen dat voor het behalen van PR6 dezelfde hoeveelheid links nodig zijn. Meld uw site aan bij linkportalen die te maken hebben met uw activiteiten. Op de site Startnederland.nl vindt u een overzicht van vrijwel alle startpagina's. Ook kunt u natuurlijk webmasters van andere sites benaderen of ze een link naar uw pagina willen plaatsen of ruilen. Daarnaast helpt een goede positie in Google ook bij het verkrijgen van meer links, wanneer webmasters in zoekmachines op zoek gaan naar interessante links voor hun site. Bij het verwerven van links is de linkomschrijving, de tekst waarop geklikt kan worden, ook van belang. Meestal wordt bij zakelijke sites de bedrijfsnaam als linkomschrijving gebruikt. De handelsonderneming in gereedschap uit ons voorbeeld wil bij het aanmelden voor startpagina's echter liever gelinkt worden met de tekst ‘Professioneel gereedschap’, omdat deze tekst bij de ranking op deze twee woorden extra punten oplevert. Men beredeneert dat de eigen site bij zoeken op de bedrijfsnaam toch al goed werd gevonden. Het mooie aan het verzamelen van hyperlinks is dat de links zelf u ook direct verkeer opleveren. U hebt dan ook nooit genoeg links naar uw website. 2.3.3 Hoe zorg ik voor een hogere score in Google? Tot slot volgt hier een overzicht van de belangrijke tips voor het verbeteren van uw positie in Google en andere zoekmachines. Deze lijst is niet uitputtend, maar vormt een algemene leidraad. Voor een strategie op maat, neemt u contact met ons op. 2.3.3.1 Hoe zorg ik voor een hogere score in Google? 1. Stel belangrijke keywords vast Maak een shortlist van de belangrijke zoekwoorden. Onderzoek eventueel wat de huidige score is op deze keywords en wat de concurrentie doet. 2. Zorg voor voldoende relevante content blz. 14 Houd bij het vaststellen van een structuur voor de website én het schrijven van informatieve teksten rekening met mogelijke zoekopdrachten en gewenste keywords. 3. Laat uw broncode optimaliseren Het gebruik van de juiste HTML-codes zorgt ervoor dat uw content beter geïndexeerd kan worden. Voorbeelden hiervan zijn het toepassen van officiële standaarden voor het definiëren van tekstkopjes, geaccentueerde tekst en hyperlinks. 4. Geef alternatieve tekst voor afbeeldingen en mediabestanden De zoekmachines kunnen de inhoud van afbeeldingen, video's en geluidsbestanden niet interpreteren en deze dus ook niet meenemen bij het indexeren. Geef deze bestanden daarom altijd een duidelijke omschrijving. 5. Zorg voor voldoende externe links Uw positie in Google wordt grotendeels bepaald door het aantal links vanaf het internet naar uw website. U kunt uw site bijvoorbeeld aanmelden bij linkportalen en andere relevante sites. Links op websites met een hoge PageRank leveren het meeste op. 6. Kies de juiste meta-tags Meta-tags zijn al lang niet meer van groot belang bij uw positie in de zoekresultaten, toch hebben ze bij sommige zoekmachines nog enige invloed. Kies maximaal 20 keywords en een omschrijving van hoogstens 150 karakters. De omschrijving verschijnt ook bij de zoekresultaten. U kunt ook per pagina verschillende meta-tags hanteren als deze beter aansluiten bij die pagina. 7. Blijf uw content vernieuwen Door geregeld teksten te verversen en nieuwe content toe te voegen, biedt u niet alleen meerwaarde voor de bezoeker. Een site die actueel is en regelmatig wordt vernieuwd scoort ook extra punten bij de zoekmachine. 8. Kijk niet alleen naar Google Hoewel Google, vooral in Europa, met afstand marktleider is, wil dit niet zeggen dat het niet loont om ook goed te scoren in bijvoorbeeld Ilse, Yahoo en MSN Search. Het marktaandeel is bescheiden maar het gaat nog altijd om honderdduizenden gebruikers. Let bij experimenteren dus ook eens op de ranking in andere zoekmachines. 2.2.3.2 Wat kan ik beter niet doen? 1. Welkomstpagina's Een welkomstpagina is voor de zoekmachine spider een obstakel voor het bereiken van de daadwerkelijke content. Zorg ervoor dat bezoekers direct binnenkomen op uw website en dat op de homepage de belangrijkste steekwoorden van uw site staan vermeld. 2. Tekst in afbeeldingen Het vormgeven van tekst voor bijvoorbeeld de navigatie in afbeeldingen is mooi, maar zoekmachines kunnen de tekst niet meer lezen. Gebruik liever harde tekst of geef op zijn minst een alt-attribuut met de juiste omschrijving aan afbeeldingen. 3. Macromedia Flash Soms zijn websites helemaal opgebouwd in technieken als Flash. Grafisch ziet het er allemaal mooi uit, maar het zorgt er wel voor dat zoekmachines niet bij de content kunnen. Vaak zijn sites die zwaar leunen op Flash nagenoeg onvindbaar in Google. Gebruik Flash daarom alleen voor kleine animaties, banners enz. 4. Verborgen tekst en links Hoewel verleidelijk, valt het af te raden om zoekmachines voor de gek te houden door voor de bezoeker onzichtbare tekst en links op te nemen. 5. Cloaking Cloaking is eveneens een techniek om zoekmachines te foppen, bijvoorbeeld door robots en spiders een andere pagina te tonen dan de bezoeker. Het Engelse woord cloaking betekent zoiets als een dekmantel hebben. Als men een website cloakt, dan maakt men twee versies van deze website: een voor de zoekrobot van de zoekmachine en een voor de reguliere bezoeker. Vervolgens gaat men de bezoekers sorteren aan de hand van het IP-adres. Als de bezoeker een IP-adres heeft wat overeenkomt met die van een zoekrobot, dan wordt deze doorgestuurd naar de ‘gecloakte’ website die alleen maar is opgebouwd uit keywords en dergelijke voor een blz. 15 goede notering. Is het een regulier IP-adres dan wordt men doorgestuurd naar de gewone website, die niet geoptimaliseerd hoeft te zijn voor de zoekmachines. 6. Geautomatiseerde aanmelding Veel zoekmachines bieden nog altijd de mogelijkheid om sites aan te melden. Er bestaan websites die scripts die uw site in één keer bij tientallen zoekmachines aanmelden. Handmatige aanmelding heeft nauwelijks invloed en gebruik van dergelijke scripts wordt vaak gezien als spam. 7. Link-spamming Hoewel het belangrijk is om veel links te verkrijgen, wilt u voorkomen dat Google merkt dat u uitsluitend uw links verspreidt om hogerop te komen in zoekmachines. Vermijd linkfarms (websites met uitsluitend links) en houd het maken van reclame voor uw website in gastenboeken en op weblogs beperkt. 8. Niet relevante keywords Ook een veel gemaakte vergissing. U wilt bezoekers trekken op zoekwoorden die betrekking hebben op uw site en dienstverlening. Stop uw teksten dus niet vol met populaire keywords in de hoop dat dit extra bezoekers oplevert. Een bezoeker die niet aantreft wat hij denkt te vinden, is snel weer vertrokken. 9. Meerdere domeinnamen Het registreren van verschillende domeinen zorgt (in tegenstelling tot wat wel wordt gezegd) niet direct voor een hogere positie. Google kan zelfs een penalty uitdelen wanneer dezelfde content onder twee verschillende domeinen wordt gepubliceerd. Laat, om dit te voorkomen, extra geregistreerde domeinnamen altijd doorverwijzen naar het hoofddomein dat u zo hoog mogelijk in de zoekresultaten wilt. 10. Spammen en andere illegale praktijken Zoekmachines kunnen op basis van bovengenoemde kenmerken plus- of minpunten geven. Het staat zoekmachines echter ook vrij om handmatig wijzigingen aan te brengen of zelfs sites te verwijderen uit hun resultaten. Dit is moeilijk terug te draaien. Zorg voor een brandschone reputatie en houdt u aan wetgeving. 2.4 Het gebruik van een robots.txt bestand Wellicht heeft u er wel eens van gehoord, de robots.txt files. Hoe werkt deze nu en wat kun je ermee? Dit bestand is bedoeld voor zoekmachines. U kunt ermee aangeven of ze bepaalde informatie moeten overslaan. Zoals gezegd maken zoekmachines gebruik van zoekrobots (spiders of webcrawlers). Deze robots doorzoeken en indexeren websites voor deze zoekmachines. Wellicht is het bij sommige pagina's niet de bedoeling dat ze worden gevonden. In dat geval maakt u een ‘robots.txt’ bestand aan. Zo'n bestand maakt u gewoon in een tekst-editor en sla je dus op als tekstbestand, met .txt als extensie. Als u het bestand vervolgens uploadt naar uw website (gewoon in de hoofdmap plaatsen), dan is het voldoende. Een voorbeeld van robots.txt: User-agent: infoseek Disallow: /artikelen/voorbeeld.html User-agent: * Disallow: /cgi-bin/ Disallow: /test/ 2.5 Zoektips Met onderstaande aanwijzingen uit de praktijk kunt u uw zoekresultaten verbeteren. 1. Stel van tevoren vast wat u precies zoekt Voordat u een zoekopdracht geeft, zult u eerst moeten verwoorden wat u precies zoekt. Een hulpmiddel vormen de "vijf w's": wie, wat, waar, wanneer en waarom. blz. 16 Een andere manier is: bedenken wat er (idealiter) staat op de webpagina die u zoekt. Wat is de titel, welke woorden kunnen er gebruikt worden. Voorbeeld: op zoek naar een reisverslag vanaf de Himalaya? Aan termen als "bergsport" of "alpinisme" heeft u niet veel. Termen als: "Himalaya", "basiskamp" of "klimmen" kunnen u wel eens veel verder helpen. 2. Kies de beste Kies de beste zoekmachine voor de soort vraag die u heeft. Iedere zoekmachine of -site is anders en heeft zijn sterke en zwakke kanten. Belangrijk is het verschil tussen robots (zoals Google en AltaVista) en indexen (zoals Startpagina en Yahoo). In het algemeen. met een zoekrobot gaat u op zoek naar specifieke informatie op een webpagina. met een index gaat u op zoek naar een site, waarvan u aanneemt dat de gezochte informatie er te vinden is. Daarnaast kunt u gebruikmaken van gespecialiseerde zoekmachines op allerlei terreinen (zie verder onder 2.6): juridische startpagina's, medicijnen-robots, enz. 3. Gebruik meerdere zoektermen Internet is te groot. Over zeer veel onderwerpen is meer geschreven dan u ooit kunt lezen. Met uitsluitend termen als: "lespakket", "sesamstraat", "advocatuur" krijgt u veelal niet de gewenste resultaten. Door specifieker te zijn verhoogt u het resultaat, bijvoorbeeld: "lespakket basisschool waterbeheersing", "+pino +sesamstraat", en "advocaat" AND "utrecht". 4. Let op hoofdletters De meeste zoekmachines maken onderscheid tussen hoofdletters en kleine letters. Wie op zoek is naar informatie over het softwarebedrijf Baan, doet er goed in het woord met een hoofdletter te schrijven om niet-relevante pagina's over werk over te slaan. Dat geldt ook voor pagina's over roofdieren, wanneer u eigenlijk op zoek bent naar artikelen over het nieuwste type van het automerk Jaguar. 5. Kijk voordat u klikt Zoekmachines geven niet voor niets het URL van de gevonden pagina. Daar kunt u wat aan aflezen wanneer het gaat om de betrouwbaarheid en de afzender van de gevonden informatie. Let op: Is het een particuliere homepage? Te herkenen aan: een tilde, het woord "user" of domeinnamen bij providers zoals bijvoorbeeld “home.hccnet.nl”, “members.lycos.nl” of “home.tiscali.nl”. Staan er veel "xxx" in de domeinnaam of het URL? Een aanwijzing dat het gaat om een porno-website. 6. Een keer zoeken is niet goed genoeg Meestal krijgt u na één keer zoeken nog niet het gewenste resultaat. Zoeken is vaak een kwestie van proberen. Probeer eerst een globale zoekopdracht, bijvoorbeeld bij een metazoekmachine. Hiermee kunt u de juiste termen proberen te achterhalen. Daarmee kunt u veel specifieker zoeken. Als je iets hebt gevonden, probeer dan soortgelijke pagina's te achterhalen, bijvoorbeeld door bij Google de optie "similar pages" aan te klikken, of door "achterstevoren" te zoeken; de eenmaal gevonden site bij Yahoo of een andere index opzoeken, om zo de concurrentie in kaart te brengen. 7. Leer een zoekmachine kennen Uit onderzoek blijkt steeds weer dat internetters overstappen naar een andere zoekmachine wanneer het resultaat ze niet bevalt. Vaak is het verstandiger om een zoekmachine door en door te leren kennen. Lees eens de helppagina's, ga naar de "Advanced Search"-optie en maak gebruik van de mogelijkheden er van. Vaak is veel meer mogelijk dan u denkt, sterker nog: er zijn vaak zelfs niet-gedocumenteerde opties. 8. Let op de Booleaanse syntax Gevorderde zoekers maken volop gebruik van Booleaanse opdrachten, of beter gezegd: operatoren zoals AND en OR. Soms kunnen deze vervangen worden voor "+" en "-"tekens. Dit verschilt per zoekmachine. blz. 17 Ook is de precieze syntax, de schrijfwijze, niet overal gelijk. Hoe een zoekmachine de syntax verwacht is altijd te lezen op de helppagina's. Er zijn sites die volstaan met een simpel NOT om zoektermen uit te sluiten, andere verwachten het gebruik van "AND NOT". Soms is "and" genoeg, bij andere sites moet "AND" en alle andere operatoren beslist met hoofdletters worden geschreven. 9. Gebruik een algemene index voor algemene vragen Voor algemene vragen biedt een index (Startpagina, DMOZ, Yahoo enz.) de beste antwoorden. Voorbeeld: Een plattegrond van Groningen of Peking, de tekst van het Amerikaanse of Poolse volkslied, het weer in Brisbane of de vertrektijden van de KLM zijn sneller en effectiever via een door mensenhand geselecteerde index op te zoeken dan in het wilde weg met een zoekrobot door 2 miljard webpagina's te zoeken. 10. Twijfel aan uw aanvankelijke aannames Durf te twijfelen aan uw aanvankelijke aannames. Is de spelling die u gebruikt inderdaad de juiste, of de enig mogelijke? Is die ene gevonden pagina inderdaad uniek op het web? Is de domeinnaam inderdaad geregistreerd door een overheidsinstantie? Bestaat de informatie die je zoekt eigenlijk wel op het net? 11. Gebruik van ‘define:’ in Google. Als u op zoek bent naar definities op internet, gebruik dan in Google het woord ‘define:’, bijvoorbeeld ‘define: ADSL’. Op deze wijze gebruikt u de zoekmachine als een soort woordenboek. 2.6 Gespecialiseerde zoekmachines Naast de algemene zoekmachines en metazoekmachines zijn er ook de gespecialiseerde zoekmachines die zich op één bepaald onderwerp of vakgebied richten. Met de explosieve groei van het Web zullen steeds meer nieuwe zoekmachines zich gaan richten op één bepaald onderwerp. De gespecialiseerde zoekmachines maken, net als de bekende wereldwijde zoekmachines, gebruik van spiders om op een bepaald onderwerpsgebied het Web af te speuren en met behulp van computerprogramma's omvangrijke indexen aan te maken. Vaak maken ze hierbij gebruik van de zoektermen uit een gespecialiseerd woordenboek of de termen uit een thesaurus op een bepaald vakgebied. Ook voor de gespecialiseerde zoekmachines geldt dat ze zijn samengesteld met behulp van computerprogramma's, in tegenstelling tot verzamelpagina's en onderwerpsgidsen die door deskundigen zijn samengesteld. Bij de grote, wereldwijde zoekmachines vind je ook meer en meer de mogelijkheid om op deelgebieden te zoeken: nieuws, audiovisueel materiaal, nieuwsgroepen en met behulp van een directory zoeken naar websites op een bepaald onderwerpsgebied. 2.6.1 Vakgebieden MedHunt: Medical Document Finder http://www.hon.ch/MedHunt/ ISN: International Relations and Security Policy Community http://isn-search.ethz.ch/cgi-bin/s_lase.cgi?cs=utf-8 Wetenschappelijke publicaties MyLITsearch http://www.mylitsearch.org/ Scirus http://www.scirus.com/ Sciseek http://www.sciseek.com/ Scinet http://www.scinet.cc/ 2.6.2 Naslagwerken (encyclopedieën, adresboeken, woordenboeken) iTools http://www.itools.com/ OneLook http://www.onelook.com/ AllRefer.com http://www.1upinfo.com/ blz. 18 Encyclopedia and Reference Resource Xrefer http://www.xrefer.com/ 2.6.3 Nieuws Topix.net http://www.topix.net Daypop http://www.daypop.com Rocketnews http://www.rocketnews.com NewsHub http://www.newshub.com/ News Index http://www.newsindex.com/ NewsTrawler http://www.newstrawler.com/ Yahoo! News Full Coverage http://fullcoverage.yahoo.com Google News Search http://news.google.com/ Pandia Newsfinder http://www.pandia.com/news/ NU.nl http://www.nu.nl/ 2.6.4 Adressen Nederland: E-mailgids http://www.e-mailgids.net KPN Telefoongids http://www.Telefoongids.ptt-telecom.nl/ Internationaal: Nedsite http://www.nedsite.nl/search/people.htm Bigfoot http://bigfoot.com/ Infospace http://www.infospace.com/ Internet address.Finder http://www.iaf.net/ WhoWhere http://www.whowhere.lycos.com/ AnyWho http://www.anywho.com/ 2.6.5 Multimedia Alta Vista Image Search http://www.altavista.com/sites/search/simage Alta Vista Video Search http://www.altavista.com/sites/search/svideo Singing Fish http://www.singingfish.com MIDI Explorer http://www.musicrobot.com/ AlltheWeb http://www.multimedia.alltheweb.com/ Proteus Image Search http://www.thrall.org/proimage.html 2.6.6 MP3 zoekmachines Lycos Music Search http://music.lycos.com/downloads/ CNET Music Center http://music.cnet.com/ MP3.com http://mp3.com/ 2.6.7 Software en/of ftp-archieven CNET's Download.com http://www.download.com/ ZDNet Software Library http://downloads-zdnet.com.com/ Alltheweb http://www.alltheweb.com/ Serverfiles.com http://www.serverfiles.com/ 2.6.8 Nieuwsgroepen Google http://groups.google.com/ WebGripeSites.com http://www.webgripesites.com/gripesites.shtml 2.6.9 Regionale en nationale zoekmachines Voor een volledig overzicht van regionale en nationale zoekmachines: Search Engines Worldwide http://home.inter.net/takakuwa/search/search.html Search Engine Colossus http://www.searchenginecolossus.com/ Country based search engines http://www.philb.com/countryse.htm blz. 19 European Search Engines, Directories and Lists http://www.netmasters.co.uk/european_search_engines/ Nederland: Track http://www.track.nl Ilse http://ilse.nl/ Vindex http://www.vindex.nl Zoek.nl http://www.zoek.nl Voor het Europese gebied is dat: Search Europe http://searcheurope.com Euroguide http://www.euroguide.org/euroguide/subject-listing/ 2.6.10 Overzicht van gespecialiseerde zoekmachines SearchAbility http://www.searchability.com/ TheBibHub http://www.thebighub.com/ Deze biedt naast de metasearch-optie eveneens de mogelijkheid te zoeken, via trefwoorden en een onderwerpsgids, naar zoekmachines die zich richten op een specifiek onderwerp. FinderSeeker http://www.finderseeker.com/ Bloogz http://www.bloogz.com:/, zoekt alleen naar weblogs. Zoekned http://www.zoekned.nl/, online bedrijvengids 3. Meer informatie Via onderstaande hyperlinks kunt u meer informatie krijgen over de behandelde onderwerpen in deze lezing. Meer informatie over het internet: http://www.socsci.kun.nl/ped/owk/projecten/teleleren/cursus/deel1_1.html http://www.xs4all.nl/~elma/schalmei/Schalmei.html Meer informatie over het IP-adres, browser, beeldscherminstelling etc. van uw computer: http://www.watismijnip.nl/index.php3 Meer informatie over zoekmachines/zoekmachinemarketing: http://www.jeroen.com/jeroencom/content/zoekmachines.html http://www.zoekprof.nl/achtergronden/hoewerkt0.html http://www.seoguru.nl/zoekmachine-handleiding.html http://www.yes2web.nl/diensten/zoekmachine-marketing/ http://www.uvt.nl/diensten/bibliotheek/instructie/www/onlinecursus/zoekmachines.html Meer informatie over meta-tags: http://www.metatags.nl/alle_metatags Meer informatie over robots: http://www.robotstxt.org/wc/active/html/ (engels) http://googleblog.blogspot.com/2007/02/robots-exclusion-protocol.html (engels) Meer informatie over robots.txt: http://www.mijnhomepage.nl/artikelen/promotie/robots-txt.php Meer informatie over het al dan niet afstaan van gegevens van zoekmachines: http://www.trosradar.nl/?url=PHP/ontgoogle_nieuws/18 Documentaire VPRO’s Tegenlicht ‘Google: Achter het scherm’ http://www.vpro.nl/programma/tegenlicht/afleveringen/27988731/media/28177289/ blz. 20