1.1. DOELSTELLING Historische Informatiekunde 1. Inleiding 1.1 Doelstelling Dit boek dient als syllabus voor de colleges 'Historische Informatiekunde'. Het wil vooral een overzicht bieden van de bestaande mogelijkheden om op een microcomputer historisch onderzoek te doen. Het college is opgezet als een praktische inleiding, d.w.z. dat actieve deelname aan de van jaar tot jaar wisselende oefeningen er een wezenlijk deel van uitmaakt. Het is essentieel dat men voldoende vertrouwd raakt met de computer, zodat men in de verdere carrière als historicus dit wezenlijke hulpmiddel autonoom kan inzetten. Voor de concrete invulling wordt steeds verwezen naar specifieke pakketten. Twee criteria bepaalden de keuze daarvan: ten eerste komen in aanmerking pakketten die een representatief aandeel van de markt in de Benelux bezetten in het betreffende domein. Dat maakt het waarschijnlijk dat men later met een van deze pakketten in aanraking komt. Ten tweede werden pakketten opgenomen die misschien minder marktimpact hebben, maar toonaangevend mogen genoemd worden voor toekomstige technieken. Enige technische achtergrondkennis is noodzakelijk om de computer te kunnen gebruiken. Toch ligt de klemtoon van dit boek niet op het computertechnische aspect. Veeleer gaat het erom informaticahulpmiddelen op een optimale wijze bij het historisch onderzoek en onderwijs te (leren) betrekken. Een uiteenzetting over informatiekunde in het historisch onderzoek kan niet om de drastische omwenteling heen die de personal computer in de gehele sector van de cultuurwetenschappen heeft teweeggebracht. Niet alleen werden een aantal vaardigheden, vroeger het domein van de drukkers, terug in de belangstelling van de academici gebracht, zoals lay-out en zetwerk, de mogelijkheden van de tekstverwerking hebben ook het auteurschap zelf ingrijpend veranderd. Schrijven werd herontdekt als een interactieve, plastische activiteit en niet langer als louter een hersenoefening. De vormgeving van de gedachte heeft aan belang gewonnen. Daarbij wordt ook de strenge scheidslijn tussen woord en beeld meer en meer doorbroken: teksten en uiteenzettingen bieden een integratie van tekst, grafiek, geluid tot en met full-motion video. Gegevensbanken gebruiken een ruim gegevensmodel dat geluid, beeld, tekst en vormgevingselementen bundelt. Alleen een database voor parfums stuit nog op de © F. Truyen en J. Tolleneer 1999 - INLEIDING- 1 1.1. DOELSTELLING eerder uitwendige beperking dat nog geen in- en uitvoerapparaten voor geur beschikbaar zijn. De tekst wordt niet langer sequentieel gebracht, maar is meerdimensioneel consulteerbaar (hypertext). De lezer is niet langer gebonden aan de onontkoombare dwang van de gedachtengang van de auteur, maar kan een tekst op eigen initiatief ontrafelen. De koppeling van computers in lokale netwerken en tenslotte het wereldomvattende Internet maken dat men zijn onderzoek nu kan verrichten in direct contact met collega's op honderden kilometer afstand. Snelle feedback en ruime toegang tot secundaire bronnen scheppen een wat ongewone context voor de hedendaagse historicus, waarbij vooral de toenemende onoverzichtelijkheid en de massiviteit van de informatie voor nieuwe uitdagingen zorgen. Een heel ander perspectief alvast dan dit van de traditionele historische methodiek, waar men vaak vanuit een informatie-deficit een totaalbeeld moet trachten op te bouwen. In de Internet-era zal eerder betrouwbare en representatieve selectie van materiaal determinerend zijn voor een succesvolle heuristiek. Dit overzicht van het probleemgebied van de historische informatiekunde bestaat uit een vijftal grote delen. Na een korte historische situering wordt in de eerste plaats ingegaan op de technische infrastructuur die nu ter beschikking staat voor het historisch onderzoek. Was dat voor een tiental jaren nog voornamelijk pen en papier, gaandeweg heeft de informatica een weelde aan technologische vernieuwingen aangebracht die de werkwijze aan de Letterenfaculteiten grondig heeft dooreengeschud. De belangrijkste motor van deze omwenteling is ongetwijfeld de personal computer. Het zal dan ook niet verbazen dat een groot deel van onze aandacht naar dit platform zal gaan. In het volgende deel wordt dieper ingegaan op het virtuele platform dat is ontstaan uit de verregaande integratie van de verschillende computersystemen en lokale netwerken tot een wereldomvattend netwerk of Cyberspace. Het is immers in dit WorldWide-Web of in de daarin opgenomen beschermde eilandjes of intranetten dat de toekomstige intellectuele arbeid zich zal afspelen, of het nu gaat om onderzoek, onderwijs of dienstverlening. Aandacht gaat daarbij uiteraard naar de vernieuwde bibliotheekontsluiting die door dit alles wordt mogelijk gemaakt. Vervolgens worden de traditionele toepassingen van de PC aangesneden, waarbij we ons beperkten tot wat o.i. het meest relevant is voor de historicus: documentverwerking, met speciale aandacht voor information retrieval, en tenslotte databanken, met een aanzet tot datavoorbereiding voor diepergaande kwantitatieve analyse. © F. Truyen en J. Tolleneer 1999 - INLEIDING- 2 1.2. INFORMATICA, INFORMATIEWETENSCHAP EN INFORMATIEKUNDE 1.2 informatica, informatiewetenschap en informatiekunde Om de historische informatiekunde correct te kunnen situeren is het nuttig een onderscheid te maken tussen informatica, informatiewetenschap en informatiekunde: • Informatica tracht tot algemeen geldende uitspraken te komen m.b.t. de wetenschappelijke en technische aspecten van representatie en verwerking van gegevens met behulp van automaten. Dit impliceert onafhankelijkheid t.o.v. de toepassingsgebieden. Informatica wordt meestal aanzien als een synoniem van computerwetenschap. • Informatiewetenschap bestudeert het verschijnsel informatie en de gemeenschappelijke kenmerken van de processen die de productie en het gebruik van informatie faciliteren1. Zij richt zich momenteel in hoofdzaak op de digitalisering. Informatiewetenschap heeft traditioneel bindingen met bibliotheek- en documentatiewetenschap. Informatiewetenschap tracht deze fenomenen te beschrijven op een abstract niveau, los van welbepaalde toepassingsgebieden. • Informatiekunde is de leer van het toepassen van informaticahulpmiddelen op een specifiek maatschappelijk of wetenschappelijk gebied, met als doel de productie, de verspreiding en het gebruik van de informatie van dat gebied te faciliteren. Hier is dus wel degelijk sprake van afhankelijkheid t.o.v. het toepassingsgebied (vgl. bestuurlijke informatiekunde). Het hier gehanteerde begrip "informatie" moet nader gepreciseerd worden. In de informatica noemt men informatie het resultaat van gegevensverwerking. In die zin bestudeert de informatica o.m. hoe met behulp van machines informatie kan worden gewonnen uit "ruwe" gegevens. In de context van de informatiewetenschap heeft informatie een meer inhoudelijke betekenis: het gaat om alle elementen die aan een bepaald kennisgeheel kunnen worden toegevoegd. Informatie is m.a.w. wat de kennis verder kan aanvullen. Het begrip "informatie" uit de informatiekunde tenslotte zal hier bij aansluiten: informatie is wat de kennis in een bepaald wetenschapsdomein kan aanvullen. De historische informatiekunde ligt dus op het snijvlak van informatica, informatiewetenschap en de geschiedwetenschap. Toch is zij primair een historische specialisatie. Het beperkt bestek laat geen in extenso behandeling van de historische informatiekunde toe. Veeleer gaat het hier om een inleiding tot het gebruik van de computer in het historisch onderzoek. De aandacht gaat daarbij niet in de eerste plaats naar de verwerking van kwantitatieve gegevens, maar veeleer naar de analyse van teksten en tekstbestanden. 1 J. De Vuyst, “Informatiewetenschap en informatiemaatschappij”, in: Informatiewetenschap februari 1996, p.I 200-4 © F. Truyen en J. Tolleneer 1999 - INLEIDING- 3 1.3. DE HISTORICUS EN DE COMPUTER 1.3 De historicus en de computer Eens de historische informatiekunde in perspectief geplaatst, kan onze aandacht zich richten naar de specifieke verwachtingen die de historicus t.o.v. het computerplatform kan koesteren. Het is door de recente ontwikkelingen onnodig geworden de algemene relevantie van de computer te bespreken, of de verschillende toepassingsgebieden ervan alsnog in kaart te brengen. Zoals eenieder kan vaststellen, is de computer reeds massaal doorgedrongen in de meest verscheiden economische sectoren. Aan de universiteiten wordt het werk stilaan ondenkbaar zonder hulp van deze machines. We kunnen ons dus rechtstreeks toespitsen op het nut van de computer voor de specifieke bezigheden van de historicus. Daarin kunnen we een drietal dimensies onderscheiden: het historisch onderzoek, het historisch onderwijs en de maatschappelijke dienstverlening van de historicus. 1.3.1 De computer in het historisch onderzoek Op het eerste zicht lijkt de inzetbaarheid van computers in het historisch onderzoek eerder beperkt. Een belangrijk deel van de voorbereiding van historisch werk bestaat uit het doorsnuffelen van stoffige, in overgrote meerderheid papieren archieven. Wil de historicus reeds in deze fase van de voordelen van de computer genieten, moet door de archivaris reeds voorbereidend werk geleverd zijn. In een aantal gevallen zijn collecties van archieven op computer gecatalogeerd, en kan men alvast de stukken makkelijker opzoeken via terminals. Een stap verder bestaat erin deelcollecties van archiefstukken zelf te digitaliseren en in machine-leesbaar formaat te brengen. Meestal wordt gekozen voor een combinatie van facsimile’s van het origineel in computerbeelden, met daaraan gekoppelde transcripties in doorzoekbare en gelemmatiseerde tekst. Los van z’n relevantie naar de ontsluiting van het archief toe, wordt deze techniek ook gewaardeerd en ingezet als conservatiemethode. In dat geval moet het scanwerk wel van de hoogst mogelijke kwaliteit zijn. Eenmaal de bronnen uitgeplozen, volgt een faze van toetsing aan de bestaande literatuur. Wat betreft bibliotheekontsluiting kan men zeggen dat de computer een vaste plaats ingenomen heeft. Reeds sinds de jaren ’60 worden bibliotheekcatalogi op computersystemen verwerkt. De middelen die nu ter beschikking staan van de onderzoeker zijn haast ontmoedigend efficiënt: alleen al het LIBIS- (straks AMICUS) systeem van de K.U.Leuven geeft toegang tot enkele miljoenen titelbeschrijvingen. Toegang tot deze systemen, gekoppeld aan een goede kennis van zoeklogica, laat de onderzoeker toe zich reeds vooraleer de bibliotheek te betreden een goed beeld te vormen welke publicaties van belang zijn rond z’n onderwerp. Gespecialiseerde bibliografieën zoals ‘Historie in Titel (HINT)’ brengen ook abstracts van de relevante artikels. © F. Truyen en J. Tolleneer 1999 - INLEIDING- 4 1.3. DE HISTORICUS EN DE COMPUTER Eenmaal het materiaal verzameld, kan de computer een hulpmiddel zijn bij de interpretatie. Vooral voor het verwerken van cijfermateriaal is de computer een aangewezen partner. Dit biedt vele toepassingen in het demografische en prosopografische onderzoek. Daarbij moet vooral gewezen worden op de opkomst van de grafische benadering bij kwantitatieve analyses. Moderne software laat toe om via grafische representatie de ‘topologie’ van een dataset te leren verkennen. Op die manier kan men tot hypotheses komen die verder kunnen worden getoetst, b.v. via multivariaten-analyse. Ook de niet-kwantificeerbare gegevens kunnen echter goed met de computer beheerd worden, of het nu gaat om teksten of om multimedia materiaal zoals beelden, geluidsfragmenten of videoclips. Voor al deze media staat uitgekiende zoeksoftware ter beschikking, waarin reeds heel wat heuristische know-how geconsolideerd is. Tenslotte zal de computer onmisbaar zijn bij de redactie van een historische synthese. Moderne tekstverwerkers bevatten voldoende kennis over document-architectuur om een auteur efficiënt bij te staan in het redactionele werk. Dat kan gaan van hulp bij de structurering van het document tot het aanmaken van indices. Het gemak waarmee op elk moment aanpassingen kunnen worden gemaakt aan het manuscript leidt dikwijls tot onafgewerkte documenten, maar kan ook aanleiding geven tot doorwerkte teksten van een uitzonderlijke kwaliteit. Electronische publicatie brengt het bijkomende voordeel met zich mee dat men kan afstappen van het loutere sequentiele document om te komen tot een meerdimensionele hypertekst omgeving waarin de lezer de inhoud vanuit de eigen aanknopingspunten kan doorwaden. 1.3.2 De computer in het historisch onderwijs Hier moet men een onderscheid maken tussen het nut van de computer voor de leraar zelf, en het nut van de computer als didactisch instrument in klasverband. Dat de leraren individueel baat hebben bij een personal computer met internet-verbinding, zal door weinigen in twijfel worden getrokken. Vooral omdat het World-Wide-Web zich deels manifesteert als een erg exhaustieve encyclopedie, waar over elk onderwerp wel enige basis-informatie te vinden is. Jammer genoeg is veel van die informatie Engelstalig, wat een onmiddellijke toepassing in klasverband moeilijk maakt. Een aantal projecten, zoals het Leuvense project "Analytisch raster voor de lectuur van visuele en geschreven middeleeuwse bronnen2" o.l.v. Prof. R. De Keyser, moeten hierin verandering brengen. Om de computer in een historische onderwijscontext klassikaal in te zetten, moeten toch nog heel wat hindernissen genomen worden. In de meeste gevallen is de eenvoudige beschikbaarheid van een voldoende toegeruste PC-klas reeds een 2 http://fuzzy.arts.kuleuven.ac.be/maerlant © F. Truyen en J. Tolleneer 1999 - INLEIDING- 5 1.3. DE HISTORICUS EN DE COMPUTER probleem. Zelfs indien men daar vlot zou kunnen over beschikken, stelt zich nog de vraag hoe men het effectief werken met de computer in verband kan brengen met de aan te leren historische vaardigheden. Goede educatieve historische software zou zich immers vooral daarop moeten toespitsen. Men kan niet anders dan vaststellen dat het op dit ogenblik ontbreekt aan een degelijk Nederlandstalig aanbod te zake. 1.3.3 De computer en de historische maatschappelijke dienstverlening Er werd reeds aangestipt dat de computer in archief en bibliotheek een ideaal instrument van collectie-ontsluiting is. Ook werd reeds gewezen op de mogelijkheden om via digitale facsimile’s een kwetsbaar erfgoed aan documenten veilig te stellen. Verder kan de computer worden ingezet om getrouwe historische reconstructies te bekomen. Men denke maar aan de visuele weergave van de evolutie door de tijd van een stratenplan, of een accuraat beeld van de beroepsbedrijvigheid in een bepaalde wijk in een bepaalde periode. Uiteraard kunnen de grafische representaties die bij demografische analyse gemaakt worden (b.v. tijdreeksen e.d.m.) ook opgenomen worden in een historische synthese. Het correct aanwenden van dergelijke kwantitatieve gegevens en de verantwoordelijkheid om daaraan gepaste conclusies te verbinden, vallen echter buiten het bestek van de informatiekunde als hulpwetenschap. Voldoende vertrouwdheid met statistische technieken en de eigen aard van inductieve methoden moeten de historicus behoeden om blindelings te vertrouwen in een grafische voorstelling. Voor het ter beschikking stellen van bronnenmateriaal staan heel wat opties open. Zo kan men kiezen voor distributie met CD-ROM (niet zelden wordt de CD-ROM als product gekoppeld aan een boek of tijdschrift) of CD-I. Nadeel van de CD-I is dat het leesapparaat niet erg verspreid is, in tegenstelling tot de CD-Rom speler. Voor hoogkwalitatieve video is CD-I nog steeds te verkiezen boven CD-ROM. Het toekomstige DVD-formaat zal het echter mogelijk maken om zéér grote datacollecties op het formaat van een huidig CD-schijfje te verspreiden. Een andere mogelijkheid is onmiddellijk electronisch publiceren op het Web. In beide gevallen is het mogelijk om naast de data zelf ook een invalshoek in de omgeving mee te geven, zodat het ontsluitingsprogramma of de browser meteen de bezoeker begeleidt in het exploreren van de gegevens. De tekst die voorligt is deels als naslag- en referentiewerk opgevat. De soms cryptische terminologie en de meer gedetailleerde uitweidingen over technische aspecten zijn dan ook eerder bedoeld om de feitelijke wereld van het computergebruik als zodanig tot z’n recht te laten komen. De lezer moet zich wel niet verplicht voelen parate kennis over deze details te verwerven. Belangrijker is bij de lectuur aandacht te hebben voor de verschillende functionaliteiten die door de informatica-infrastructuur vervuld worden. Wie meer wil weten kan uiteraard de talloze hyperlinks volgen om zich © F. Truyen en J. Tolleneer 1999 - INLEIDING- 6 1.3. DE HISTORICUS EN DE COMPUTER te laten meeslepen in het spinneweb van doorverwijzingen waarin de computerwereld zichzelf spiegelt. Bij dit handboek hoort een web-site, http://fuzzy.arts.kuleuven.ac.be/F207, waar de hyperlinks onmiddellijk ter beschikking staan. De site biedt doorheen het academiejaar informatie over het verloop van het college, en biedt steeds de actueelste stand van zaken omtrent het aanbod voor historici op internet. Studenten worden uiteraard ook uitgenodigd actief deel te nemen aan discussies op de nieuwsgroep news://kuleuven.faculty.arts.history. Op deze plaats kan ook een woord van erkentelijkheid niet ontbreken t.a.v. Prof. em. dr. Michel Cloet. Bij de totstandkoming van de vakken “Gegevensverwerking in het historisch-filologisch onderzoek” en “Historische Informatiekunde” was zijn rol doorslaggevend. Beide vakken werden opgezet met het doel de historici in spe een degelijke bagage mee te geven aan praktische computerkennis. Mede op zijn initiatief beschikt de Faculteit Letteren sinds 1988 over een aangepaste PC-klas ten behoeve van haar studenten. Uit dit alles mag blijken dat Prof. Cloet ook buiten het eigen vakgebied een grote bezorgdheid vertoonde voor de kwaliteit en i.c. het actualiseren van de opleiding Moderne Geschiedenis te Leuven en te Kortrijk. Er werd naar gestreefd de tekst aan te passen aan de nieuwe spelling zoals vastgelegd in de “Woordenlijst Nederlandse Taal” (Sdu, 1995). Voor de Nederlandse weergave van computertermen werd beroep gedaan op de “Spelling Gids Informatica” van het VVKSO (Licap, 1996). Jan Tolleneer Fred Truyen Augustus 1998 © F. Truyen en J. Tolleneer 1999 - INLEIDING- 7 2.1. UNIVERSELE AUTOMAAT 2. Het Computerplatform 2.1 Universele automaat Al lijkt de naam "computer" op het tegendeel te wijzen, de computer is al lang veel meer dan alleen maar een rekenmachine. De computer kan omschreven worden als een elektronisch werkend apparaat voor automatische gegevensverwerking, dat bestuurd wordt door een in het geheugen van de machine aanwezig programma, bestaande uit instructies. De computer is in feite een universele automaat of algoritmische machine. Een algoritme is een oplossing voor een probleem in een eindig aantal stappen. Alan Türing toonde in 1950 aan dat het in principe mogelijk was elk probleem dat in een eindig aantal stappen kan opgelost worden, automatisch af te handelen door deze stappen één en voor één te beschrijven. Een programma is zo'n beschrijving van alle stappen die men na elkaar moet uitveoren om gegarandeerd tot de oplossing van het probleem te komen. Door de computer van een programma te voorzien maakt men er een specifieke machine van. Zo wordt eenzelfde computer een rekenmachine, tekstverwerker, tekentafel, fichebak … 2.2 Korte historiek van de computer In dit historisch overzicht willen we enkele markante mijlpalen in de ontwikkeling van de computer schetsen, met de nadruk op het ontstaan van de Personal computer of microcomputer zoals we die nu kennen. In de 17de eeuw ontwikkelen Wilhelm Schickhard en Blaise Pascal de eerste mechanische telmachines; 1623 Wilhelm Schickard ontwerpt de “rekenende klok”; 1644-5 “Pascaline” van Blaise Pascal; 1703 Gottfried Wilhelm Leibniz bedenkt het tweetallig of binair rekenstelsel; 1808 Joseph-Marie Jacquard voert het gebruik van 'ponskaarten' in voor de 'programmering' van weefgetouwen; 1832-4 Charles Babbage ontwerpt achtereenvolgens de Difference Engine en de Analytical Engine, waarvan de opbouw een voorafspiegeling is van de computer. Het is vooral lady Augusta Ada Byron, dochter van Lord Byron, die inziet welke mogelijkheden Babbages ontwerp in zich draagt. Zij geeft de notie van programmeren conceptueel gestalte. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 8 2.2. KORTE HISTORIEK VAN DE COMPUTER 1886 Met het oog op de verwerking van de resultaten van de volkstelling van 1890 in de Verenigde Staten ontwikkelt Herman Hollerith de tabelleer- of ponskaartenmachine. Holleriths bedrijf wordt overgenomen door Computer Tabulating Recording. Het zou een jonge verkoper van dat bedrijf, Tom Watson, zijn die in 1920 de firma International Business Machines sticht. 1937 Alan Turing publiceert een paper over “Computable Numbers”, waarin de theoretische Turing-machine wordt beschreven. 1938 Claude Shannon publiceert over de mogelijke implementatie van symbolische logica met behulp van relays. 1943 ENIAC (Electronic Numerator, Integrator, Analyzer, and Computer), tientallige elektronische rekenautomaat, ontworpen door J. Presbert Eckley en John Mauchly. 1945 John von Neumann beschrijft de toekomstige EDVAC, de eerste “storedprogram computer aka “von Neumann computer”. 1949 EDVAC (Electronic Discrete Variable Automatic Computer), elektronische tweetallige intern programmeerbare computer; 1951 UNIVAC produceert de eerste commerciële computer; begin jaren ’50 Bij de Bell laboratoria wordt de transistor ontwikkeld, o.m. door William Shockley, die een van de eerste bedrijven opricht in het latere Silicon Valley. 1960 Digital Equipment Corporation introduceert de mini-computer. 1964 In Dartmouth’s College wordt de programmeertaal ‘Beginner’s All-purpose Symbolic Instruction Code’, kortweg BASIC, ontwikkeld. 1965 De chip (geïntegreerd circuit) maakt verdere miniaturisering mogelijk. 1968 Robert Noyce en Gordon Moore richten Intel Corporation op. 1971 De eerste microprocessor Intel’s 4004, met 2300 transistoren, naar een ontwerp van Ted Hoff. 2.2.1 Historiek van de PC 1973 Gary Kildall ontwerpt CP/M (Control Program/Microcomputer), het eerste Operating System voor microcomputers. 1975 Altair 8800: de eerste commercieel verkrijgbare PC, met een Intel 8080 processor. Paul Allen en Bill Gates ontwikkelen een Basic-versie voor de Altair, en stichten Micro Soft, het latere Microsoft. 1977 Apple II. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 9 2.2. KORTE HISTORIEK VAN DE COMPUTER 1981 IBM lanceert zijn Personal Computer (PC); Microsoft koopt QDOS (Quick and Dirty Operating System) van Tim Patterson en ontwikkelt daaruit MS-DOS (Microsoft Disk Operating System) voor de IBM PC. 1983 Apple Lisa: eerste grafische microcomputer. 1984 Apple Macintosh. 1987 OS/2 1.0. 1990 MS-Windows 3.0 (1985 Windows 1.0, 1987 Windows 286/386). 1992 OS/2 2.0 32-bit multitasking op de PC, Windows 3.1. 1993 Windows NT, Apple Newton, Pen-computing en PDA's de computer krijgt het statuut van polshorloge, agenda en brieventas. 1993 Multimedia PC: integratie van beeld en geluid. 1994 Linux, Intel Pentium, Apple Power-PC. 1995 Windows 95. 1996 Windows NT 4.0. 1998 Windows 98. 2.2.2 Referenties Meer informatie over de geschiedenis van de computer kan men o.m. terugvinden op volgende locaties: • Bekijk ook de Powerpoint-versie van deze historiek: http://fuzzy.arts.kuleuven.ac.be/F207/slides/historiek.ppt • Yahoo: http://www.yahoo.com/Computers_and_Internet/History/ • Chronology of Digital Computing Machines: http://www.best.com/~wilson/faq/chrono.html • Chronology of Events in the History of Microcomputers: http://www.islandnet.com/~kpolsson/comphist.htm • The Computer Museum: http://www.tcm.org © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 10 2.3. HARDWARE 2.3 Hardware De computer is een general purpose-automaat. Deze mogelijkheid tot universeel programmeren onderscheidt de computer van automaten met een specifiek doel (wasautomaten, parkeerautomaten, enz.). • Supercomputers Grote computersystemen, meestal mainframes, ontworpen voor maximale rekenkracht. Dergelijke machines zijn nodig voor talloze toepassingen van modelleren, zoals weersvoorspelling, computersimulaties e.d.m. Vaak wordt een technologie gebruikt die parallelle verwerking van instructies mogelijk maakt. Een voorbeeld van dergelijke supercomputer is de SP2 van het Universitair Rekencentrum K.U.Leuven. • Mainframes Kamervullende computersystemen, ontworpen voor toepassingen waarbij opslagcapaciteit, beveiliging en verwerkingskracht (aantal transacties per seconde) erg belangrijk zijn. Deze machines worden vaak ingezet als centraal computersysteem voor grote organisaties zoals ministeries, banken, verzekeringsmaatschappijen, luchtvaartmaatschappijen en constructeurs. Duizenden gebruikers kunnen gelijktijdig bediend worden via het principe van time-sharing, waarop de meestal proprietaire besturingssystemen van deze machines zijn gebaseerd. Mainframes kunnen zeer grote bestanden aan, en beschikken over een ruim arsenaal aan beveiligingstechnieken. • Mini-computers Lange tijd de mainframes van de KMO's, gaat het hier vaak om kleinere computersystemen die met een minimum aan onderhoud en personeelskosten een efficiënt beheer toelaten. In de wetenschappelijke wereld domineerden hier systemen met het VAX/VMS Operating System en Unix, waarbij VMS uitblinkt in stabiliteit en probleemloosheid, daar waar Unix de voordelen biedt van een open ontwikkelomgeving. In de zakelijke wereld gelden ook weer proprietaire systemen, niet zelden AS/400 van IBM. Vaak bedienen mini-computers enkele tientallen gebruikers via terminals. Dit betekent dat men slechts één centrale machine moet beheren, wat dergelijke systemen goedkoop in gebruik maakt. Een grote betrouwbaarheid en de beschikbaarheid van degelijke zakelijke toepassingen hebben veel KMO's een gezonde administratie bezorgd. Sinds een vijftal jaren is er evenwel een evolutie ten nadele van de mini-computers naar netwerken van PC's. • Werkstations State-of-the-Art compacte machines met vaak uitgelezen randapparatuur voor hooggespecialiseerde doeleinden. Workstations vindt men vooral in de engineering, de wetenschappelijke wereld, en de grafische en media-sector. Deze computers zijn meestal opgebouwd rond een RISC-architectuur en bieden een fenomenale © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 11 2.3. HARDWARE rekenkracht voor een beperkt ruimtebeslag. De grote, kwalitatieve beeldschermen lenen zich uitermate voor beeldverwerking en computer-animatie. Unix is hier als vanzelfsprekend een dominant OS, waarmee het bewijst naast transactie-gericht ook een uitstekende basis te vormen voor interactieve toepassingen. "The Network is the Computer", luidt de slogan van één van de marktleiders, waarmee meteen duidelijk wordt dat er niet zoiets bestaat als een geïsoleerd Workstation. Clusters van gekoppelde Workstations rivaliseren graag met forse mainframes, als het om rekenkracht gaat. Op zuivere I/O moeten ze wellicht nog de duimen leggen, maar de evolutie van de netwerk-technieken maakt dit een onbesliste strijd. • Personal Computers Behoeven niet langer een introductie. Gekoppeld in LAN's of Local Area Networks vormen ze het dominante computerplatform van vandaag. Stand-alone worden ze door een massa-industrie in de huiskamer gebracht. De controverse over de reële kosten van PC-netwerken zal steeds een achterhoedegevecht blijven, omdat de waarheid hier niet geweten wil worden: de lage aanschafprijs bezorgt de PC-industrie een gigantische omzet. De Personal Computer draait voor het merendeel nog steeds op een CISC-architectuur, geoptimaliseerd voor de integer-verwerkingskracht nodig voor de meeste kantoortoepassingen. De belangrijkste toepassingen van de PC blijven uiteraard het rekenblad, de tekstverwerker en de persoonlijke database, maar stilaan vinden grafische toepassingen meer en meer hun weg naar dit platform. Dit kunnen technische toepassingen zijn, zoals AutoCad, of meer artistieke zoals Corel Draw en de vele opmaakpakketten. Door z'n evolutie naar een multimedia PC lijkt deze tien jaar oude technologie nog een tweede jeugd te kunnen beleven. • Network Computers Een computer met minimale vereisten aan opslag, geheugen en verwerkingskracht, geoptimaliseerd om binnen een netwerk, meer bepaald het internet, te fungeren. Centrale gedachte is dat de netwerk computer zoveel mogelijk gebruik maakt van resources op het netwerk, en een minimum aan lokale configuratie vereist. Dit kan door gebruik te maken van een web-browser, niet alleen om informatie op te vragen maar ook om computertoepassingen zoals een rekenblad of een tekstverwerker mee uit te voeren. De code voor die toepassingen komt dan rechtstreeks van het netwerk. Op die manier beschikt de gebruiker ook steeds over goed geconfigureerde en moderne software. • Personal Digital Assistants Oorspronkelijk bedoeld als een radicale technologische omwenteling tegenover de gedateerde PC, is dit nu vooral een niche-product. Tegenover de uitontwikkelde CISC van de PC werd geopteerd voor de veelbelovende RISC-technologie, gekoppeld aan extreme miniaturisatie. Het logge en plaatsrovende keyboard moet plaats ruimen voor een geapprecieerd oudje, de pen, met de noodzaak voor goede schriftherkenningssoftware. Ingebouwde telecom zoals Fax, mobilofonie en © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 12 2.3. HARDWARE straalverbindingen moesten van dit toestel een wereldburger maken in tegenstelling tot de honkvaste PC. Technologische problemen enerzijds en de snelle evolutie richting multimedia anderzijds hebben dit veelbelovende toestel aanvankelijk naar een tweederangspositie verdrongen. Voor speciale toepassingen zoals stockbeheer of fieldwork bleef het evenwel een verrijking van het technologische potentieel. De huidige generatie "Palmtop PC's" slaat wel aan, onder meer via de introductie van het aangepaste besturingssysteem Windows CE. 2.3.1 Referenties Wie informatie over computertermen wil opzoeken kan best terecht bij volgende digitale woordenboeken: • PC Webopaedia (http://www.pcwebopaedia.com) • Free On-Line Dictonary of Computing (FOLDOC, http://wombat.doc.ic.ac.uk) 2.3.2 De Personal Computer Een computersysteem bestaat uit een samenstel (configuratie) van volgende onderdelen: • het centrale verwerkingsgedeelte; • invoerapparatuur; • opslagapparatuur; • uitvoerapparatuur. 2.3.3 Het centrale verwerkingsgedeelte Het centrale verwerkingsgedeelte verzorgt de coördinatie van de gang van zaken in de computer. Het omvat: • de centrale verwerkingseenheid (processor; CPU: Central Processing Unit); • het interne geheugen (centrale geheugen; CM: Central Memory). De kracht van de centrale verwerkingseenheid wordt aangeduid door het soort processor, b.v. 32-bits-processor. Een bit is de allerkleinste eenheid waarmee een gegeven kan worden voorgesteld (aan/uit). Een 16-bits processor kan woorden van 16 bits tegelijk verwerken. Moderne 32-bits processoren (er bestaan ook reeds 64-bits microprocessoren) kunnen 32 bits tegelijk verwerken, wat een aanzienlijke winst in snelheid betekent. De capaciteit van het interne geheugen wordt uitgedrukt in bytes. Een byte bestaat uit een reeks van acht bits die tezamen als eenheid worden behandeld. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 13 2.3. HARDWARE Geheugencapaciteit wordt in de praktijk uitgedrukt in kilobyte (Kb), megabyte (Mb) of gigabyte (Gb). Naargelang de architectuur spreekt men van: • micro- of personal computers (pc's); • workstations (single user); • LAN-servers (Local Area Network); • minicomputers (multi-user); • mainframe computers; • supercomputers. Bij de zogenaamde microcomputers speelt de CPU een doorslaggevende rol in de algehele architectuur. Wat de pc's betreft, worden tot op heden vier generaties onderscheiden: • De 1ste generatie pc's had 8-bits-processoren en een intern geheugen van max. 64 Kb; • De IBM-PC (1981) introduceerde de 16-bits-processoren en een intern geheugen van 512 of 640 Kb (XT = Extended Technology); de beschikbare adresruimte telt 20 bits. De AT-versie 286 (Advanced Technology, 1984) is krachtiger: 16 Mb adresseerbaar geheugen in protected mode; • 32-bits-processoren (386, 486), en kan tot 4 Gb (= 232) adresseren in de speciale 386-modus, die virtueel geheugen toelaat (d.i. geheugen op de harde schijf dat als RAM adresseerbaar is): adresruimte van 32-bits. • Pentium processor en verschillende RISC-processoren. Klokfrequenties van 100 MHz en hoger; implementatie van verschillende technieken voor prestatieverbetering: superscalar design, pipelining, branch prediction. De merknaam "Pentium" lijkt te suggereren dat het om een "fifth generation" CPU zou gaan, dit zou echter veronderstellen dat er tussen de 386- en 486-processoren een generatieverschil zou bestaan, wat moeilijk kan worden hard gemaakt. Een superscalaire processor kan twee of meer zogenaamde scalaire instructies in parallel uitvoeren. Een scalaire instructie is een instructie die zelf niet kan opgesplitst worden in parallelle deeltaken. Om meerdere van dergelijke instructies tegelijk te kunnen uitvoeren beschikt een superscalaire processor over meerdere pipelines, nl. reeksen van functionele eenheden, a.h.w. assemblagelijnen, die de instructies stap voor stap uitvoeren. Branch prediction is gebaseerd op een statistische analyse van de uitkomst van een vertakking in het programma. Men voorspelt welke richting het resultaat zal uitgaan en berekent onder die hypothese reeds enkele verdere instructies van het programma (speculative execution). Verdere prestatieverbetering kan men © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 14 2.3. HARDWARE bekomen door het optimaal ordenen van de uit te voeren instructies, los van de feitelijke ordening in het programma (out-of-order execution). Belangrijke onderscheidende eigenschappen voor een microprocessor zijn: de instructieset, de adresruimte, de klokfrequentie, het interne datapad, het externe datapad, de aanwezigheid van een adres- of instructiecache, de aanwezigheid van een drijvende komma-processor. De instructieset kan complex (Complex Instruction Set Computer, CISC) of gereduceerd zijn (Reduced Instruction Set Computer, RISC). De instructieset bestaat uit de elementaire opdrachten die de processor als machine feitelijk kan uitvoeren. Men kan daarbij kiezen voor een zeer beperkte set van uiterst snel uitvoerbare taken (RISC), of het opnemen van een groter assortiment van taken (CISC), wat het ontwikkelen van compilers (vertalers van hogere programmeertaal naar machinetaal) vergemakkelijkt. De huidige PC's zijn CISC-machines; veel werkstations daarentegen steunen op RISC-technologie. Het feit dat heelwat toepassingen ontwikkeld werden met compilers voor de specifieke instructieset van de Intel x86-architectuur houdt een veralgemeende overgang naar de RISC-technologie tegen. Wel is het zo dat moderne x86-CPU’s over een heel arsenaal geavanceerde processortechnieken beschikken die men ook terugvindt in de RISC-designs. De adresruimte wordt bepaald door het aantal bits dat door de processor wordt gebruikt om een geheugenadres te bepalen. Ook de kloksnelheid bepaalt mede de verwerkingscapaciteit van de machine, b.v. 100, 200 of 300 MHz frequentie. Steeds vaker ziet men een onderscheid tussen de interne kloksnelheid van de CPU en de kloksnelheid van het moederbord. Vermits een moederbord aan hoge frequentie strengere fabricagenormen stelt, is een uitweg de processor intern aan dubbele of drievoudige snelheid te laten lopen. Tabel 1. Overzicht van de meest voorkomende processoren PROCESSOR SNELHEID OMSCHRIJVING Motorola 68030 12-33 MHz Typische Macintosh-CPU Motorola 68040 25-33 MHz Met interne cache Intel 80386SX/SL 12-33 MHz 16/32-bits; voor draagbare PC's Intel 80386 20-33 MHz 32-bits; Intel 80486 20-66 MHz 32-bits met interne cache van 8 Kb en geïntegreerde FPU; Intel Pentium 60-166 MHz 32-bits met 64-bits datapad; superscalair Intel Pentium Pro 166-200 MHz Geïntegreerde cache, Dual Independent Bus (DIB), voorzieningen voor multi-processing tot 4 © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 15 2.3. HARDWARE processoren Intel Celeron Intel Pentium II Intel Pentium II Xeon 233 tot 400 MHz DIB, S.E.C. package voor CPU en L2 cache (Celeron: zonder L2 cache), multi-processing voor 2 processoren standaard voorzien, ook versie voor meerdere processoren (Xeon) AMD K6-2 333 MHz 3D-Now MIPS R4000 >50 MHz RISC, 64-bits voor grafische werkstations IBM/Motorola PowerPC 75-350 MHz Implementatie van de IBM power-architectuur in 32- en 64-bits varianten. Zeer modern RISContwerp, toegepast in o.m. de Apple Power-PC De snelheid waarmee steeds hogere kloksnelheden aangeboden worden bevestigen de waarde evan de RISC-architectuur Sun Ultrasparc 100-300 MHz RISC, state-of-the art Workstation-processor Digital Alpha > 100 MHz, tot 64-bit processor, snelste RISC, NT-platform bij 600 Mhz uitstek Traditioneel wordt de performantie van microprocessoren gemeten voor drie deelaspecten: • Integer snelheid Van belang voor de standaard PC-toepassingen. Hier gebruikt men voornamelijk de norm van de Standard Performance Evaluation Corporation (http://www.specbench.org) gebruikt, met name SPECint95. • Floating Point snelheid Vooral van belang voor zwaar rekenwerk, te meten met o.a. SPECfp95 • Multimedia performantie Wordt nuttig nu men meer en meer elementen van de specifieke beeldverwerking en geluidsverwerking door de CPU wenst te laten doen. Een voorbeeld is de in nieuwere Intel-processoren geïntegreerde MMX-technologie (Multimedia Extensions), waarbij via de SIMD-techniek (Single Instruction – Multiple Data) de processor geoptimaliseerd wordt om typische beeldverwerkingstaken sneller uit te voeren. Het meten en vergelijken van multimedia-performantie is uiteraard erg moeilijk. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 16 2.3. HARDWARE 2.3.4 Randapparaten Van de in wat volgt opgesomde apparatuur zijn er een aantal devices die kunnen gerekend worden tot de PC zelf, zoals toetsenbord, muis en beeldscherm, andere kunnen optioneel worden verbonden. Randapparatuur dient aan de computer te worden verbonden door middel van specifieke controllers, die met de CPU communiceren via een systeembus. Deze bus kan volgens verschillende specificaties ontworpen zijn. Bij de PC zijn dit vaak de standaard ISA (Industry Standard Architecture) bus (ook wel AT-bus genaamd) of de meer recente EISA (Extended ISA) voor servers, MCA (Micro Channel Architecture, 32-bits design van IBM) of PCI (Peripheral Component Interconnect, van Intel). Bij Apple vindt men ook de NuBusspecificatie. Het zijn de specifieke controllers die de code kunnen uitvoeren nodig om de verschillende randapparaten te besturen. Deze controllers, die alle voor een bepaalde architectuur ontworpen zijn, meestal ISA of nu PCI, kunnen geheel nieuwe logica bevatten. Het idee om de CPU via een standaard bus te laten communiceren met randapparatuur geeft aan de PC een open en modulair karakter. De openheid zorgt ervoor dat fabrikanten onafhankelijk van de ontwerper van het moederbord nieuwe technologie kunnen ontwikkelen die toch met de bestaande PC kan samenwerken, door tellkens nieuwe modules, i.c. aangepaste controllers, te ontwerpen. Dat maakt van de PC een evolutief product, dat een ware metamorfose heeft ondergaan sinds zijn ontstaan. Op de syteembus van een PC wordt meestal standaard een I/O (In/out)-controller aangesloten met een UART-chip. Daarop kunnen dan een parallelle printerpoort en een aantal seriële (meestal 2) communicatiepoorten RS-232C worden aangesloten. Bij RS-232C past nog enige nadere verklaring. RS-232 is de Electronics Industry Association (EIA) standaard voor een seriële poort, en preciseert de pin-outs voor de te gebruiken connector. RS-232 is equivalent met de ITU-T (International Telecommunications Union) standaard V.24. Deze standaard bepaalt het elektrische circuit tussen DCE (Data Communication Equipment, b.v. een modem) en DTE (Data Terminal Equipment, b.v. een computer). Recenter is de Universal Serial Bus (USB), een gemeenschappelijke standaard voor PC en Mac. Via USB kan een PC biserieel met tot 127 randapparaten communiceren over goedkope kabel, die tot 5 m lang mag zijn. De snelheid ligt bij 12 Mbps. USB moet gaandeweg de huidige seriële en parallelle poorten vervangen, en men kan er toestenbord, muis, printer, beeldscherm etc. mee aansluiten. Voor harde schijven, scanners etc. dient zich als nieuwere technologie FireWire (IEEE 1394) aan, ook wel High Performance Serial Bus genoemd. Hiermee zijn snelheden tot 400 Mbps mogelijk. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 17 2.3. HARDWARE 2.3.4.1 Invoerapparatuur (input devices) • toetsenbord • muis • lichtpen • touch-screen • barcode-pen of barcode-scanner • digitaliseerapparaat (digitizer) • optische scanner • microfoon • videocamera 2.3.4.2 Opslagapparatuur (storage devices) Het externe geheugen dient voor het langdurig bewaren van gegevens: • verwisselbaar: diskette (3,5 inch) bij de diskettes onderscheidt men: • Double Density (720 Kb); • High Density (1,44 Mb); • Super High Density (2,88 Mb). • niet verwisselbaar: harde schijf, b.v. 850 Mb of 1,2 Gb (met een tape-streamer kan op een cassette een reservekopie van de inhoud van een harde schijf gemaakt worden). Meest courant zijn types voor aansluiting op een IDE of een SCSIinterface. IDE (Integrated drive Electronics) is een disk interface standaard gebaseerd op de IBM PC ISA 16-bit bus. De IDE specificatie beschrijft de stroom en data uitwisseling tussen het moederbord, de geïntegreerde controller en de disk. De IDE bus laat maar 2 devices toe, een “master” en een “slave”. Een recentere specificatie, EIDE (Extended IDE) laat een hogere doorvoer toe en meer aangesloten devices. SCSI of Small Computer System Interface is een processor-onafhankelijke standaard voor interfacing tussen een computer en verschillende devices zoals harde schijven, printers, CD-ROMs etc. SCSI kan tot 7 devices op een enkele controller aansluiten. De originele standaard wordt nu SCSI-1 genoemd in onderscheid met de modernere SCSI-2 en SCSI-3 standaarden die o.m. specificaties inhouden voor Wide SCSI (een 16-bit bus) and Fast SCSI (10 MB/s transfer). SCSI-1 werd gestandaardiseerd als ANSI X3.131-1986 en ISO/IEC 9316. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 18 2.3. HARDWARE • optische geheugens: Optical Disk: optische diskette van verschillende formaten. Hier bestaan een groot aantal produkten, zoals het MD-formaat van Sony, de ZIP en Jazz-drives van Iomega, … Vaak capaciteiten van 100 MB tot enkele GigaB. CD-ROM: Compact Disc-Read Only Memory De CD kan 654,7 MB aan data bevatten, of 74 minuten 30 seconden audio. Het gaat om een schijf van 12cm diameter, dat bestaat uit drie lagen: een polycarbonaat-laag, een spiegelende metaallaag en een Acrylic beschermlaag. De snelheid van de CDRom-speler wordt uitgedrukt t.o.v. de snelheid van audio-CD's (= 1). Men vindt heden ten dage reeds 32x CD-ROMs! CD's hebben een eigen file-systeem, waarvoor ISO 9660 een standaard is, waarvan een aantal implementaties bestaan. Meer geavanceerde implementaties vergen het CD-ROM-XA (Extended Architecture) formaat. Het CD-ROM-XA formaat laat toe gecomprimeerde audio- en videodata te interleaven, wat een betere performantie geeft bij Multimedia-toepassingen. Voor Apple Computers wordt het HFS-filesysteem (Hierarchical File System) gebruikt, waardoor de CD gelezen kan worden als een Apple harde schijf. Hybride CD's bevatten zowel een HFS- als ISO 9660 filesysteem. Het is ook mogelijk een CD zowel te beschrijven met audiotracks (tracks #2-#99) en een datatrack (track #1). Men spreekt dan van een mixed-mode disc. CD-R: Compact Disc Recordable (Orange Book CD's) Deze CD's, met hun opvallende gouden reflexielaag, bevatten een tussenliggende "dye" datalaag, die kan beschreven worden. CD-RW: Compact Disc Read-Write. Deze "zilveren CD's" hebben een phase-change datalaag. CD-I: Compact Disc Interactive (Green Book CD's) CD-Video: Compact Disc Video (White Book CD's) Deze standaard laat toe om audio en full-motion video te interleaven (met MPEG-compressie). Zie http://www.cd-info.com/, met o.m. http://www.cdinfo.com/CDIC/Technology/Terminology.html Photo-CD: proprietair formaat van Eastman Kodak hoogkwalitatieve digitale beelden op een CD te plaatsen. Company dat toelaat Zie http://www.kodak.com/global/en/service/software/photoCDPapers.shtml © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 19 2.3. HARDWARE CD-DA (Audio-CD)3 De digitale Audio-CD is een formaat waarbij met een frequentie van 44,1kHz aan 14 of 16 bits per sample, per kanaal de digitale gegevens worden opgeslagen. Hierdoor verkrijgt men een debiet van ongeveer 155Kb. per seconde. Deze standaard is gebaseerd op de leestechniek met zwakke laser, voortkomende uit deze van de videodisks. De standaard zelf is in 1982 ontstaan. Voor meer informatie kan u steeds het "RED BOOK" raadplegen. De diameter van de schijf bedraagt 12 cm. Het schijfje is vervaardigd in POLYCARBONAAT met een aluminiumlaag om het licht van de laser te weerkaatsen. Bij het persen van de CD worden er microgroeven van 0,9 op 3,3 µm. aangebracht op een spiraal die 0,4 µm. breed is. De binaire gegevens worden als volgt opgeslagen : al dan niet een putje stelt een “1” voor, als de toestand dezelfde blijft stelt het een “0” voor. De snelheid waarmee de laserstraal de roterende disk aftast bedraagt 1,3 meter per seconde, zodat het mogelijk is bijna 74 minuten geluid op een CD-DA plaatje op te slaan4. Er bestaat ook een mini versie, nl. de single die 8 cm. doormeter heeft en tot 20 minuten muziek kan bevatten. Het audiosignaal zelf wordt opgeslagen in frames van +/- 136ms, die dus een lengte hebben van 24 bytes. Hierbij voegt men nog wat informatie zoals de duur van de nummers, indexnummering, pariteitsbits en synchronisatiebits. Voor de foutcorrectie wordt hier CRC (Cyclic Redundancy Check) toegepast. Het EFM-frame van een audiocd bevat 588 bits, een deel voor synchronisatie en een ander deel van 32 databytes (16 L. en 16 R.). De laatste 4 bytes per kanaal zijn voor foutcorrectie, zodat de overblijvende 12 bytes 6 samples van elk 16 bits bevatten, die met een frequentie van 7350 Hz uitgelezen worden. (44.1 kHz =6 x 7350Hz) DVD: Digital Versatile Disc. Opvolger van de CD-ROM en VHS video-casette. Zeer grote capaciteit, die toelaat een volledige Hollywood-speelfilm op te slaan (Daarvoor zijn nog steeds twee CD-I-schijven nodig). De capaciteit van een DVD is 17 GB. DVD gebruikt MPEG (MPEG-2 multi-channel Audio) en Dolby compressietechnieken. Moeilijkheid daarbij is wel de noodzaak voor ondersteuning van zowel NTSC (USA/Japan) als PAL (Europa). 3 Met dank aan Ivo Jossart, Dienst Informatieverwerking Letteren 4 Er zijn cd’s beschikbaar die tot 80’ geluid kunnen opslaan, gewoon men met bepaalde standaardwaarden voor de cd heeft zitten spelen. Voor het opslaan op CDR’s blijkt deze lengte echter veel te onbetrouwbaar te zijn. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 20 2.3. HARDWARE 2.3.4.3 Uitvoerapparatuur (output devices) Beeldschermen of monitors: men onderscheidt digitale, analoge en multisyncbeeldschermen. Kenmerkend voor de prestaties van een beeldscherm zijn de beeldfrequentie (horizontaal/verticaal), het aantal beeldpunten dat kan worden getoond (de resolutie) en de pixelscherpte (de grootte van één beeldpunt). Vanaf 72 Hz beeldfrequentie spreekt men van een trillingsvrij beeld (heel belangrijk voor tekstverwerking). Hogere refresh-rates zijn nodig voor beeldverwerking. De meeste schermen kunnen de resolutie van VGA- en superVGA videokaarten (zie verder) aan: 640x480 of 800x600 beeldpunten. Vanaf .28 pixelscherpte heeft men een naar huidige normen aanvaardbare beeldscherpte. Tenslotte heeft men monitoren in verschillende groottes: courant is 15 inch, voor DTP wordt wel eens A3 (21 inch) gebruikt. Videokaarten: de huidige standaard voor PC's is Super VGA (Video Graphics Array). VGA heeft 640 op 480 beeldpunten bij 16 kleuren. Super VGA noemt men elke hogere resolutie of hoger aantal kleuren volgens dezelfde VGA technologie. Verouderd zijn CGA (Color Graphics Adapter) en EGA (Enhanced Graphics Adapter). IBM kent daarnaast nog XGA (Extended Graphics Array). Belangrijk bij een videokaart is onder meer de snelheid en capaciteit van de RAMDAC of Random Access Memory Digital-to-Analog Converter, waar de kleurentabellen in opgeslagen zitten en het beschikbare videogeheugen, in de vorm van VRAM (Video RAM), SDRAM (Synchronous Dynamic RAM) of SGRAM (Synchronous Graphics RAM). Veel videokaarten beschikken over specifieke grafische versnellers, die inspelen op software-standaarden voor grafische manipulatie, zoals OpenGL, DirectX en Direct3D. Om performantieredenen worden de meeste video-kaarten nu voor PCIslots aangeboden. Via de nieuwere AGP-standaard (Accelerated Graphics Port) kan ene videokaart echter nog sneller met het hoofdgeheugen communiceren (133 MHz veruss 66MHz in PCI). Dit maakt het mogelijk relatief goedkope videokaarten aan te bieden die kunnen concurreren met professionele grafische versnellers, vooral wat betreft 3D-rendering (=grafische weergave van een object in 3 dimensies vanuit een mathematisch model, zodat manipulatie mogelijk wordt). Draagbare computers worden vaak uitgerust met LCD (Liquid Christal Diode)- of Plasma-beeldschermen. Men verwacht dat de vlakke beeldschermen - TFT (Thin Film Transistor) of plasma - de gewone bureaumodellen zullen vervangen. Daarbij spelen het geringere stroomverbruik en lagere straling zowel als de geringere afmetingen een doorslaggevende rol. Kleur mag als vanzelfsprekend beschouwd worden. Men onderscheidt, al naargelang de kleurdiepte (aantal bits kleurinformatie per pixel): 16 kleuren: VGA standaard, totaal verouderd; 256 kleuren: voldoende voor illustratieve tekeningen en een globale indruk van een kleurenfoto; 64.000 kleuren (HIGH COLOR): voor presentaties, grafische toepassingen; © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 21 2.3. HARDWARE 16 miljoen kleuren (TRUE COLOR): 24 bit informatie per beeldpunt, nodig voor professionele beeldverwerking. True Color geeft een foto-realistische weergave van beeld. Om tot een getrouwe kleurenweergave te komen is ook de kleurtemperatuur van de monitor belangrijk: ca. 8000 K. Meer en meer vindt men systemen voor kleurijking, waardoor natuurgetrouwe kleurweergave mogelijk wordt. Printers: • matrixprinter • laserprinter • inktstraalprinter De matrixprinter werd vaak ingezet voor goedkope en snelle listings. In het algemeen worden ze nu uit circulatie genomen wegens een aantal inherente nadelen: de gradueel degenererende afdrukkwaliteit; de belangrijke lawaaihinder; de slechte afdrukkwaliteit en last but not least het te grote aantal bewegende delen, wat storingen, defecten en slijtage bevordert. De laserprinter kent een zeer groot toepassingsveld: aangesloten op Mainframes kan hij gebruikt worden om zeer grote hoeveelheden drukwerk aan hoge snelheid te produceren; in een kantoorsituatie worden vooral de stille werking en de goede afdrukkwaliteit gewaardeerd. De huidige resolutiestandaard is 600 dpi; meer en meer worden kleurenlaserprinters ingezet. Laserprinters worden aangestuurd via een pagina-beschrijvingstaal. Courante beschrijvingstalen zijn PostScript en PCL. De inktstraalprinter is toegesneden op de thuismarkt: goedkoop, milieuvriendelijk en stil. Nadelen zijn de geringe afdruksnelheid en hogere drukkost. Communicatie met de printer gebeurt meestal met een Centronics-interface of parallelle printerpoort. Het kan ook gebeuren via de standaard seriële communicatiepoort (RS-232C) of een optionele SCSI-adapter. Moderne apparaten hebben niet zelden een ethernetkaart on-board, of een Infrarood-parallelle poort. Tot besluit kunnen we stellen dat in de komende jaren beeld en geluid in toenemende mate aan belang gaan winnen: na de veralgemening van de kleurenmonitor zal de kleuren-inktstraalprinter en in een later stadium de kleuren-laserprinter sterk op de voorgrond treden. Een hedendaagse multimedia-PC is uitgerust met een stereo geluidskaart of -chip, een CD-ROM speler en een videokaart. Geluidskaart Een geluidskaart heeft volgens de huidige standaard vaak 16-bit met 44KHz stereogeluid en uitgerust met een MIDI (Musical Instruments Digital Interface)-adapter en niet zelden een wave-table met geluidssamples. Een dergelijke uitbreidingskaart laat toe muziek op te nemen, af te spelen, te bewerken etc. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 22 2.3. HARDWARE Videokaart Naast de standaard beeldschermaansturing via een VGA of SVGA-adapter kan men ook Full Motion Video trachten af te beelden door middel van speciale videoaccelaratiekaarten. Meestal beschikken deze kaarten over een hardwaredecompressie-algoritme om gecomprimeerde videodata te decoderen. Beschikt men niet over dergelijke hardware, dan moet het decoderen via software gebeuren (i.c. door een Codec), d.i. door de CPU, wat uiteraard een bijkomende systeembelasting vormt met een belangrijke degradatie van de prestaties tot gevolg. Via software is het nagenoeg niet haalbaar de 30 frames/seconde die nodig zijn voor goede Full Motion Video op een aanvaardbare beeldgrootte af te spelen. Met een video-accellerator is dit wel mogelijk, en met een MPEG-decoderkaart kan men dit zelf vlot Full-screen op 800 op 600 beeldpunten. MPEG staat voor Moving Pictures Experts Group, een ISO-comité (International Standards Organisation) dat standaarden voor digitale audio- en videocompressie moet voorstellen. Het is tevens de naam voor het van dit comité afkomstige algoritme. Zie o.m. http://www.mpeg.org en voor video meer bepaald http://wwwam.hhi.de/mpeg-video/papers/sikora/mpeg1_2/mpeg1_2.htm. 2.3.4.4 Communicatie-apparatuur (I/O) modems We vermelden reeds het traditionele I/O-bord met UART-chip (Universal Asynchronous Receiver/Transmitter), waarop niet zelden een modem of modulator/demodulator wordt aangeschakeld De huidige UART 16550 kan tot 115200 bps aan. Via een modem kan men een data-communicatie opzetten over een analoge (telefoon)lijn. De snelheid waarmee dit gebeurt wordt uitgedrukt in bps of bits per seconde. Naargelang de gebruikte modulatietechniek kunnen vrij hoge transmissiesnelheden gehaald worden, tot 28.800 bps. Dit hangt af van de gevolgde norm, waarbij de meest courante normen op dit ogenblik V.32bis (14.400) en V.34 (28.800) zijn. Indien men de data in gecomprimeerde vorm doorstuurt en aan de receiver-zijde terug decomprimeert, kan men dit nog verder optimaliseren. De verschillende compressienormen V.42bis en MNP5 (Microcom Networking Protocol) maken dit op het niveau van de modem mogelijk. Daarmee kan met een modem een effectieve data-overdracht van tot 57600 bps en meer worden gehaald. ISDN (Integrated Services Digital Network). Een reeks communicatiestandaarden die toelaten over een telefoondraad of optische vezel spraak, video en netwerkdiensten aan te bieden. Met de ISDN-standaard voor een digitaal telefoonnetwerk zijn hogere snelheden mogelijk van 64 Kbps tot theoretisch 128 Kbps. Hoge snelheden zijn uiteraard maar © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 23 2.4. SOFTWARE mogelijk via foutcorrectie, waarvoor ook weer een aantal normen bestaan: V42 en MNP4. DSL (Digital Subscriber Line) Hierbij gaat het om een standaard die voornamelijk bedoeld is om over bestaande koperdraadlijnen hoge snelheidsverbindingen te realiseren. Dat maakt de standaard erg aantrekkelijk voor telefoonmaatschappijen. Vooral bedoeld voor Video-on-demand en internet. Bij ADSL (Asymmetric Digital Subscriber Line) is de upstream (van client naar server) veel kleiner dan de downstream (van server naar client). Met DSL kunnen telefoonmaatschappijen beter concurreren met kabelmaatschappijen voor internet-aanbieding. ETHERNET/KABELMODEM De behaalde prestaties zijn natuurlijk erg beperkt in vergelijking met de standaardperformantie van b.v. een standaard netwerkverbinding tussen PC’s (Ethernet: 10 Mbit/s). Hiervoor heeft men een zogenaamde netwerk-adapter nodig, afgestemd op een bepaald protocol, waarover later meer. Naast Ethernet-adapters kent men ook nog Token-Ring-adapters. Voor zwaardere systemen zijn adapters voor glasvezelverbindingen mogelijk (FDDI: 100Mbit/s) of speciale adapters voor moderne netwerkprotocollen zoals Fast Ethernet of ATM (Asynchronous Tranfer Mode, tot 155 Mbit/s). FDDI staat voor Fiber Distributed Data Interface, een 100 Mbit/s LAN-architectuur (Local Area Network) vastgelegd door ANSI (American National Standards Institute). 2.4 Software 2.4.1 Bestanden en programma's Enkele basisbegrippen: gegeven: ondeelbaar element dat relevantie en semantische waarde heeft; hiermee beschrijft men kenmerken van entiteiten uit de werkelijkheid; bestand (file): samenhangend geheel van gegevens, volgens een zekere ordening vastgelegd; een gegevensverzameling (data set) kan uit één of meer bestanden bestaan; programma: bestand dat een reeks van instructies bevat die (ter oplossing van een bepaald probleem) stap voor stap door de computer worden uitgevoerd. Een programma is de concrete implementatie van een algoritme: een probleemoplossing in een eindige reeks stappen. Vertaalprogramma's: zorgen ervoor dat de 'hogere' programmeertalen in binaire machinetaal kunnen worden omgezet, b.v.: assemblers, compilers en interpreters. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 24 2.4. SOFTWARE Tabel 2. Programmeertalen C Ontworpen door Dennis Ritchie bij Bell Labs. Uiterst populair in Unix-omgevingen C++ Een object-geöriënteerde superset van C, erg geschikt voor applicatie-ontwikkeling Pascal genoemd naar Blaise Pascal het gestructureerde Pascal is de didactische programmeertaal bij uitstek BASIC Beginner's All-purpose Symbolic Instruction Code Standaard meegeleverd bij de IBM PC FORTRAN Formula Translator geschikt voor wiskundig rekenwerk COBOL Common Business Oriented Language lange tijd de taal bij uitstek voor boekhoudkundige en administratieve programma’s ALGOL Algorithmic Language PL/I Programming Language One LISP LISt Processing language AI-taal, vaak gebruikt voor NLP of Natural Language Processing PROLOG Programming in Logic Logische programmeertaal, net als LISP vaak in de context van taalverwerking geïmplementeerd JAVA C-achtige programmeertaal, volledig toegelegd op; platform-onafhankelijke werking. Ideaal voor cient-server ontwikkeling in het algemeen en webdesign in het bijzonder. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 25 2.4. SOFTWARE opvraagtalen: SQL (Structured Query Language). hulpprogramma's (utilities, tools): voor specifieke functies b.v. voor het herstellen van verloren gegane bestanden; interactieve verwerking versus stapelverwerking (batch processing): Bij interactieve verwerking worden de bevelen on-line door de gebruiker opgedragen, hetzij via het toetsenbord, hetzij via een muis of lichtpen. Bij batchverwerking leest de computer instructies uit een bestand, die het dan stap voor stap zal uitvoeren. Batchverwerking is typisch voor mainframes, waar men vaak 's nachts complexe berekeningen laat uitvoeren via batchjobs. In de PC- en werkstationwereld is eerder het interactieve werken standaard. 2.4.2 Besturingssystemen Het besturingssysteem (operating system) coördineert alle functies van de computer en verzorgt de communicatie naar de gebruiker; naargelang de hardware onderscheidt men: • voor grote systemen (IBM mainframes): MVS (Multiple Virtual Storage), waarop dan via VM (Virtual Machine System Product) en TSO (Time Sharing Option) exploitatiesystemen kunnen worden aangeboden; • voor minicomputers en workstations: Unix, VMS (Virtual Memory System, voor DEC’s VAX-machines), NextStep; • voor servers: Windows NT, Netware, VINES, Lan Manager, Lan Server; • voor pc's: Windows (3.11, 95, NT), OS/2, Unix, MacOs. De taken die een modern microcomputer-OS moet vervullen: Tabel 3. Taken voor een besturingssysteem taak beheer van de processor verdeling van processortijd toewijzing van processor beheer van het centrale geheugen ter beschikking stellen van adressen laden van programma's © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 26 2.4. SOFTWARE beheer van het massageheugen toegang via filesysteem beveiliging gegevens backup encryptie logische organisatie in folders fysische organisatie: partitie formattering defragmentatie datacompressie beheer van de randapparaten aansturen videokaart configuratie toetsenbord configuratie muis beheer printer communicatie beheer communicatiekaarten serieel [evt. netwerkfaciliteiten e-mail file transfer/ file sharing host/client functies] multimedia-extensies CD-ROM player soundkaart video (analoog/digitaal) beheer van processen task-swapping co-operative multitasking pre-emptive multitasking multiple threads beheer van de gebruikers grafische schil login security 2.4.2.1 Windows De opkomst van Windows heeft ervoor gezorgd dat kennis van DOS niet echt meer nodig is om met de pc te kunnen werken. Windows is immers een grafische schil of GUI (graphical user interface) tussen de gebruiker en DOS. Windows is echter veel meer dan dat. Ten eerste is het een DOS-extender. Dit wil zeggen dat Windows alle in de computer aanwezige RAM-geheugen kan adresseren, in de vorm van XMS-geheugen. Windows © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 27 2.4. SOFTWARE stelt dit geheugen ter beschikking van z'n applicaties. Het DOS-besturingssysteem werd nl. ontwikkeld voor machines die aan 8- of 16-bitverwerking deden. De adreslijn is in DOS 20 bits groot, goed voor 220 adresruimte. Het is dan ook intreurig dergelijk besturingssysteem aan te wenden op de huidige generatie machines, die volbloed 32bits zijn en tot 4 Gb kunnen adresseren. Dankzij Windows kan de DOS-omgeving die handicap omzeilen, en nog een tijdje mee. Ten tweede kent Windows multi-tasking. Men kan dus meerdere taken tegelijk uitvoeren. Bovendien kent Windows gesofistikeerde communicatie tussen taken: OLE en DDE. OLE of Object Linking and Embedding houdt in dat men in een applicatie objecten kan opnemen die door andere applicaties gedefinieerd zijn. Zo laat het toe een tekening in een tekst te integreren. DDE of Dynamic Data Exchange maakt het mogelijk tussen applicaties gegevens door te geven. Ook kan informatie uitgewisseld worden via het clipboard of klembord. De multi-tasking van Windows is coöperatief, dit wil zeggen dat de taken in onderlinge afspraak gebruik maken van de processor, via een systeem van messaging. De message-queue of het boodschappenlijstje waar iedere taak zijn zegje doet, is dan ook het centrale stuurmechanisme van een Windows-sessie. Elke taak kan daar toegang tot een device opeisen, en daarna weer melden dat hij gedaan heeft. Nadeel van dergelijke werkwijze is dat taken wel hoffelijk moeten zijn: eerst vragen of een device wel vrij is b.v., en achteraf de device terug vrijgeven. Gebeurt dat niet, heeft men een dead-lock: alle andere taken wachten op een boodschap die niet komt. Windows kent een voor alle Windows-programma's gemeenschappelijk scherm- en printbeheer. Onder Dos is dat niet het geval: daar moet elk programma afzonderlijk geconfigureerd worden voor de aangesloten printer en het type scherm. De Windows Desktop presenteert twee hoofdprogramma's: de program manager en de file manager. De program manager neemt het beheer van uitvoerbare bestanden of programma's voor zich. Met de file manager kunnen alle soorten bestanden benaderd worden. Alle Windows applicaties kennen eenzelfde menustructuur, de CUA (Common User Access), een door IBM geïntroduceerde standaard. Typisch voor deze interface is het gebruik van Pull-down menu's, afrolmenu’s waarin de mogelijke commando's in een lijstje onder elkaar staan, gegroepeerd per topic, b.v. File, of Help. Commando's die toegang geven tot een dieperliggend menu worden onderscheiden door drie puntjes of een pijl. Windows voegt zoveel taken toe aan de DOS-omgeving, dat men meer en meer spreekt van een compleet besturingssysteem veeleer dan een schil. Zo kent de combinatie DOS/Windows centraal beheer van processen, van randapparatuur zoals beeldschermen, printers, CD-ROMs e.d.m. Ook het geheugen- en schijfbeheer wordt duidelijk boven het niveau van 'good old plain DOS' getild. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 28 2.4. SOFTWARE Windows is ook een uitstekende omgeving voor OOP (Object Oriented Programming). Daarbij worden gegevens en code meer en meer geïntegreerd tot één geheel, een object dat allerlei eigenschappen heeft en die ook kan overdragen aan deelobjecten. Een goed voorbeeld van object-georiënteerde aanpak is de voortstelling van tabulaire gegevens in moderne database-pakketten. Waar vroeger de gegevens afzonderlijk werden opgeslagen en het programma ze bij oproepen in tabelvorm giet, worden nu de gegevens als tabellen opgeslagen. Om ze op het scherm zinvol af te beelden volstaat het het tabel-object te activeren. Eigenschappen van de tabel zoals ordening van de gegevens, kolombreedte e.d.m. hoeven niet telkens weer aangegeven te worden. De sterk modulaire opbouw van Windows-software helpt programmeurs om die programmeerfilosofie aan te houden. Vooral C++ biedt verbluffende mogelijkheden. Een recente tendens in de vormgeving van Windows-applicaties is het in gebruik nemen van de rechter-muisknop, waarmee ten allen tijde eigenschappen van een op het scherm geselecteerd object kunnen worden aangepast. Men kan zich eraan verwachten dat meer en meer elementen van object-georiënteerd denken hun weg zullen vinden naar de Windows-omgeving. Windows 95, 98, … Windows NT Onder toenemende druk van de concurrentie bracht Microsoft in ’95 het langverwachte Windows 95 uit, een 32-bit protected mode versie van het Windows besturingssysteem. Dit is niet langer gebaseerd op DOS. Het start onmiddellijk op in de eigen Windows omgeving, maar biedt wel een nagenoeg perfecte ondersteuning voor DOS-programma’s. Windows 95 draait in 1 virtuele machine, de zogenaamde System VM, de Windows Kernel plus alle Windows programma’s. Elk Windows 32-bit programma (d.i. een programma dat werd ontwikkeld voor de Windows 32-bit API of Application Program Interface) ‘draait’ in een eigen, beschermde geheugenruimte. Dit betekent dat andere Windows 32-bit programma’s of Win32 programma’s de werking van dit programma niet ongunstig kunnen beïnvloeden, door b.v. geheugenplaatsen te overschrijven. Tussen Win32 programma’s onderling en de System VM geldt preemptive multi-tasking, zoals onder OS/2. Elk programma kan meerdere threads opstarten. Nochtans is Windows 95 zelf geen volledig zuiver 32-bits operating system: een belangrijk gedeelte van de code is in 16-bits assembleertaal geschreven omwille van performantieredenen. Windows 95 kent een beter disk- en filemanagement dan DOS/Windows door 32-bit installable file-systems (VFAT, Virtual File Allocation Tables en CDFS Compact Disc File System). Het kan lange bestandsnamen aan. De belangrijkste vernieuwing in Windows 95 is echter de geheel herziene GUI of Graphical User Interface. De nieuwe “Explorer” integreert nu de functies van de program manager en file-manager van de oude versie, en biedt een uniforme benadering van alle verschillende “resources”, zoals randapparaten, bestanden, programma’s, netwerkverbindingen. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 29 2.4. SOFTWARE Windows New Technology (NT) is meer op de professionele markt gericht. Het gaat om de bundeling van enerzijds een doorontwikkeling van wat oorspronkelijk Microsoft OS/2 3.0 moest worden en anderzijds de grafische Windows schil in de vorm van de Win32 API. Heelwat inspanningen werden geleverd om een zo robuust mogelijk operating system te bekomen, waarbij o.m. inzichten uit DEC’s VMS werden overgenomen. Windows NT heeft een eigen file-systeem, NTFS, dat grote voordelen biedt ten aanzien van VFAT wat betreft beveiliging, performantie en schaalbaarheid. Het kan net als OS/2 Windows 16-bit applicaties elk in een afzonderlijke VM laten draaien voor betere geheugenbescherming. Windows CE Microsoft Windows CE is een operating system platform bedoeld voor een brede waaier van toestellen voor communicatie, ontspanning en mobile computing. Het Windows CE platform zal het mogelijk maken totaal een totaal nieuwe generatie van apparatuur te ontwikkelen die in staat is te communiceren met elkaar, met PC's en het Internet. 2.4.2.2 OS/2 OS/2 werd oorspronkelijk in een gezamenlijke inspanning van Microsoft en IBM opgezet om DOS op te volgen. Met de komst van de 286 processor werd het immers mogelijk in protected mode te werken, en gebruik te maken van extended memory. Omdat IBM ook PC's optimaal wilde inzetten in een mainframe-omgeving, waarbij de PC naast de klassieke tekstverwerking en rekenblad-opdrachten ook als terminal zou kunnen fungeren, werden in de protected mode meteen kansen gezien om van OS/2 een multi-tasking omgeving te maken. Om aan de groeiende vraag naar een grafische interface te voldoen werd die vanaf de tweede versie voorzien. Daarmee leek aan alle voorwaarden voldaan voor een succesformule. Snel bleek echter dat het niet of gebrekkig ondersteunen van bestaande DOS-applicaties de verkoop sterk remde. Ook bleek OS/2 niet op het ruime aanbod van hardware te werken, waar DOS alomvertegenwoordigd was. Microsoft koos voor de vlucht naar voren: het ontwikkelde een grafische schil voor DOS, Windows, en voorzag die van primaire multitaskingmogelijkheden. Na enige jaren sloeg dit aan: vanaf 1990 is de opgang van Windows niet meer te stuiten. Het veelbelovende OS/2, ondertussen in de versie 1.3 gegroeid tot een van de stabielste micro-omgevingen ooit, werd door Microsoft niet verder ontwikkeld, wel nog door IBM. Achteraf beschouwd is de grootste misstap in de ontwikkeling van zowel OS/2 als Windows wellicht de keuze geweest voor de protected mode van de 286. Deze onfortuinlijke processor bleek behept met een fameuze ontwerpfout: bij het terugschakelen van protected mode naar real mode worden de registers gereset. Wil men op zo'n machine DOS-applicaties multi-tasken, komt men in grote moeilijkheden. Met de instorting van de 386-prijzen, kwam bovendien voor de grote massa de voor © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 30 2.4. SOFTWARE multitasking veel geschiktere virtuele mode binnen handbereik. OS/2 1.3 verloor meteen elke bestaansreden: geschreven voor een uitgestorven en weinig geliefde processor, en niet compatibel met het gros van de software. Met OS/2 2.0, 2.1 en OS/2 Warp hoopt IBM de soliede basis van OS/2 een nieuw elan te geven. OS/2 2.x is geschreven voor de INTEL 386 DX en hoger (32 bits). Het gebruikt een 32-bits adresruimte volgens een niet-gesegmenteerd geheugenmodel. De theoretisch 4 Gb aan adressen worden ingevuld met dynamisch virtueel geheugen (bij DOS/Windows is dit statisch), wat concreet betekent dat op een toestel met b.v. 50 Mb diskruimte vrij, elke applicatie 50 Mb adresseerbaar 'ziet'. Geheugen is onder OS/2 2.1 dan ook niet meer dan een hardware-issue. Voorts voorziet OS/2 in pre-emptive multi-tasking, d.w.z. dat het operating system zelf de processortijd verdeelt en op tijdsbasis terug afneemt van een applicatie, zelfs wanneer die zich niet in idle-time (leeglooptijd of wachtstatus) bevindt. Bij DOS/Windows moet het systeem wachten tot een applicatie de controle teruggeeft vooraleer tijd aan een ander proces kan worden gegeven. Dat geeft een beetje een houterige multi-tasking. Een applicatie die heel CPU-intensief is (wat niet hetzelfde is als rekenintensief), zoals een format-commando, kan de andere processen behoorlijk ophouden. Niets daarvan onder OS/2: daar neemt de kernel stug de processor terug in handen om de tijd netjes te verdelen. Toch betekent dit nog niet dat deze aanpak ongenuanceerd beter is: het is helemaal niet nodig om zo democratisch te zijn, dat elke taak een gelijk deel van de CPU-tijd mag gebruiken; een spreadsheet herrekenen b.v. kost heel wat meer CPU-tijd dan tekstverwerking. Wie b.v. 4 taken heeft op een 386 40 MHz onder OS/2, werkt eigenlijk tegelijk op vier heel trage computers van 10 MHz. Onder Windows zullen de taken die in voorgrond staan een veel grotere prioriteit krijgen; op een kalm ogenblik kan het spreadsheet b.v. herrekend worden aan een aanvaardbare snelheid. 2.4.2.3 MacOs Besturingssysteem voor de Macintosh computer. MacOs 8 is geoptimaliseerd voor de PowerPC processor, en biedt o.a. multi-tasking. Mac OS is erg geliefd in de grafische sector, met state-of-the-art multimedia-ondersteuning. 2.4.2.4 Linux Linux is een vrij Unix operating system, oorspronkelijk ontworpen door Linus Torvalds. De ontwikkeling gebeurt door vrijwilligers/professionals wereldwijd. Linux is een onafhankelijke POSIX-implementatie. Het is een multi-user systeem en omvat echte multi-tasking, virtueel geheugen, shared libraries, demand loading, TCP/IP netwerking. De source code van Linux is vrij verkrijgbaar, via de GNU General Public License. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 31 2.4. SOFTWARE 2.4.3 Toepassingsprogramma's (application software) Een groot aantal kant-en-klare (schrink-wrapped) programmapakketten verkrijgbaar voor gebruik in de meest uiteenlopende toepassingsgebieden: zijn Tabel 4. Toepassingssoftware Tekstverwerking Word, Wordperfect, Word Pro spreadsheet-programma's Excel, Lotus 1-2-3, Quattro Pro, WingZ database management systemen dBase, Paradox, Access, Filemaker, Oracle, Informix Browsers Netscape Navigator, Microsoft Explorer statistische pakketten SAS, SPSS mathematische pakketten Mathematica, MathCad, Derive desktop publishing Pagemaker, Publisher, QuarkXpress grafische pakketten Adobe Photoshop, Paint Shop Pro, CorelDraw, Micrographics Designer Presentatiesoftware Freelance Graphics, Powerpoint Computer Aided Design (CAD) AutoCad educatieve pakketten (CAI of COO) Stepin, Adam & Eve, … bedrijfsgerichte toepassingen CUBIC communicatie- en netwerksoftware Netware, Vines, PC-FTP, Lan Manager geïntegreerde pakketten Works, MS-Office Beleidsondersteunende software (EIS: executive information systems ) SAS EIS time-management software (schedulers) groupware Lotus Notes, Collabra, Groupwise spelprogramma's... Chess, Flight Simulator, Doom, … De keuze van software hangt grotendeels samen met het platform: voor mainframes moet vaak een specifieke implementatie gedaan worden van de software op de eigen © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 32 2.5. COMMUNICATIE EN NETWERKEN architectuur. De UNIX-omgeving wordt ingezet om op maat gesneden software te ontwikkelen, met behulp van het hele assortiment tools dat UNIX standaard aanbiedt. Software van een UNIX-machine overdragen op een andere betekent vaak hercompileren wegens de gebrekkig gedefinieerde standaard. Op Personal Computers wordt bij voorkeur met shrink-wrapped software gewerkt. Dit bespaart op opleidingskosten voor het personeel (zij kennen de pakketten vaak reeds), en biedt goede garanties voor support. Strategische software (relationele databases, programmeertalen, etc.) wordt vaak op meerdere platforms uitgebracht. 2.5 Communicatie en netwerken 2.5.1 Communicatie Communicatie tussen datatransmissie: computers onderling gebeurt via netwerken voor • via een seriële kabel tussen twee PC’s. • via een klein peer-to-peer of evenknie-netwerk tussen enkele PC's. • via een LAN (Local Area Network) een netwerk met meestal hoogfresuente verbindingen dat tientallen tot honderden PC’s verbindt; • via een WAN (Wide Area Network) een netwerk van meerdere LAN’s op een verspreide locatie; • via internetwerken voor wetenschappelijke uitwisseling van gegevens, b.v. het Belgian Research Network (BELNET, http://www.belnet.be) en meer algemeen het Internet (zie http://www.internet.org); • via het openbare telefoonnet, b.v. via een modem over het PSTN (Public Switched Telephone Network) en via het modernere, digitale ISDN (Integrated Services Digital Network: dit laatste laat transmissie toe van zowel telefoon, fax, videotex, telex als gegevens); De mogelijkheden geboden door datacommunicatie: • elektronische post (electronic mail); • elektronisch publiceren; • raadpleging van externe databanken; • downloading of het afhalen van bestanden vanuit computers op afstand; • interactief werken op afstand; © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 33 2.5. COMMUNICATIE EN NETWERKEN • batch-verwerking, b.v. op supercomputers (het in groep laten uitvoeren van een reeks commando’s). Bij netwerken kan men verschillende aspecten onderscheiden: • de bekabeling en topologie Er zijn verschillende kabeltypes voor netwerkverbindingen. Meest frequent in gebruik zijn thick en thin coax (coaxiale kabel, meestal van 50 Ω) en UTP (Unshielded Twisted Pair). Bij een bus-topologie vertrekt één kabel vanuit de server en verbindt één na één alle werkstations, tot aan een zogenaamde terminator of eindweerstand. Bij een stertopologie vertrekt vanuit de server een aparte kabel naar elk aangesloten werkstation. Een ring-topologie heet een kabel die een volledige lus maakt, waarop alle werkstations en de server zijn aangesloten. • De hardware: servers, clients, routers, bridges, hubs, repeaters Een netwerk kent verschillende hardware-componenten. In de eerste plaats de betrokken computers, die men meestal in twee groepen indeelt: enerzijds de servers of machines die diensten aanbieden, anderzijds de clients of machines die diensten opvragen. Zo’n dienst kan een gemeenschappelijke printer zijn, of een centrale databank e.d.m. Servers zijn vaak uit de kluiten gewassen PC’s met veel schijfruimte en ingebouwde archiverings- of backup-mogelijkheden. Clients zijn dan weer vaak de standaard bureau-computers of PC’s. Hubs en repeaters zijn elementen die het mogelijk maken het elektrische signaal uit een kabel te vertakken naar andere kabels. Zo kan men meerdere kabelsegmenten aaneenschakelen tot één fysiek netwerk. Bridges zijn intelligente repeaters, die twee netwerken aan elkaar koppelen in de Osi datalink-laag (zie verder) om er zo één netwerk van te maken. Een bridge zal in tegenstelling tot een gewone repeater in staat zijn het verkeer dat voor het ene segment bestemd is niet nodeloos te propageren in het andere. Routers koppelen netwerken op een logisch niveau, in de zogenaamde OSI netwerklaag (zie verder). • het hardwareprotocol: ETHERNET, TOKEN RING; Dit protocol schrijft voor hoe een netwerk-adapter voor een PC de gegevens moet structureren vooraleer ze op de kabel te plaatsen Het gaat hier om de zogenaamde MAC-layer of Media Access Control van de datalink-laag.Ethernet of IEEE 802.3 (Institute of Electrical and Electronics Engineers) is hier veruit het meest verspreid. Het werkt standaard op 50 Ω coax-kabel. Ethernet haalt een doorvoer van 10 Mbit/s. Het is een zogenaamd collision-based protocol, in die zin dat de netwerkkaarten onafhankelijk van elkaar proberen gegevens op de kabel te zetten. Doen twee of meer kaarten dit tegelijk, dan ontstaat een collision of botsing. Op dat moment zal elke kaart © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 34 2.5. COMMUNICATIE EN NETWERKEN een random tijd wachten vooraleer terug te proberen. Moderne ontwikkelingen zoals Fast Ethernet halen tot 100 Mbit/s. Token Ring of IEEE 802.5 is daarentegen een deterministisch netwerk, waarbij de kaarten aan elkaar een token doorgeven. Wie het token heeft mag data op de kabel plaatsen. Token Ring haalt een doorvoer van 16 Mbit/s. het softwareprotocol: TCP/IP, OSI, IPX (Internetwork Packet eXchange, protocol van Novell Netware-netwerken), VINES IP (protocol van Banyan Vines-netwerken); Hierover verder meer. Datacommunicatie vereist specifieke randapparatuur: • een modem bij gebruik van het gewone telefoonnet; • een terminal-emulatie wanneer men een pc met een mainframe wil laten communiceren, b.v. 3270-emulatie. Transmissiesnelheid wordt uitgedrukt in het aantal bits, dat per seconde wordt verzonden: van 300 of 9.600 Baud (= bits/sec.) tot 100 Mbit (glasvezel met FDDI, Fast Ehernet) en 155 Mbit (ATM). © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 35 2.5. COMMUNICATIE EN NETWERKEN Voorbeeld van een netwerk Wide Area Network FDDI Ring WWW-server UNIX Applicatieserver UNIX Router Mainframe MVS (TSO, VM) Fileserver Windows NT Fileserver Windows NT Database-server Windows NT Hub Repeater Laser printer Workstation Sun Solaris Workstation UNIX Solaris PC Windows 95 Macintosh DTP-station MacOs 2.5.2 TCP/IP TCP/IP staat voor Transmission Control Protocol/Internet Protocol. Het gaat om een bundel of familie van conventies om communicatie te verwezenlijken over pakketgeschakelde netwerken. Men kiest voor pakket-schakeling om twee redenen: gezamenlijk gebruik van media (resource-sharing) en robuustheid (error-detection & handling). Om met meerdere gebruikers een kabel te kunnen gebruiken die meerdere computers verbindt, is het van belang de over te sturen informatie op te delen in kleine pakketten. Zoniet, kan telkens maar één gebruiker tegelijk de kabel in gebruik nemen, en moet het andere verkeer wachten tot die ene communicatie afgesloten wordt. Bovendien laat het opdelen van de informatie in pakketten toe verloren gegane informatie vlot terug op te vragen. Een protocol (van het Griekse Protokollon, eerste vel van een Papyrus) is een verzameling regels beschrijven hoe men gegevens moet verzenden, i.c. hoe pakketten eruit zien, en wat hun betekenis is. Via een protocol kan een gegevensstroom © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 36 2.5. COMMUNICATIE EN NETWERKEN resulteren in communicatie. De meeste netwerk-protocols worden vastgelegd door RFC’s (Request for Comments). De RFC’s vormen een reeks documenten waarin informatie over en standaarden voor het Internet te vinden zijn. Daarnaast worden protocols ook voorgeschreven door de ISO (International Organization for Standardization, http://www.iso.ch), b.v. de OSI (Open Systems Interconnect) protocol stack. Een stack is een gelaagde verzameling protocols. Ook TCP/IP is een protocol stack. TCP/IP omvat o.m. volgende protocols: • Internet Protocol (IP) • Address Resolution Protocol (ARP) • Internet Control Message Protocol (ICMP) • User Datagram Protocol (UDP) • Transmission Control Protocol (TCP) • Routing Information Protocol (RIP) • Simple Mail Transfer Protocol (SMTP) • Domain Name System (DNS) • File Transfer Protocol (FTP) • Telnet Communicatie tussen verschillende computers veronderstelt interactie op verschillende niveau’s, gaande van de bekabeling tot de feitelijke uitwisseling van gegevens op het niveau van de toepassing. De verschillende lagen in het TCP/IP-model zien er als volgt uit, daarnaast het OSI-model (Open Systems Interconnect): Tabel 5. Layered protocol stacks TCP/IP OSI Applicatie Applicatie Presentatie Sessie Transport Transport Internet Netwerk Netwerk Interface Datalink Fysiek Fysiek © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 37 2.5. COMMUNICATIE EN NETWERKEN Opdat computers een onderlinge communicatie zouden kunnen opzetten, is het nodig dat er een adresseersysteem bestaat, zodanig dat een computer op het netwerk zijn correspondent kan terugvinden. 2.5.3 Adressering Pakketten op een ethernet-netwerk of frames bestaan uit twee delen, een header, en de data. De header bevat het adres van de bestemmeling, gevolgd door het adres van de afzender. Daarna volgt het type pakket (i.c. IP), tenslotte de data. Wanneer meerdere computers met elkaar gekoppeld zijn via kabel, hebben we een netwerk; koppelt men meerdere netwerken aan elkaar, dan spreekt men van een internet. Netwerken koppelt men aan elkaar via routers. Een router zal nl. alleen die pakketten, die geadresseerd zijn aan een computer uit het andere netwerk, doorgeven. Daarin verschilt een router van een eenvoudige bridge, een element dat louter een netwerk verlengt. Op het laagste niveau van het netwerk communiceren de computers met elkaar via de hardware, i.c. de netwerkkaarten. Bij ethernet heeft elke ethernet-kaart een uniek nummer. Dit nummer, b.v. 08:00:20:0A:8C:6D, bestaat uit 6 hexadecimaalgetallen. De hardware van ethernet-kaarten is er op voorzien om frames van de ene kaart naar een andere te sturen enkel en alleen op basis van het ethernet-adres. Het zou echter onaangenaam zijn dergelijk adresseringssysteem te moeten gebruiken voor het identificeren van netwerkgebruikers en diensten. Vandaar dat TCP/IP werkt met een ander adresseringsprotocol, IP. IP-adressen zijn opgebouwd uit 4 bytes, en worden weergegeven in dotted decimal notation, b.v. 134.58.131.17. Ieder IP-adres bestaat uit een sectie die het netwerk aanduidt, gevolgd door een sectie voor de machine daarin of de host. Naargelang het aantal bytes dat gereserveerd is voor het netwerk-adres, spreekt men van een klasse-A adres, een klasse-B adres of een klasse-C-adres. Vervangt men in een IP-adres de host-sectie door nullen, dan bekomt men het netwerk-adres. Klasse A: eerste byte: 0-127 voorbeeld: 125.0.0.0 aantal mogelijke adressen op het netwerk: 16777216 Klasse B: eerste byte: 128-191 voorbeeld: 134.58.0.0 (K.U.Leuven) aantal mogelijke adressen op het netwerk: 65536 Klasse C: eerste byte: 192-223 © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 38 2.5. COMMUNICATIE EN NETWERKEN voorbeeld: 192.100.25.0 aantal mogelijke adressen op het netwerk: 256 TCP/IP zal nu IP adressen mappen op hardware-adressen om een host te kunnen bereiken. Dit gaat via het Address Resolution Protocol of ARP. Op een ethernet, zal een IP-node die een communicatie wil aangaan met een andere IP-node, een ARP-request sturen op het broadcast-adres (dit is het Ethernet-adres FF:FF:FF:FF:FF:FF). Ethernet-kaarten zijn zo ontworpen dat zij een pakket voor dit broadcast-adres steeds beschouwen als naar hen geadresseerd. In de ARP-request staat zowel het ethernet-nummer als het IP-nummer van de verzender, én het IP-adres waarmee men wil communiceren. Elke host op het netwerk zal nu dit laatste IPnummer vergelijken met het eigen IP-nummer. Zijn die gelijk, dan wordt een antwoord gestuurd naar de verzender, met vermelding van het eigen ethernet-adres. C:\TMP> arp -a Interface: 134.58.131.17 Internet Address Physical Address Type 134.58.131.2 08-00-3e-20-d4-1d dynamic 134.58.131.6 00-80-c8-29-84-12 dynamic 134.58.131.8 08-00-00-50-19-37 dynamic 134.58.131.254 00-00-0c-00-7e-61 dynamic 2.5.4 Routering Om een node op een ander netwerk te bereiken, moet de boodschap afgeleverd worden aan een router. Hiertoe dient de IP-software op de node zo geconfigureerd te zijn dat het minstens 1 router kent. De router zal de pakketten dan ontvangen, bepalen voor welk netwerk ze bestemd zijn, en vervolgens doorgeven. Is het netwerk van de bestemmeling niet rechtstreeks bereikbaar, dan moet de router de pakketten doorgeven aan een volgende router. De afstand tot een netwerk is dan het aantal routers of hops dat moet worden gecontacteerd. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 39 2.5. COMMUNICATIE EN NETWERKEN C:\TMP> tracert brussels.belnet.be Tracing route to brussels.belnet.be [193.190.197.53] over a maximum of 30 hops: 1 3 ms 2 ms 2 ms cisco-lw-lo.kuleuven.ac.be [134.58.131.254] 2 4 ms 3 ms 3 ms cisco-bib.kuleuven.ac.be [134.58.230.254] 3 11 ms 12 ms 12 ms cisco-cc.kuleuven.ac.be [134.58.227.254] 4 14 ms 15 ms 12 ms cisco-urc.kuleuven.ac.be [134.58.7.254] 5 20 ms 15 ms 24 ms cisco-belnet.kuleuven.ac.be [134.58.244.18] 6 45 ms 46 ms 67 ms leuven.belnet.be [193.190.196.125] 7 39 ms 37 ms 82 ms brussels.belnet.be [193.190.197.53] Trace complete. Om één en ander te optimaliseren zullen routers in routing-tables bijhouden welke nodes ze via welke weg kunnen bereiken. Routers wisselen hieromtrent gegevens uit met elkaar via het RIP-protocol. 2.5.5 Domain Name System Het zou erg onhandig zijn indien men de machines en diensten op een internet alleen zou kunnen bereiken via IP-nummers. Om aan dit euvel te verhelpen, bestaat de mogelijkheid om IP-nummers te mappen op namen, ook weer in dotted notation. Namen van resources bestaan dan uit machinenaam+domeinnaam, b.v. onyx.arts.kuleuven.ac.be. Een domeinnaam kan meerdere netwerken beslaan. Een gebruiker van een machine kan dan bereikt worden via [email protected], b.v. [email protected]. Van deze naamgeving maakt e-mail gebruik. De tabellen waarin resourcenamen worden gemapt naar IP-adressen worden bijgehouden in zogenaaamde Domain Name Servers. Ook hier zal het nodig zijn hosts op een netwerk manueel aan te geven welke Domain Name Servers kunnen aangesproken worden. Het omzetten van een resourcenaam in een IP-adres heet Address Resulution. DNS'sen aan de K.U.Leuven zijn o.m. 134.58.40.252, 134.58.8.36, 134.58.7.250. © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 40 2.5. COMMUNICATIE EN NETWERKEN onyx:/etc$ nslookup 134.58.131.17 Server: Address: Name: Address: amber.kulnet.kuleuven.ac.be 134.58.40.252 lancelot.arts.kuleuven.ac.be 134.58.131.17 onyx:/etc$ nslookup www.arts.kuleuven.ac.be Server: Address: Name: amber.kulnet.kuleuven.ac.be 134.58.40.252 anthraciet.arts.kuleuven.ac.be Address: 134.58.131.6 Aliases: www.arts.kuleuven.ac.be © F. Truyen en J. Tolleneer 1999 - HET COMPUTERPLATFORM - 41 3.1. INTERNET 3. Internet en World-Wide-Web 3.1 Internet Men spreekt van een internet wanneer twee of meer computernetwerken met elkaar verbonden worden. Een computernetwerk bestaat uit een actieve, feitelijke koppeling tussen computers. Zo kunnen twee computers met elkaar een netwerk vormen via een modem over een gewone telefoonlijn, op het ogenblik dat de verbinding gemaakt wordt. Men spreekt maar van een netwerk, wanneer tussen de computers die erdoor verbonden zijn gegevensuitwisseling of transmissie mogelijk is. Dat veronderstelt naast de bekabeling ook de nodige software om daarvan gebruik te kunnen maken. Veruit de meeste internetten of internetwerken gebruiken het TCP/IP-protocol (Transmission Control Protocol/Internet Protocol), een reeks afspraken waaraan software moet voldoen om over een fysieke bekabeling een netwerk tot stand te brengen. Het Internet is dan de verzamelnaam voor alle internetwerken die via TCP/IP verbonden zijn. In die zin is Internet een deel van een groter geheel, te definiëren als het geheel van alle netwerken die via welk protocol dan ook onderling bereikbaar zijn. Die bereikbaarheid moet men dan wel ruim opvatten: omdat het om verschillende netwerkprotocollen gaat, is niet elke vorm van gegevensuitwisseling in alle richtingen mogelijk. Vandaar dat men de voorwaarde voor deze bereikbaarheid vaak beperkt tot communicatie via e-mail. Het geheel van onderling via e-mail bereikbare netwerken noemt men dan de Matrix. 3.1.1 Standaard internet-toepassingen Speciaal voor het TCP/IP protocol werden van meetaf aan enkele toepassingen ontwikkeld om via dit protocol ook effectief de gewenste communicatiemogelijkheden te realiseren. De belangrijkste van deze toepassingen, Telnet en FTP, bespreken we hieronder. Wie graag meer gedetailleerde informatie over deze technieken wenst, kan die vinden in het uitstekende overzicht van Jan Guldentops: Internet en Geschiedenis. Een historische, methodologische en heuristische benadering, Acco 1996, of rechtstreeks in de resp. RFC’s (Request for Comment): ftp://ds.internic.net/rfc. 3.1.1.1 Telnet Telnet is een programma dat toelaat op afstand, via het TCP/IP-protocol, toegang te krijgen tot een andere computer. Dit gebeurt via terminal-emulatie. Men zal nl. op de eigen werkpost een terminal van het andere computersysteem nabootsen. De terminal die nagebootst wordt is karaktergeörienteerd. Door z’n relatieve eenvoud en © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 42 3.1. INTERNET betrouwbare werking is telnet een standaard component geworden van internetwerking. Het is een ideale tool om verschillende machines te beheren vanop afstand, maar ook om b.v. mail te lezen wanneer men op verplaatsing is. Telnet is vooral onder Unix-systemen een vanzelfsprekendheid, voornamelijk omdat een Unixsysteem zich nagenoeg volledig laat beheren via een telnet-sessie. Door het feit dat telnet de invoer van de gebruiker teken per teken doorstuurt, kan de werking op trage lange-afstandsverbindingen wel eens nagenoeg onmogelijk worden. Het emuleren van een terminal op een ander computersysteem heeft uiteraard ook een groot aantal nadelen. Ten eerste kan het zijn dat de zogenaamde host-computer van een ander type is, en b.v. terminals ondersteunt met andere toetsen. In dat geval moet het telnet-programma zo geconfigureerd worden, dat alle benodigde toetscombinaties kunnen nagebootst worden. Dat kan een weinig ergonomische werkomgeving tot gevolg hebben. Bovendien ondersteunt telnet zeer beperkte scherm-modi, met als belangrijkste de op Unix-systemen erg populaire vt-100-emulatie, een nabootsing van de DEC vt-100 terminal. Deze terminals hadden echter erg bescheiden mogelijkheden in vergelijking met een hedendaagse PC. Belangrijkste nadeel van telnet is echter de nagenoeg volledige afwezigheid van integratie met de PC. Men kan niet zomaar gebruik maken van de aan de PC aangesloten printers vanuit toepassingen op de host-computer, men kan de toepassingen van de host niet laten samenwerken met toepassingen op de PC, en men maakt geen gebruik van de grafische mogelijkheden die een PC aanbiedt. Een veel aangenamere manier om op afstand op een andere host te werken is dan ook X-Windows, een systeem om een grafisch display van een host op een andere machine, in dat geval een X-server genoemd, te laten draaien. X is net als zovele andere Unix-toepassingen uitzonderlijk versatiel en krachtig, maar het vraagt een grote bandbreedte en is dus niet aan te raden over trage verbindingen. 3.1.1.2 FTP Het zogenaamde File Transfer Protocol laat toe om bestanden van andere machines af te halen of naar andere machines op te sturen. FTP veronderstelt dat 1 machine zich als server gedraagt, de FTP-host, en een andere als client. Meestal zal men vanuit een PC gegevens willen afhalen van of opladen naar een grotere, centrale machine. Men kan echter ook tussen PC’s onderling FTP gebruiken. In dat geval moet op 1 van de PC’s een zogenaamde FTP-daemon of FTPserver-programma opgestart worden. Het FTP-protocol zelf voorziet in een aantal commando’s om lijsten op te vragen met de inhoud van directories op het host-systeem, en om binnen die directory-structuur te © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 43 3.1. INTERNET navigeren. Meestal voorziet het client-programma in een grafische interface, die de directory-structuur op een voor de PC-gebruiker vertrouwde wijze zal weergeven. De basissyntax: • ftp <hostnaam|ip-nummer> Enkele basis-commando’s: • pwd geeft aan in welke directory men zich op het host-systeem bevindt • dir, ls geeft de inhoud van de actieve directory op het hoofdsysteem • cd <pad> laat toe de actieve directory op het host-systeem te wijzigen • get <bestandsnaam> met dit commando wordt een bestand van de host afgehaald • mget <patroon> laat toe met wildcards meerdere bestanden tegelijk af te halen • put <bestandsnaam> om een bestand van de client naar de host te kopiëren • mput <patroon> om met behulp van wildcards meerdere bestanden tegelijk door te sturen • prompt wisselt de bevestiging aan of uit bij mget en mput • bye sluit de verbinding af Voor FTP bestaan handige grafische omgevingen, die als shareware worden verspreid. Een bekend voorbeeld is ws_ftp, dat gratis mag gebruikt worden voor educatieve doeleinden. Het programma laat toe voor verschillende sites een profiel aan te maken en op te slaan: © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 44 3.1. INTERNET Met behulp van het profiel kan men dan een connectie maken met de server. Eens aangesloten, kan men zonder commando’s te kennen makkelijk files van en naar de host overbrengen: © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 45 3.2. E-MAIL Zoals te zien op bovenstaande illustratie maakt men bij FTP een onderscheid tussen tranfers in ascii en binary-transfers. Bij binary-transfers wordt bitwijze gekopieerd. Dit is de aangewezen kopieer-methode voor uitvoerbare, binaire bestanden. Ascii-transfer is aangewezen voor tekst-bestanden (zonder formattering, dus geen Word-documenten b.v.). Er wordt dan nl. per byte gekopieerd, en de regeleinden worden aangepast aan het ontvangende systeem. 3.1.1.2.1 Anonymous FTP is een variant van FTP, waarbij men als gebruikersnaam “anonymous” opgeeft en als paswoord het eigen e-mail-adres. De FTP-server op de host moet zo geconfigureerd zijn dat hij anonieme gebruikers toelaat. Anonymous FTP wordt zeer courant gebruikt voor de distributie van software (shareware, freeware, previews, updates, patches, …). Men kan ook via een web-browser eenvoudig aan anonymous FTP doen, door als URL de machinenaam op te geven voorafgegaan door het prefix “ftp://”, b.v.: ftp://ftp.belnet.be Anonymous FTP-services aanbieden betekent alleszins een beveiligingsrisico voor de host-machine. Het moet dan ook best professioneel geïmplementeerd worden. Vaak wordt alvast nagegaan of de reverse dns-mapping voor het ip-nummer van het clienttoestel wel werkt. De meeste web-browsers ondersteunen anonymous FTP, zodat je met ftp://<host.domain> eenvoudig een FTP-locatie kan opzoeken. Dit werkt echter alleen voor het downloaden. 3.1.1.2.2 FTPSEARCH Via FTPSEARCH (http://ftpsearch.ntnu.no/ftpsearch) kan men vlot zoeken naar bestanden die via anonymous FTP worden aangeboden. Men kan ook aangeven in welk internet-subdomein men wil zoeken, b.v. “.be”. Het is nl. aangewezen een FTPsite te vinden die via een snelle verbinding bereikbaar is. 3.2 E-mail E-mail of elektronische post laat toe met andere computergebruikers berichten uit de wisselen. Een e-mail boodschap is net zoals een conventionele brief een gestructureerde en door conventies gereguleerde tekst, waarvoor ook een zekere etiquette bestaat. De conventies zelf werden vastgelegd in de legendarische RFC822 (zie http://www.belnet.be/search/cgi-bin/displayrfc.cgi?rfc822.txt). Bij een brief hoort een envelop, waarop alvast de bestemmeling en niet zelden de afzender vermeld staan. Deze informatie wordt bij een e-mail boodschap in zogenaamde headers opgeslagen. We zullen uitvoerig de opbouw van zowel de inhoud van een e-mail bericht als de headers toelichten. Hieraan voorafgaand willen we ingaan op wat er vereist is om e-mail communicatie te doen werken. In de eerste plaats moet op z'n minst een multi-user computersysteem voorhanden zijn, en in regel een netwerk. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 46 3.2. E-MAIL Benodigd zijn verder een Postoffice, van waaruit de mail centraal verdeeld wordt, mailclients, dit zijn programma's voor de eindgebruiker, en een zogenaamde mail-gateway, om de boodschappen te versturen. De mail-clients zijn vaak eenvoudige programma's die het de gebruiker makkelijk maken boodschappen aan te maken, te verzenden, te ontvangen en te klasseren. Daarbij wordt de complexe structuur van de mail-header vaak verborgen gehouden. Steeds vaker echter vormen mail-clients samen met andere toepassingssoftware een hecht geheel van coöperatieve programma's. Het is dan b.v. mogelijk onrechtstreeks vanuit een tekstverwerker een mailboodschap te verzenden. We bekijken de verschillende facetten van de mail-client aan de hand van een public-domain programma dat stilaan is uitgegroeid tot een standaard: de Eudora POP-mailer. E-mail toepassing Een mail-boodschap aanmaken gaat als volgt. De auteur vult het geldige internet-adres van zijn correspondent in, i.c. "[email protected]". Een correspondent op het Internet heeft meestal een adres in deze vorm, waarbij het gedeelte achter de @ het domein is, in dit geval het domein arts aan de K.U.Leuven, op een academisch © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 47 3.2. E-MAIL netwerk in België. In de velden Cc: (Carbon Copy) en Bcc: (Blind Carbon Copy) kunnen andere geadresseerden worden opgegeven, die in het eerste geval een kopie krijgen met medeweten van de eerste correspondent, in het tweede geval zonder medeweten van de eerste correspondent. De lijn Subject: laat toe een bondige titel aan de boodschap mee te geven. De datum en het from: veld worden automatisch ingevuld. Via Attachments: is het mogelijk bestanden mee te sturen. Aanmaken van een mailboodschap We overlopen in wat volgt de verschillende headers: To: hier kan men de geadresseerde(n) opgeven. Wanneer men naar iemand binnen hetzelfde maildomein een boodschap verstuurd, is het niet nodig dit maildomein op te geven. Cc: wanneer aan een derde een officiële kopie van de brief verstuurd wordt. Wie een mail ontvangt als Cc:-geadresseerde, wordt niet geacht een antwoord te geven. Bcc: een 'onzichtbare' kopie naar een derde, waarvan de officieel geadresseerden het bestaan niet kennen. Dit dient om iemand op vertrouwelijke basis op de hoogte te stellen van een boodschap. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 48 3.2. E-MAIL From: wordt automatisch ingevuld door de mail-client. Hierin staat het eigen emailadres, vaak vergezeld van de Full Name. Reply-To: indien opgegeven, is dit het adres waar automatisch de antwoorden naartoe gestuurd worden. Sender: indien geen Reply-To voorhanden, gaan replies hier naartoe. Ontbreekt ook de 'Sender:' dan gaat het antwoord naar 'From:'. Date: moment waarop de mail verstuurd werd, met aanduiding van de tijdzone. Header van een mailboodschap Return-Path: <[email protected]> Received: from mailserv.cc.kuleuven.ac.be (mailserv.cc.kuleuven.ac.be [134.58.8.44]) by onyx.arts.kuleuven.ac.be (8.9.0/8.9.0) with ESMTP id KAA24104 for <[email protected]>; Mon, 17 Aug 1998 10:13:18 +0200 Received: from vinip.cc.kuleuven.ac.be (vinip.cc.kuleuven.ac.be [10.33.6.5]) by mailserv.cc.kuleuven.ac.be (8.9.0/8.9.0) with SMTP id KAA19834 for <[email protected]>; Mon, 17 Aug 1998 10:15:21 +0200 Received: by vinip.cc.kuleuven.ac.be with VINES-ISMTP; Mon, 17 Aug 98 10:13:18 +0200 Date: Mon, 17 Aug 98 10:13:15 +0200 Message-ID: <[email protected]> X-Priority: 3 (Normal) To: <[email protected]> From: "Ludo Meyvis" <[email protected]> Reply-To: <[email protected]> Errors-to: <[email protected]> Subject: re: Eten? X-Incognito-SN: 909 X-Incognito-Version: 4.11.23 MIME-Version: 1.0 Content-type: text/plain; charset=us-ascii Status: RO Vaak wordt onderaan de mail nog een extra signatuur opgenomen, waar men meer gedetailleerde correspondentie-gegevens opneemt. Bij het versturen van een bestand in een attachment, moet men er wel rekening mee houden dat de meeste mailservers op het internet slechts 7-bit karakters doorgeven. Geformatteerde documenten, b.v. een bestand aangemaakt met een tekstverwerker, kunnen dan ook niet als zodanig verstuurd worden. Men moet deze bestanden vooraf uuencoderen. Uuencode staat voor Unix-to-Unix Encode, waarbij een bestand wordt weergegeven met uitsluitend 7-bit ASCII-characters (American Standard Code for Information Interchange). Werking van uuencode: uuencode mijnfile.wp --> mijnfile.uue © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 49 3.2. E-MAIL de correspondent zal het bestand, dat nu volledig 7-bits is, terug uudecoderen: uudecode mijnfile.uue --> mijnfile.wp. Uuencode.exe en Uudecode.exe zijn op het Internet te verkrijgen. Veel moderne mail-clients, zoals het veelgebruikte PINE en Eudora, ondersteunen echter de MIME-standaard voor mailverkeer. Deze standaard laat toe binaire bestanden op een correcte manier door te sturen. Een aangehecht WP-document wordt door een MIME-compatibele mailer automatisch geëncodeerd. MIME staat voor Multipurpose Internet Mail Extensions. Dat is een standaard voor multi-part (gelede), multimedia elektronische mailboodschappen en World-Wide-Web hypertext documenten. MIME laat toe om niet-tekstuele data zoals grafieken, audio, fax etc. te versturen. De standaard is vastgelegd in RFC1341 (zie http://www.belnet.be/search/cgi-bin/displayrfc.cgi?rfc1341.txt). Er wordt gebruik gemaakt van de mimencode encodeertechniek om binaire gegevens om te zetten in base 64, een subset van ASCII. Base 64 werkt als volgt: het te converteren bestand wordt per 3 bytes in een buffer van 24 bits gelezen. Wanneer er minder dan 3 bytes zijn, vult men de buffer verder aan met nullen. De 24 bits in de buffer worden dan opgesplitst in 3 stukken van 6 bits. Elk 6-bit getal krijgt dan een corresponderende code uit een reeks van 64 ASCII-characters. Er bestaan verschillende protocols die de interactie tussen een mail-client en een mailserver regelen. Voor het verzenden wordt voor internet-mail gebruik gemaakt van het SMTP-protocol (Simple Mail Transfer Protocol). Men moet in de mail-client opgeven welke server als SMTP-gateway zal dienen. Voor het afhalen van mail vanuit een mailbox op de server, worden courant het POP-protocol (Post Office Protocol) en het IMAP-protocol gebruikt (Internet Mail Access Protocol). Bij het POP-protocol wordt een kopie van de inkomende mails naar de client gekopieerd. Het staat de gebruiker dan vrij te bepalen of de originele mails nog op de server moeten blijven staan. De zogenaamde mail-folders van de gebruiker staan ook op de client. Bij IMAP worden de folders van de gebruiker op de server bewaard. De client is eigenlijk een browser van de mails die op de server staan. Dit laat toe om de volledige mailbox vanuit verschillende PC’s te benaderen en te beheren. Bij POP heeft men alleen tot de inkomende mail toegang vanuit verschillende PC’s, en dan nog enkel als men bij het checken van de mail een kopie op de server laat. Het belangrijkste verschil tussen IMAP en POP is echter dat IMAP in feite een constante verbinding met de server vereist, wil men met z’n mail werken. Bij POP hoeft men alleen een verbinding met de server te hebben wanneer men mails verstuurt of ontvangt. Veel moderne mail-clients worden aangekondigd als “html-mailers”. In feite gaat het daarbij om een consequent toepassen van de MIME-standaard, waarbij de ingebouwde mail-viewer en mail-editor zelf het html-formaat herkennen en aankunnen. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 50 3.2. E-MAIL Dit laat toe om veel rijkere mailberichten door te sturen, ook over internet-verbindingen. Dat beperkt zich niet tot betere lay-out-mogelijkheden: men kan ook illustraties, geluid en zelfs video-clips in de mail integreren. Een goede implementatie van MIME betekent ook dat een eventueel meegestuurd Excel-bestand meteen in Excel kan worden geopend. Een ander steeds belangrijker wordend aspect aan mail is authenticatie en beveiliging. Standaard internet-mail verschilt vooral hierin van corporate mail-systemen, dat het zeer gemakkelijk is om een mail-adres te ‘faken’. Zo is het relatief eenvoudig een mail te verzenden namens ‘[email protected]’ e.d.m. Bovendien is het voor hackers tamelijk eenvoudig mailberichten te onderscheppen en de inhoud te lezen. De mail-boodschap wordt immers louter als ascii-tekst doorgestuurd via de verschillende gateways. De meeste internet-mailers staan nog niet erg ver in authenticatie van de verzender, laat staan in encryptie van de mail-boodschap. Authenticatie veronderstelt een directory-service enerzijds en een authentication-service anderszijds. Directoryservices houden een zogenaamde user-directory bij, die ook kan gebruikt worden om adressen te zoeken. De meest soliede standaard is X.500; lichtere implementaties richten zich naar LDAP (Lightweight Directory Access Protocol). Encryptie kan men realiseren via het nog niet erg breed ondersteunde S/MIME, zoals de naam verraadt een varaint van MIME (Secure MIME), of het erg populaire PGP (Pretty Good Privacy), zie http://huizen.dds.nl/~wfberg/pgp. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 51 3.2. E-MAIL Tabel 6. ASCII-tabel Oct Dec Hex Name 000 0 0x00 NUL 001 1 0x01 SOH 002 2 0x02 STX 003 3 0x03 ETX, Control-C 004 4 0x04 EOT 005 5 0x05 ENQ 006 6 0x06 ACK 007 7 0x07 BEL 010 8 0x08 BS, Backspace 011 9 0x09 HT, tab 012 10 0x0a LF, linefeed, newline 013 11 0x0b VT 014 12 0x0c FF, formfeed, NP 015 13 0x0d CR, carriage return 016 14 0x0e SO 017 15 0x0f SI 020 16 0x10 DLE 021 17 0x11 DC1, 022 18 0x12 DC2 023 19 0x13 DC3, 024 20 0x14 DC4 025 21 0x15 NAK 026 22 0x16 SYN 027 23 0x17 ETB 030 24 0x18 CAN 031 25 0x19 EM XON, Control-Q XOFF, Control-S © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 52 3.2. E-MAIL Tabel 6. ASCII-tabel Oct Dec Hex Name 032 26 0x1a SUB 033 27 0x1b ESC, escape 034 28 0x1c FS 035 29 0x1d GS 036 30 0x1e RS 037 31 0x1f US 040 32 0x20 space 041 33 0x21 !, exclamation mark 042 34 0x22 ", double quote 043 35 0x23 #, hash 044 36 0x24 $, dollar 045 37 0x25 %, percent 046 38 0x26 &, ampersand 047 39 0x27 ', quote 050 40 0x28 (, open parenthesis 051 41 0x29 ), close parenthesis 052 42 0x2a *, asterix 053 43 0x2b +, plus 054 44 0x2c ,, comma 055 45 0x2d -, minus 056 46 0x2e ., full stop 057 47 0x2f /, oblique stroke 060 48 0x30 0 061 49 0x31 1 062 50 0x32 2 063 51 0x33 3 064 52 0x34 4 © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 53 3.2. E-MAIL Tabel 6. ASCII-tabel Oct Dec Hex Name 065 53 0x35 5 066 54 0x36 6 067 55 0x37 7 070 56 0x38 8 071 57 0x39 9 072 58 0x3a :, colon 073 59 0x3b ;, semicolon 074 60 0x3c <, less than 075 61 0x3d =, equals 076 62 0x3e >, greater than 077 63 0x3f ?, question mark 0100 64 0x40 @, commercial at 0101 65 0x41 A 0102 66 0x42 B 0103 67 0x43 C 0104 68 0x44 D 0105 69 0x45 E 0106 70 0x46 F 0107 71 0x47 G 0110 72 0x48 H 0111 73 0x49 I 0112 74 0x4a J 0113 75 0x4b K 0114 76 0x4c L 0115 77 0x4d M 0116 78 0x4e N 0117 79 0x4f O © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 54 3.2. E-MAIL Tabel 6. ASCII-tabel Oct Dec Hex Name 0120 80 0x50 P 0121 81 0x51 Q 0122 82 0x52 R 0123 83 0x53 S 0124 84 0x54 T 0125 85 0x55 U 0126 86 0x56 V 0127 87 0x57 W 0130 88 0x58 X 0131 89 0x59 Y 0132 90 0x5a Z 0133 91 0x5b [, open square bracket 0134 92 0x5c \, backslash 0135 93 0x5d ], close square bracket 0136 94 0x5e ^, caret 0137 95 0x5f _, underscore 0140 96 0x60 `, backquote 0141 97 0x61 a 0142 98 0x62 b 0143 99 0x63 c 0144 100 0x64 d 0145 101 0x65 e 0146 102 0x66 f 0147 103 0x67 g 0150 104 0x68 h 0151 105 0x69 i 0152 106 0x6a j © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 55 3.2. E-MAIL Tabel 6. ASCII-tabel Oct Dec Hex Name 0153 107 0x6b k 0154 108 0x6c l 0155 109 0x6d m 0156 110 0x6e n 0157 111 0x6f o 0160 112 0x70 p 0161 113 0x71 q 0162 114 0x72 r 0163 115 0x73 s 0164 116 0x74 t 0165 117 0x75 u 0166 118 0x76 v 0167 119 0x77 w 0170 120 0x78 x 0171 121 0x79 y 0172 122 0x7a z 0173 123 0x7b {, open curly bracket 0174 124 0x7c |, vertical bar 0175 125 0x7d }, close curly bracket 0176 126 0x7e ~, tilde 0177 127 0x7f delete © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 56 3.3. MAILING-LISTS EN NETNEWS 3.3 Mailing-lists en Netnews Er bestaat ook een meer specifieke toepassing van mail, die gericht is op het verzenden van berichten die door meerdere geïnteresseerden kunnen worden opgevraagd. Een veelgebruikte maar wat verouderde vorm van dit concept zijn de zogenaamde mailing-lists. Een mailing-list is een lijst van email-adressen, bijgehouden op een server. Stuur je een bericht naar de mailing-list, dan wordt dit bericht automatisch naar alle daarin opgenomen adressen doorgestuurd. Bovendien wordt een kopie op de listserver bewaard voor archivering. Een mail-gebruiker kan inschrijven op een lijst door naar de listserver een mail te sturen met als message-body: subscribe <lijstnaam> Er bestaan talloze mailing-lijsten over de meest uiteenlopende onderwerpen. Een goed overzicht van mailing-lijsten voor historici vindt men in Jan Guldentops, “Internet en Geschiedenis”, p. 143 e.v. Meer informatie over de technische kant van mailing-lijsten (en het gebruik ervan) kan men vinden op het adres http://www.kuleuven.ac.be/~systhvu/ic/node61.html. Het handige van mailing-lijsten is, dat ze een unieke broadcasting-functie waarmaken waar het World-Wide-Web als medium zo halsstarrig naar op zoek is. Zonder enige inspanning krijg je de informatie waarvoor je interesse hebt, zomaar toegemaild. Tenzij je ook zelf al deze mails in een aparte folder archiveert, blijft het wel moeilijk door de mailings te “browsen”. Bovendien krijg je nauwelijks inzicht in de structuur van de discussie. Veel sterker wat dat betreft is Netnews. Dit Netnews wordt opgeslagen op news-servers, die ook elkaars aanbod kopiëren om zo een omvangrijke newsfeed aan te bieden. Met Usenet wordt het geheel van newsfeeds bedoeld, dat beschikbaar is. Courante browsers bieden ook de mogelijkheid om netnews te lezen, net zoals ze vaak over een geïntegreerde mailer beschikken. De echte die-hards van het Usenet zullen echter verkiezen op maat gesneden programma’s te gebruiken. Je kan readers voor verschillende platformen downloaden van ftp://ftp.belnet.be/pub/infosystems/news/readers. Voor het Windows-platform bestaat er een populair programma: WinVN. De gebruiker kan zelf bepalen voor welke groepen hij een “subscribe” doet. De groepen zijn opgedeeld in een aantal hoofd-trees: sci: nieuwsgroepen over wetenschappen bionet: nieuwsgroepen over biomedische wetenschappen soc: nieuwsgroepen over sociale wetenschappen, o.m. geschiedenis © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 57 3.3. MAILING-LISTS EN NETNEWS soc.culture: nieuwsgroepen soc.culture.belgium die over bepaalde regio’s handelen, b.v. humanities: nieuwsgroepen over cultuurwetenschappen comp: nieuwsgroepen over computers (hardware, software, engineering, …) bit.listserv: kopie van de listserv mailinglijsten alt: “alternatieve” nieuwsgroepen; dat wordt snel duidelijk :=) rec: “recreation” nieuwsgroepen: van tuinieren tot muziek kuleuven: nieuwsgroepen van de K.U.Leuven. De meeste voor geschiedenis relevante nieuwsgroepen vindt men in de soc-tree. Daarbij is er een verschil tussen gemodereerde nieuwsgroepen en niet-gemodereerde. Bij een gemodereerde nieuwsgroep is het niet mogelijk rechtstreeks in de nieuwsgroep te posten. Het bericht wordt eerst door de moderator geëvalueerd, waarna die dan kan beslissen of hij de posting doorlaat. Hierdoor krijgt men een kwalitatief veel meer hoogstaande discussie. Het zogenaamde posten kan op twee manieren gebeuren. Ofwel maakt men een artikel over een nieuw onderwerp, en post het op de nieuwsgroep. Ofwel reageert men op een ander artikel in de nieuwsgroep. Dit heet een follow-up. Je zou ook kunnen overwegen om je reactie alleen naar de verzender van het originele artikel te versturen, omdat het antwoord misschien niet relevant is voor de groep. In dat geval doe je gewoon een reply-to naar de verzender. De kwaliteit van nieuwsgroepen kan men kwantitatief benaderen via twee parameters: de gemiddelde lengte en diepte van de threads. Een thread wordt gevormd door de berichten in de nieuwsgroep die naar elkaar verwijzen. Het is immers een goede gewoonte bij internet-mail in het algemeen om het bericht waarop je reageert te citeren in je eigen boodschap. Aan de threads kan je makkelijk de intensiteit van de discussie merken. In sommige nieuwsgroepen praat men naast elkaar, en vindt men dan ook geen diepe threads terug. In andere vindt men tientallen follow-ups bij eenzelfde artikel. In de betere nieuwsgroepen is er vaak een welwillende nieuwslezer die een synthese post van één of meer belangrijke threads in de groep. Deze synthesen worden dan als FAQ’s of Frequently Asked Questions bijgehouden. Vooraleer een vraag te posten op een nieuwsgroep, is het aangewezen de FAQ’s door te nemen om te zien of je probleem al niet lang beantwoord is. Wie aan nieuwsgroepen deelneemt, moet zich ervoor hoeden dat commerciële jongens graag mail-adressen aftappen van nieuwsgroepen die aanleuenen bij het door hen te slijten product. Daarna worden die adressen dan gebruikt in mailings. Deze ongewenste praktijk noment men “spamming”. Door achter je “reply-to”-adres een suffix te hechten, b.v. “.an_ti_spam”, kan je alvast beletten dat men al te gemakkelijk je © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 58 3.4. WORLD-WIDE-WEB adres automatisch kan overnemen. Wie op je boodschap wil replyen moet dan wel het suffix manueel verwijderen. Voorbeeld van een nieuwsgroep thread Zuivere "surfers" zullen wellicht verkiezen nieuwsgroepen via hun browser te lezen. Dit kan op volgende adressen: • Zippo: http://www.zippo.com • Dejanews: http://www.dejanews.com 3.4 World-Wide-Web Het World-Wide-Web5 vindt zijn oorsprong in een project van Tim Berners-Lee, op dat ogenblik verbonden aan het het CERN (Centre Européen pour la Recherche Nucleaire6) in Genève. In 1989 wilde men de samenwerking tussen medewerkers van de verschillende Europese partners bevorderen via een systeem van elektronische documentenuitwisseling. Hieruit ontstond in 1991 een hypertekst-systeem dat men kan 5 http://www.w3.org 6 http://www.cern.ch © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 59 3.4. WORLD-WIDE-WEB vergelijken met Gopher. Wanneer uiteindelijk het NCSA7 in 1991 de browser Mosaic8 uitbrengt, begint het Web aan een explosieve groei. Tim Berners-Lee spreekt van het Web als een "distributed hypermedia system". Bedoeling is om rijke documenten, eventueel voorzien van grafische en andere multimediale elementen, op een eenvoudige wijze ter beschikking te stellen over het netwerk aan een een veelvoud van onderscheiden computersystemen. Deze documeneten kunnen over het netwerk aan elkaar gekoppeld worden om samen één logisch document te vormen. Een aantal medewerkers van het NCSA richtten nadien het bedrijf Netscape Communications9 op, dat zich tot doel stelt de Mosaic-technologie te commercialiseren. Netscape verovert snel zo'n 70% van de markt. Ondertussen wordt gewerkt aan nieuwere specificaties voor de onderliggende opmaaktaal HTML (Hypertext Markup Language10). HTML is een subset van de markeertaal SGML, door de Text Encoding Initiative11 als standaard naar voren geschoven voor het structureren van bronteksten. SGML is volledig platform-onafhankelijk, en is publiek: vastgelegd in de norm ISO-887912 van de International Organization for Standardization (ISO13). Wanneer men teksten in SGML codeert, verzekert men zich ervan de de tekst steeds toegankelijk zal zijn voor verdere verwerking. Dit is anders met documenten die met een specifieke tekstverwerker of DTP-pakket werden opgemaakt. Gebruikelijke SGML-documenten hebben een complexe structuur. HTML gebruikt echter een minimum aan structuurelementen zodat het makkelijk kan aangeleerd worden. De relatieve eenvoud van HTML is meteen ook mee verantwoordelijk voor het succes. 3.4.1 World-Wide-Web en Internet Om het World-Wide-Web goed te situeren, is het noodzakelijk eerst kort in te gaan op de relatie van dat World-Wide-Web met het Internet. 7 http://www.ncsa.edu 8 http://www.ncsa.uiuc.edu/SDG/Software/Mosaic/NCSAMosaicHome.html 9 http://home.netscape.com 10 http://www.w3.org/MarkUp 11 http://www.uic.edu/orgs/tei 12 http://www.iso.ch/isob/switch-engine-cate.pl?searchtype=refnumber&KEYWORDS=8879 13 http://www.iso.ch © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 60 3.4. WORLD-WIDE-WEB Men spreekt van een internet wanneer twee of meer computernetwerken met elkaar verbonden worden. Een computernetwerk bestaat uit een actieve, feitelijke koppeling tussen computers. Zo kunnen twee computers met elkaar een netwerk vormen via een modem over een gewone telefoonlijn, op het ogenblik dat de verbinding gemaakt wordt. Men spreekt maar van een netwerk, wanneer tussen de computers die erdoor verbonden zijn gegevensuitwisseling of transmissie mogelijk is. Dat veronderstelt naast de bekabeling ook de nodige software om daarvan gebruik te kunnen maken. Veruit de meeste internetten of internetwerken gebruiken het TCP/IP-protocol (Transmission Control Protocol/Internet Protocol), een reeks afspraken waaraan software moet voldoen om over een fysieke bekabeling een netwerk tot stand te brengen. Het Internet is dan de verzamelnaam voor alle internetwerken die via TCP/IP verbonden zijn. In die zin is Internet een deel van een groter geheel, te definiëren als het geheel van alle netwerken die via welk protocol dan ook onderling bereikbaar zijn. Die bereikbaarheid moet men dan wel ruim opvatten: omdat het om verschillende netwerkprotocollen gaat, is niet elke vorm van gegevensuitwisseling in alle richtingen mogelijk. Vandaar dat men de voorwaarde voor deze bereikbaarheid vaak beperkt tot communicatie via e-mail. Het geheel van onderling via e-mail bereikbare netwerken noemt men dan de Matrix. Wat is nu een protocol? In RFC5414 lezen we (eigen vertaling): "Een connectie is een eenvoudig communicatiepad tussen twee processen. De belangrijkste functie van een protocol is te voorzien in: (1) het vastleggen van connecties, (2) het reguleren van de datastroom over de connecties, en (3) het beëindigen van connecties." Of, zoals elders in het document beschreven, het gaat om een elementaire flow control procedure. Speciaal voor het TCP/IP protocol werden van meetaf aan enkele toepassingen ontwikkeld om via dit protocol ook effectief de gewenste communicatiemogelijkheden te realiseren. De belangrijkste van deze toepassingen, Telnet en FTP, bespreken we hieronder. Wie graag meer gedetailleerde informatie over deze technieken wenst, kan die vinden in de resp. RFC’s (Request for Comment): ftp://ds.internic.net/rfc. Hoewel het internet niet hiërarchisch gestructureerd is en a.h.w. van onderuit groeit, zijn er wel eeen aantal overlegstructuren, zie internet.org15. 14 http://src.doc.ic.ac.uk/computing/internet/rfc/rfc54.txt 15 http://www.internet.org © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 61 3.4. WORLD-WIDE-WEB De Internet Engineering Task Force16 is een open gemeenschap van onderzoekers, ontwikkelaars, bedrijven en vrijwilligers die interesse hebben voor de ontwikkeling en de goede werking van het internet. De Task Force wordt gesubsidieerd door de National Science Foundation van de Verenigde Staten, maar iedereen die wil bijdragen kan toetreden. De IETF bestaat uit een groot aantal werkgroepen, die meestal via mailing lists bedrijvig zijn. Naast de IESG of de Internet Engineering Steering Group is er de IAB of Internet Architecture Board, waar de vele zogenaamde Internet Drafts worden ingewacht en verder ter kennis gebracht. In RFC192017 wordt aangegeven hoe een protocol dient te worden aangevraagd en welke verschillende statussen een protocol kan bezitten. Zo zijn er proposals, drafts en standaard protocollen. Protocollen die internet-standaarden moeten worden, doorlopen een aantal stadia of maturiteitsniveau's (voorgestelde standaard (proposal), "draft" standaard, en standaard) die in toenemende mate onderzoek en tests vergen. Wanneer een protocol alle stadia doorlopen heeft, dan krijgt het een STD nummer (zie RFC-1311). Bij elke stap maakt de Internet Engineering Steering Group (IESG) van het IETF of de Internet Engineering Task Force18 een aanbeveling voor de vooruitgang van het protocol. Typerend voor het Internet is verder dat naast de basis-protocollen die samen TCP/IP uitmaken, er een steeds groeiende groep protocollen is ontstaan voor meer en meer complexe toepassingen, die een inhoudelijke verrijking van het netwerk mogelijk maken. Door het feit dat de protocollen worden vastgelegd in publiek toegankelijke RFC's, kunnen bedrijven, universiteiten en individuen vrij implementaties van deze protocollen in reële toepassingen maken, waarvan men kan aannemen dat ze relatief probleemloos zullen samenwerken met andere ontwikkelingen. In die zin zegt men dat het Internet gebaseerd is op open standaarden. Daartegenover staan softwareoplossingen op basis van gereedschapskisten waarvan de broncode een bedrijfsgeheim is, en waar men afhankelijk blijft van de goodwill van de leverancier; de zogenaamde proprietaire standaarden. 3.4.1.1 Internet, intranet en extranet Wanneer men een lokaal bedrijfsnetwerk baseert op het TCP/IP protocol en open standaarden, spreekt men van een Intranet. Meer en meer tracht men met intranettechnologie het traditionele LAN of Local Area Network te vervangen. Dit betekent o.m. dat men Web-servers zal gebruiken als informatiekanaal, dat men een mail-systeem 16 http://www.ietf.org 17 http://info.internet.isi.edu/in-notes/rfc/files/rfc1920.txt 18 http://www.ietf.org © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 62 3.4. WORLD-WIDE-WEB zal gebruiken dat gebaseerd is op een open standaard zoals POP of IMAP, en dat men zoveel mogelijk van de klassieke diensten van een LAN, zoals de gemeenschappelijke toegang tot databases zal proberen opvangen via Web-applicaties, steeds vaker gebaseerd op de JAVA programmeertaal, waarover verder meer. Een intranet wordt van het eigenlijke internet afgesloten door een zogenaamde firewall, die ervoor zorgt dat men van buitenuit niet alle diensten kan opvragen en dat de bedrijfskritische informatie degelijk beveiligd is. Men spreekt van een extranet, wanneer men welbepaalde doelgroepen van buiten het eigen bedrijf, b.v. grote klanten, een gepriviligieerde toegang verleent tot het intranet. 3.4.2 Het Web Hoe verhouden zich World-Wide-Web en Internet? In feite is het World-Wide-Web een deel van het Internet, in die zin dat communicatie over het World-Wide-Web in enge zin over één welbepaald protocol uit het geheel van de TCP/IP-protocollen plaatsvindt. Het World-Wide-Web wordt gevormd door alle nodes op het internet die het HTTP-protocol of HyperText Transfer Protocol ondersteunen. Dit Hyper Text Transfer Protocol19 (sinds 1990) regelt de communicatie tussen enerzijds een server, en anderzijds een client. Op de server draait een zogenaamde HTTPD-daemon. Dit is en proces dat aan een bepaalde communicatiepoort, meestal poort 80, luistert naar binnenkomende requests of aanvragen. Deze aanvragen komen van een zogenaamde browser of web-client. De browser zal een connectie op zogenaamde socket20 tot stand brengen met de server. Die biedt dan een standaard start-pagina aan. Vanuit deze pagina kan de browser dan volgende pagina's aanvragen, hetzij op de server in kwestie, hetzij op andere servers. Eenmaal de pagina in kwestie werd ingeladen, wordt de connectie opnieuw verbroken. Wie achtereenvolgens een hele reeks pagina's op eenzelfde server opent, moet m.a.w. telkens opnieuw een connectie realiseren. Dit hindert de performantie aanzienlijk, omdat er per connectie toch een zekere overhead is. Bij nieuwere specificaties van het HTTPD-protocol zal men trachten deze beperking te omzeilen. Het opvragen van documenten met behulp van een browser noemt men browsen, de gehele activiteit bestaande uit het gebruik van een browsen om documenten op het internet te verkennen heet surfen. Nu is de definitie van het World-Wide-Web als het gedeelte van het internet dat via het http-protocol bereikbaar is, zeker te beperkend. Belangrijker dan de onderliggende techniek is uiteraard de beleving van het WWW door de gebruiker. Omdat de meeste browsers ook andere protocollen ondersteunen dan http, komt de surfer via de browser 19 http://www.w3.org/TR/REC-html32.html 20 http://src.doc.ic.ac.uk/computing/internet/rfc/rfc147.txt © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 63 3.4. WORLD-WIDE-WEB in de praktijk met een veel ruimer gedeelte van het internet in aanraking, dan alleen hetgeen via web-servers angeboden wordt. Zo ondersteunt elke browser transparant FTP en gopher, en kunnen vele browsers via hulp-applicaties ook nieuws, telnet, tn3270 e.d.m. aanbieden. Voor de surfer is het niet meteen duidelijk dat hier een andere wereld wordt betreden. Een praktijkgerichte omschrijving van het WWW zou dan veeleer zijn het geheel van informatie en diensten dat via een Web-browser over het internet kan ontsloten worden. De beperking "over het internet" is nodig, omdat men met de browser ook informlatie op de eigen machine kan raadplegen, ook wanneer die niet via een internet-verbinding beschikbaar is. Ook de informatie opgeslagen in talloze intranetten kan men moeilijk tot het WWW rekenen. Het web brengt wel enkele problemen met zich mee ten aanzien van wat we als document willen beschouwen. Bij het oude gopher was er ter zake geen probleem: de directory-structuur op de gopher-server wordt een menu, de bestanden zijn de op te vragen documenten. Bij WWW ligt dat anders: hier worden rechtstreeks documenten opgevraagd. In principe zou dit betekenen dat je al lezend van de ene tekst in de andere springt, zoals bij het klassieke hypertext. In die zin zou het web een netwerk van teksten zijn, die samen a.h.w. één groot verhaal brengen. Dat is echter niet het geval: in feite is het Web uitgegroeid tot een netwerk van "sites", waar je bij het navigeren naar toe gaat. Surfen is duidelijk wat anders dan lezen; de meeste Webpagina's zijn dan ook geen uitgeschreven teksten, maar veeleer menu's, uithangborden, wegwijzers, naamplaatjes e.d.m. Hypertext in de enge zin werd allang vervangen door een systeem van knoppen zoals we dat van elke grafische interface kennen. Vanuit het idee dat een beeld meer zegt dan honderd woorden, zijn de vele, gopherachtige menu-lijsten vervangen door blitse "clickable maps" en andere grafische navigatiehulpmiddelen. Surfen wordt dan ook echt "sturen"; de surfer is een piloot die met z'n muis navigeert door het web, niet een aandachtige lezer die een driedimensionele tekst probeert te doorgronden. Cybernautica als cybernetica van de mens, niet van de machine: men bestuurt niet een robot in de eigen omgeving maar zichzelf in een computerwereld. Men moet immers efficiëntie en effectiviteit van elkaar onderscheiden. Gopher en FTP zijn efficiënt, omdat ze met een zo gering mogelijke overhead de eigenlijke informatieoverdracht faciliteren. HTTP is anderzijds effectiever, omdat het de informatie-overdracht pertinenter maakt. Daar zijn verschillende redenen voor. Zo is de enige structurering die gopher en FTP kunnen aanbieden aan een geheel van informatie, een directory. Nu is een directory uiteraard begin van alle ordening, maar de relatie tussen de informatie binnen een directory kan niet worden uitgedrukt. Bovendien is de enige relatie die kan worden uitgedrukt tussen directories van eenzelfde niveau die van wederzijdse uitsluiting. Kenmerkend voor een web-document daarentegen is niet alleen dat het uit links naar andere informatie bestaat, maar dat het zelf een link is tussen de verschillende erin opgenomen links. Dit kan al dan niet © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 64 3.4. WORLD-WIDE-WEB expliciet gebeuren: in een echt stukje hypertext vormt een bindtekst een explicitatie van de "link tussen de links", maar het kan ook gewoon blijken uit de vormgeving van het document. De bijkomende informatie die een web-document kan bieden aan een informatiegeheel verhoogt de effectiviteit van de informatieoverdracht. Die informatie ligt grotendeels in de opmaak van dat document. Te vaak wordt over het hoofd gezien dat opmaak niet zomaar iets uitwendigs is aan een tekst, maar precies een deel van wat gezegd wordt. En het gaat daarbij zeker niet alleen om de perlocutionaire kracht ervan: via structuurelementen, typografische verrijking en illustraties wordt een hiërarchie in het document ingesteld, worden accenten gelegd, worden items gerelativeerd. Kortom, op het moment dat de Mosaic browser, door het NCSA ontwikkeld voor de CERN hypertext documenten, de ronde deed, was het lot van Gopher bezegeld. 3.4.3 De onderliggende technologie Er bestaat een goede, beknopte inleiding in de sleutelbegrippen rond het Web in de zogenaamde www-faq: http://www.boutell.com/faq/. We overlopen in wat volgt de belangrijkste elementen die samen het Web structureren. 3.4.3.1 HTTP21 Hypertext Transfer Protocol, vanaf 1990. Dit protocol, bedoeld voor de ontwikkeling ven gedistribueerde hypermediasystemen, werd de ruggegraat van het World-WideWeb. Heit is volledig ontworpen vanuit een client-server architectuur. Vergelijkbaar met gopher, en in tegenstelling tot b.v. FTP en telnet, dient er niet te worden ingelogd op de host om een http-connectie op te zetten. Een klant-programma kan via een eenvoudige request een http-dienst opvragen. Doordat het protocol via het principe van aanvraag en antwoord werkt, kunnen geheel onafhankelijk van elkaar olossingen worden ontwikkeld die van dit protocol gebruik maken. Op die manier kan de eigen dynamiek van de markt z’n volle efficiënte bereiken, wat mee de groei van het World-Wide-Web verklaart. 3.4.3.2 JAVA Platform-onafhankelijke programmeertaal voor Web-applicaties, ontwikkeld door Sun. Men verwacht dat Java een geheel nieuwe generatie van web-gebaseerde intranettoepassingen met zich mee zal brengen. Vermits Java-code wordt afgehaald naar de eigen PC met behulp van een browser vanuit een andere machine, werden bij de introductie heelwat vragen gesteld bij de beveiligingsproblematiek. Dit heeft tot enkele 21 http://src.doc.ic.ac.uk/computing/internet/rfc/rfc2068.txt © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 65 3.4. WORLD-WIDE-WEB aanpassingen in de implementaties geleid. Voordeel van Java is uiteraard dat in principe een Java-programma kan uitgevoerd worden op verschillende types hardware, en onder verschillende besturingssystemen. Om toch een goede performantie te bereiken wordt de code “Just-In-Time” gecompileerd. 3.4.3.3 Javascript Een een Java gebaseerde script-taal, ontwikkeld door Netscape Communications en inmiddels uitgegroeid tot een Europese standaard. Deze script-taal wordt zowel door bepaalde servers als door browsers ondersteund, en laat toe beperkte automatisering toe te voegen aan web-documenten. Javascript kan worden gebruikt om te komen tot zogenaamd "dynamisch html", waarmee een veel higere graad van interactie tussen de gebruiker en de web-site kan worden bereikt. 3.4.3.4 Active-X Script-taal van Microsoft, dat als alternatief voor Javascript en Java wordt naar voren geschoven. Active-X is zeer sterk geïntegreerd in de Windows omgeving, en zou daaruit performantievoordelen putten. Er is een levendige discussie gaande omtrent de veiligheid van Active-X, vermits deze krachtige omgeving toelaat volwaardige applicaties te maken die interageren met andere windows-programma's op de machine van de client. 3.4.3.5 VRML Virtual Reality Modeling Language is een platformonafhankelijk bestandsformaat om driedimensionele werelden op het WWW aan te bieden. In 1995 werd VRML 1.0 boven de doopvont gehouden, waarna in 1996 het "Moving Worlds22" voorstel vaste voet aan grond kreeg. 3.4.3.6 SSL SSL23 of Secure Sockets Layer is een beveiligingsprotocol dat bescherming moet bieden tegen afluistering en vervalsing van internet-boodschappen. SSL biedt drie eigenschappen voor communicatie tussen toepassingen over het internet: • privacy: er wordt voorzien in encryptie van het verkeer. • authenticatie: er is mogelijkheid tot wederzijdse verificatie van identiteit 22 http://vrml.sgi.com/moving-worlds/index.html 23 http://home.netscape.com/eng/ssl3/draft302.txt © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 66 3.4. WORLD-WIDE-WEB • betrouwbaarheid: de betrouwbaarheid van de connectie wordt gegarandeerd door te voorzien in een integriteitscontrole van het boodschappentransport. 3.4.3.7 e-commerce Elektronische handel via het WWW. Om tot een florissante elektronische handel te komen, moet vooral het delicate probleem van de beveiliging ven het betaalverkeer over het internet worden geregeld. Daar zijn twee sleutelfactoren bij betrokken: authentificatie en encryptie. 3.4.3.8 Cookies Cookies zijn kleine bestandjes die een script op een web-pagina achterlaat op de harde schijf van de bezoekende PC. Daarin wordt informatie over de sessie opgeslagen, zodat men bij een volgend bezoek meer gericht kan terugkoppelen naar de bezoeker. Op die manier kan de aangeboden informatie beter worden aangepast aan de noden of wensen van de surfer. Dit kent uiteraard veel commerciële toepassingen, maar het kan b.v. ook gebruikt worden om feed-back te geven aan een gebruiker in een meer educatieve context. Men kan zelf aangeven of men cookies aanvaardt of niet, of vereisen dat de browser minstens een verwittiging geeft wanneer cookies worden geplaatst. 3.4.3.9 Authentificatie Een belangrijker wordend probleem bij de zogenaamde intranetten, waarbij met behulp van internet-technologie een intern bedrijfsnetwerk wordt opgebouwd, vaak ter vervanging van een bestaand LAN of Local Area Network, is de correcte identificatie van web-gebruikers. Biedt men immers via het intranet toegang tot databases, dan moet de toegang kunnen worden beperkt tot bevoegde personen. Om dit te bereiken gebruikt men naast de web-server twee andere services: een zogenaamde directoryserver en een authentication-server. De directory server is gekoppeld aan het personeelsbestand, en maakt dit via het web opvraagbaar. Dit kan volgens de complexe X.500 standaard, maar meestal wordt voor het eenvoudiger te implementeren LDAP of Lightweight Directory Access Protocol gekozen. De bijhorende authentication-server zorgt ervoor dat elke client een "certificaat" kan opvragen, waarmee de gebruikersnaam en paswoord worden gevalideerd. Een een certificaat voorgelegd aan de server, kan men overgaan naar beveiligde transacties, zoals HTTPS of S/MIME. In dat geval worden de boodschappen tussen client en server geëncrypteerd, waardoor "afluisteren" van de boodschappen niet meer mogelijk is. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 67 3.4. WORLD-WIDE-WEB 3.4.3.10 URL (RFC 1738)24 De URL of Uniform Resource Locator is een uniforme aanduiding van resources of Diensten op het World-Wide-Web. Via de URL kan de browser of Web-client een document terugvinden op een Web-server. De algemene vorm van een URL is: <protocol>: //<user>:<paswoord>@<host>:<poort>/<url-pad> Waarbij protocol staat voor een dienst die via een bepaald protocol kan worden opgeroepen. Voorbeelden zijn: ftp: File Transfer protocol http: Hypertext Transfer Protocol gopher: Gopher protocol mailto: Electronic mail address news: USENET news nntp: USENET news using NNTP access telnet: Reference to interactive sessions wais: Wide Area Information Servers file: Host-specific file names prospero: Prospero Directory Service Het gedeelte "//<user>:<paswoord>@" is optioneel en komt eerder zelden voor. Men kan het ingeven wanneer een resource om een bepaalde authenticatie als gebruiker vraagt, b.v. bij FTP. Via het systeem van URL's kunnen miljoenen adressen op een eenvoudige manier worden bijgehouden en ingegeven. De namen van de hosts worden op de klassieke manier via een Domain Name System aangevraagd. 3.4.3.11 Push technology Een techniek om documenten vanuit de server te versturen naar de client. De normale werkwijze op het World-Wide-Web betsaat ering gebrui te maken van pull-technologie, waarbij het de Web-client of browser is die een document bij de server opvraagt. Via push-technologie zou de dienstverstrekker zelf bepaalde doelgroepen meer gericht 24 http://www.nexor.com/public/rfc/rfcs/rfc1738.txt © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 68 3.4. WORLD-WIDE-WEB kunnen aanspreken. De huidige pogingen tot een dergelijke distributie vanuit de server, nl. het opkomende netcasting, zijn nog op pull-technologie gebaseerd. 3.4.3.12 Proxy-servers Proxy-servers zijn http-servers die de aanvragen van meerdere web-clients bundelen, vooraleer die door te sturen naar de eigenlijke host. Op die manier kan het aantal connecties naar de host worden beperkt, en kan men vooral bij druk bezette internationale verbindingen bandbreedte besparen. De prox-server houdt zelf een kopie bij van het opgevraagde document in een eigen “cache”, en zal regelmatig verifiëren of die kopie nog actueel is. Proxy-servers worden vaak gecombineerd met zogenaamde “firewalls”, die het gehele internet-verkeer filteren voordat het het interne bedrijfsnetwerk bereikt. 3.4.4 Informatie zoeken op het World-Wide-Web Het World-Wide-Web vindt z'n oorsprong in inspanningen om informatie die op geïnternetwerkte computers beschikbaar is, op een gebruiksvriendelijke manier toegankelijk te maken. Het is met name die gebruiksvriendelijkheid die het verschil maakte: er stonden immers al lang talloze communicatiemiddelen ter beschikking om van internetwerken gebruik te maken, denk maar aan e-mail, FTP, telnet, gopher e.d.m. Snel werd voor iedereen duidelijk dat een web-browser gekoppeld aan de juiste serversoftware zich kan ontpoppen tot een extreem krachtig informatieontsluitingsmechanisme. Op het web kan men immers nagenoeg alle bestaande zoektechnieken implementeren op een platform-onafhankelijke manier. Om op het web te zoeken kan men verschillende strategieën aanwenden. Het meest bekend zijn de zoekrobots. In dit geval zal een machine pagina’s op zoveel mogelijk sites indexeren. Dit kan full-text zijn, of via structuurelementen (titel, headings etc.). Niet zelden gaat het om een perl-script, dat de documenten via HTTP opvraagt en parst (een parser is een algoritme dat de syntactische structuur van een zin uit een bepaalde al dan niet formele taal ontleedt; de activiteit van een parser heet parsing of parsen). Zoekrobots bieden een verbluffende toegang tot informatie. Naarmate men zelf minder van een onderwerp afweet, zal men meer onder de indruk zijn van een zoekrobot: er blijkt nagenoeg geen enkel onderwerp te bestaan waarover op het web geen tientallen pagina's te vinden zijn. Dat maakt van het web de ideale thuisencyclopedie. Nooit gehoord van Tai Chi? Alle 110 bewegingen worden op het web beschreven! De manen van Saturnus? Op het web vind je foto's, tekst en uitleg. Op een uit de kluiten gewassen robot zoals Lycos geeft een query naar een iets te vaag omschreven onderwerp zoals Cultural Studies al gauw een paar honderd URL's © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 69 3.4. WORLD-WIDE-WEB weer. Dat maakt het verwerven van consistente informatie via deze techniek vaak moeilijk. Heel wat opgegeven sites blijken bij nader onderzoek niet relevant. Zeker bij full-text search is het resultaat onvoorspelbaar. Iemand die in z'n pagina schrijft: "Het is natuurlijk niet de bedoeling hier de geschiedenis van Ierland te beschrijven”, zal wél zijn pagina zien verschijnen in het resultaat van een full-text search naar "Geschiedenis van Ierland". Bovendien is er geen enkele kwaliteitscontrole op de geboden informatie. Het is dan ook zaak de zoekresultaten die naar boven komen kritisch te evalueren: • Wat is de herkomst van de pagina? Een pagina uit een .gov, .org of .edu domein heeft een ander type geloofwaardigheid dan een .com pagina. • Welke organisatie biedt de informatie aan? Is deze organisatie eigenaar van de informatie, is ze er verantwoordelijk voor, of bevoegd? Er is een belangrijk verschil tussen een spoorgids on-line geplaatst door een enthousiaste treinfanaat en en officiële gids van een spoormaatschappij. • Wie is de auteur? Heeft die wel het auteursrecht op de geboden informatie? Vaak vindt men immers ingescande literatuur op het web. Niet zelden werd het copyright daarbij geschonden. Is de auteur een authoriteit op dit gebied? • In welke mate is de geboden informatie volledig? Een lijst van universiteiten zou b.v. grote lacunes kunnen bevatten. Een Engelstalige on-line handleiding voor het zoeken van informatie op het internet kan men vinden op het adres http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html. 3.4.4.1 Overzicht van de belangrijkste beschikbare zoekhulpen 3.4.4.1.1 Zoekmatrix K.U.Leuven25 Zeer overzichtelijk en ruim overzicht door Herman VanUytven, Universitair Rekencentrum K.U.Leuven. Een uitstekend vertrekpunt. De meeste hieronder besproken zoekhulpen zijn van hieruit rechtstreeks bereikbaar. 3.4.4.1.2 Yahoo26 Exploiteert de Yahoo! (Yet Another Hierarchical Officious Oracle) meta-index. Die is hiërarchisch opgebouwd. De Yahoo! Meta-index is zonder meer het best ontwikkelde web-zoekinstrument op dit ogenblik. Yahoo wordt best ingezet wanneer je precies weet over welk onderwerp je informatie zoekt, en gewoon wil weten wat over dat onderwerp wordt aangeboden. Nadeel van Yahoo is uiteraard dat het sterk Angelsaksisch 25 http://mailserv.cc.kuleuven.ac.be/se_adv_nl.html 26 http://www.yahoo.com © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 70 3.4. WORLD-WIDE-WEB geörienteerd blijft. Het is van belang er rekening mee te houden dat b.v. heel wat officiële sites met informatie over Frankrijk alleen in het Frans beschikbaar zijn. Men consultere dan ook regionale Yahoo's, zoals Yahoo! France27, Yahoo! Deutschland28 etc. Bij het gebruik maken van de Amerikaanse site moet men voor ogen houden dat daar zowel de rubrieken Arts, Humanities als Social Sciences van belang kunnen zijn voor historici. 3.4.4.1.3 Alta Vista29 Zoekrobot van Digital, één van de krachtigste en meest volledige ter wereld. De zoekrobots zal men inzetten wanneer men voor een specifiek woord informatie wil vinden. Zo kan men het woord Lycosidae best ingeven in een zoekrobot als Alta Vista of Lycos, terwijl informatie over biologie in het algemeen best wordt aangekaart via http://www.yahoo.com/science/biology. Altavista heeft ook een Europese mirror-site30. Deze site biedt ondersteuning voor meerdere Europese talen. Bovendien laat Altavista nu toe om de zoekopdracht te beperen tot documenten die een een bepaalde taal opgesteld zijn. Altavista kent ook een techniek die clustering toelaat van de gevonden pagina’s volgens een concept-boom. Op die manier kan men de zoekopdracht verfijnen op basis van de data zelf. Wanneer men immers de zoekopdracht via de klassieke weg moet verfijnen door zelf bijkomende constaints op te leggen, kan het zijn dat relevante pagina’s onopgemerkt blijven. Alta Vista biedt ook de mogelijkheid om te zoeken in USENET. Op die manier kan men snel terugvinden of een bepaald probleem in een aantal nieuwsgroepen reeds aan bod gekomen is. AltaVista biedt op z’n site een vrij uitvoerige handleiding aan31. Via “Uitgebreid Zoeken” kan men de zoekopdracht verder verfijnen. Hieronder een overzicht van enkele mogelijkheden: • geschiedenis nederland geschiedenis OR nederland Zoekt pagina’s waar deze woorden in voorkomen, ongeacht volgorde en schrijfwijze (hoofd- en/of kleine letters). 27 http://www.yahoo.fr 28 http://www.yahoo.de 29 http://altavista.digital.com 30 http://www.altavista.telia.com 31 http://altavista.telia.com/cgi-bin/query?mss=nl/advhelp&country=be © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 71 3.4. WORLD-WIDE-WEB • Geschiedenis Nederland Zoekt pagina’s waar deze woorden in voorkomen, ongeacht volgorde maar geschreven zoals het voorbeeld. • “Geschiedenis van Nederland” Zoekt exact de tekenreeks zoals ingevoerd. • geschiedenis AND Nederland Zoekt documenten waar beide woorden samen in voorkomen. • geschiedenis NEAR Nederland Zoekt documenten waar de woorden geschiedenis en Nederland op minder dan tien woorden van elkaar staan. • geschiedenis NOT bedrijf Zoekt documenten waar wel geschiedenis, maar niet het woord bedrijf in voorkomt. Dit wordt voornamelijk gebruikt wanneer een op zich zinvolle zoekopdracht vooraan teveel verwijzingen naar documenten uit een totaal andere context oplevert. Men kan gebruik maken van haakjesnotatie om OR- en AND-opdrachten correct te combineren. Daarnaast kan men ook een rangschikking doorvoeren van de zoekresulaten, zodat de meest relevante antwoorden bovenaan komen te staan. Zo zou men b.v. de vraag naar “Geschiedenis van Nederland” een rangschikking “universiteit bibliotheek academie overheid” kunnen meegeven, om documenten waar deze woorden ook in voorkomen meer gewicht te geven. 3.4.4.1.4 Hotbot32 Interface voor de Inktomi zoekrobot. Hotbot kent een aantal mogelijkheden om de zoekopdracht te verfijnen. Zo kan men de datum, de plaats, het media-type en het pagina-type nader preciseren. Met pagina-type wordt bedoeld of het een hoofdpagina is in een site of niet. Je kan ook aangeven tot op welk niveau van doorverwijzing je in sites zal zoeken. Bovendien kan je je zoekopdracht opslaan, om die later weer te kunnen gebruiken. 3.4.4.1.5 Andere op robots gebaseerde systemen: • Lycos: http://lycos.cs.cmu.edu • Webcrawler: http://www.webcrawler.com • Infoseek: http://www.infoseek.com • Excite: http://www.excite.com 3.4.4.1.6 WWW Virtual Library: Europese mirror33 32 http://www.hotbot.com 33 http://www.mth.uea.ac.uk/VL/Overview.html © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 72 3.4. WORLD-WIDE-WEB Een ernstig te nemen initiatief om tot een web-catalogus te komen die de kwaliteit van bibliotheekcatalogi benadert. Experimenteel is ook een indeling volgens Library of Congress klassificatie on-line geplaatst34. De WWW Virtual Library heeft voornamelijk als voordeel dat men kan betrouwen op de kwaliteit van de opgegeven verwijzingen. In die zin is de Virtual Library en goed uitgangspunt indien men wil weten wat over een bepaald wetenschapsdomein via het internet wordt aangeboden. 3.4.4.1.7 Meta-zoeksystemen Meta-search engines leggen de zoekopdracht van de gebruiker voor aan verschillende zoekrobots. Het resultaat wordt vergeleken, de dubbels eruit gehaald en er wordt een zekere ordening en groepering aangebracht. Dit eindresultaat krijgt de gebruiker te zien. Bijkomend voordeel is, dat de meta-zoeksystemen vaak een snelle verbinding hebben met de zoekrobots. In elk geval kan men veel tijd besparen door z’n vraag eerst aan een meta-zoeksysteem voor te leggen. • Northern Light: http://www.nlsearch.com • Inference: http://www.inference.com • Mamma: http://www.mamma.com • MetaZoek België: http://www.net-v.be 3.4.4.1.8 Belgische zoeksystemen Wanneer men geïnteresseerd is in informatie die op België betrekking heeft, is het zeker aangewezen eerst de Belgische zoeksystemen te raadplegen, vooraleer de “wereldwijde” systemen aan te kaarten. We geven twee voorbeelden: • Webbel: http://www.webbel.be Hiërarchische, alfabetische geordende cataloog • Webwatch: http://www.webwatch.be Belgische robot 3.4.4.1.9 FOLDOC (Free On-Line Dictionary Of Computing) http://wombat.doc.ic.ac.uk/ Een uitstekend woordenboek van computertermen. 34 http://www.mth.uea.ac.uk/VL/LibraryOfCongress.html © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 73 3.4. WORLD-WIDE-WEB 3.4.5 Institutionalisering van het WWW Naast de nieuwe "instituten" zoals Yahoo! en Alta Vista komen ook de traditionele anabieders van gestructureerde informatie sterk opzetten op het Web: de bibliotheken, uitgeverijen en mediagroepen. Er zijn verschillende toegangen tot bibliotheeksystemen. Op het Web domineren twee varianten: Telnet en WWW. Bij een telnet-toegang zal men via een telnet-client inloggen op het computersysteem waarop de bibliotheektoepassing draait, om zo de catalogus te raadplegen. Voordeel van deze benadering is dat telnet op eender welk computerplatform beschikbaar is, en dat het zowel aan de client als aan de transmissie weinig eisen stelt. Zelfs met een eenvoudige DOS-computer kan men zo bibliotheken op afstand raadplegen. Naargelang het type van de host (de computer waarop men inlogt) heeft men een typische vt100 of ANSI telnet-client van doen, of een tn3270client. Bij standaard vt100-emulatie (vt100 is een type terminal voor DEC-computers) en ANSI (American National Standards Institute) worden de instructies teken per teken doorgezonden, bij de IBM 3270-emulatie (een 3270 was een speciale PC voor communicatie met een IBM mainframe) gaat dit scherm per scherm, wat voor bibliotheektoepassingen aangenamer is. Het nadeel van zowel de telnet- als tn3270 varianten is dat men in feite aansluit op een ander computersysteem, en men vaak met vreemde commando's en een onaangepaste toestenbord-indeling moet werken. Bovendien laat telnet geen bestandsuitwisseling toe met de client, en zijn er bijgevolg weinig manipulaties mogelijk op de verkregen zoekresultaten. Een tweede mogelijkheid is via WWW, meer bepaald met HTML-forms. In dit geval werkt men in een zuivere client-server omgeving, en kan men de opgevraagde resultaten gemakkelijker afdrukken of wegschrijven. Ook bedient men de eigen computer, wat toetsenbordproblemen of een onbekende commando-omgeving uitsluit. Bibliotheekcatalogi zijn via gestructureerde indices beschikbaar. Hier volgen enkele belangrijke adressen. Uit het grote aantal kan blijken dat bibliotheektoegang via internet geen wishfull thinking meer is, en dat bibliotheekwetenschap en informatietechnologie elkaar reeds geruime tijd gevonden hebben. De eigentijdse bibliothecaris is dan ook tevens een Cybrarian, gespecialiseerd in informatie-ontsluiting op het Web. 3.4.5.1 WWW Virtual Library: Europese mirror: http://www.mth.uea.ac.uk/VL/Overview.html Een ernstig te nemen initiatief om tot een web-catalogus te komen die de kwaliteit van bibliotheekcatalogi benadert. Experimenteel is ook een indeling volgens Library of Congress klassificatie on-line geplaatst: http://www.mth.uea.ac.uk/VL/LibraryOfCongress.html © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 74 3.4. WORLD-WIDE-WEB De WWW Virtual Library heeft voornamelijk als voordeel dat men kan betrouwen op de kwaliteit van de opgegeven verwijzingen. In die zin is de Virtual Library en goed uitgangspunt indien men wil weten wat over een bepaald wetenschapsdomein via het internet wordt aangeboden. 3.4.6 Sites voor historici (toestand 31/08/98, zie http://fuzzy.arts.kuleuven.ac.be/F207/histlink.htm voor een geactualiseerde versie) Archeologie en Geschiedenis Oudheid • Bookmarks Jan Raeymaekers: (http://onyx.arts.kuleuven.ac.be/~jraeymae/bookm.htm) • (URL changed!) Archaeological Resource Guide for Europe (http://odur.let.rug.nl/arge/) • ArchNet: (http://spirit.lib.uconn.edu/ArchNet/News/homehelp.html) • Perseus Project: (http://medusa.perseus.tufts.edu/) • Argos: Limited Area Search of the Ancient and Medieval Internet: (http://argos.evansville.edu/) • KIRKE: Katalog der Internet-Ressourcen für die Klassische Philologie aus Erlangen: (http://www.phil.uni-erlangen.de/~p2latein/ressourc/ressourc.html) • Strumenti informatici per lo studio della Storia Antica: (http://www.economia.unibo.it/dipartim/stoant/struminf/intro.html) • Classics at Oxford: (http://info.ox.ac.uk:80/~classics/) Middeleeuwen • Bibliography on the Year 1000: (http://www.mille.org/1000-bib.htm) • Middeleeuwse handschriften Nederlandse Koninklijke Bibliotheek: http://www.konbib.nl/kb/bc/bc-nl/mehand/mehand.htm • Honderd Hoogtepunten uit de Koninklijke Bibliotheek: (http://www.konbib.nl/kb/100hoogte/menu-tours-nl.html) • Patrologia Latina - The Full Text Database: (http://pld.chadwyck.co.uk/) • Archief van Middeleeuwse Bronnen: (http://www.student.kuleuven.ac.be/~m9310837/mid.htm) • ORB, the Online Reference Book for Medieval Studies. On-Line Text Materials for Medieval Studies: (http://orb.rhodes.edu/) • Internet Medieval Sourcebook: (http://www.fordham.edu/halsall/sbook.html) © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 75 3.4. WORLD-WIDE-WEB • De verhalende bronnen uit de Zuidelijke Nederlanden, 600-1500: (http://allserv.rug.ac.be/~jdploige/sources/n_index.html) • Medieval Studies: (http://www.georgetown.edu/labyrinth/Virtual_Library/Medieval_Studies.html) • EuroDocs: Primary Historical Documents From Western Europe: (http://library.byu.edu/~rdh/eurodocs/) • Labyrinth: A World Wide Web Server for Medieval Studies: (http://www.georgetown.edu/labyrinth/labyrinth-home.html) • Vincent of Beauvais O.P. (http://www.let.ruu.nl/departments/C+L/voorbij/vb_home.htm) • Historische Ressourcen im Netz (Mittelalter) Univ. Erlangen: (http://www.phil.uni-erlangen.de/~p1ges/ma_resso.html) • CETEDOC: Centre de traitement électronique des documents LLN: (http://www.fltr.ucl.ac.be/FLTR/TEDM/tedm.html) • Interessante Links zur Mediävistik (Erlangen): (http://www.uniregensburg.de/Fakultaeten/phil_Fak_IV/Germanistik/erlink.html) • Kommission für Schrift- und Buchwesen des Mittelalters der Österreichischen Akademie der Wissenschaften: (http://www.oeaw.ac.at/~ksbm/) • Mittelalter und Antike (Essen): (http://www.mediae.uni-essen.de/weltweit.htm) • Monumenta Germaniae Historica (Deutsches Institut für Erforschung des Mittelalters): (http://www.mgh.de/) • Yahoo! France: Moyen Age: (http://www.yahoo.fr/Sciences_humaines_et_sociales/Histoire/Moyen_Age/) • Yahoo! UK & Ireland: Middle Ages: (http://www.yahoo.co.uk/Arts/Humanities/History/Middle_Ages/) Instituten en Departementen • Institute of Historical Research: (http://ihr.sas.ac.uk/) • Nederlands Instituut voor Wetenschappelijke Informatiediensten, met o.m. Nederlands Historisch Data Archief: (http://www.niwi.knaw.nl/) • Geschiedenis On-line: (http://www.archief.nl/) • Internationaal Instituut voor Sociale Geschiedenis (IISG): (http://www.iisg.nl/indexnl.html) • KADOC: (http://www.kuleuven.ac.be/kadoc) • Netherlands Economic History Archive: (http://www.iisg.nl/~neha/) © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 76 3.4. WORLD-WIDE-WEB • History Departments Around the World: (http://chnm.gmu.edu/history/depts/) • Instituut voor Nederlandse Geschiedenis: (http://www.konbib.nl/infolev/ing/welkom.htm) • Institut für Geschichte (Universität Erlangen-Nürnberg): (http://www.phil.unierlangen.de/~p1ges/home.html) • History Database (History Computerization Project): (http://www.directnet.com/history/) Verenigingen • The Association for History and Computing: (http://grid.let.rug.nl/ahc/) • Vereniging voor Geschiedenis en Informatica: (http://grid.let.rug.nl/ahc/holland.html) • International Students of History Association: (http://hagar.arts.kuleuven.ac.be/org/isha/) Andere overzichten en sites • Reformatie. Leven en werk van Maarten Luther: (http://www.meetingpoint.org/ml/index.htm) • Monarchs of Britain: (http://www.britannia.com/history/tudor.html) • Britannica Internet Guide: (http://www.ebig.com) • From Revolution to Reconstruction. A Hypertext on American History from the colonial period until Modern Times: (http://odur.let.rug.nl/~usa/usa.htm) • The History Net: (http://www.thehistorynet.com/) • WWW services for Historians (http://grid.let.rug.nl/ahc/hist.html) • Lycos A2Z hiërarchische index History: (http://a2z.lycos.com/Arts_and_Humanities/History/) • Yahoo! - History: (http://www.yahoo.com/Arts/Humanities/History/) • Yahoo! Deutschland - Geschichte: (http://www.yahoo.de/Geistes__und_Sozialwissenschaft/Geisteswissenschaften /Geschichte/) • Yahoo! France - Histoire: (http://www.yahoo.fr/Sciences_humaines_et_sociales/Histoire/) • Altavista search op keyword History, met enige begrenzingen © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 77 3.4. WORLD-WIDE-WEB • World-Wide-Web Virtual Library: History: (http://history.cc.ukans.edu/history/WWW_history_main.html) • (URL changed!) Historical Studies World Wide Web Resources: (http://www.admin.ias.edu/hslib/hsres.htm) • Geschiedenis On-line. Sites over geschiedenis: (http://www.archief.nl/pag04a.htm) • Social Science Information Gateway: (http://www.sosig.ac.uk/) • Historische bronnen op Internet - vakgroep Geschiedenis Rijksuniversiteit Leiden: (http://wwwlet.leidenuniv.nl/history/surf/resource.htm) Tijdschriften en on-line artikels • History Journals Guide: (http://www.crispinius.com/nfh2/zeitschriften/main_01.htm) • Zeitschriftenfreihandmagazin Inhaltsverzeichnisse geschichtswissenschaftlicher Zeitschriften in deutscher Sprache: (http://www.phil.unierlangen.de/~p1ges/zfhm/zfhm.html) • History and Theory. Studies in the Philosophy of History: (http://www.wesleyan.edu/histjrnl/hthome.htm) • History Reviews On-Line: (http://www.depauw.edu/~dtrinkle/hrol.html) • Bronontsluiting voor de negentiende en twintigste eeuw: (http://www.konbib.nl/infolev/ing/rgp/werkbest/sympos/algemeen.htm) Historische Informatiekunde in de "Lage Landen" • college Historische informatiekunde Rijksuniversiteit Groningen: (http://grid.let.rug.nl/~welling/hik/menu.html) • Basismodules Computer en Letteren Vrije Universiteit Amsterdam: (http://www.let.vu.nl/til/lccl.htm) • Historische Informatiekunde Vrije Universiteit Amsterdam: (http://www.let.vu.nl/til/lccl.htm#LCCLS1) • Computer en Letteren Universiteit Utrecht (http://candl.let.ruu.nl/) • Historische Informatiekunde (K.U.Brussel) (http://www.kubrussel.ac.be/geschied/gshi.html) • An Introduction to Art History Information Science (http://wwwlet.leidenuniv.nl/www.let.data/Arthis/Theatrum/TBSup/ahihome.htm) Kaarten • Geography Guide: http://geography.miningco.com © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 78 3.4. WORLD-WIDE-WEB • Cartografische collectie Nederlandse Koninklijke Bibliotheek: http://www.konbib.nl/kb/skd/karto-nl.html • Wegwijzer cartografie Nederlandse Koninklijke Bibliotheek: http://www.konbib.nl/kb/skd/diensten.html • Map History / History of Cartography - THE Gateway to the Subject: (http://ihr.sas.ac.uk/maps/) • Oddens's Bookmarks. The Fascinating World of Maps and Mapping: (http://kartoserver.frw.ruu.nl/HTML/staff/oddens/oddens.htm) Verwijzen naar Internet-bronnen • A Brief Citation Guide for Internet Sources in History and the Humanities: (http://library.byu.edu/~rdh/eurodocs/cite.html) • Elektronische voetnoten: (http://www.kuleuven.ac.be/ck/archief/ck-7-13/s3.htm) Onderwijs • Geschiedenisonderwijs (Nederland/Vlaanderen): (http://fuzzy.arts.kuleuven.ac.be/F207/onderwijs.htm) Onderwijs algemeen • Edu Internet Vlaanderen: http://www.smic.be/edu/index.htm • Schoolnet: http://www.digilife.be/schoolnet/ • DigiKids: http://www.digikids.be/ • Klasse: http://www.artefact.be/klasse/ • Vlaamse Gemeenschap - Onderwijs: http://www.vlaanderen.be/ned/sites/onderwijs/onderw_f.htm • VSKO (Vlaams Secretariaat van het Katholiek Onderwijs): http://www.vsko.be • ARGO (Autonome Raad voor het Gemeenschapsonderwijs): http://www.argo.be • NL-menu Onderwijs: http://www.nl-menu.nl/nlmenu/onderwijs/home.html • De Digitale School: http://digischool.bart.nl/ • Microsoft Onderwijs Webzine: http://www.microsoft.com/benelux/learn/nlb.htm Geschiedenis • VLG - Vereniging Leraren Geschiedenis en MAVO: http://www.vlg.org • Edu Internet Vlaanderen - Geschiedenis: http://www.smic.be/edu/tips05ge.htm • Geschiedenis On-line: http://www.archief.nl/ © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 79 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI • De Digitale School - vaklokaal geschiedenis: http://digischool.bart.nl/gs/gslok.htm • Castles on the Web: http://fox.nstn.ca/~tmonk/castle/castle.html 3.5 Bibliotheken, bibliografische databanken en catalogi 3.5.1 Bibliotheek in Beweging In de traditionele bibliotheek werd de klemtoon gelegd op de vorming en de veilige bewaring van collecties van boeken en tijdschriften. Vandaag richt de bibliothecaris zich in de eerste plaats naar de gebruiker, en is hij geëvolueerd tot een informatiebemiddelaar. Deze omwenteling is onder meer het resultaat van de opgang van nieuwe technologieën op het vlak van elektronische informatie. In zijn grappig werkje De bibliotheek geeft Umberto Eco (1988) een inventaris van al wat de bibliotheek tot een nachtmerrie kan maken. De bibliothecaris behandelt de bezoeker als een vijand en een potentiële dief. De catalogi zijn niet-geïntegreerd en bevatten uiteenlopende spellingsvormen. De ene keer gebruikt men Tsjaikovsky, de andere keer Tchaikowsky. De trefwoorden zijn toegekend op een puur willekeurige basis. Copieerapparaten ontbreken of haperen voortdurend. Uitlenen en interbibliothecair aanvragen van boeken duren een eeuwigheid... Met dit negatieve bibliotheekmodel roept Eco als het ware onmiddellijk de kenmerken op van een goede, eigentijdse bibliotheek. Kwaliteitszorg en gebruikscomfort werden, vooral vanaf de jaren tachtig, gefaciliteerd door uitgebreide systeem-automatisering. De K.U.Leuven speelde een voortrekkersrol met de productie vanaf november 1977 van het Dobs-Libis-systeem, in samenwerking met IBM en de Universiteit van Dortmund. Het Leuvens Integraal Bibliotheeksysteem (Libis) stelt de gebruikers in staat om via computerterminals titelbeschrijvingen te raadplegen op de mainframe-computer in het Universitair Rekencentrum. Libis-net geeft niet enkel de titelbeschrijvingen uit de verschillende deelbibliotheken van de K.U.Leuven, maar ook die uit zeventien andere (universiteits)bibliotheken in het netwerk. Achter de on-line public access catalogue (opac) schuilt een omvangrijk geheel van geïntegreerde toepassingen. Libis vormt zelfs de ruggegraat van het volledige bibliotheekbeheer. De modules voor de gautomatiseerde bestelling, catalogisering, tijdschriftverwerking, uitleen en interbibliothecair leenverkeer leverden tastbare verbeteringen. Bijvoorbeeld kunnen catalografen putten uit betrouwbare bestanden, de zogenaamde authority files, om werken van ... Tchaikovsky te beschrijven. Elektronische informatie bleef tijdens de jaren tachtig in vele bibliotheken beperkt tot dit soort van geïntegreerde netwerksystemen. Wel steeg het aantal bibliografische databanken die on-line raadpleegbaar werden. Omwille van de hoge kostprijs van de, © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 80 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI vaak intercontinentale, telefoonverbindingen kende deze on-line information retrieval niet overal evenveel succes. De bibliotheken waren hiermee evenwel definitief op het spoor gezet van de vernieuwing. Dit werd gereflecteerd in het programma van de in 1983 opgerichte interuniversitaire speciale licentie documentatie- en bibliotheekwetenschap, waartoe overigens vele afgestudeerde historici zich geroepen voelden. Binnen deze opleiding nam sindsdien het aandeel van de nieuwe technologieën en van de informatiewetenschap steeds meer toe. Vandaag heeft ze een tweedelige vorm: ten eerste een 'aanvullende studie bibliotheeken documentatiekunde' en ten tweede een 'gespecialiseerde studie informatie- en bibliotheekwetenschap'. Men doceert er in toenemende mate vakken als documentaire informatiesystemen, documentaire informatiemarkt, documentarchiveringssystemen, dataverwerking en datacommunicatie (zie op de Internet-adressen http//hgins.uia.ac.be/psw/stud/roosterasbib.html en roostergasbib.html). In de jaren negentig deden de personal computers hun intrede in de bibliotheken. Dit hing grotendeels samen met de opkomst van het medium van de cd-rom. Meer en meer bibliografieën, catalogi en indexen verschenen op cd-rom. De beschikbaarstelling van dit medium stelde bibliothecarissen voor financiële en organisatorische uitdagingen, die van een gans andere orde zijn dan die bij de traditionele papieren informatiedragers. Aanvankelijk werden de cd-rom's aangeboden als stand-alone, dit wil zeggen één schijfje per computer. Nadien werden ze, zoveel als mogelijk, aangeboden in lokale netwerken of local area networks. De comfortwinst zit in de mogelijkheid de cd-rom's, eventueel simultaan, te gebruiken vanop verschillende werkposten. Bovendien worden deze netwerken tegenwoordig onderling met elkaar verbonden, zodat men bibliotheek A ook cd-rom's kan raadplegen die zich in bibliotheek B bevinden. In toenemende mate is dit bijvoorbeeld het geval aan de K.U.Leuven. Hoedanook bekleedt de personal computer in deze context een primordiale rol. In een stijgend aantal bibliotheken ging hij ook de rol van Libis-terminal overnemen. Via een telnet-sessie of een tn-3270-sessie kon de catalogus worden bereikt vanop de eigen pc. Bovendien konden op de bibliotheekcomputers ook andere programma's, zoals tekstverwerking, worden aangeboden. In 1994 kon, bij wijze van voorbeeld, de bibliotheek van de Campus Kortrijk haar geïntegreerd aanbod naar de studenten toe aanpassen, in het licht van nieuwe onderwijskundige impulsen en van het project 'Kortrijkse Elektronische Informatie voor Bibliotheek- en ONderwijsToepassingen'. Zoeken, verwerken en rapporteren van informatie is een essentieel onderdeel van de vorming, vooral ook in de humane wetenschappen. De universiteiten in het algemeen maken zich op voor nieuwe technologieën en nieuwe leeromgevingen. En het spreekt van zelf dat bibliotheken en mediacentra hun rol dienen te spelen als labo's van zelfwerkzaamheid en draaischijven van onderwijsvernieuwing. De technologische golf van het Internet, meer bepaald van het World-Wide-Web, heeft de veranderingen in de onderwijs- en bibliotheekwereld op een opmerkelijke wijze versneld. Bibliografische en full-textdatabanken worden toegankelijk gemaakt via het Web. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 81 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI Bibliotheken passen hun catalogi aan en stemmen hun dienstverlening en informatieverstrekking af op het nieuwe medium. De Libis-catalogus verscheen in een toegankelijke, via het web bereikbare versie, zonder daarbij te wachten op zijn definitieve opvolger Amicus. Inmiddels wordt ook de omschakeling naar Amicus volop voorbereid. Deze software is al in gebruik in de Nationale Bibliotheek van Canada (12 miljoen records) en werd recent ook door de British Library aangeschaft. ELiAS, het bedrijf waarop voor deze zaken beroep gedaan wordt (http://www.elias.be/front/whoweare.html) werkt inmiddels ook aan LibriVision, dat multimedia-toegang tot de genoemde bibliotheekcatalogi dient mogelijk te maken. Dit zijn enkele van de aandachtspunten van de K.U.Leuven. Daarnaast zijn er andere projecten die, samengevat, te maken hebben met de verwerving van elektronische documenten, de productie van elektronische documenten (digital library), de uitbouw van de didactische bibliotheek op het intranet en de ontsluiting van de referentiecollectie op het Campus Wide Information System (CWIS). Op het Vlaamse niveau worden, in het kader van het Vlaams Overlegorgaan inzake Wetenschappelijk Bibliotheekwerk (VOWB) concrete stappen van samenwerking en netwerking ondernomen. Het zogenaamde Elektron-project dient de universitaire en andere bibliotheken dichter bijeen te brengen en bibliografische databanken aan full text databanken te koppelen. Dit alles, onder meer ook om de kosten van de deelnemers te drukken en het interbibliothecair leenverkeer vlotter te laten verlopen, bijvoorbeeld ook middels automatische betaling via account servers. Dit zijn slechts enkele voorbeelden van hoe de bibliotheek inspeelt op de technologie, en vice versa. Een boek aankopen omdat iemand het ooit wel eens zou kunnen nodig hebben (just in case) zal voor vele bibliotheken op de achtergrond geraken. Informatie moet aangereikt worden waar en wanneer men het nodig heeft (just in time). De bibliothecaris evolueert bij dit alles van een librarian naar een cybrarian. Hij is niet enkel meer boekbewaarder maar ook 'navigator'. Het boek staat niet langer centraal, maar wel de gebruiker. Hij of zij is, met de woorden van Eco, niet langer een vijand, maar het eigenlijke objectief. Bij de grootste uitdagingen horen het informeren van de gebruiker over het groeiend aantal digitale bronnen en het verlenen van een vlotte toegang. De Universiteit van Gent pakte bijvoorbeeld in juni 1997 uit met een zogenaamde executive lounge, een geïntegreerde toegang tot secundaire bronnen. In de loop van het academiejaar 19971998 optimaliseerde de K.U.Leuven-bibliotheek haar gebruik van het Campus Wide Information System (CWIS). Of de gebruiker zich nu bevindt op de homepage van de bibliotheek of op een van de mooi geüniformiseerde pagina's van de campus- of deelbibliotheken, hij kan zich via de hyperlink "catalogus" toegang verschaffen tot het Leuvens Integraal Bibliotheeksysteem (LIBIS) en via de Hyperlink "databanken" informatie opvragen over de andere digitale bronnen. Deze worden aangeboden in een alfabetisch overzicht en in een overzicht naar onderwerp, zoals 'aardwetenschappen', 'agogiek', … In een groeiend aantal gevallen kan men van daaruit ook rechtstreeks de © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 82 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI databank ingaan. Met name geldt dit voor de databanken die aangeboden worden op de in Heverlee geplaatste Electronic Reference Library Server (ERL-server) en voor de databanken op het Internet. De lokale en lokaal genetwerkte cd-rom-toepassingen zijn nog slechts indirect toegankelijk, maar ook hier wordt gewerkt aan brede en vlotte toegangswegen. De informatie en het gebruik worden in het algemeen ook vergemakkelijkt doordat individuele K.U.Leuven-bibliotheken de voor het specifieke vakgebied belangrijke databanken afzonderlijk presenteren op hun eigen homepages via de hyperlink "elektronische informatie". In wat volgt worden enkele concrete voorbeelden gegeven van dergelijke elektronische databanken. De meesten zullen trouwens aan bod komen in de praktische oefeningen van het vak Historische Informatiekunde. De klemtoon ligt hier op de betekenis en de praktische werkwijze van bibliografische databanken, vooral met betrekking tot tijdschriftliteratuur, en ook van bibliotheekcatalogi. 3.5.2 Bibliografische databanken 3.5.2.1 Current Contents 3.5.2.1.1 Inleiding Current contents is een bibliografische databank van tijdschriftartikels die uitgegeven wordt door het Amerikaanse Institute for Scientific Information (ISI). Onder meer omwille van haar snelle updating is de databank in de exacte wetenschappen al vele jaren een onmisbaar instrument voor information retrieval. Ook de humane wetenschappers kunnen er niet aan voorbijgaan. Onder de zeven edities horen immers 'Arts and humanities' en 'Social and behavioral sciences'. Daarnaast treft men er de edities aan van 'Life sciences', 'Engineering, computing and technology', 'Agriculture, biology and environmental sciences' en ten slotte ook 'Clinical medicine'. 3.5.2.1.2 Toegang en bediening De verschillende media waarop Current contents op de markt werd gebracht, reflecteren de omwenteling die de wetenschappelijke informatieverstrekking heeft gekend. Of het gaat over gedrukte brochures, computerdiskettes, computertapes, cd-rom's of on-line databanken, het komt erop aan om de informatie in een zo goed mogelijke prijs-kwaliteiten prijs-snelheid-verhouding bij de belangstellenden te brengen. Ten behoeve van studenten en personeelsleden van de K.U.Leuven worden de zeven edities van Current contents vandaag aangeboden op de ERL-server: Electronic Reference Libary ontwikkeld door het bedrijf Silver Platter. Hier worden ook andere databanken aangeboden, met name die van de Belgische wetenschappelijke bibliotheken: de Collectieve Catalogus van België (CCB) voor monografieën en Antilope voor tijdschriften, waarover elders meer. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 83 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI Men merke alleszins op dat op deze wijze met één zoekvraag uiteenlopende databanken kunnen worden ondervraagd. Veelal maakt men voor de ondervraging gebruik van WWW-zoeksoftware (Webspirs), maar er is ook software voor andere platforms, zoals een Windows-client (Winspirs). Beperken we ons hier tot de eerstgenoemde. De server is met een browser te bereiken via een van de hyperlinks of rechtstreeks op het Internetadres http://www.bib.kuleuven.ac.be/bib/erl. De gebruiksvriendelijke interface is eenvoudig die van het World-Wide-Web waarbij men met de muis keuzemogelijkheden aanklikt van het programma zelf, alsook hyperlinks die een wezenlijk onderdeel vormen van het aangeboden informatiegeheel, en waarbij men de vertrouwde functies van de browser, zoals de back-knop, kan inzetten. 3.5.2.1.3 Zoekmogelijkheden Op het beginscherm 'database-selection' kan (en moet) men eerst de deelbestanden aanstippen waarin men wilt zoeken. De chronologische 'deelbestanden' betreffen telkens het geïntegreerd geheel van de zeven bovengenoemde inhoudelijke 'edities'. Eventuele beperking tot een of meer edities, bijvoorbeeld 'Arts and humanities' en 'Social and behavioural sciences', kan in dit beginstadium niet gebeuren; ook niet via de op hetzelfde scherm gepresenteerde 'Term in database search', waar eventueel wel een eerste selectie van de genoemde 'deelbestanden' kan plaatsvinden. Als de deelbestanden aangestipt zijn, wordt via de search-knop toegang gegeven tot het gebruiksklare zoekscherm met een invulvenster en een minimum aan bijkomende opties om de zoekactie te verfijnen. Zowel beginners als gevorderden waarderen de eenvoudige maar efficiente manier van werken. In het venster kan al met de wildcards ? en * en de Booleaanse operatoren AND, OR en NOT gewerkt worden. Wie bijvoorbeeld geïnteresseerd is aan cultuur in Vlaanderen kan hier intikken: Flanders and culture. De zoekvraag wordt beantwoord met de vermelding van het aantal gevonden records, die men kan opvragen via de Display-knop (acht in het gegeven voorbeeld; uitgevoerd op 10/8/97). Men kan ze als voorlopig resultaat ook laten staan onderaan hetzelfde scherm: in een, van hyperlinks voorzien, lijstje 'Search-history'. Van hieruit kunnen ten alle tijde bijkomende zoekacties en combinaties uitgevoerd worden. De voorstelling van de eigenlijke records gebeurt op het Results-scherm, per tien records. Daarin kan men zich bewegen met de pijltjestoets of met de muis op de verticale schuifbalk. Men kan er overspringen naar volgende en vorige bladzijden. Men kan er records markeren en ze nadien afzonderlijk oproepen. Tevens kunnen via 'Change Display' de benodigde velden en de presentatiewijze van de records aangepast worden. Van hieruit kan men bovendien de gegevens 'bewaren' op drie manieren, zoals verder wordt toegelicht. De kracht van de hyperlink-technologie toont zich pas echt op dit Results-scherm. Bij elk tijdschriftartikel of record ziet men een aantal zaken opgelicht zoals bijvoorbeeld de (co-)auteurs. Wie erop klikt, krijgt meteen de volledige lijst van tijdschriftartikels van de betreffende auteur (dergelijke stappen worden steeds geïnventariseerd in de Search history op het Search-scherm). Eveneens via hyperlink is per gevonden record de Holding Info op te vragen: de ERL-server geeft, gebruik makend © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 84 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI van de Antilope-gegevens, een overzicht van de Belgische wetenschappelijke bibliotheken waarin het betreffende tijdschrift te vinden is. Wie op een meer gecontroleerde wijze wilt zoeken en alfabetische woordenlijsten wil gebruiken, drukt op de Index-knop die leidt naar het Index-scherm. Het kleine pijltje vlak naast het Field-venstertje ontrolt er de keuzelijst van de velden. Eens men hier een veldkeuze gemaakt heeft, kan de veldspecifieke woordenlijst opgeroepen worden met 'Display'. In het Field-venstertje vindt men, naast de free text-optie en naast de gewone individuele velden, ook het veld van de Current Contents Editie (CC). Door dit te selecteren, en de lijst op te vragen via de reeds genoemde Display-toets, kan men de gewenste editie(s) van Current Contents, bv. 'Arts and humanities' en 'Social and Behavioural Sciences' selecteren, en via de Search history in de zoekactie betrekken. De historicus zal merken dat in het voorbeeld van 'Flanders and culture' verrassend genoeg slechts één van de acht records uit de genoemde edities komt ... Uiteraard kan men de selectie van de edities, via het Index-scherm, ook reeds in het vroegere stadium van het zoekproces uitvoeren. Hoe men de strategie ook opbouwt, het 'Search History'-venster waar dit alles wordt bijgehouden, speelt een centrale het geheel van een goede zoekactie. 3.5.2.1.4 Bewaarmogelijkheden Bewaren van Current Contents-zoekresultaten, desgewenst vergezeld van de Search history, gebeurt middels de knoppen Print, Save en Mail op het Results-scherm. De Mailfunctie is een opmerkelijke verbetering in vergelijking met andere databanken. Waar de gebruiker zich ook bevindt, hij kan de gevonden gegevens elektronisch verzenden naar zijn/haar eigen adres, of naar een ander adres. De keuzemogelijkheden, onder meer in verband met de beoogde records en velden, zijn dezelfde als bij het bewaren op schijf en het afdrukken. In beide laatste gevallen gebeurt de finale afwerking via de vertrouwde print- en save as-functies van de eigen browser. 3.5.2.2 Online contents (PICA) 3.5.2.2.1 Inleiding Online contents is een van de databanken die aangeboden worden in het Open Bibliotheek Netwerk (OBN), het Nederlandse Pica. Online contents geeft de inhoud van meer dan 12.500 tijdschriften uit alle gebieden van de wetenschap. Men vindt er tevens algemene en populair-wetenschappelijke tijdschriften. Online contents wordt samengesteld door de firma Swets en Zeitlinger op basis van de inhoudstafels van de tijdschriften. Het betreft tijdschriften die te vinden zijn in de Nederlandse bibliotheken. Jaarlijks komen er volgens de producent twee miljoen artikelbeschrijvingen bij. 3.5.2.2.2 Toegang en bediening De databank Online contents is via het web te bereiken op het adres http://www.pica.nl. Het is een goed voorbeeld van de gebruiksvriendelijkheid die eigen is aan een dergelijke © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 85 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI web-interface. Vanzelfsprekend is de snelheid van raadpleging afhankelijk van de verkeersdrukte en de andere omstandigheden van het Internet. Verder dient men rekening te houden met specifieke zaken zoals de 'time out', dit is het verbreken van de aansluiting als de gebruiker een tijdje inactief is. De K.U.Leuven had medio 1998 een intekening voor maximum vijf simultane gebruikers. Het ondervragen kan gebeuren in het Nederlands en in het Engels. De Pica home page toont een rijke verscheidenheid van diensten en van databanken. Online Contents maakt deel uit van het Open Bibliotheek Netwerk (OBN). Een eenvoudige klik op het sleutel-icoontje verschaft toegang tot de eigenlijke gegevens. De vormgeving is tegelijk sober en fraai. 3.5.2.2.3 Zoekmogelijkheden Zoeken op titelwoorden van artikels is de eerste stap bij de raadpleging van een tijdschriftenbank. Die veronderstelling ligt aan de basis van het Pica-zoekconcept. De gebruiker wordt op het beginscherm immers onmiddellijk uitgenodigd om naast de veldaanduiding 'Artikel: titelwoord', zijn zoekterm in te tikken, en de opdracht door te geven met een klik op het vergrootglas-icoontje. Nochtans kan men ook hier reeds een ander veld kiezen, door een bijhorend menuutje te ontrollen: auteursnamen van de artikels, ganse tijdschrifttitels, woorden uit tijdschrifttitels, ISSN-nummers (International Standard Serial Number) en ook tijdschriften-basiscodes (bv. 06.00 staat voor "documentaire informatie: algemeen"; en 06.21 voor "geschiedenis van het boek"). Een gelijkaardig menuutje links op het scherm laat toe de functie '(gewoon) zoeken' te vervangen door de functie 'scannen' (browsen). Dit is wat men zoeken via de 'Index' noemt in bv. Current Contents en zoeken via de 'Dictionary' in bv. Francis. Het is in dit menuutje dat later in het zoekproces bijkomende keuzemogelijkheden worden aangereikt: 'verkleinen' (ANDoperator), 'vergroten' (OR-operator) en 'niet' (NOT-operator). Gevorderde gebruikers kunnen evenwel van bij de aanvang klikken op de 'expert'-knop. Deze bevindt zich links op het scherm onder die van de 'help'-functie (zeer kort en overzichtelijk), onder die van de (andere Pica-) 'bestanden' en onder die van de lijst van 'onderwerpen' (hoofdrubrieken zoals "06: documentaire informatie"). Het bijzondere 'expert'-zoekscherm geeft verschillende venstertjes waar men eigenhandig complexe zoekcombinaties kan verrichten in de reeds genoemde velden, alsook in het veld van het jaar van uitgave en van de materiaalsoort. Verplaatsingen tussen de venstertjes gebeuren met de muis, of handiger nog met de tab-toets. Binnen de veldvenstertjes kan men bovendien snel keuzen maken door de pijltjestoetsen te gebruiken. Of men de expert- of de gewone zoekfunctie gebruikt, in principe krijgt men de resultaten gepresenteerd in verkorte beschrijvingen (maximum 16 per scherm). Markeren is hier niet mogelijk. Opvragen van de volledige beschrijving gebeurt via de hyperlink vanuit de artikeltitel zelf. Het volledige record biedt een veelheid aan mogelijkheden om verder te 'surfen' in de databank. Zo zijn bijvoorbeeld alle woorden uit de artikeltitel aanklikbaar om daarop verder te zoeken. Deze stappen worden bijgehouden in een soort van 'search history'-functie, te bereiken via de knop 'Overzicht'. Hieruit kunnen, opnieuw via hyperlinks, vroegere stappen hernomen worden. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 86 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI 3.5.2.2.4 Bewaarmogelijkheden Op het vlak van output-mogelijkheden is het Pica-zoekprogramma erg beperkt. De 'display' of de voorstellingswijze op het scherm, en de selectie van de weergegeven velden kunnen niet aangepast worden. Bovendien zijn afdruk-, bewaar- en verzendmogelijkheden, zoals men die kent in andere databanken, hier onbestaande. Men is dus beperkt tot de functies eigen aan de gebruikte browser, zoals print, save as en edit. De zogenaamde copy-paste-methode (kopiëren en plakken) laat bijvoorbeeld toe gevonden gegevens in een Word-document te bewaren, en op die manier vast te leggen op een eigen schijf. 3.5.2.3 HinT (Pica) 3.5.2.3.1 Inleiding Historie in Titels (HinT) is de digitale omzetting en voortzetting van de in 1992 gepubliceerde Bibliografie voor Moderne Europese Geschiedenis. De samenstelling ligt in handen van het Bureau HinT, gehuisvest in de Bibliotheek van de Faculteit der Letteren van de Universiteit van Amsterdam. HinT bevat ongeveer 30.000 titels van sinds 1984 verschenen boeken, tijdschriftartikels en bijdragen in verzamelwerken in verband met moderne Westeuropese geschiedenis vanaf ongeveer 1500. Men vindt er publikaties over de geschiedenis van Europa in het algemeen, alsook over de geschiedenis van Nederland, België, Luxemburg, Frankrijk, Engeland, Ierland, Duitsland, de voormalige DDR, Italië, Spanje, Portugal en Zwitserland. Ook geschiedfilosofie en geschiedenis, theorie en methode van geschiedschrijving zijn vertegenwoordigd. De samenstellers van HinT beperken zich tot publikaties met een min of meer wetenschappelijk karakter en van meer dan lokaal belang. In principe zijn de werken alle terug te vinden in de Nederlandse bibliotheken en zijn ze opgenomen in de Nederlandse Centrale Catalogus. Relevante artikels van een tweehonderd tijdschriften uit een aantal grotere bibliotheken zijn eveneens opgenomen. Bijna de helft van de titels zijn in het Engels. Verder zijn er ook heel wat Nederlands- en Duitstalige. Een minderheid betreft Frans-, Italiaans- en Spaanstalige werken. 3.5.2.3.2 Toegang en bediening De verschillende Pica-databanken hebben allen dezelfde gebruiksinterface, wat het geheel aantrekkelijk maakt voor de gebruiker. Historie in Titels (HinT) is op bijna identieke manier te gebruiken als andere databanken in het Open Bibliotheek Netwerk, zoals Online Contents en de Nederlandse Centrale Catalogus. 3.5.2.3.3 Zoekmogelijkheden Even grasduinen in HinT is de beste methode om de eigen aard en de eigen velden van de databank te leren kennen. Men kan dit doen door het bestand te 'scannen' (eerste venstertje), via de verschillende velden of zoekcriteria (tweede venstertje), middels zelf gekozen zoektermen (invulvenstertje). De velden van de 'auteur' en de 'titelwoorden' kent © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 87 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI men van de anderen Pica-toepassingen. Een eerste bijzonder HinT-veld is het 'Trefwoord: persoon', d.w.z. personen waarover de publikatie handelt. Op 10/8/97 bevatte HinT vier werken die handelen over "Wils,Lode", terwijl er acht werken zijn van de auteur "Wils,Lode". Beide resultaten vindt men ook via het overkoepelend zoekcriterium 'Alle personen'. De term "Sociale geschiedenis" in het veld 'HinT-Trefwoord' levert 126 treffers, en men ziet in lijst ook de 147 treffers "Sociale geschiedenis beoefening van de...". Een van deze laatste treffers is, bij wijze van voorbeeld, het artikel 'Social history in Belgium: old habits and new perspectives' van Patricia van den Eeckhout en Peter Scholliers, verschenen in Tijdschrift voor Sociale Geschiedenis (1997: 147-182). Wie de volledige beschrijving van dit artikel via de hyperlink vanuit de lijst oproept ziet dat ook de Engelse abstract van het artikel opgenomen is. Abstracts worden eenvoudig ingescand uit de betreffende tijdschriften. Men ziet er ook andere velden zoals 'Geogr. Namen' (België), 'Rubrieken' (gp) en 'Periode' (1965-1995). Behalve bij het laatste, kan men in al deze velden zoekacties ondernemen. Bij geografische begrippen gaat het over landen, steden, dorpen, rivieren, streken enz. in hun Nederlandse vorm. De uit twee letters bestaande codes, zoals gp ja (=algemene en politieke geschiedenis) verwijzen naar systematische rubrieken. Voor een volledig overzicht hiervan moet de gebruiker wel nog de gedrukte handleiding raadplegen. Men notere reeds dat er 7 hoofdrubrieken en 87 subrubrieken zijn. Zoeken op woorden uit de samenvattingen, uit ingescande inhoudstafels van verzamelbundels en uit 'regesten' doet men in het veld 'Inhoud, Regest, Abstract'. Verder zijn er nog de velden 'Taalcode' (eng, ned, ..) en 'Vorm van de publicatie' (artikel, bundel, encyclopedie, interview, ..). Hier moet nog het belangrijke en als standaard ingestelde veld 'Alle woorden' vernoemd worden, waar kan gezocht worden met alle woorden tegelijk: trefwoorden, persoonsnamen, woorden uit de titel, het abstract, de recensie enz. Bij dit laatstgenoemde, ten slotte, gaat het over verwijzingen naar recensies, die men in vele HinT-titelbeschrijvingen aantreft en die een zeer bruikbaar gegeven vormen in dit soort van vakspecifieke databanken. 3.5.2.3.4 Bewaarmogelijkheden Zoals reeds aangestipt bij Online contents biedt Pica geen rechtstreekse mogelijkheden om af te drukken, te downloaden en te verzenden. Ook het merken van records en het instellen van de record-weergave op het scherm zijn niet mogelijk bij Pica-bestanden. 3.5.2.4 Francis 3.5.2.4.1 Inleiding Francis is een internationale, meertalige en multidisciplinaire bibliografische databank, opgericht in 1972. Ze wordt geproduceerd door het Institut de l'Information Scientifique et Technique (INIST) - Centre National de la Recherche Scientifique (CNRS). Men vindt er titels en abstracts uit ongeveer 9000 tijdschriften, en tevens congresverslagen en onderzoeksrapporten, op het gebied van humaniora (63%), sociale wetenschappen (33%) en economie (4%). Het merendeel van de opgenomen artikels zijn in het Engels © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 88 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI (35%) en het Frans (33%) en het Duits (12%). Franse trefwoorden zijn steeds toegevoegd, Engelse meestal en Duitse/Spaanse soms. Francis bevat interessante beschrijvingen op het vlak van archeologie, kunstgeschiedenis, geschiedenis van de wetenschap en prehistorie. 3.5.2.4.2 Toegang en bediening Francis wordt op verschillende manieren aangeboden. Het Nederlandse Pica stelt het ter beschikking temidden van de vele andere databanken in het Open Bibliotheek Netwerk (OBN). Men kan er terecht voor informatie over Francis (http://www.pica.nl), maar voor de raadpleging heeft men een intekening nodig. De K.U.Leuven is niet ingeschreven, maar heeft wel de cd-rom-versie. Deze is in zijn volledigheid via netwerk raadpleegbaar bijvoorbeeld vanuit de Centrale Bibliotheek en vanuit de Bibliotheek Letteren. De Francis-cd-rom wordt gekenmerkt door een op windows gebaseerde interface met vensters en menus. Van bij de aanvang kan men een keuze maken tussen een guided mode en een expert mode. Telkens kan men bovendien, in het menu van de options, de ondervraagtaal veranderen van Frans naar Engels en vice-versa. De guided mode gidst de gebruiker op een didactische wijze door de databank van het ene scherm naar het andere: index, zoekterm, resultatenoverzicht, individuele records. Onderaan kan de gebruiker de commandoketen van zijn zoekactie, met veld- en zoektermaanduidingen en Booleaanse operatoren, zien groeien, wat hem voorbereidt op het gebruik van de expert mode. 3.5.2.4.3 Zoekmogelijkheden Naast de meer traditionele velden zoals author (AU) en publication date (DA) heeft de gebruiker veel aan de keywords in het Engels (KWE) en in het Frans (KWF) en aan de zogenaamde basic index (BI) waarin hij tegelijkertijd zoekt in de velden van titel, abstract en keyword. Steeds kan men zijn zoekterm rechtstreeks intikken of passeren via de zogenaamde dictionary. Niet iedereen is even enthousiast over de window-interface van Francis. Sommigen beweren zich beter te voelen bij de oude ASCII-interface van Francis met functietoetsen en commandocodes, in te brengen via het toetsenbord. K.U.Leuvenbibliotheekbezoekers worden nog met een dergelijke traditionele interface geconfronteerd wanneer ze gebruik maken met Arts & Humanities Citation Index, waarvan de bespreking hier volgt. 3.5.2.5 Arts & Humanities Citation Index 3.5.2.5.1 Inleiding Arts & Humanities Citation Index (AHCI) is een bibliografische databank die ongeveer 1.100 tijdschriften uit 25 disciplines van de geestes- en menswetenschappen indexeert. Elk jaar worden er 100.000 nieuwe beschrijvingen aan toegevoegd. Ze wordt © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 89 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI geproduceerd door het Institute for Scientific Information, de instelling in de Verenigde Staten die tevens instaat voor de Science Citation Index en de Social Science Citation Index. Uniek aan deze databanken is dat ze bij de beschrijving van een artikel, naast de gewone velden (auteur, titel, enz.), tevens een veld opnemen met de bibliografische referenties die in het betreffende artikel worden gegeven. Deze citaties leveren interessante bijkomende opzoekmogelijkheden, zoals uit de onderstaande voorbeelden mag blijken. 3.5.2.5.2 Toegang en bediening De gezaghebbende Arts & Humanities Citation Index heeft als gedrukte bibliografie al een lange geschiedenis achter de rug. Men had goede ogen en veel geduld nodig om zich een weg te banen door dit volumineuze instrument. Nochtans vielen daar reeds de rijke zoekmogelijkheden op. De on-line bevraging en het cd-rom-gebruik hebben deze mogelijkheden vanzelfsprekend gevoelig uitgebreid. De K.U.Leuven stelt een netwerkversie van de CD-rom ter beschikking onder meer voor de gebruikers van de Centrale Biblioteek, de Campusbibliotheek Kortrijk en de Bibliotheek Letteren. Voor de bediening van AHCI is men dus aangewezen op het klavier. Bovenaan het scherm vindt men functietoetsen, die beperkte en overzichtelijke menu's ontplooien voor zoekacties (F3-Search) en voor het weergeven van de zoekresultaten (F4-Results). Overige commando's vindt men telkens onderaan het scherm, en wel in twee groepen. De eerste groep situeert zich op het niveau van de search session, zoals die voor veldkeuze en voor het bewaren van de zoekstrategie. Deze bedient men met de Alt-toets op het computerklavier te combineren met de opgelichte letter: Alt-Fields, resp. AltSavestrategy. De tweede groep commando's vindt de gebruiker op het niveau van de eigenlijke zoekresultaten, zoals die voor het bijkomend opvragen van de eerder genoemde bibliografische referenties (citedRefs) en voor het markeren of selecteren van records (Collect). Merk op dat bij deze groep de combinatie met de Alt-toets niet van toepassing is. Ten slotte: waar men zich ook bevindt in het programma, de F1-Help functie levert informatie over het desbetreffende programmadeel; bovendien kan men vandaaruit telkens ook de help-index raadplegen en naar andere help-delen overspringen. De gebruiker is overigens ook goed geholpen met de compacte veldspecifieke voorbeelden die elk nieuw zoekvenster inleiden. 3.5.2.5.3 Zoekmogelijkheden De zoekmogelijkheden worden hier geïllustreerd met een concreet voorbeeld uit het bestand januari 94 - augustus 94. Het beginscherm is van het search session-type en het standaard-zoekvenster betreft het titelveld. Dit laatste is desgewenst te wijzigen via het Alt-Fields commando onderaan. De combinatie middels een AND-operator van de titelwoorden Belg* en histor* levert als zoekresultaat een aantal records die kunnen opgevraagd worden via F4-Results, hetzij als een lijst van Titles hetzij als individuele volledige Records. Een van de negen records betreft de tekst die J. Bieleman publiceerde in het Tijdschrift voor Geschiedenis (1992: p.608). In feite is het een Nederlandstalige © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 90 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI bespreking van A. Verhulst's Franstalige, en hier in het Engels weergegeven, boek Precise History of Rural Belgium. De commando's onderaan laten het volgende toe. Het commando citedReference toont de referenties die Bieleman weergaf in zijn boekbespreking (in casu enkel de referentie van Verhulsts werk), en waarop men desgewenst kan verder zoeken via een nieuwe zoekset. Het commando Relatedrecords brengt de gebruiker vanuit Bielemans record naar andere records, twee in dit geval, die eveneens naar het betreffende werk van Verhulst verwijzen. In principe worden in dergelijke gevallen alle records gegevens die één of meer referenties gemeenschappelijk hebben, en kan men ook bij elk van deze records middels het commando Shared references de gemeenschappelijke referenties opvragen (hoe meer gemeenschappelijke referenties, hoe groter de kans dat de artikels inhoudelijk samenhangen). Men kan vanuit elk van die nieuwe records bovendien een stap verder gaan, en opnieuw, op een volgend niveau gaan zoeken naar Relatedrecords, en vandaar de zoekactie zelfs nog uitbreiden tot maximum 5 levels (terugkeren met de Escape-toets). Waar men zich ook bevindt, in elke gevonden set kan men grasduinen met de pijltjes-toetsen of met de PageUp- en PageDown-toetsen. Overspringen van de titellijst naar de individuele records, en terug, gebeurt overal via het F4-Results-menu of rechtstreeks met het View-commando onderaan. In de search session (niveau F3-Search) kan ook gebruik gemaakt worden van de index (Alt-Dictionary) om daar bijvoorbeeld "Belgium" en "Belgian" te markeren. Verder zijn er mogelijkheden om vooraf de zoekvraag te beperken (Alt-Limit) op Language, Document type en Update period, om de zoekvraag(en) te bewerken (Alt-Undo, Alt-copyQuery, Altclearsession), om de volledige strategie, m.a.w. de opeenvolgende zoekvragen van die betreffende sessie, te bewaren (Alt-Printsession, Alt-Savesession) en ten slotte ook om vroegere strategieën op te roepen (Alt-Runstrategy). Dit brengt ons bij het volgende punt. 3.5.2.5.4 Bewaarmogelijkheden Het bewaren van de zoekstrategie gebeurt op het niveau van de search session (cf. F3Search), maar het bewaren van de gevonden lijsten en records vindt vanzelfsprekend plaats op het niveau van de zoekresultaten (cf. F4-Results). Het Print-commando opent een venster waar men de te printen records kan specifiëren, alsook het Record format (eventueel incl. de adressen van de auteurs!). Het Save-venster laat bovendien de keuze toe van de File format (waaronder Plain text en Pro-Cite format), en van de beoogde Drive/path. Zowel bij het afdrukken als bij het bewaren kan men zich desgewenst beperken tot de eerder, middels het Collect-commando, gemarkeerde records; gemarkeerde records, die men overigens ook individueel of in lijstvorm op het scherm kan oproepen via de Show-commando's in het F4-Results-venster. Ditzelfde venster, ten slotte, laat toe formulieren voor te bereiden voor een TGA-order (The Genuine Article), de bestelling van de 'echte artikels'. © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 91 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI 3.5.2.6 Andere bibliografische databanken 3.5.2.6.1 Periodicals Contents Index Periodicals Contents Index (PWI Web) wordt gepubliceerd door Chadwyck-Healey en is op het Internet te bereiken op het adres http://www.pci.hadwyck.com. De K.U.Leuven heeft een intekening op deze databank. Studenten en professoren kunnen ze bereiken via http://www.bib.kuleuven.ac.be/bib/databank.html. PWI is een elektronische index op de inhoud van duizenden tijdschriften in de humane en sociale wetenschappen, vanaf de eerste editie tot 1990/1991. Het betreft een internationale databank die tijdschriften opneemt in het Engels, Frans, Duits, Italiaans, Spaans en in andere Westerse talen. Elk jaar worden er meer dan twee miljoen artikels aan toegevoegd. De databank bestaat ook in cd-rom-versie. 3.5.2.6.2 Internationale Bibliographie der Zeitschriften De Internationale Bibliographie der Zeitschriften (IBZ), die reeds van in 1896 verschijnt, is een internationale en interdisciplinaire bibliografie die vooral betrekking heeft op de geestes- en sociale wetenschappen. Tweemaal per jaar verschijnt ze in gedrukte vorm en op cd-rom. In samenwerking met Zeller Verlag wordt ze on-line aangeboden via http://www.brzn.de, de home page van de initiatiefnemer Gemeinsamen Bibliotheksverbundes GBV (Bremen, Hamburg, Meclenburg-Vorpommern, Niedersachsen, Sachsen-Anstalt, Schleswig-Holstein und Thüringen). Naast de functionele, maar weinig aantrekkelijke interface werd de databank recentelijk ook toegankelijk gemaakt via het reeds beschreven Pica-zoekprogramma. Wie met dit laatste vertrouwd is, zal zich dus sneller kunnen oriënteren temidden van de terminologie van deze Duitstalige IBZ (Indexaussage=scannen=browsen; Suchverlauf=overzicht=review). De K.U.Leuven heeft een intekening op deze databank. 3.5.2.6.3 Humanities index De gedrukte bibliografie Humanities Index heeft een elektronisch equivalent: de Wilson Humanities Abstracts and Humanities Index. Het is een bibliografische index van artikels uit 400 Engelstalige tijdschriften, teruggaand tot 1984. Sinds 1994 worden ook abstracts gepubliceerd. Volgende gebieden zijn vertegenwoordigd: archeologie, klassieke studies, kunst, uitvoerende kunsten, filosofie, geschiedenis, muziek, taalkunde, literatuur en religie. De uitgever is de H.W.Wilson Company. SilverPlatter, die de databank verdeelt, vermeldt in zijn catalogus (http://www.silverplatter.com/catalog.htm) de verschillende toegangsopties: cd-rom, harde schijf, Internet; alsook het aantal records: 284.800, jaarlijks aangroeiend met 31.800 eenheden. De K.U.Leuven stelt de SilverPlatter cd-rom ter beschikking via het hogergenoemde netwerk in en rond de Centrale Bibliotheek. Gebruikers zijn enthousiast over de eenvoud en de efficiëntie van de betreffende SilverPlatter-software. In principe zouden dergelijke gegevensbanken ook kunnen aangeboden worden op de in de context van Current Contents vermelde ERL-server. Dit zou de bedieningswijze en de toegangsmodaliteiten © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 92 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI nog gevoelig verbeteren. Hetzelfde kan overigens gezegd worden van een ganse reek andere databanken, zoals, bijvoorbeeld, de in zijn vakgebied veel gebruikte cd-rom Sport Discus van het Sport Information Resource Centre. In de loop van het academiejaar 1997-1998 werden verschillende databanken bij op de ERL-server geplaatst: ABI/Inform (bedrijfswetenschappen), Econlist (American Economic Association) Eric (Educational Resources Information Center), Medline (National Library of Medicine, US), MLA (International Bibliography Modern Language Association of America) en PsychLit (psychologie en psychiatrie). 3.5.2.6.4 Historical Abstracts Historical Abstracts on Disc geeft titelbeschrijvingen en abstracts van wetenschappelijke artikels over de wereldgeschiedenis van 1450 tot vandaag. Men indexeert 2000 tijdschriften uit ongeveer 50 taalgebieden. Men vindt er ook een aantal boeken en verhandelingen. De abstracts worden in het Engels gegeven. De gedrukte versie van Historical Abstracts, die overigens in twee delen (periode tot 1914 en periode vanaf 1914) verschijnt, gaat terug tot 1955. In de cd-rom-versie vindt men publicaties vanaf 1982. Daar gebeurt de updating driemaal per jaar. 3.5.2.6.5 International Medieval Bibliography De International Medieval Bibliographie (IMB), waarvan de redactionele verantwoordelijkheid berust bij het International Medieval Institute van de University of Leeds, wordt op cd-rom uitgegeven door Brepols. De gedrukte versie verschijnt sinds 1968 en bevat 260.000 records die komen uit meer dan 4000 tijdschriften en meer dan 5000 verzamelwerken. De International Medieval Bibliography is van belang voor verschillende wetenschapsdomeinen, inclusief archeologie, kunst en architectuur, literatuur, muziek en theologie. Het is de bedoeling van Brepols dit alles in de volgende vijf jaren ook op elektronische wijze beschikbaar te stellen. Elk jaar worden de aanvullingen gepubliceerd, telkens vergezeld van vier retrospectieve jaren. De cd-rom die nu reeds beschikbaar is, indexeert publicaties uit periode 1984-1993. Deze gegevens kan men vinden in de Brepols catalogus op het Internet-adres http://www.brepols.com/pubCD-ROM.htm. Daarin vindt men ook de beschrijving en de kostprijs van Brepols' andere gezeghebbende elektronische (full text-) publicaties: Archive of Celtic-Latin Literature, Cetedoc Index of Latin Forms, Cetedoc Library of Christian Latin Texts (incl. Corpus Christianorum en Patrologia Latina), In Principio: Incipit Index of Latin Texts, Monumenta Germaniae Historica, The Papal Letters en Thesaurus Diplomaticus. 3.5.2.6.6 Andere databanken Narrative Sources is een initiatief van de Vakgroep Middeleeuwse Geschiedenis van de Universiteit Gent en van het Departement Geschiedenis van de K.U.Leuven. Gebruikmakend van het databaseprogramma Asksam hebben ze verhalende bronnen uit de Zuidelijke Nederlanden, tussen 600 en 1500, gerepertorieerd. Narrative Sources 2.0 draait op SilverPlatter software en verscheen in 1996. Consulteren kan gratis maar de © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 93 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI gebruiker wordt uitgenodigd zich eerst kenbaar te maken. Men begeve zich naar http://allserv.rug.ac.be/TILDEjdploige/sources/n_index.html. De Belgische Bibliografie bestaat ook in cd-rom-versie. Alle boeken die sinds 1976 in het kader van het Wettelijk Depot de Koninklijke Bibliotheek bereikten, worden erin beschreven. De cd-rom is beschikbaar in de Centrale Bibliotheek van de K.U.Leuven. De Incunabula Short Title Catalogue (ISTC), geproduceerd door de British Library, is een databestand van de in de 15de eeuw met losse letter gedrukte boeken. Ongeveer 30.000 titels zijn beschreven. Het betreft incunabels die te vinden zijn in het Verenigd Koninkrijk en in tal van andere landen. De in de Nederlanden gedrukte incunabelen behoren tot de meest volledig bewerkte. ISTC wordt on-line aangeboden als onderdeel van Pica's Online Retrieval System ORS. Onder de naam van Incipit werd begin 1994 een project gestart met het oog op de publicatie van een cd-rom-versie. De K.U.Leuven heeft een intekening op de online-versie, te bereiken op http://www.pica.nl. Op het cd-rom-netwerk in en rond de Centrale Bibliotheek vindt men ook andere, nog niet genoemde titels die evenwel hun belang kunnen hebben. Voor de ontsluiting van tijdschriften: Art Index (1984-) en Education Index (1983-). Nationale bibliografieën, catalogi: Bibliographie Nationale Française BNF (1970-), Brinkman's cumulatieve catalogus (1981), British Library-General catalogue of printed books to 1975, Zeitschriftendatenbank ZDB, Electre-Livres disponibles, Global Books in Print Plus en Verzeichnis lieferbarer Bücher. Overheidspublikaties: Nieuwe Fundamentele Belgische Wetgeving en SCAD Multilingual EC bibliographical database. De volgende kranten en weekbladen worden in de Centrale Bibliotheek aangeboden als cd-rom in stand-alone opstelling. Buiten de eerstgenoemde betreft het steeds full-text cdrom's. British Newspapers Index BNI (1990-1993), De Financieel-Economische Tijd FET (1988-), Le Monde (1994-), Roularta: Knack-Trends-Le Vif/l'Express enz. (1991-), Le Soir (1994-), The Times (1994-). In de bibliotheek van de K.U.Leuven Campus Kortrijk vindt men ook de cd-rom's van Roularta en van de Financieel-Economische Tijd, samen ook met enkele encyclopedieën zoals Van Dale's Groot Woordenboek Hedendaags Nederlands en Spectrum Encyclopedie. CD-roms zoals Sociofile (1974-) en International Political Science Abstracts (1989-) vindt men in de Bibliotheek Sociale Wetenschappen van de K.U.Leuven (lijstje op http://www.kuleuven.ac.be/facdep/social/sbib/sbib05_n.htm). Ook de Bibliotheek Rechtsgeleerdheid publiceerde een overzicht van haar cd-roms: http://www.law.kuleuven.ac.be/lib/databank.htm Hier wordt ook even verwezen naar de home page van de Bibliotheek Letteren (http://www.kuleuven.ac.be/facdep/arts/bib/bibn.htm ) waar beknopte heuristiek voor linguistiek en literatuur aangeboden wordt. Men wordt er wegwijs gemaakt in © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 94 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI vakencyclopedieën en woordenboeken, bibliografieën en databanken, catalogi. Het is duidelijk dat het Internet een stijgend aantal algemeen bruikbare instrumenten toegankelijk maakt. De WWWebster Dictionary is slechts een voorbeeld. 3.5.3 Bibliotheekcatalogi 3.5.3.1 Libis Libis-net, het Leuvens Intregraal Bibliotheeksysteem is de boeken- en tijdschriftencatalogus van de bibliotheek van de K.U.Leuven, inclusief alle deelbibliotheken, en van de bibliotheken van ... Via het World-Wide-Web kan men Libis raadplegen op twee manieren: via de zogenaamde 'Free Web Access' en via de zogenaamde 'Registered Web Access'. De eerstgenoemde is voor iedereen vrij toegankelijk. Zoeken op indexen is daar mogelijk (Naam, Titel, Trefwoord, Classificatie, Uitgever, ISBN/ISSN en Ander Nummer). Het betreft hier, tussen haakjes, zogenaamde KWIC-indexen, d.i. Key Word in Context. In de Free Web Access is ook mogelijk: Snel zoeken op titel, waarbij men niet langs de index passeert. Bij de Registered Web Access komen daar nog de volgende mogelijkheden bij: Zoeken op termen (gecombineerd zoeken in verschillende velden) en Zoekoverzicht bekijken. Via het scherm Zoekresultaat (verkorte beschrijvingen) kan men, eventueel na het selecteren of 'merken' van bepaalde resultaten, overgaan naar het scherm Volledige documentinformatie, waar men eventueel opnieuw kan 'merken' met het oog op 'downloaden' op een eigen schijf, of 'verzenden' naar een (eigen) E-mail-adres. Een derde mogelijkheid om Libis te raadplegen is een, eveneens geregistreerde, telnet-connectie (Telnet of Tn3270-emulatie). Deze is zoals de twee eerder genoemde toegangen te bereiken zijn via de Libis-home page: http://www.libis.kuleuven.ac.be/libis/index.html. De telnet-connectie toont de oorspronkelijke Libis-interface, die men overigens tegenkomt op de oude computerterminals die nog in vele bibliotheken gebruikt worden. 3.5.3.2 Zebra (Vubis-Antwerpen) Zebra is de netwerkcatalogus van tien wetenschappelijke of speciale bibliotheken waarvan de meeste zich in de Antwerpse regio bevinden. Hij telt ongeveer 1.070.000 titels met een groeiritme van 70.000 titels per jaar. De catalogus is samen met enkele andere bestanden te raadplegen via het web-adres http://www.ua.ac.be/WWWOPAC/wwwopac.html. Een van die andere bestanden is Bronco (Bibliografisch Repertorium van ONline COntents), een databank van tijdschriftartikels die, zoals Online Contents, opgebouwd wordt met gegevens geleverd door Swets & Zeitlinger. De catalogus Zebra heeft interessante zoekmogelijkheden, onder meer doordat de gebruiker geattendeerd wordt op aanverwante zoektermen. Op het vlak © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 95 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI van de output: het programma houdt een lijst bij van te bewaren gegevens, zodat die achteraf als een en hetzelfde bestand kunnen gedownload worden. 3.5.3.3 Catalogus van de Koninklijke Bibliotheek Het boekenbezit van de Koninklijke Bibliotheek Albert I vanaf 1985 kan on-line geraadpleegd worden door een telnet-sessie op te starten in Nederlands, Frans of Engels vanuit de home page op het adres http://www.kbr.be/nl/index.html. De traagheid eigen aan telnet, de verouderde interface, en het ontbreken van bewaarmogelijkheden doen geen afbreuk aan de grote inhoudelijke waarde die deze catalogus uiteraard heeft. Men gebruike de code kbr om in te loggen. 3.5.3.4 Collectieve Catalogus van België De Collectieve Catalogus van België bevat alle titels van monografieën die te vinden zijn in de belangrijkste wetenschappelijke en speciale bibliotheken van het land. De bestanden van Libis en Vubis zijn erin opgenomen. Alles samen gaat het over ongeveer 3.500.000 beschrijvingen uit 28 bibliotheken. Hij wordt in opdracht van de Conferentie van Hoofdbibliothecarissen geproduceerd en uitgegeven langs verschillende wegen, ook op cd-rom. Een versie van CCB is bijvoorbeeld, naast Zebra, raadpleegbaar via de home page van Vubis-Antwerpen Catalogues. Aan de K.U.Leuven kan men CCB gebruiken via Libis-terminalen en -telnetsessies, en ook langs de hogergenoemde ERL-server (http://www.bib.kuleuven.ac.be/bib/erl), naast, en zelfs samen met de databank Current contents. 3.5.3.5 Antilope Wat gezegd werd van de achtergrond en de toegang van de Collectieve Catalogus van België gaat ook grotendeels op voor Antilope. Dit is een databank van de tijdschriften die bewaard worden in de Koninklijke Bibliotheek en de andere wetenschappelijke en speciale bibliotheken van het land. Op de ERL-server van K.U.Leuven zorgt Antilope voor de nuttige informatie betreffende de vindplaats van Current Contents-tijdschriftliteratuur. 3.5.3.6 Nederlandse Centrale Catalogus De Nederlandse Centrale Catalogus (NCC) is raadpleegbaar op het web: http://www.pica.nl in dezelfde Pica-omgeving als Online Contents en Historie in Titels. In totaal vindt men er de titels van 7 miljoen boeken en 350.000 tijdschriften in meer dan 400 bibliotheken. Er zijn verschillende toegangen tot bibliotheeksystemen. Op het Web domineren twee varianten: Telnet en WWW. Bij een telnet-toegang zal men via een telnet-client © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 96 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI inloggen op het computersysteem waarop de bibliotheektoepassing draait, om zo de catalogus te raadplegen. Voordeel van deze benadering is dat telnet op eender welk computerplatform beschikbaar is, en dat het zowel aan de client als aan de transmissie weinig eisen stelt. Zelfs met een eenvoudige DOS-computer kan men zo bibliotheken op afstand raadplegen. Naargelang het type van de host (de computer waarop men inlogt) heeft men een typische vt100 of ANSI telnet-client van doen, of een tn3270client. Bij standaard vt100-emulatie (vt100 is een type terminal voor DEC-computers) en ANSI (American National Standards Institute) worden de instructies teken per teken doorgezonden, bij de IBM 3270-emulatie (een 3270 was een speciale PC voor communicatie met een IBM mainframe) gaat dit scherm per scherm, wat voor bibliotheektoepassingen aangenamer is. Het nadeel van zowel de telnet- als tn3270 varianten is dat men in feite aansluit op een ander computersysteem, en men vaak met vreemde commando's en een onaangepaste toestenbord-indeling moet werken. Bovendien laat telnet geen bestandsuitwisseling toe met de client, en zijn er bijgevolg weinig manipulaties mogelijk op de verkregen zoekresultaten. Een tweede mogelijkheid is via WWW, meer bepaald met HTML-forms. In dit geval werkt men in een zuivere client-server omgeving, en kan men de opgevraagde resultaten gemakkelijker afdrukken of wegschrijven. Ook bedient men de eigen computer, wat toetsenbordproblemen of een onbekende commando-omgeving uitsluit. Bibliotheekcatalogi zijn via gestructureerde indices beschikbaar. Hier volgen enkele belangrijke adressen. Uit het grote aantal kan blijken dat bibliotheektoegang via internet geen wishfull thinking meer is, en dat bibliotheekwetenschap en informatietechnologie elkaar reeds geruime tijd gevonden hebben. De eigentijdse bibliothecaris is dan ook tevens een Cybrarian, gespecialiseerd in informatie-ontsluiting op het Web. 3.5.4 Belangrijkste adressen (toestand 31/08/98, voor een geactualiseerde versie, zie: http://fuzzy.arts.kuleuven.ac.be/F207/newlink.htm) 3.5.4.1 Databases accessible to K.U.Leuven-users (http://venus.kulnet.kuleuven.ac.be/bib/elektronisch/databanken.html) highlights: • Open Library Network (Nederlandse Centrale Catalogus, Online Contents, Historie in titels, BNTL, STCN ...): http://www.pica.nl • Periodicals Contents Index: http://pci.chadwyck.com • ERL (http://www.bib.kuleuven.ac.be/bib/erl): • CCB - Union Catalogue of Belgian Research Libraries © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 97 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI • Antilope - Index of Journal Titles in Belgian Libraries • MLA International Bibliography • Current Contents • LIBIS: http://access.libis.kuleuven.ac.be/libis-ipac/v3/lbscheck • Vlaamse openbare bibliotheken op Internet: http://www.bib.vlaanderen.be/ • Library of Congress: http://lcweb.loc.gov/ 3.5.4.2 Belgische bibliotheken Hiervoor kan men terecht op de overzichtspagina http://www.ua.ac.be/belcat.html van Jan Corthouts / Overview by Jan Corthouts. Hieronder alvast een samenvatting van de belangrijkste adressen / Most relevant links: • Koninklijke Bibliotheek Albert I: http://www.kbr.be • Vlaamse openbare bibliotheken op Internet: http://www.bib.vlaanderen.be/ • Universitaire netwerken: • • LIBIS-Net: http://access.libis.kuleuven.ac.be/libis-ipac/v3/lbscheck • VUBIS-Antwerpen Network: http://www.ua.ac.be/vubis.html Andere Vlaamse universiteiten: • Universiteit Gent: http://www.lib.rug.ac.be • Vrije Universiteit Brussel - VUB: WWW server: http://www.vub.ac.be/BIBLIO/ubhp.htm • CCB, Antilope via K.U.Leuven ERL (K.U.Leuven only): http://erl.libis.kuleuven.ac.be/cgi-bin/webspirs.cgi • Antilope: http://www.ua.ac.be/MAN/ANTILOPEE/root.html • Koninklijke Militaire School: http://www.rma.ac.be/index.html • UCL: http://www.bib.ucl.ac.be • Université Libre de Bruxelles - ULB: WWW server : http://bib1.ulb.ac.be/ • Faculté des Sciences Agronomiques - Gembloux (MIDAS): • http://www.bib.fsagx.ac.be/ • Université de Liège: http://www.ulg.ac.be/libnet/ © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 98 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI 3.5.4.3 Nederland Voor Nederland biedt de Koninklijke Bibliotheek een State-of-the-Art overzicht, waaruit we ondermeer volgende informatie konden puren: • Open Library Network (Nederlandse Centrale Catalogus, Online Contents en Historie in titels): http://www.pica.nl • Koninklijke Bibliotheek: http://www.konbib.nl • NL-MENU Documentaire informatie: http://www.nlmenu.nl/nlmenu/bibliotheek/home.html • Koninklijke Bibliotheek Wegwijzer naar bibliotheek- en documentatiediensten: http://www.konbib.nl/kb/sbo/bdi-nl.html • Biblioweb/NBLCWeb (Openbare Bibliotheken): http://www.nblc.nl/ • AGRALIN (landbouwwetenschappen): http://www.bib.wau.nl/ • NIWI (Nederlands Instituut voor Wetenschappelijke Informatiediensten): http://www.niwi.knaw.nl/ • KNAW (biomedische wetenschappen): http://www.library.knaw.nl/ • Bibliotheek TU Delft: http://www.library.tudelft.nl/ • NVB (Nederlandse Vereniging van Bibliothecarissen): http://www.konbib.nl/infolev/nvb/index.html 3.5.4.4 Overzichten van andere Europese bibliotheken • Gabriel: http://www.konbib.nl/gabriel/ Gabriel is een belangrijke toegangspoort tot Europese nationale bibliotheken. • CERL (Consortium of European Research Libraries): http://www.bl.uk/information/cerl/ • EPIC (European Preservation Information Center): http://www.knaw.nl/ecpa/ • I'M Europe (Telematics for libraries): http://www.echo.lu/libraries/en/libraries.html Denemarken • The Royal Library of Denmark: http://www.kb.bib.dk/ • Yahoo! Danmark: Reference:Bibliotheker: http://www.yahoo.dk/Reference/Biblioteker/ Duitsland • Die Deutsche Bibliothek: http://www.ddb.de/ Nationale bibliotheek van Duitsland © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 99 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI • Bibliotheken, Bücher und Berichte: http://www.laum.unihannover.de/iln/bibliotheken/bibliotheken.html • Deutsche Bibliotheken online: http://www.hbz-nrw.de/hbz/germlst/ • Gesamtkatalog des Südwestdeutschen Bibliotheksverbund (www-opac): http://www.swbv.uni-konstanz.de/CGI/cgi-bin/opacform.cgi • GBV (Gemeinsamer Bibliotheksverbund der Länder Bremen, Hamburg, Mecklenburg-Vorpommern, Niedersachsen, Sachsen-Anhalt, SchleswigHolstein und Thüringen): http://www.brzn.de/ • BVBB (Bibliotheksverbund Berlin Brandenburg): http://www.dbiberlin.de/de/ibas/bvbb/bvbb_00.htm • Yahoo! Deutschland: Nachschlagewerke:Bibliotheken: http://www.yahoo.de/Nachschlagewerke/Bibliotheken/ Estland • National Library of Estonia: http://www.nlib.ee/ Frankrijk • Catalogue Collectif des Ouvrages - CNRS France: http://dodge.grenet.fr:8001/ • Francophone Libraries: http://fllc.smu.edu/fllc/frlib/francophonelib.html • Bibliothèque nationale de France: http://www.bnf.fr http://web.culture.fr/culture/sedocum/bnf.htm • Le monde des bibliothèques: http://www.bol.ocd.fr/html/mond_bib.htm • Yahoo! France: Références et annuaires:Bibliothèques: http://www.yahoo.fr/References_et_annuaires/Bibliotheques/ Ierland • COPAC: http://copac.ac.uk/copac/ • National Library of Ireland: http://www.hea.ie/natlib/homepage.html Italië • http://www.nis.garr.it/opac-dir/opac.html Oostenrijk • bib-o-pac (WWW-Gateway zum Online-Katalog des Österreichischen Bibliothekenverbundes): http://bibopac.univie.ac.at/ Scandinavië (algemeen) • Nordic Libraries: information servers: http://www.ub2.lu.se/resbyloc/Nordic_lib.html (onderhouden door Universiteit van Lund) © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 100 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI Spanje • National Library of Spain: http://www.bne.es/ • Biblioteca Universidad de Barcelona: http://www.bib.ub.es/bub/bub.htm Tsjechië • National Library of The Czech Republic, Prague: http://alpha.nkp.cz/ Rusland • Russian Library Network: http://www.scsml.rssi.ru/list.html • Openweb Project: http://www.openweb.ru/ • REESWeb (Russian and East European Studies Internet Resources): http://www.pitt.edu/~cjp/rees.html Verenigd Koninkrijk • OPAC 97: http://opac97.bl.uk/ • COPAC (CURL Online Public Access Catalogue): http://copac.ac.uk/copac/ • NISS (National Information Services and Systems): http://www.niss.ac.uk/reference/opacs.html • The British Library: http://portico.bl.uk • UKOLN - The UK Office for Library and Information Networking: http://www.ukoln.ac.uk/ • Yahoo! UK & Ireland: Reference:Libraries: http://www.yahoo.co.uk/Reference/Libraries/ Zwitserland • http://www.switch.ch/libraries/ Zweden • LIBRIS (Union Catalogue of Swedish libraries): http://www.libris.kb.se/english/home.html • Kungl. biblioteket - Sveriges nationalbibliotek: http://www.kb.se/ • Lund University Electronic Library: http://www.ub2.lu.se/ 3.5.4.5 Bibliotheekoverzichten wereldwijd • National Library Catalogues Worldwide: http://www.library.uq.edu.au/ssah/jeast/ • WebCats: http://www.lights.com/webcats/ • Libweb: http://sunsite.berkeley.edu/Libweb/ © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 101 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI • WebCATS: http://www.lights.com/webcats/ • LIBCAT: http://www.metronet.lib.mn.us/lc/lc1.html • Zweb/Hytelnet: http://zweb.msu.edu/ • Hytelnet: http://www.lights.com/hytelnet • OPAC's via the WWW/Z39.50 Gateway - Library of Congress: http://lcweb.loc.gov/z3950/ • Stanford Z39.50 WWW Gateway: http://lindy.stanford.edu/~asc/dir.CGI • WWW gateways to Z39.50 OPACs: http://www.ub2.lu.se/opacs/z3950_opacs.html • Online catalogs with 'webbed' interfaces: http://www.lib.ncsu.edu/staff/morgan/alcuin/wwwed-catalogs.html • The WWW Virtual Library: http://www.w3.org/pub/DataSources/bySubject/Overview.html • Library Catalogs around the World: http://www.lib.virginia.edu/natlcats.html • Yahoo Libraries: http://www.yahoo.com/Reference/Libraries/ • TheWorld: http://www.worldwidenews.net/subjects.htm • Yale University Library Front Door: http://www.library.yale.edu/ • Yale Worldwide Libraries: http://www.library.yale.edu/pubstation/libcats.html • Libraries and Library Catalogs, via San Jose State University: http://witloof.sjsu.edu/peo/libsci.html • Libraries around the World : http://freenet.msp.mn.us/library/libcats.html • Library Catalogs via the InterNIC Directory of Directories: http://ds.internic.net/cgi-bin/tochtml/library/0intro.library • The Internet Public Library Project: http://sjcpl.lib.in.us/homepage/PublicLibraries/PublicLibraryServers.html • Library of Congress: http://lcweb.loc.gov/ • Harvard HOLLIS: http://hplus.harvard.edu/, tn3270://hollis.harvard.edu • The US National Library of Medicine: http://www.nlm.nih.gov/ • WorldWindow Washington University in St. Louis: http://library.wustl.edu/ • ALA: http://www.ala.org/ - American Library Association • ARL: http://arl.cni.org/ - Association of Research Libraries • CEAL: http://darkwing.uoregon.edu/~felsing/ceal/seal.html - Council on East Asian Libraries © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 102 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI • IATUL - International Association of Technological University Libraries: http://educate.lib.chalmers.se/IATUL/ • IFLA - International Federation for Library Associations: http://www.nlcbnc.ca/ifla/ • Canadian Libraries on the Web: http://library.usask.ca/~scottp/canlib.html • National Library of Canada: http://www.nlc-bnc.ca/ • The National Library of Australia: http://www.nla.gov.au/ • Australian Libraries Gateway: http://www.nla.gov.au/libraries/ • The National Library of New Zealand: http://www.natlib.govt.nz • OCLC Online Computer Library Center: http://www.oclc.org 3.5.4.6 Uitgeverijen • Publishers' Catalogues Home Page: http://www.lights.com/publisher/ • Bookwire: http://www.bookwire.com/ 3.5.4.7 Cultuur-resources op het Internet In wat volgt enkele links die nauw aansluiten bij het interessegebied van het Instituut voor Culturele Studies. Voor het meerendeel werden ze ontleend aan een overzicht van Dean Rehberger http://atl46.atl.msu.edu/us.html • History Links: http://fuzzy.arts.kuleuven.ac.be/F207/histlink.htm • Webmuseum Network: http://sunsite.doc.ic.ac.uk/wm/ • Electronic Book Review: http://www.altx.com/ebr/ • VOICE OF THE SHUTTLE HOME PAGE: http://humanitas.ucsb.edu/shuttle/theory.html • Michigan State University Library and Information Technology: http://www.msu.edu/infotech/informationtechnology2.html • LEXIS-NEXIS: http://www.lexis-nexis.com/ • Popular Culture Library:: http://www.bgsu.edu/colleges/library/pcl/pcl.html • Postmodern Culture: http://jefferson.village.virginia.edu/pmc/contents.all.html • Electronic Journal Access: http://www.coalliance.org/ • The WWW VL Electronic Journals List: Academic and Reviewed Journals: http://www.edoc.com/ejournal/academic.html © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 103 3.5. BIBLIOTHEKEN, BIBLIOGRAFISCHE DATABANKEN EN CATALOGI • BIDS - Bibliographic data and electronic journals for education and research: http://www.bids.ac.uk/ • Biblio On Line: http://www.bol.ocd.fr/ • Humanities HUB - Cultural Studies: http://www.gu.edu.au/cgi-bin/gcode?/gwis/hub/qa/hub.home.html • The English Server: http://eserver.org/ • Cultural Theory: http://english-server.hss.cmu.edu/theory.html • Cultronix: http://english-server.hss.cmu.edu/cultronix.html • F.Scott Fitzgerald Centennial Home Page: http://www.sc.edu/fitzgerald/index.html • American Literature On-Line: http://www.missouri.edu/~engmo/amlit.html • Columbia University: Project Bartleby: http://www.columbia.edu/acis/bartleby/index.html • The Media History Project: http://www.mediahistory.com/ • Exploring ancient world cultures: http://eawc.evansville.edu/ • PhilNet: http://www.sozialwiss.uni-hamburg.de/phil/ag/internet.html • Computerphilologie: http://computerphilologie.uni-muenchen.de/ • Dialectiques: http://www.chez.com/patder/index.htm • Philagora: http://www.mnet.fr/philagora/ © F. Truyen en J. Tolleneer 1999 - INTERNET EN WORLD-WIDE-WEB - 104 4.1. EDITEREN 4. Documentverwerking 4.1 Editeren De meest elementaire voorstelling van tekst in een computer kan men bereiken door gebruik te maken van de ASCII-codes. Dit is een conventionele reeks van 127 woordjes van 7 bits, die elk een bepaald teken voorstellen. De idee is: de computer werkt met de bitreeksen, de uitvoer- en invoerapparatuur zorgt ervoor dat eenzelfde 7bits reeks steeds hetzelfde teken oproept. De ASCII implementatie werkt in de praktijk echter met woordjes van 8 bits. Daarmee kunnen 256 tekens worden voorgesteld. De onderste 127 zijn die van ASCII-conventie, de volgende worden ingedeeld in alternatieve 'code-pagina's' of code-pages. In de DOS-wereld is dit vrij courant de code-pagina 437 of de IBM extended character set. Meer en meer wordt echter overgegaan op de code-pagina 850. In de Windows-wereld wordt standaard de ANSItekenreeks gebruikt, die veel gelijkenis vertoont met code-page 850. Typerend voor dit opzet is dat de randapparatuur of tenminste de insteekkaarten die de randapparaten besturen zelf voor de vertaling van de bitreeksen in letters zorgen. Acht bits volstaan dan voor de computer om een letter op het scherm te zetten. Deze werkwijze is teken-georiënteerd, en men noemt besturingssystemen die daarvan gebruik maken dan ook teken-georiënteerde systemen, b.v. plain DOS en UNIX. Wie op een DOS- of UNIX-machine een tekst wil schrijven, kan bijgevolg gebruik maken van de bijgeleverde lijn-editor of visuele editor (edlin, edit in DOS, ed en vi in UNIX, xedit onder VM). Daarmee kan men op het scherm tekst typen om die daarna in een bestand te bewaren. In dat bestand zijn alleen conventionele (al dan niet extended) ascii-codes opgenomen. Hoe de extended characters worden geïnterpreteerd, hangt af van de in het besturingssysteem actieve code-tabel. Editors zijn in VM en UNIX essentiële tools voor allerlei taken zoals systeembeheer, programmeren, automatiseren e.d.m. Vaak worden ze ook voor tekstmanipulatie aangewend. Vooral UNIX-editors kennen uiterst krachtige tekstmanipulatiemogelijkheden, waarbij gebruik wordt gemaakt van een aantal tools die in het UNIX-systeem aanwezig zijn, zoals sort, cat, grep, cut, tr e.a. In de DOS/WINDOWS-wereld worden editors voornamelijk ingezet voor het editeren van de systeembestanden CONFIG.SYS, AUTOEXEC.BAT, WIN.INI, SYSTEM.INI en andere .BAT en .INI bestanden waarmee een PC wordt geconfigureerd. Daarnaast is het onmisbaar voor het editeren van programma's. De meest courante DOS/WINDOWSeditors edit, Norton Editor en Notepad zijn vooral geschikt voor kleinere tekstbestanden, met de typische lengte van systeembestanden en programmabroncode, gaande van enkele honderden tot enkele duizenden lijnen. Er bestaan © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 105 4.2. TEKSTVERWERKING echter ook voor DOS krachtige editors die de mogelijkheden van de UNIX- en Mainframe-varianten evenaren, zoals Brief en Vedit. Typerend voor editors is o.m.: - editors zijn lijngeoriënteerd: het indrukken van de enter-toets brengt de codes 10 (Carriage Return) en 13 (New Line) aan; er wordt geen rekening gehouden met een bladspiegel. Men kan zich eenvoudig naar een lijnnummer of kolompositie, idealiter ook naar een absolute positie in de tekst (nde teken) verplaatsen. - editors zijn tekengeoriënteerd; zij kennen geen verschillende lettertypes en gebruiken de code-pagina die actief is in het systeem. - editors zijn gespecialiseerd in zoek/vervang en blok-operaties: idealiter kunnen alle in het systeem gedefinieerde tekens worden gemanipuleerd. 4.2 Tekstverwerking Tekstverwerking is ongetwijfeld de meest populaire pc-toepassing. Het is een handig instrument voor iedereen die teksten produceert. Tekstverwerkingssoftware laat twee functies toe: - het zgn. editeren van tekst, d.w.z. invoeren, corrigeren, schrappen, verplaatsen, enz. Deze functie heeft tekstverwerking gemeenschappelijk met editors; - het opmaken van tekst, d.w.z. pagina-lay-out, paginanummering, correcte plaatsing van voetnoten, het genereren van een inhoudsopgave, register, enz. Het verschil met Desktop Publishing pakketten (zie verder) kan men het best zo verwoorden: bij tekstverwerking staat opmaak van de tekst zelf centraal: het gebruik van o.a. typografische verrijking met als doel inhoudelijke accenten formeel te onderstrepen. Bij Desktop Publishing staat opmaak van de pagina centraal: hier gaat het om de vormgeving van de publicatie, b.v. het aanwenden van typografische verrijking om een boek attractief te maken. Om het productieproces van tekstgehelen unidirectioneel te houden kan men stellen dat tekstverwerkers de relevante functies van editors omvatten, en DTP-pakketten de relevante functies van tekstverwerkers. Zo moet de lay-outer niet terug naar het tekstverwerkingspakket om een eenvoudige tikfout te verbeteren. Het blijft wel zo, dat een editor veel handiger is voor louter editeerwerk als een tekstverwerker, en een tekstverwerker op zijn beurt te verkiezen boven een DTP-pakket voor klassieke tekstverwerkingsfuncties. De meest gebruikte tekstverwerkingsprogramma's zijn MS-Word en WordPerfect. Voor formules e.d. bestaan gespecialiseerde programma's zoals TeX, T3 en NotaBene. Tenslotte zijn er de programma's voor desktop publishing (DTP), zoals Pagemaker, Ventura Publisher, QuarkXPress. Hiermee kunnen teksten zodanig worden © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 106 4.2. TEKSTVERWERKING opgemaakt en afgedrukt dat de kwaliteit van het eindprodukt die van professioneel zeten drukwerk benadert. Sinds kort wordt onderscheid gemaakt tussen: - character georiënteerde tekstverwerking: hier gaat het wezenlijk om tekstinvoer en verwerking; - grafisch georiënteerde tekstverwerking, b.v.: WordPerfect voor Windows (WPWin), Word for Windows. • Typisch Word for Windows scherm Knoppenbalk (Button Bar) Window titel Menu Formatting Status Bar Ruler Vertical ScrollBar Drawing Toolbar Het menu kan worden opgeroepen met de muis: 1 linkermuisklik selecteert een menu item, 2 klikken activeert een menu item. Indien men de linkermuisknop ingedrukt houdt, wordt het opgelichte menu item geactiveerd bij het lossen van de muisknop. Met het toetsenbord: Alt-toets, daarna met pijltjes selecteren of via onderlijnde letter; enter activeert het gekozen item. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 107 4.2. TEKSTVERWERKING • Typische menu’s Radio Button is zwart bij het geselecteerde menu item Drie puntjes geven aan dat verdere dialoog volgt Checkmark geeft aan dat i.c. de ruler actief is grijze menu items kunnen op dat ogenblik niet geselecteerd worden • Voorbeeld met shortcuts Shortcuts geven aan hoe je het menu-item via het toetsenbord kan activeren © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 108 4.2. TEKSTVERWERKING • Tekenopmaak Times New Roman Romein 10 pt Times New Roman Cursief 10 pt (Ctrl-I) Times New Roman Vet 10 pt (Ctrl-B) Times New Roman Romein 16 pt Arial Romein 10 pt Arial Cursief 10 pt Arial Vet 10 pt Arial Romein 14 pt Er zijn verschillende toegangen tot font-opmaak: De rechter muisklik opent een menu voor objecteigenschappen - via het fonts-menu: Alt-Format-Font - via rechtermuisklik-Font - via shortcuts: Ctrl-B, Ctrl-I, Ctrl-U etc... - via de toolbar Het font-menu: Arial Romein 10 pt Strikethrough Arial Cursief 10 pt Superscript © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 109 4.2. TEKSTVERWERKING Arial Vet 10 pt Subscript ARIAL ROMEIN 14 PT SMALL CAPS Alinea-opmaak links Tekstverwerking laat toe op eenvoudige wijze alinea’s (paragraph’s) te schikken. Links uitlijnen is op dit moment nog standaard bij WWW-hypertext. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 110 4.2. TEKSTVERWERKING rechts Tekstverwerking laat toe op eenvoudige wijze alinea’s (paragraph’s) te schikken. Rechts uitlijnen is erg ongebruikelijk want eerder vermoeiend om lezen; men past het meestal toe bij tekst in de marge bij een illustratie. gecentreerd Tekstverwerking laat toe op eenvoudige wijze alinea’s (paragraph’s) te schikken. Gecentreerde tekst treft men vaak aan voor titels, maar ook in brochures, op menukaarten of voor gedichten. uitgelijnd Tekstverwerking laat toe op eenvoudige wijze alinea’s (paragraph’s) te schikken. Standaard wordt bij drukwerk aan beide zijden uitgelijnd. Men krijgt dan evenwichtige blokken, die een minimum aan witruimte overlaten op het blad. Ook in de tekstverwerking geldt immers het horror vacui. Bij uitlijnen is woordsplitsen van belang, om witte spoorvorming op de bladspiegel te voorkomen. hanging indent Tekstverwerking laat toe op eenvoudige wijze alinea’s (paragraph’s) te schikken. Een hanging indent paragraph is een alinea met een naar links uitspringende eerste lijn. first line Tekstverwerking laat toe op eenvoudige wijze alinea’s (paragraph’s) te schikken. Een first line indent is een naar rechts inspringende eerste lijn. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 111 4.2. TEKSTVERWERKING In het text flow menu kan je bepalen hoe alinea’s zich tegenover elkaar gaan verhouden: moet de geselecteerde alinea bij de volgende blijven? (keep with next). Moeten de regels van een alinea samenblijven? (Keep Lines Together). • Borders en Shading Met borders en shading kan je kaders rond titels plaatsen: Hoofdstuk I © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 112 4.2. TEKSTVERWERKING • Page Setup (pagina-opmaak) Let er steeds op dat in Page Setup het Europese DIN-A4 (Deutsche Industrie-Norm) formaat geselecteerd werd. Je kan in 1 document verschillende secties maken, b.v. een blad in landscape tussenvoegen. De gutter margin is een snijrand, indien je document bij het inbinden wat marge zal verliezen. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 113 4.2. TEKSTVERWERKING • Werken met kolommen via het men Format Columns, waarna volgende dialoog verschijnt: • Automatisch nummeren of aanbrengen van ‘bullets’ via het menu Format Bullets and Numbering © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 114 4.3. DESKTOP PUBLISHING • tabellen Aantal 1991 1992 bruin 12 45 rood 310,6 16 oker 9 22 geel 22 blauw 110 14,1 31 Met het commando Table Headings maak je van een eerste rij een tabel-hoofding, die op elke pagina terugkeert. 4.3 Desktop Publishing Het sluitstuk van de gegevensverwerking in het historisch-filologische onderzoek wordt gevormd door het overzichtelijk presenteren van de bekomen informatie. Dit kan door het invoegen van tabellen of histogrammen in een wetenschappelijke bijdrage. Naast de tabelvorm, die als een grondvorm van de informatica kan worden beschouwd, en zeker één van de meest natuurlijke methoden is om informatie voor te stellen, bieden histogrammen vaak een snelle en intuïtieve toegang tot het materiaal. Het naadloos in elkaar passen van tabellen, grafieken en tekst veronderstelt echter een degelijke visie op de opmaak van de publicatie. Steeds vaker wordt die opmaak door de auteur zelf gedaan, met behulp van Desktop Publishing Software, waarover dit deel handelt. DTP heeft niet alleen een revolutie teweeggebracht in de grafische sector, maar heeft ook de werkzaamheden van auteurs ingrijpend veranderd. Eerst zal kort worden overlopen waarin het traditionele productieproces voor een publicatie bestaat, waarna nader zal worden ingegaan op het fenomeen DTP als dusdanig. 4.3.1 Het grafische productieproces 4.3.1.1 Manuscript In het klassieke productieproces voor tekst gaat het manuscript vooraf aan de verwerking. De tekst wordt getypt op recto vellen, met ruime marge en grote interlinie. In de marge worden dan typografische aanwijzingen opgetekend. Voor cursivering wordt in de regel onderstreept gebruikt. Ook wordt duidelijk aangegeven waar een nieuwe alinea begint. Woordsplitsing speelt op dit ogenblik geen rol, vermits dat wordt aangepast aan de zetlengte die de tekstregels in het drukwerk zullen krijgen. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 115 4.3. DESKTOP PUBLISHING 4.3.1.2 Zetwerk De zettechniek heeft de laatste decennia een snelle evolutie doorgemaakt. Reeds aan het einde van de negentiende eeuw werd het handzetten voor grote oplages vervangen door het machinezetten, met de linotype en monotype zetmachines, waarmee de zetter de tekst eerst via een toetsenbord kan intypen. Na de tweede wereldoorlog kwam het fotozetten in zwang, mede door de sterke opkomst van offset ten koste van hoogdruk (zie daarover verder meer). In de ontwikkeling van de fotozetmachines kan men vier fases onderscheiden. Eerst ging het om fotografischoptische machines, waarbij een negatiefbeeld van de te zetten tekst werd gemaakt. De volgende stap bestond uit de introductie van fotografische scanners, die het negatief opbouwden door scanning met kathodestralen. Ook in de zetwereld zou de grootste revolutie echter komen vanwege de computer, met de digitale scanning. Bij deze techniek wordt geen beeld afgetast, maar zal de scanner een negatief opbouwen vanuit digitale informatie over het beeld. Het meest recent is echter de laserscanning, waarbij de kathodestraalbuis werd vervangen door een laserstraal. Zoals verder zal worden aangegeven, heeft de digitale zettechniek de deur opengezet voor DTP: beeldinformatie kan nu in principe vanuit een Personal Computer of een Workstation aan de zetmachine worden doorgegeven, via een paginabeschrijvingstaal. Daar wordt dan het negatief gemaakt, dat bij het afdrukken zal worden gebruikt. Hedendaagse zetmachines beschikken over automatische afbreekprogramma's om aan woordsplitsing te doen. Dit is nodig om vervelende richels in de broodtekst weg te werken. Specifiek voor het Nederlands gelden een aantal richtlijnen, die men in de mate van het mogelijke volgt. Men breekt liever niet af in volgende gevallen (35): - in afkortingen, getallen en bedragen; - tussen titels, voorletters en de rest van namen; - als op elke regel slechts 2 letters overblijven, b.v. niet ve-le, wel ve-len; - als op de tweede regel slechts 2 letters overbijven; - tussen medeklinkerparen ng en nk; - vóór het achtervoegsel 'lijk'; - buiten de woordsamenstelling, b.v. niet boe-kenkast, wel boeken-kast. 4.3.1.3 Correctie Wanneer de tekst een eerste maal gezet is, zal men overgaan tot het nakijken van de drukproeven. Dit gebeurt zowel door de uitgever, door huiscorrectoren, als door de auteur. De auteur wordt verzocht via speciale tekens in de marge correcties aan te brengen. Omdat de drukproef in de regel uit lange stroken bestaat, noemt men deze 35Bron: Tekstwijzer, p.106. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 116 4.3. DESKTOP PUBLISHING correctie ook wel de strokenproef. Daarvan te onderscheiden is de auteurscorrectie, die niet bestaat in het wegwerken van zetfouten (bestrijding van het zetduiveltje), maar in correcties aan de oorspronkelijke tekst, die de auteur in extremis wil aanbrengen. Het zetten en de correctie samen maken ongeveer twee derde van de uitgeverskosten uit. Vooral auteurscorrectie veroorzaakt hoge kosten. Dit houdt in dat de auteur beter wacht met het indienen van z'n manuscript tot het naar zijn mening foutloos is. 4.3.1.4 Reprografie Men kan via verschillende druktechnieken tot een afdruk komen: vlakdruk (offset), hoogdruk, diepdruk of zeefdruk. De drukker zal daarbij ook een papiersoort gebruiken, die aangepast is aan de bestemming van het drukwerk (folder, affiche, boek, ...) en de gebruikte druktechniek. Op basis van het negatief van de fotozetmachine wordt een drukplaat aangemaakt, waarbij de bedrukte plaatsen op de plaat een andere elektrische lading krijgen dan de niet-bedrukte. Bij het meest courante offset draagt een met rubber bespannen cilinder het beeld over van de drukplaat naar het papier. Het beelddragende deel van de drukplaat neemt inkt aan en stoot het water af, het niet-beelddragende deel stoot de vette inkt af en neemt het water aan. Offset laat de minste vervormingen na op het papier, en geeft een scherp beeld. Bij hoogdruk (typo) wordt het beeld gevormd door een verhoging op een metalen plaat (cliché). Door druk wordt dit beeld overgebracht op het papier. Dit laat mooie, gestoken letters toe, maar laat op het papier een indruk na, die men aan de achterzijde kan voelen (de moet). Diepdruk of helio gaat dan weer omgekeerd te werk: hier wordt het beeld gevormd door indrukken in de beeldplaat. Het papier zuigt de inkt uit deze napjes. Diepdruk is niet zo scherp als hoogdruk; de letters vertonen gekartelde randen. Bij zeefdruk tenslotte wordt een sjabloon waarin het beeldgedeelte werd uitgespaard op een zeef gelegd. Met een rakel wrijft men de inkt via de open ruimtes in het sjabloon door de zeef op het onderliggende papier. Dit geeft een dikke inktlaag. Voor illustraties kan gebruik worden gemaakt van lijn, raster en halftoon. behoren twee- of vierkleurendruk tot de mogelijkheden. Voorts 4.3.2 Lay-out 4.3.2.1 DTP-software Met de opkomst van Desktop Publishing Software voor de microcomputer werd het hele grafische productieproces ingrijpend gewijzigd. De DTP-software maakt gebruik © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 117 4.3. DESKTOP PUBLISHING van het gegeven dat de meeste manuscripten heden ten dage in elektronische vorm beschikbaar zijn. Zo de tekst al niet werd aangemaakt met een tekstverwerkingspakket, is het altijd mogelijk hem in te scannen. Met een DTP-pakket kan de tekst van een opmaak of lay-out voorzien worden, en kunnen tekeningen en illustraties worden ingepast. Bekende pakketten zijn Aldus Pagemaker - zoals de naam laat vermoeden vooral geschikt voor pagina-opmaak en Ventura Publisher, vooral van belang voor grote en technische documenten. Daarnaast kan nog het pakket Framemaker worden vermeld, dat op werkstations, de Macintosh en de eerder zeldzame NextStation beschikbaar is. De DTP-pakketten bieden grosso modo volgende mogelijkheden: • document-opmaak Het bepalen van de zetspiegel; aanbrengen van paginanummeringen, opmaak van titelblad, beperkt kaftontwerp, indeling in secties. • paragraaf (section)-opmaak Opgeven van de marges van een bepaald deel van het document, b.v. de doorlopende tekst, tabellen, indices en dergelijke. Het indelen van de zetspiegel in kolommen. Dit kan op verschillende wijzen: bij newspaper lay-out loopt de tekst van de ene kolom over in de andere, om uiteindelijk naar een volgende bladzijde te gaan; bij parallelle kolommen kan in elke kolom een nieuwe tekst begonnen worden. Een voorbeeld van toepassing van dit laatste is een tekst in de ene kolom en de vertaling in een tweede. Voorts kan ook bepaald worden of de tekst in portret of in landschap wordt afgedrukt. • alinea (paragraph)-opmaak Een DTP pakket kent bovenop de ruime mogelijkheden van de tekstverwerking, zoals het links en/of rechts uitlijnen of centreren van de tekst, het bepalen van de lijnhoogte of interlinie, het bepalen van de vrije ruimte vóór en achter een alinea, nog andere functionaliteiten, zoals het instellen van schaduw, achtergrondkleur, omkadering. • kop- en voetregels, voet- en eindnoten Het DTP-pakket laat toe kopregels of voetregels aan te brengen met sigla, paginaaanduidingen, hernemingen van titels en dergelijke meer. Ook is er een uitgebreide mogelijkheid om een voetnoten-apparaat te beheren. Vaak is het echter niet goed mogelijk een echt kritisch apparaat te onderscheiden van de voet- en eindnoten; daarvoor zijn meestal gespecialiseerde pakketten nodig. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 118 4.3. DESKTOP PUBLISHING • kaders (frames) Naast alinea's kan men met een DTP-pakket ook kaders op de zetspiegel of zelfs vrij op de bladspiegel plaatsen en manipuleren. In die kaders kan tekst worden opgenomen die enigszins onafhankelijk van de broodtekst is, of tekeningen, grafieken en illustraties. Vooral in de zakelijke wereld wordt de mogelijkheid om grafieken in de tekst te integreren geapprecieerd. • typografie De meeste DTP-programma's bieden toegang tot een uitgebreide verzameling lettertypes (fonts). Toonaangevend daarin zijn de Adobe Type Manager of ATM-fonts, speciaal door Adobe ontwikkelde fonts die zowel op het scherm als op de printer worden afgebeeld, en True Type fonts, ontwikkeld door Apple. Apple integreert zowel ATM als True Type in System 7; Microsoft heeft een licentie op True Type voor Windows 3.1, waarvoor ook ATM beschikbaar is. IBM levert standaard ATM bij OS/2 1.3 en 2.0. Het voordeel van ATM en True Type is dat deze fonts op elk ondersteund beeldscherm en printer dezelfde weergave bieden. De exacte overeenkomst tussen beeldschermweergave en uitprint noemt men WYSIWYG (What You See Is What You Get). Typisch voor DTP is dat men naast klassieke attributen als cursief, vet, boven- en onderschrift, onderstreept, dubbel onderstreept, klein kapitaal en doorgehaald ook de letters kan vervormen, roteren en slanten, d.i. kantelen. Het voordeel van grafische besturingssystemen zoals X-Windows, System 7 of grafische schillen zoals Windows, Presentation Manager en Open Look t.a.v. karaktergeoriënteerde zoals MS-DOS of standaard UNIX is dat men een veel ruimer assortiment aan alfabetten kan weergeven dan de standaard 127 ascii-tekens, al dan niet uitgebreid tot de 255 tekens IBMtekenset. Dit betekent dat moderne DTP-pakketten en tekstverwerkers probleemloos Grieks, Cyrillisch, Hebreews en Kanji, om er een paar te noemen, op het beeldscherm kunnen tonen. 4.3.2.2 Paginabeschrijvingstalen De grote doorbraak voor de microcomputer in de grafische industrie is er gekomen met de Apple Macintosh II, die met z'n paginabeschrijvingstaal Adobe Postscript naast laserprinters ook elektronische zetmachines zoals de linotronic kan aansturen. Het voordeel van de Postscript-taal bestaat erin printer-onafhankelijk te zijn. Dit betekent dat men eenzelfde document op een laserprinter met een resolutie van 300 dpi (d.i. dots per inch, aantal beeldpunten per vierkante inch) kan afdrukken, met als resultaat een resolutie van 300 dpi, en ongewijzigd op een fotozetmachine, met als resultaat een resolutie van 1600 dpi. Bovendien kan postscript alle kwaliteiten van tekst en beeld (ook kleur) beschrijven. Ook tekstverwerkers en DTP-pakketten onder MS-DOS, Windows en OS/2 ondersteunen postscript. Bij MS-DOS pakketten is de © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 119 4.3. DESKTOP PUBLISHING paginabeschrijvingstaal PCL4 en PCL5 (Printer Control Language) en de grafische beschrijvingstaal HPGL2 (Hewlett-Packard Graphics Language) van Hewlett-Packard het meest populair. Men noemt printers die deze talen ondersteunen HP-compatible. 4.3.2.3 Het DTP-productieproces DTP zal de stappen 1.1.1 tot en met 1.1.3 voor zijn rekening nemen. Gebruikt men een echt DTP-pakket, dan is het aangewezen de tekst eerst aan te maken met een tekstverwerker. In de praktijk hebben de gewone tekstverwerkingspakketten echter de specifieke DTP-pakketten sterk teruggedrongen. Moderne tekstverwerkingspakketten kunnen b.v. vlot overweg met grafieken, illustraties en tekeningen, en hebben vaak ook een ingebouwde formule-editor voor wiskundige uitdrukkingen. Ook zijn ze in staat vreemde alfabetten feilloos te bewerken. Dit betekent dat men vaak voldoende heeft aan dergelijke professionele tekstverwerkers, zoals Word of Wordperfect, waarvan men kan stellen dat ze de meeste DTP-functionaliteiten aanbieden. De vormgeving van het manuscript wordt vaak geautomatiseerd met opmaakmodellen of stylesheets. Om een overzicht op het gehele document te bewaren is vaak een outline-functie beschikbaar, die toelaat alleen de titels te beschouwen. Naast een uitvoerige spellingscontrole, waarbij het essentieel is dat men de taal van elk stuk tekst kan aangeven, heeft men daarbij ook beschikking over synoniemenlijsten. Tenslotte wordt, eens de opmaak van een sectie is bepaald en de tekst definitief is, een woordsplitsing uitgevoerd. De auteur kan doorlopend verbeteringen aanbrengen in het manuscript, waarbij de machinale spellingscontrole precies die fouten er makkelijk uithaalt, waar een corrector niet zelden overheen leest: de tikfouten. Eenmaal de opmaak afgewerkt, blijven twee opties open: ofwel bezorgt men de drukker de tekst op schijf, en zal deze laatste zelf een cliché maken met de linotronic. In dat geval heeft men de hoogste resolutie. Vaak is het echter zo, dat de drukker extra kosten zal aanrekenen. Bovendien zijn deze kosten moeilijk in te schatten door de klant: ze zijn afhankelijk van de mate van compatibiliteit van de ingeleverde diskette met de installatie van de drukker. Wordt het bestandsformaat geconverteerd, b.v. van WordPerfect voor MS-DOS naar Pagemaker voor de Macintosh, is er bovendien het risico van verlies van opmaak. Dit betekent dat men opnieuw drukproeven zal moeten nalezen. Daarom is het tweede procedé, de camera-ready werkwijze, vaak te verkiezen, wanneer de drukkwaliteit van minder belang is. Bij camera-ready maakt de auteur zelf een kopij die geschikt is voor de fotozetmachine. Dit betekent dat men een volledig correcte zetspiegel afdrukt, meestal op een eigen laserprinter, in een resolutie van 300 of 600 dpi. De auteur is dan zeker van het eindresultaat, en betaalt alleen de drukkosten. Een bijkomend voordeel is, dat het gemakkelijker wordt de offertes van verschillende drukkerijen te vergelijken, omdat de drukprijs louter afhangt van de vraag in welke mate de drukvellen een veelvoud kunnen vormen van de gewenste bladspiegel. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 120 4.3. DESKTOP PUBLISHING 4.3.2.4 Tekst-opmaak Tot slot kunnen nog enkele belangrijke hints gegeven worden voor wie zelf aan de opmaak van een document zou doen. • document Voor grotere documenten, zoals papers, artikels, verhandelingen en boeken, is het wenselijk een evenwichtige opbouw te verzorgen. Hoofdstukken zijn liefst van dezelfde grootte-orde (een onevenwicht zou b.v. zijn 15 pp. voor hoofdstuk 1 en 90 voor hoofdstuk 2). Meer inhoudelijk is ook van belang dat de structuur van het werk zowel in de inleiding als in het besluit duidelijk gearticuleerd wordt. Vaak worden inleiding en besluit immers afzonderlijk gelezen, als men zich een beeld wil vormen van de inhoud. Wie in de inleiding drie belangrijke probleemgebieden onderscheidt, kan moeilijk met vier of vijf hoofdstukken voor de pinnen komen. Ook moet het besluit de verschillende onderverdelingen van de inleiding hernemen, waarbij ook weer geldt dat drie vraagstellingen om drie antwoorden vragen. Bij het bepalen van de zetspiegel is het voor camera-ready van belang na te gaan of de drukker verkiest dat men zelf op ware grootte (de gewenste zetspiegel) afdrukt, of dat men een gewoon A4 blad vult, om daarna te verkleinen. Voorts kan een snijmarge of gutter margin voorzien worden, en moet men bedenken dat een nieuw hoofdstuk steeds op een recto zijde begint, dus met een oneven paginanummer. De zetspiegel staat normaliter in een verhouding van 2/3, 3/5, 5/8 ... tot de bladspiegel (methode van Lamé). Van de overgebleven oppervlakte van de bladspiegel laat men 2/5 kopwit, 3/5 voetwit, 2/5 rugwit en 3/5 snijwit. • sectie Wat de secties betreft, moet er ook gestreefd worden naar een zo groot mogelijk parallellisme tussen opmaak en inhoud: de opmaak helpt de auteur zijn gedachten te formuleren en over te dragen. Een eerste vereiste is dat secties met eenzelfde functie eenzelfde opmaak hebben. Het is van belang een uniforme stijl te ontwikkelen en te handhaven doorheen het hele document. In de zetwereld wordt daarbij uitgegaan van een stramien, waarin de basisindeling van de zetspiegel wordt vastgelegd. Dit stramien bepaalt zowel de interlinie als de plaats en verhouding van illustraties en tekst. In DTP is men veel vrijer, maar men moet toch enkele keuzes maken. Een belangrijke beslissing geldt het aantal kolommen van een sectie. In het algemeen geldt dat meerdere kolommen de leesbaarheid sterk vergroten. Men kan in dergelijke opmaak ook makkelijker illustraties inwerken. Voor cursussen wordt wel eens een asymmetrische kolomindeling gekozen, waarbij de kolom aan de snijzijde dient om bijschriften en illustraties op te nemen. Voor romans, novelles e.d. gaat er uiteraard niets boven de standaard indeling met één kolom. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 121 4.3. DESKTOP PUBLISHING • alinea Men denkt best na over een overzichtelijk systeem van alinea's, waarbij men een onderscheid kan maken tussen hoofdingen enerzijds en de broodtekst anderzijds. De hoofdingen worden hiërarchisch georganiseerd, waarbij men vertrekt van de hoofding van het hoogste niveau. Naast de typografische differentiëring, waarover in het volgende punt meer, moet men kiezen voor een bepaalde nummeringswijze. De meest gebruikelijke zijn de standaard nummering: I A 1 a 1) a) en de decimale nummering of legal: 1. 1.1. 1.1.1. Het eerste systeem geeft een beter aanvoelen van de hiërarchie, het tweede biedt ondubbelzinnige zekerheid: een hoofding met een drieplaatsig nummer staat op het derde niveau. Voorts moet men een keuze maken voor een bepaalde manier van uitlijnen van de alinea's: links uitgelijnd, rechts uitgelijnd, links én rechts uitgelijnd (uitgevuld of justified) en gecentreerd. Hoofdingen worden niet rechts uitgelijnd en zelden uitgevuld. Wat de broodtekst betreft, geldt dat links uitgelijnd en uitgevuld het best leesbaar zijn. Een gecentreerde broodtekst is zéér vermoeiend om lezen, en wordt alleen voor poëzie of in brochures gebruikt. Rechts uitlijnen is helemaal uit den boze. Wel vindt dit een toepassing voor een commentaartekst of bijschrift naast een kader aan de rechtermarge, met b.v. een illustratie. Men spreekt ook wel van rechts en links geschraagd i.p.v. links resp. rechts uitgelijnd. Voor de broodtekst geldt dat er ongeveer een 60 tot 65 tekens op een lijn mogen staan, wanneer men een opmaak heeft met één kolom. Bij meerdere kolommen wordt dat uiteraard minder. Men zal voor de alinea's een korpsgrootte kiezen die daarmee overeenkomt. De interlinie of lijnhoogte wordt aan de korpsgrootte aangepast. Voor teksten aangemaakt met tekstverwerker vindt men vaak een 12 pt letter met 12 pt lijnhoogte (12 over 12). Zo zijn de tekstverwerkingspakketten immers standaard ingesteld, omdat de oudere types printers niet veel meer konden. Heden ten dage ziet men al eens - i.c. bij Word for Windows - een standaardinstelling van 10 over 12, wat veel leesbaarder is. Beter nog is 11 over 13, voor een standaard boekformaat, of 12 over 15, wanneer men op A4-formaat werkt. Met een linker- of rechter insprong (indent) kan men alinea's differentiëren. Bij het begin van en nieuwe alinea wordt vaak een rechter insprong gemaakt, alleen voor de eerste lijn. Een citaat wordt soms in het geheel ingesprongen, vaak aan beide zijden. Met behulp van een linker insprong maakt men bulleted lists of genummerde alinea's. Tot slot dient men zogenaamde weduwen en wezen (widows en orphans) te vermijden: een weduwe heeft men wanneer de laatste lijn van een blad de eerste lijn van een © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 122 4.3. DESKTOP PUBLISHING nieuwe alinea is; men spreekt van een wees of een hoerenjongen wanneer de eerste lijn van een blad de laatste lijn van een alinea is. • typografie Er bestaan enkele klassificaties van lettertypes, die gehanteerd worden in de zetwereld. Voor DTP kan men zich wat de klassificatie betreft beperken tot de belangrijkste groepen: geschreefde letter: Times New Roman, Palatino schreefloze letter (modern, sans serif): Helvetica, Avantgarde fantasieletter: DESDEMONA geschreven: Script Het gaat daarbij telkens om proportionele lettertypen, waarbij de spatiëring van de letter aangepast is aan de resp. breedte. Bij schrijfmachine-lettertypen zoals Courier is elke letter even breed. Schrijfmachine-lettertypen worden voor drukwerk niet aangewend, wel vinden ze een nuttige toepassing in computerlistings. Van eenzelfde fontfamilie kan men een vette of cursieve variant hebben. Ook beschikt de zetter over verschillende korpsgroottes (bij elektronisch zetten of DTP bestaan er schaalbare fonts die naar believen te vergroten of verkleinen zijn). De korpsgrootte wordt uitgedrukt aan de hand van de hoogte van de letter in punten, picapunt of didotpunt, vanaf de bovengrens van de stokletters (b.v. l, t, d) tot de ondergrens van de staartletters (b.v. g, j). De hoogte van de onderkastletters zonder stok of staart noemt men de x-hoogte. In de zetwereld wordt van de Cicero als maateenheid gebruik gemaakt, in de DTP-wereld eerder van inch en centimeter. Dit alles leidt reeds tot een groot aantal mogelijkheden: Times Romein 12 pt Times cursief 16 pt Arial vet 10pt Palatino 12 pt KAPITALEN, onderkast, KLEIN KAPITAAL Onderstreept, Dubbel onderstreept, Doorgehaald, boven- en onderschrift In grotere documenten wordt typografische verrijking gebruikt voor hiërarchisering van hoofdingen, voor differentiatie van soorten alinea's, zoals citaten van broodtekst, voor accentuering van woorden, of precies om overaccentuering tegen te gaan. Voor folders, invitaties e.d. dient de verrijking hoofdzakelijk om het document leesbaar en attractief te maken. Daarmee is het essentiële opgemerkt: grotere teksten zouden aan leesbaarheid inboeten wanneer te veel verrijking gebruikt werd. Dat maakt de bladspiegel affiche-achtig en dus schreeuwerig. Men moet weloverwogen omspringen met typografische verrijking in een verhandeling. In de eerste plaats moet men een basisfont bepalen. Daarbij wordt voor boeken en verhandelingen vaak voor een geschreefde letter geopteerd, zoals Times. Ook voor © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 123 4.4. CODERING VAN TEKSTBESTANDEN: RTF, SGML EN HTML kranten is Times erg gewild, omdat het zo'n compacte letter is: men spaart veel plaats uit en moet minder aan woordsplitsing doen. Palatino is meer plechtig, en kan ingezet worden voor getuigschriften of andere officiële stukken. Te vermelden is ook NewCentury Schoolbook, dat zoals de naam doet vermoeden ontworpen werd voor schoolboeken, vanwaar de grote leesbaarheid. Voor papers en nota's voor een lezing kan men ook een modern lettertype overwegen, zoals Helvetica, omdat dit zeer leesbaar is. Dit geldt ook wanneer men ervoor kiest heel kleine korpsgroottes te gebruiken. Daarna moet men een systeem van accentuering van de hoofdingen uitdenken. Zo kan men de hoofding van niveau 1 (boekdelen) in grote, vette kapitalen zetten. De titels van de hoofdstukken neemt men dan iets kleiner. Een paragraafhoofding kan één van de kenmerken van het vorige niveau laten vallen, en b.v. niet meer in vet staan. Onderstreept wordt in boeken uiterst zelden gebruikt. Vermits vet nogal opvallend is, maakt men best vooral gebruik van verschillende korpsen en van de variatie KAPITAAL/KLEIN KAPITAAL/onderkast. In de alinea's van de broodtekst is het niet aangewezen de korpsgrootte te variëren. Men kan wel overwegen citaten in een kleiner korps en met een aangepaste interlinie af te drukken. Cursivering wordt ook gebruikt voor citaten. Het hoofdgebruik ervan bestaat in het wegnemen van het overmatig accent dat vreemde woorden of uitdrukkingen krijgen in een tekst. Cursief is immers minder leesbaar dan romein. Zo zal men Latijnse en Engelse woorden cursiveren. Om aan te geven dat een woord oneigenlijk of ironiserend gebruikt wordt, gebruikt men beter aanhalingstekens. Vaak wordt cursief ook gebruikt om een woord te accentueren, hoewel dat oneigenlijk is. Men doet dit omdat vet de bladspiegel teveel in onevenwicht brengt, en zo vermoeiend is voor de lezer. Voor didactische teksten verdient het echter de voorkeur, omdat het de enige methode is die doeltreffend de aandacht trekt. Indien in elke alinea enkele sleutelwoorden in vet staan, krijgt de lezer snel een overzicht van de gedachtengang. 4.4 Codering van tekstbestanden: RTF, SGML en HTML De talrijk bloeiende tekstverwerkings- en DTP-programma's hebben alvast het nadeel, dat de typografie via propriëtaire code wordt aangebracht. Het is dan ook niet zo gemakkelijk om statistisch onderzoek op deze markeringen toe te passen, vooral omdat de programma's zelf nauwelijks in dergelijke tools voorzien. Bovendien is typografie niet één-éénduidig te mappen op formeel-inhoudelijke aspecten. Een voorbeeld is het gebruik van cursief. Dit kan zowel voor vreemde woorden als voor een licht accent gebruikt worden. Aan de hand van het cursief alleen is bijgevolg niet uit te maken om wat voor type accentuering het gaat. Een stap in de goede richting zijn hier de zogenaamde opmaakmodellen of style-sheets die in moderne programma's gedefinieerd kunnen worden. Daarmee kan men aangeven dat een stuk tekst b.v. een titel is, of een citaat, of dat een woord oneigenlijk bedoeld werd. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 124 4.4. CODERING VAN TEKSTBESTANDEN: RTF, SGML EN HTML Statistische verwerking is daarmee nog niet mogelijk. Dat kan wel, wanneer men al deze coderingen zou omzetten in ASCII of ANSI tekst. Momenteel zijn er een tweetal mogelijkheden om dat te doen: via het propriëtaire Rich Text Format van Windows of via de Standard Generalized Markup Language conventie. RTF is vooral bedoeld om uitwisseling van geformatteerde bestanden tussen Windowstoepassingen mogelijk te maken. Alle stijl-elementen worden gedefinieerd en als tekstcodes opgenomen. RTF-tekst heeft een grote header, waarin stijlen "{\stylesheet...", taal "{\Language...", lettertypes "{\fonttabl..." etc. voor het hele document worden vastgelegd. In het document worden de gedefinieerde codes dan aangewend. Alinea's worden gescheiden door "\par..". Lijnen worden niet aangegeven; de splitsing gebeurt automatisch wanneer de marge bereikt is. Een dergelijk bestand kan door een database-programma worden aangemaakt, of door een database-programma worden ingelezen. Zo kan men boektekst formeel ontleden. Definieert men een stijl "oneigenlijk", dan krijgt die een code toegewezen, b.v. "{\s201.... oneigenlijk}. Men kan dan alle voorkomsten tellen door te zoeken naar "\s201" in de tekst. SGML werkt op een gelijkaardige manier, alleen is dit geen door een producent gedefinieerde standaard, maar een open standaard in wording, waaraan geïnteresseerde vorsers meewerken. SGML is de International Standard 8879 uitgegeven door ISO (International Organization for Standardization) in 1986. Vooral voor linguïstisch onderzoek is SGML van belang. Hieronder een voorbeeld van een stukje uit een SGML-tekst: Illustratie 1. SGML-tekst <doc> <DOCNO> 891102-0193 </DOCNO> <DD> 891102 </DD> <HL> Who's News: @ Economist Newspaper Ltd. </HL> <CO> WNEWS </CO> <dateline> ECONOMIST NEWSPAPER Ltd. (London) </dateline> <TXT> <p> <s> Pierre Vinken, 61 years old, will join the board as a nonexecutive director Nov. 29. </s> <s> Mr. Vinken is chairman of Elsevier N.V., the Dutch publishing group. </s> </p></TXT></doc> <doc> <DOCNO> 891102-0192 </DOCNO> <DD> 891102 </DD> <HL> Who's News: © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 125 4.5. HTML @ Hanson PLC </HL> <CO> HAN WNEWS </CO> <dateline> HANSON PLC (London) </dateline> <TXT> Illustratie 4. bijhorende DTD <!element -> <!element txt)> <!element <!element <!element wsj o o (doc+) doc - - (docno, dd, hl, co?, in?, gv?, dateline?, txt p (docno, - -- Wall Street Journal - - (p+)> - (s+)> dd, hl, co, in, gv, dateline, s) - (#PCDATA)> .. .. 4.4.1 Links naar SGML • SGML and the Web: http://www.w3.org/pub/WWW/MarkUp/SGML/ • SGML Web Page: http://www.sil.org/sgml/sgml.html • SGML: Overview and General: http://www.sil.org/sgml/general.html#overview • SGML Bibliography: http://www.sil.org/sgml/biblio.html • Yahoo! - Computers and Internet:Software:Data Formats:SGML: http://www.yahoo.com/Computers_and_Internet/Software/Data_Formats/SGML/ 4.5 HTML HTML is een subset van de markeertaal SGML, voorgedragen door het TEI (Text Encoding Initiative, http://www.uic.edu/orgs/tei/) als standaard voor het structureren van bronteksten. SGML is volledig platform-onafhankelijk, en is publiek. Wanneer men teksten in SGML codeert, verzekert men zich ervan de de tekst steeds toegankelijk zal zijn voor verdere verwerking. Dit is anders met documenten die met een specifieke tekstverwerker of DTP-pakket werden opgemaakt. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 126 4.6. OPSLAG EN ONTSLUITING VAN DOCUMENTEN 4.5.1 Links naar HTML • A Beginner's Guide to HTML: http://www.ncsa.uiuc.edu/General/Internet/WWW/HTMLPrimer.html • Hypertext Markup Language - 2.0 - Table of Contents: http://www.w3.org/hypertext/WWW/MarkUp/html-spec/html-spec_toc.html • HyperText Markup Language (HTML): Working and Background Materials: http://www.w3.org/pub/WWWMarkUp/MarkUp.html • Hypertext Markup Language - 2.0 - The HTML Coded Character Set: http://www.w3.org/pub/WWW/MarkUp/html-spec/html-spec_13.html#SEC13 • HTML 3.2: http://www.w3.org/pub/WWW/MarkUp/Wilbur/ • Zie ook: http://onyx.arts.kuleuven.ac.be/GHFO/codering.htm 4.6 Opslag en ontsluiting van documenten 4.6.1 Information retrieval Information retrieval (IR) is gericht op het effectief en efficiënt vinden van bepaalde informatiedragers in een grote verzameling36. Het gaat eigenlijk om het probleem van het zoeken van een speld in een hooiberg. Dit doet zich meestal voor wanneer men in een groot archief van documenten die documenten wil terugvinden die relevant zijn voor een bepaald onderwerp. De theorie van de information retrieval richt zich met name op het opsporen van informatie in machine-leesbare teksten. Archieven van dergelijke teksten kunnen opgebouwd zijn uit oorspronkelijk elektronische documenten (b.v. de correspondentie van een grote organisatie in het formaat van de gebruikte tekstverwerker), of verworven door het inscannen van papieren documenten via OCR (Optical Character Recognition). Met behulp van information retrieval-technieken kan men van dergelijke archieven een DIS of Document Information System maken. Ten behoeve van het IR-onderzoek organiseert NIST (National Institute of Standards and Technology) jaarlijks de TREC (Text Retrieval Conference). IR-systemen gebruiken verschillende vormen van matching om tot hun doel te komen. Er wordt een overeenkomst bepaald tussen elementen uit de documentverzameling en de gestelde vraag of query. Dit bereikt men door een index te creëren van de documentverzameling. Dit is een documentrepresentatie in termen van de gebruikte 36 P.E. Vandervet en N.J.I. Mars, “Kennistechnologie en information retrieval”, in Informatiewetenschap februari 1996, p. I 300-1. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 127 4.6. OPSLAG EN ONTSLUITING VAN DOCUMENTEN query-taal. Men kan exact matchen (b.v. Booleaans zoeken: is een term of combinatie van termen al dan niet aanwezig in het corpus?) of niet-exact (fuzzy search). Bij dit laatste wordt er geen partitie van de verzameling gemaakt in deelverzamelingen zoals bij exact zoeken, maar wordt veeleer een ordening van de documenten aangebracht, naargelang elementen erin minder of meer voldoen aan de opgegeven beschrijving. Het creëren van de index kan nu gebeuren aan de hand van ontleende termen of toegekende termen. In het eerste geval wordt een woordenlijst of thesaurus aangelegd van alle woorden in het corpus. In het tweede geval gaat men aan de hand van een bestaande thesaurus, b.v. een (al dan niet gespecialiseerd) woordenboek, het corpus benaderen. 4.6.1.1 Indexeerprogramma's Indexeerprogramma's laten toe een index op te maken van documenten op lokale en netwerk-harde schijven. Bedoeling is in de eerste plaats documenten snel terug te vinden. Nu bestaan er een aantal zoekprogramma's voor de meeste besturingssystemen. In de DOS-wereld is een zoekprogramma een obligaat onderdeel van heelwat Utilities, zoals PC-tools en de Norton Utilities. Nadeel hiervan is, dat deze programma's op het moment dat een vraag gesteld wordt heel het massageheugen moeten doorlopen om de tekst sequentieel te zoeken. Zeker in een netwerk-omgeving, waar een gebruiker misschien leesrechten heeft op enkele Gb aan informatie, zou dergelijk zoekwerk veel te veel tijd in beslag nemen. Een tweede nadeel is, dat de zoekmethode zeer beperkt is: het is niet mogelijk complexe voorwaarden op te geven, laat staan een bepaalde context te definiëren. Indexeerprogramma's zoals ZyIndex, Isys, QuickFinder, Sonar etc. proberen hier wat aan te doen. De achterliggende idee is dat men op voorhand een index kan opbouwen van de documenten, om daarna via geoptimaliseerde zoektechnieken met behulp van die index documenten op te roepen. 1) Het aanmaken van een index (database) Met genoemde programma's kan men een database of index creëren op de volgende manier: - men geeft aan welke schijven/indexen moeten worden opgenomen (of uitgesloten); - men geeft aan welke bestanden moeten worden opgenomen/uitgesloten; - men bepaalt om welke bestandstypes het gaat: documenten (b.v. WP-bestanden), ascii-bestanden (b.v. .txt bestanden), source-code (b.v. dBase .prg bestanden), spreadsheets e.d.m. Vaak kan het programma dat zelf detecteren. - Men definieert een lijst van ruiswoorden: dit zijn de woorden die niet in de index moeten worden opgenomen, omdat het niet waarschijnlijk is dat er een vraag wordt over gesteld. Zo zal men voor Nederlandse tekst zelden naar de woordjes 'het', 'de', © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 128 4.6. OPSLAG EN ONTSLUITING VAN DOCUMENTEN 'en' etc. zoeken. Ruiswoorden zijn uiteraard taalafhankelijk, en men maakt dan ook best verschillende indexen aan voor documenten in verschillende talen. - Men geeft aan welke tekens woordvormend, neutraal of woordsplitsend zijn. Zo moet het programma weten of het een koppelteken als nietig moet beschouwen of wel degelijk als deel van één woord of als scheiding tussen twee woorden. Het eerste geldt als het koppelteken voor woordsplitsing is ingezet. - Men definieert eventuele synoniemenlijsten. Meer gesofistikeerde programma's laten ook toe een conceptboom te bepalen: Concept Tree voorstelling religieus pieta Maria Hemelvaart ... profaan wapen stadspoort ... Het is belangrijk in te zien dat een conceptboom op twee manieren kan functioneren: als begrippelijke toegang, d.i. een soort menu naar de gegevens, en als zoekexpansie. In het eerste geval, zoals in ons voorbeeld, kan men abstracte beschrijvende termen gebruiken, waarnaar in de teksten niet zal gezocht worden. De boom moet alleen helpen om de concrete woorden te vinden waarop de zoekopdracht zal gebeuren. Die staan helemaal onderaan de boom. In het tweede geval moet men vanaf het begin van de boom concrete termen gebruiken, als men op bronnen zoekt, en kan men slechts de abstracte termen gebruiken, als men secundaire documenten bestudeert, waarin die abstracte termen ook voorkomen. - Tenslotte wordt het commado gegeven om de index aan te maken. Dit kan naargelang de grootte van de te doorzoeken bestanden erg lang duren. Voor 100 Mb aan materiaal kan men toch wel een uur of twee rekenen. Eens de index gemaakt, kan hij regelmatig worden bijgewerkt, als opgenomen documenten werden gewijzigd. 2) Het opzoeken in de database De meeste indexeerprogramma's laten toe om: • op te geven welk woord of woordpatroon men zoekt; • in welke bestanden (hoe oud, van welk type: tekstverwerking, spreadsheet...); © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 129 4.6. OPSLAG EN ONTSLUITING VAN DOCUMENTEN • in welke context: b.v. in dezelfde alinea als een ander woord, op enkele regels afstand van een ander woord etc. Dit alles is meestal via Boolse operaties aan te geven. • De gevonden bestanden en/of passages te bekijken; • de gevonden passages te kopiëren naar de printer/ een bestand / en tekstverwerkingssessie; • de gevonden documenten op te roepen in de bijhorende toepassing. Word-document onmiddellijk in Word oproepen. B.v. een In dit zoekscherm wordt de opdracht gegeven alle documenten op te zoeken in de index Dummett, waar het woord 'Reference' binnen de 15 woorden van ‘Meaning’. Zyindex heeft net als de meeste andere pakketten een menu-gestuurde zoekmogelijkheid. Een zoekcommando wordt samengesteld met behulp van expressies en operatoren. Expressies kunnen bestaan uit expressies die bestaan uit woorden of uit samenstellingen van woorden en geldige operatoren. Expressies worden d.m.v. operatoren verbonden en geven aan hoe 2 expressies voor moeten komen. Zyindex kent boolean en positionele operatoren: © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 130 4.6. OPSLAG EN ONTSLUITING VAN DOCUMENTEN Tabel 7. Zoekexpressies in Zyindex • Booleaanse operatoren X AND Y Beide moeten in het document voorkomen X OR Y Minstens een moet voorkomen X NOT Y De eerste wel de tweede niet • Positionele operatoren X W/n Y de eerste term wordt binnen een bepaalde afstand n van de tweede gevonden X P/n Y of X P Y de eerste term gaat aan de tweede vooraf X /-n,m/ Y de tweede term wordt gevonden n woorden voorafgaand aan tot m woorden na de eerste term X TO Y {Z} Z wordt gezocht in een fragment tussen woorden X en Y • Constanten: EOP einde alinea EOL einde lijn EOS einde zin EOG einde pagina • Voorbeelden: Sinn OR Bedeutung alle documenten of contexten waarin Sinn of Bedeutung voorkomt Boole W/10 algebra alle documenten of contexten waarin Boole binnen de tien woorden van algebra staat Hertog P Brabant alle documenten of contexten Hertog voorafgaat aan Brabant Reference W/3/EOP Meaning alle documenten of contexten waarin Reference binnen de drie alinea’s van Meaning voorkomt waarin • Woordverbuiging en -vervoeging meenemen: Fiets* matcht ook fietsen • Verder kan men de klassieke haakjesnotatie gebruiken: (Sinn OR Sense) AND (Bedeutung OR Reference) is heel iets anders dan: © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 131 4.6. OPSLAG EN ONTSLUITING VAN DOCUMENTEN Sinn OR Sense AND Bedeutung OR Reference, wat neerkomt op: Sinn OR (Sense AND Bedeutung) OR Reference 4.6.1.2 Text-base management systemen Bepaalde database management systemen zijn bij uitstek geschikt voor de opslag en ontsluiting van tekstuele informatie: de zgn. text base management systemen zoals askSam en Freebase. AskSam is een text base management systeem, dat de mogelijkheid biedt tekst min of meer gestructureerd vast te leggen. AskSam is een krachtig tekstgericht systeem met vele mogelijkheden. Het is bijzonder geschikt voor het verwerken van historische bronnen, ook wanneer het niet eens zuiver tekstuele bronnen betreft. Het opzet van AskSam (Access Symbolic Knowledge via Symbolic Access Method) bestaat erin dat men de gegevens niet normaliseert, maar zo getrouw mogelijk overneemt. Dit gaat b.v. via een scanner gecombineerd met een OCR-pakket. De zo overgenomen tekst kan dan in een Asksam-database worden opgenomen. In een Asksam-database zijn de gegevens verdeeld over records, die een twintigtal lijnen tekst kunnen bevatten, en die op hun beurt gegroepeerd kunnen worden in documents. Nieuw is ook een Free record-type, waar onbeperkt tekst kan worden ingebracht. Asksam laat toe om zeer snel toegang te krijgen tot de informatie in de records, waarbij zowel Booleaans als contextueel zoeken kan worden gebruikt. Asksam herkent ook een weelde aan datering-formaten. Men kan b.v. in de tekst van brieven naar datums zoeken, alhoewel de datum in de brief slechts als tekst is opgenomen. Asksam kent ook Hypertext, het multidimensioneel benaderen van tekst. Via Asksam kan van een woord in een record naar alle andere voorkomsten van dat woord in andere records en zelfs documenten worden gesprongen. In tegenstelling tot HTMLdocumenten biedt Asksam automatische, volledige hypertext-linking. Men moet zelf geen hyperlinks maken, dat doet het programma. Op die manier kan krijgt men datadriven navigatie van de zuiverste soort. Een mooie Backtrack-mogelijkheid laat toe om naar de originele vraagstelling terug te keren. Asksam kent de mogelijkheid om genormaliseerde velden te definiëren. Dat laat dan toe op een eenvoudiger manier te sorteren. Toch is Asksam minder geschikt voor genormaliseerde gegevens dan b.v. een XBase-pakket. Zo is het niet mogelijk dubbele fiches te vermijden. Voor bibliografische gegevens of het opnemen van citaten is Asksam wel aangewezen. Hieronder het resultaat van een Query naar het woord 'Concordance' in een database met bibliografische referenties. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 132 4.6. OPSLAG EN ONTSLUITING VAN DOCUMENTEN Resultaat AskSam-Query 4.6.2 Archivering Archivering is in de eerste plaats een deeltaak van besturingssoftware. Een elementaire beveiliging van gegevens kan erin bestaan regelmatig een kopie te nemen op andere media. Dit kunnen o.m. zijn een andere harddisk, diskettes of tape. Het maken van dergelijke kopie heet het uitvoeren van een Backup-procedure. Voor het naakte DOS bestaan reeds lang backup-utilities, die een efficiënt beheer van backups mogelijk maken. Sinds kort zijn dergelijke utilities standaard meegeleverd met DOS. Naast het archiveren van systemen ontstaat door de toenemende informatiestroom meer en meer de behoefte om welbepaalde informatie te archiveren. De bedoeling is dan informatie zo compact mogelijk op te slaan, maar toch toegankelijk te houden. Dit kan met zogenaamde compressieprogramma's. Een veel gebruikt compressiealgoritme gaat als volgt: als in een bestand een tekenreeks voorkomt die reeds voorgekomen is, vervang die dan door een verwijzing naar begin en lengte van de vorige voorkomst, de zogenaamde run length encoding. B.v.: "De weerman bracht de volgende weersvoorspelling" kan worden: © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 133 4.6. OPSLAG EN ONTSLUITING VAN DOCUMENTEN "de weerman bracht [1,3]volgen[1,3][3,5]voorspelling" Het grote voordeel van deze methode is dat ze cumulatief werkt: naarmate men vordert in een bestand zijn meer en meer gedeelten te vervangen door een verwijzing. Een meer uitgewerkte variant op dit thema is de veelgebruikte Lempel-Ziv Welch compressie (LZW). Dit werkt met een tabel waarin aan alle verschillende strings (reeks van bytes) uit een bronbestand een code wordt toegekend. In het gecomprimeerde bestand worden dan de strings vervangen door de resp. codes. Een erg verwspreid compressieprogramma onder windows is WinZip, een interface voor PKZIP. Op het Macintosh-platform grijpt men meestal naar Stuffit terug. Voor Unix gebruikt men meestal compress of GZIP. Typerend voor dergelijke utilities is dat ze continu worden bijgeschaafd. Een voorbeeld (http://www.winzip.com/) is WinZip WinZip laat toe van een ZIP-archief een "self-extracting archive" te maken, een uitvoerbaar bestand dat zichzelf uitpakt. In dat geval hoeft de eindgebruiker zelf niet over WinZip of PKZIP te beschikken. Het gebruik van WinZip is erg eenvoudig. Wie een document wil meesturen via email, doet er alleszins goed aan het met WinZip te comprimeren. © F. Truyen en J. Tolleneer 1999 - DOCUMENTVERWERKING - 134 5.1. DATABASES EN DATABASE MANAGEMENT SYSTEMEN 5. Databanken 5.1 Databases en database management systemen In dit hoofdstuk gaat het om het met behulp van de computer opslaan, beheren en bevragen van databanken of gegevensverzamelingen. Concepten die hierbij onmisbaar zijn: - databestand: een gestructureerde verzameling gegevens die in de computer is opgeslagen; - database (Ned.: databank): een geïntegreerde verzameling van één of meer databestanden, m.a.w. de verzameling van in een computer (in databestanden of database-files) opgeslagen gegevens; - database management systeem (DBMS): specifieke software die gebruikt wordt om het geheel van gegevens dat de database vormt, te beheren (d.w.z. nieuwe gegevens toevoegen, bestaande wijzigen, zichtbaar maken of verwijderen) en te bevragen; - datamodel: het basisschema dat binnen een bepaald DBMS beschikbaar is voor de structurering van de database; het datamodel zal de toegang bepalen tot de gegevens. - een databasesysteem ontstaat wanneer database, DBMS en hardware op de juiste manier op elkaar zijn afgestemd. Samengevat: een database is een verzameling gegevens, opgeslagen in de computer, die onderling geïntegreerd zijn en een repeterende structuur vertonen, die op haar beurt past binnen een bepaald datamodel, waardoor elke bewerking van de database (bevraging, toevoeging, verwijdering, enz.) uiteindelijk verricht kan worden met behulp van één of meer basisbewerkingen, die altijd worden uitgevoerd door het database managementsysteem. 5.2 Relationele databasesystemen Relationele databasesystemen staan in tegenstelling tot de zgn. flat filers. Verschillende datamodellen worden onderscheiden: • file management systeem; • hiërarchisch database management systeem; • netwerk-databasesysteem; © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 135 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA • relationeel databasesysteem. Het relationele databasesysteem geniet momenteel in de automatiseringswereld veel belangstelling. Het is betrekkelijk eenvoudig en zeer flexibel. De structuur van de database kan in de loop van het onderzoek redelijk gemakkelijk worden verfijnd en bijgesteld. Nadelen: niet toegesneden op tekstfragmenten, en moeilijk te hanteren wanneer de gegevens in de bron nauwelijks een repeterend karakter vertonen. Een relationeel databasesysteem is opgebouwd rond een aantal kernbegrippen: tabel: een databestand waarin de gegevens zich tot elkaar verhouden in rijen en kolommen. rij: bevat de gegevens die bij eenzelfde object horen; kolom: gegevens die in eenzelfde kolom staan hebben betrekking op eenzelfde eigenschap van de beschreven objecten. veld: de kruispunten tussen rijen en kolommen noemt men velden, de kleinste informatieëenheden van de database. Een relationeel databasesysteem beschouwt elke manipulatie van gegevens in een database als een functie van tabellen naar tabellen. Tussen de tabellen onderling worden relaties vastgelegd, die de toegang tot de gegevens bepalen. Dit gebeurt aan de hand van sleutelvelden. Op die manier komt men tot het relationele datamodel. 5.3 Het gebruik van een database-programma 5.3.1 ontwerpen van een databank Aan de hand van een analyse van de informatiebehoefte die men wil voldoen, zal men een datamodel opstellen waarin beschreven is welke beschrijvingen in de database zullen worden opgenomen. Het klassieke database-pakket kent een aantal specifieke objecten, die het mogelijk maken om 1) het datamodel te implementeren en 2) de toegang tot de gegevens te verzekeren, zowel voor invoer, onderhoud als uitvoer. Deze objecten kan men als volgt indelen: • tabellen (tables, files) Daarin zitten de gegevens opgeslagen; samen met hun bijhorende indexbestanden maken de tabellen de kern van de database uit; • virtuele tabellen (views, queries) Tabellen die niet als zodanig op schijf bewaard worden, maar alleen een bepaalde manier zijn om de echte tabellen te bekijken; © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 136 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA • invoerschermen (forms) Vaak gebaseerd op views; forms zorgen voor een gecontroleerde data-acquisitie, en zijn toegesneden op de taken van de gegevensinvoerder. • rapporten (reports) Programmacode om gestructureerde rapporten te genereren op basis van de in de tabellen opgeslagen informatie; • toepassingen (applications) Een geheel van programma's die samen een afgesloten toegang tot een database vormen. Een toepassing zorgt ervoor dat de tabellen alleen op een geautoriseerde manier kunnen benaderd worden, zodat de integriteit van de gegevens bewaard blijft bij de dagelijkse bewerking. Het database-pakket zal helpen om deze objecten te definiëren en te manipuleren. In wat volgt zal aan de hand van Microsoft Access een overzicht gegeven worden van al deze deelaspecten. Daarbij zal uitgegaan worden van een concreet voorbeeld: het uitwerken van een systeem voor bibliografische referenties. Om het geheel overzichtelijk te houden zal het datamodel van dit eerste voorbeeld slechts één tabel bevatten. In een verdere verdieping zal dan een echt relationeel datamodel uitgewerkt worden. Microsoft Access geeft toegang tot de database via een overzichtelijk menu. Dit groepeert alle bestanden die bij een bepaalde database samenhoren. De bestanden zijn ingedeeld volgens hun type: tabel, query, invoerscherm, rapport, macro of module (korte programma’s). • Datamodel probleemstelling: een elektronische kaartenbak ontwerpen voor het beheer van bibliografische verwijzingen. Volgende elementen moeten worden opgenomen: voor een boek: auteur(s), titel, uitgeverij, plaats, jaar, druk, aantal pagina's; voor een artikel: auteur(s), titel, tijdschrift/reekstitel, volume, jaar, beginpagina/eindpagina; voor een bijdrage in een bundel: auteur(s), titel, titel van de bundel, editor(s) van de bundel, uitgeverij, plaats, jaar, beginpagina/eindpagina; voor een bundel: editor(s) van de bundel, titel van de bundel, uitgeverij, plaats, jaar, druk. © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 137 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA Vertrekkend van de premisse dat we in deze eerste aanzet tot een database maar één tabel willen gebruiken, een zogenaamd flat-file-model, kunnen we nu een lijst maken van de nodige velden. Omdat een artikel ofwel in een reeks, ofwel in een tijdschrift, ofwel in een bundel staat, kunnen tijdschrift, bundeltitel en reeks in hetzelfde veld worden opgenomen. De lijst ziet er dan als volgt uit: auteur, titel, reeks, uitgever, uitgeverij, plaats, jaar, volume, aantpags, beginpag, eindpag. Te noteren valt dat zowel het veld auteur als uitgever een lijst kan bevatten; soms heeft een boek/bijdrage twee of meer auteurs, en wordt een bundel door een team van uitgevers uitgegeven. Men noemt dergelijke voor herhaling vatbare velden repeating lists. Een flat-file lay-out is in theorie niet geschikt voor dergelijke velden, omdat men moeilijk alle andere velden kan herhalen gewoon om een tweede auteur op te geven. Voor onze huidige doelstelling kan het echter volstaan om het auteurs- en editorsveld groot genoeg te maken, om de eenvoudige reden dat auteurs en editors als zodanig geen objecten zijn die in onze database worden beschreven. Alleen de referenties interesseren ons, en een auteur is daar slechts een beschrijvend, geen beschreven onderdeel van. Eenmaal we aan een relationeel datamodel toe zijn, zullen we ook in staat zijn auteurs en editors te beschrijven. • Het ontwerp van de tabellen Tabellen worden gedefinieerd met behulp van een Data Definition Language of DDL. De tabel wordt opgebouwd uit kolommen (velden) waarin gegevens kunnen worden opgenomen. Velden worden onderscheiden naargelang het datatype dat ze kunnen bevatten. Hieronder volgt een overzicht van de datatypes bekend in Microsoft Access. Tabel 8. Datatypes MS Access SETTING TYPE OF DATA SIZE Text (Default) Text or combinations of text and numbers, as well as numbers that don't require calculations, such as phone numbers. Up to 255 characters or the length set by the FieldSize property, whichever is less. Microsoft Access does not reserve space for unused portions of a text field. Memo Lengthy text or combinations of text and numbers. Up to 64,000 characters. Number Numeric data used in mathematical calculations. For more information on how to set the specific Number type, see the FieldSize property topic. 1, 2, 4, or 8 bytes (16 bytes for ReplicationID only). © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 138 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA Date/Time Date and time values for the years 100 through 9999. 8 bytes. Currency Currency values and numeric data used in mathematical calculations involving data with one to four decimal places. Accurate to 15 digits on the left side of the decimal separator. 8 bytes. AutoNumber A unique sequential (incremented by 1) number or random number assigned by Microsoft Access whenever a new record is added to a table. AutoNumber fields can't be updated. For more information, see the NewValues property topic. 4 bytes (16 bytes for ReplicationID only). Yes/No Yes and No values and fields that contain only one of two values (True/False, On/Off). 1 bit. OLE Object An object (such as a Microsoft Excel spreadsheet, a Microsoft Word document, graphics, sounds, or other binary data) linked to or embedded in a Microsoft Access table. Up to 1 gigabyte (limited by available disk space) Lookup Wizard... Creates a field that allows you to choose a value from another table or from a list of values using a combo box. Choosing this option in the Data Type list starts the Lookup Wizard to define the data type. The same size as the primary key field used to perform the lookup, typically 4 bytes. Een Tekst-veld heeft een vaste, zelf te bepalen lengte, en kan alfanumerische informatie bevatten. Vaak gaat het om namen, titels, jaartallen, codes e.d.m. Een numerisch veld laat toe getallen op te slaan. Een datumveld kan datums bewaren, en laat toe chronologische sorteringen uit te voeren. Een logisch veld (Yes/No) kent slechts twee waarden: waar of vals, en wordt vaak aangewend voor checklists. Het OLE-veld (Object Linking and Embedding) is een zogenaamd Binary Large Object of © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 139 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA BLOB, en kan binaire data opslaan met instructies voor de externe programmatuur waarmee die bewerkt kunnen worden. Om een tabel aan te maken wordt gebruik gemaakt van de tabel-metafoor zelf: men maakt een tabel op waarin de doeltabel beschreven wordt. Structuur van een tabel Het veld volgnr vormt de zgn. sleutel tot de tabel. De tabel beschrijft uitgaande post. Dit betekent dat elk poststuk een uniek volgnr krijgt. Het is een goede gewoonte de sleutel als eerste veld te definiëren. Een tabel als deze zou deel kunnen uitmaken van een database voor postverkeer van een organisatie. Er kan daarnaast b.v. ook een tabel voor inkomende post, en tabellen met adressen van correspondenten worden bijgehouden. In principe volstaat uiteraard één data-type, m.n. alfanumerisch (Text). Dat zou wel inhouden, dat men berekeningen op de inhoud van velden als waarden via speciale functies moet uitvoeren, die de alfanumerieke gegevens eerst omzet in een waarde (getal, datum, waarheidswaarde). Om dat te vermijden kunnen gegevens meteen in een meer geschikte representatie worden opgenomen. Zo laat een datumgegevenstype toe om chronologische gegevens in te voeren; het type logisch wordt gebruikt voor typische checklist-situaties, waarbij in het veld wordt opgenomen of aan een voorwaarde al dan niet voldaan is. Zo'n voorwaarde is een in de DML evalueerbare string. In geautomatiseerde database-toepassingen worden logische velden meestal niet door de gebruiker, maar door de applicatie zelf ingevuld op basis © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 140 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA van andere input (data-driven applications). Men kan dit type uiteraard ook aanwenden om enquête-formulieren te verwerken. De verschillende numerische veld-types laten toe getallen te representeren op een aangepaste manier. Voor de meeste database-toepassingen volstaat het type 'numeric', met vaste decimaalposities; wil men echter resultaten met rationaalvergelijkingen opslaan, kan men gebruik maken van het type 'float'. In het algemeen kan men trouwens stellen dat voor het opslaan en verwerken van numerische gegevens er drie soorten toepassingen zijn die de mogelijkheden van een database-pakket aanzienlijk overtreffen: het spreadsheet (Lotus, Excell, Quattro), dat een veelheid aan getaltypes ondersteunt, het statistisch pakket (SAS, SPSS), dat een weelde aan analytische tools biedt, en de gespecialiseerde mathematische pakketten (Mathematica, MathCad, Derive), die ook een wiskundige notatie toelaten. Tenslotte kennen de meeste databases ook een memo-veldtype. Dit laat toe om niet genormaliseerde informatie bij te houden. Wezenlijk gaat het daarbij om grotere tekstgehelen. Dat kan commentaar zijn, of een bron, een ingescand document etc. Meestal wordt dit als volgt geïmplementeerd: in de eigenlijke tabel wordt een pointer bijgehouden, die verwijst naar een absolute positie in een onafhankelijk bestand (althans op OS-level). In dat bestand wordt de tekst bijgehouden. Het kan meestal met gewone editors worden bewerkt. Alhoewel dit veldtype in zakelijke toepassingen meestal wordt vermeden - er zijn niet makkelijk standaardprocedures te voorzien voor in principe ongestructureerd materiaal - kan men niet ontkennen dat het memoveldtype vooral in humaan-wetenschappelijke toepassingen graag wordt aangewend. Enkele voorbeelden: • In een memo-veld kan een samenvatting worden opgenomen van een boek, bibliografisch beschreven in de genormaliseerde tabellen; • In een prosopografie kunnen relevante passages van beschreven personen worden opgenomen in een memoveld; Met de opkomst van de multimedia-technieken ziet men in de huidige databasepakketten een tendens om het memo-veldtype te beschouwen als een subklasse van de zogenaamde BLOB's. Die Binary Large Objects laten toe een rijk gegevensmodel aan te houden, waarin plaats is voor analyseerbaar beeld, geluid, video, tekst e.d.m. Hier geldt uiteraard dat een aangepaste module moet worden aangesproken om de inhoud van de BLOB te presenteren, te analyseren of te evalueren. Een heel moderne benadering van deze problematiek wordt in de Windows en WinOS/2 omgeving geboden via de OLE-techniek. In de BLOB wordt een extern object, b.v. een tekening, ingebed met verwijzing naar de modules (i.c. DLL's) die instaan voor de verwerking. Wanneer het object wordt opgeroepen in de drager-applicatie (de database), wordt de moeder-applicatie geactiveerd. Het is de grote verdienste van het pakket Microsoft Access deze mogelijkheden van de Windows-omgeving ten volle uit te putten. Een tabelstructuur is m.a.w. ook een tabel, waarin de kolommen van de doeltabel gedefinieerd worden. Bij de meeste hedendaagse pakketten kan men in de tabelstructuur ook reeds opgeven bij welke velden een index moet worden bijgehouden. Die index laat toe snel toegang te krijgen tot records met een bepaalde waarde voor het geïndexeerde veld. De index kan ook aangewend worden om de gegevens in gesorteerde volgorde uit te lijsten. Het is niet mogelijk voor memovelden indexen bij te houden. Indexen kunnen ook onafhankelijk van de tabelstructuur © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 141 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA aangemaakt worden; het is dan mogelijk als sleutel gecombineerde uitdrukkingen te maken, b.v. naam+voornaam. Wat in een tabel wordt opgenomen, is afhankelijk van het datamodel. Willen we het boven omschreven bibliografisch datamodel in één enkele tabel vatten, zouden we volgende structuur kunnen gebruiken: In het veld REF wordt de sleutel bijgehouden, b.v. drie posities van de familienaam van de auteur, 1 positie van de voornaam van de auteur, een streepje, twee posities van het jaartal, een streepje, en een volgnummer. Men kan ook een volledig betekenisloze sleutel nemen. Over voor en tegen hiervan is wat onenigheid. In het algemeen is een betekenisloze sleutel theoretisch het meest zuiver: het kan immers zijn dat een auteur in eerste instantie verkeerd werd ingevoerd. In dat geval zou men ook de sleutel moeten aanpassen. De eerste werkwijze is echter het meest praktisch; en de sleutel geeft ook reeds een beknopt zicht op de informatie. In het veld type kan dan worden aangegeven of de fiche een artikel (A), een boek (B), een bijdrage in een boek (C) of een bundel (D) betreft. Is de fiche van het type A, dan staat in reeks de titel van het tijdschrift, is het type C, dan staat in reeks de titel van de bundel. © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 142 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA • normaliseren Vermits een titel meerdere auteurs en/of editors kan hebben, vormen deze beide velden repeating lists. Het wegwerken van repeating lists noemt men normaliseren. In praktijk betekent dit, dat men voor deze lijsten aparte tabellen zal aanmaken. Dit heeft als voordeel, dat men ook via deze lijsten een eenduidige toegang verkrijgt tot de titels. In het ontwerp zoals het nu voorligt, is dat niet het geval. Hebben we meer dan één auteur, dan zijn we verplicht die achter elkaar op te nemen in het veld auteur, tenminste als we willen vermijden de titel tweemaal op te nemen. Doen we het laatste, dan weerspiegelt het aantal fiches niet het aantal titels, doen we het eerste, dan kan geen alfabetische lijst gemaakt worden van de titels per individuele auteur. Een correcte oplossing bestaat erin, een aparte tabel te maken voor auteurs, en een aparte tabel voor editors. Via het sleutelveld kunnen die dan worden gekoppeld aan de hoofdtabel. Men noemt dergelijke tabellen detailtabellen. Hieronder de genormaliseerde structuur, waarin geen herhalingen meer voorkomen: Daarnaast zijn er twee nieuwe tabellen: auteurs en uitgevers, met resp. de velden REF en AUTEUR, en REF en UITGEVER. Men kan het datamodel implementeren via het vastleggen van relaties tussen de tabellen. Die relaties bepalen de toegang tot de gegevens. Samen maken ze de toegangsstructuur uit, d.i. de weg die men moet volgen om bepaalde gegevens op te vragen, m.a.w. informatie te verkrijgen. Bij SQL-databases zoals Microsoft Access volgt de toegang rechtstreeks uit het datamodel. © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 143 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA • queries en views Eenmaal een bepaald datamodel geïmplementeerd is in een aantal genormaliseerde tabellen, moet een aan de wisselende informatiebehoefte aangepaste toegang tot de gegevens verzekerd worden. Dit kan via views en queries. Een view geeft een bepaalde kijk op de gegevens: een aantal kolommen en rijen wordt uit de database gelicht en als één - virtuele - tabel gepresenteerd. Op die manier kunnen gegevens, die in verschillende tabellen zijn opgenomen, bekeken worden alsof ze in één en dezelfde tabel zitten. Ook kan voor de gestelde doeleinden onnodige informatie achterwege gelaten worden. © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 144 5.3. HET GEBRUIK VAN EEN DATABASE-PROGRAMMA Query Bij een dergelijke query wordt aangegeven: • welke velden (kolommen) uit welke tabellen men wil laten zien in het antwoord (= SQL SELECT-clause); • via welke sleutels de verschillende tabellen aan elkaar dienen te worden gekoppeld (= SQL JOIN-clause). Hierdoor wordt een view gecreëerd of virtuele tabel, met kolommen aangevuld door de verschillende gerelateerde tabellen; • aan welke criteria de gegevens uit de rijen in de view moeten voldoen, om te worden opgenomen in het antwoord. Criteria die in dezelfde rij worden ingegeven worden met AND gekoppeld, criteria die in opeenvolgende rijen worden opgegeven worden met OR gekoppeld (= SQL WHERE-clause). • Hoe de rijen in de antwoord-tabel moeten worden geordend (= SQL ORDER BYclause). © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 145 5.4. HET OPVRAGEN VAN DATABANKEN 5.4 Het opvragen van databanken In het vorige gedeelte werd reeds kort aangestipt hoe een gegevensbank kan aangemaakt worden. De problematiek van gegevensbanken is echter veel complexer, en omvat een aantal erg verscheiden deelgebieden. Eén van die terreinen betreft het opvragen van de gegevens, het maken van queries. Was de query-tool vroeger gewoon een deel van de commando's uit de gegevensbeheer-taal, nu gaat het vaak om een aparte module, of zelfs om een geheel autonoom programma, in het kader van de zogenaamde EIS (executive information systems), in het Nederlands beleidsondersteunende informatiesystemen. Wil de manager snel een liefst grafische presentatie van de vitale gegevens in z'n bedrijf, ook voor wetenschappers is een duidelijke presentatie van het materiaal een eerste voorwaarde om tot diepere analyse over te gaan. We willen hier vooral ingaan op het aspect gegevensvoorbereiding, wat we zouden willen noemen de kwalitatieve analyse of representatie, als eerste stap naar een kwantitatieve analyse of interpretatie van de informatie. 5.4.1 Structured Query Language Vooraleer in te gaan op de taal zelf, is het van belang het domein van die taal af te bakenen. Dat is een database. De database bestaat uit tabellen. Enerzijds zijn dit tabellen met informatie over de database zelf, anderzijds de tabellen met gegevens. Een tabel bestaat uit rijen en kolommen. In dBase heten tabel, rij en kolom resp. bestand (file), fiche (record) en veld (field). De SQL-taal bestaat uit een aantal statements. Slechts één statement neemt het hele Query-probleem voor zijn rekening. Dat is de select-statement. Select bestaat uit volgende onderdelen: SELECT <field1>, …, <fieldn> FROM <file1> [alias], …, <filen> [WHERE] <condition on rows> [GROUP BY] <field1>, …, <fieldn> [HAVING] <condition on groups> [ORDER BY] <field1>/<col#1> [ASC/DESC], …, <fieldn>/<col#n>; De puntkomma sluit de statement af. Met behulp van de select-statement kan men een vraag formuleren aan de database. Uit de bestaande tabellen zal de SQL-engine de gevraagde informatie ophalen, en presenteren in een nieuwe tabel. Men kan de select-statement formeel beschouwen als een functie van één of meerdere tabellen naar een andere. Na SELECT kan men i.p.v. veldnamen ook hebben: © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 146 5.4. HET OPVRAGEN VAN DATABANKEN <expression> • (d.i. alle velden) count() avg() sum() In de WHERE-sectie kunnen condities worden opgebouwd als volgt: <field1> = <value>/<field2>, (voor "=" ook ">", "<", ">=", "<=") <field1> BETWEEN <value1> AND <value2>, <field1> LIKE "<reg. Expression>", (% = eender welke reeks, _= 1 teken) <field1> IN/NOT IN <list>/<subquery>, <field1> >= ANY/ALL <subquery>, EXISTS/NOT EXISTS <subquery>, Daarenboven alle samenstellingen van het voorgaande met de Booleaanse operatoren OR, AND, NOT, en de haakjesconventie. • Enkele voorbeelden: SELECT auteur FROM biblio WHERE reeks="Mind" ORDER BY 1; AUTEUR -----------------------------CURRIE, G. DUMMETT, M. GEACH, P.T. GEACH, P.T. GEACH, P.T. GEACH, P.T. JACKSON, F. JONES, E.E.C. MCDOWELL, J. QUINE, W.V.O. RUDNER, R. SCHAFFER, J. STOOTHOFF, R.H. WELKER, D. WIENPAHL, P.D. SELECT auteur, count(*)<<aantal>> FROM biblio WHERE jaar between "1960" and "1970" GROUP BY auteur HAVING count(*) > 1 ORDER BY 2 DESC; AUTEUR AANTAL -----------------------------GEACH, P.T. PATZIG, G. TUGENDHAT, E. BASSENGE, FR. GROSSMANN, R. VAN HEIJENOORT, J. ---------5 3 3 2 2 2 © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 147 5.4. HET OPVRAGEN VAN DATABANKEN VON KUTSCHERA, F. STRAWSON, P.F. OWEN, G.E.L. JACKSON, H. DUMMETT, M. DONNELLAN, K. 2 2 2 2 2 2 eenvoudige SELECT: SELECT auteur, titel FROM fbib WHERE type = "A"; SELECT met berekende waarden: SELECT name, (shareout * price) / revenue FROM stkinfo; SELECT name, 'PS ratio =', (shareout * price) / revenue FROM stkinfo; SELECT auteur, titel, jaar FROM fbib WHERE (type = "B" OR type = "D") AND jaar > "1985"; SELECT DISTINCT auteur FROM fbib; SELECT auteur, titel, plaats, uitgeverij, jaar FROM fbib WHERE jaar BETWEEN "1960" AND "1970"; SELECT jaar, auteur, titel FROM fbib WHERE type = "A" ORDER BY jaar DESC; SELECT auteur, titel, jaar FROM fbib ORDER BY 1,3,2; Vergelijkende operatoren: Met DISTINCT Met BETWEEN: Met ORDER BY: De cijfers verwijzen naar de kolommen in de resulterende tabel. Met IN: SELECT auteur, titel FROM fbib WHERE type IN ("A", "C"); De Booleaanse operator NOT kan gebruikt worden als complement van IN. SELECT auteur, titel FROM fbib WHERE type NOT IN ("B", "D"); Met LIKE SELECT * FROM fbib WHERE titel LIKE 'Frege%Logicism%'; SELECT auteur, titel, uitgeverij, plaats, jaar FROM fnbib, fnauteur WHERE fnbib.ref = fnauteur.ref AND fnbib.type = 'A'; Table Join: © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 148 5.4. HET OPVRAGEN VAN DATABANKEN Subquery met de IN operator: Subquery met de EXISTS operator: Met NOT EXISTS: Subquery met de ANY en ALL Operators: met COUNT: SELECT auteur, titel FROM boekfnds WHERE auteur IN (SELECT auteur FROM bestsell WHERE verkoop > 1000); SELECT auteur, titel FROM fbib WHERE EXISTS (SELECT * FROM tijdschr WHERE topic = 'Logica' AND reeks = fbib.reeks) SELECT editor FROM fneditor WHERE NOT EXISTS (SELECT * FROM fnbib WHERE ref = fneditor.ref AND type = 'C'); SELECT DISTINCT auteur FROM fbib WHERE auteur = ANY (SELECT auteur FROM essays WHERE jaar >= "1970"); SELECT auteur, AVG(verkoop) FROM bestsell GROUP BY auteur HAVING AVG(verkoop) >= ALL (SELECT AVG(verkoop) FROM bestsell GROUP BY auteur); SELECT COUNT(*) FROM fneditor; SELECT COUNT(DISTINCT auteur) FROM fbib; Met SUM: Met MAX functie in subquery: Met de GROUP BY Clause: SELECT COUNT(*) FROM fbib WHERE type = 'A'; SELECT SUM(verkoop) FROM bestsell WHERE auteur = 'Claus'; SELECT auteur, verkoop FROM bestsell WHERE verkoop = (SELECT MAX(verkoop) FROM bestsell); SELECT auteur, COUNT(titel) © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 149 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL Met de HAVING Clause: Met de UNION Operator: FROM fbib GROUP BY auteur; SELECT auteur, COUNT(titel) FROM fbib GROUP BY auteur HAVING COUNT(titel) > 3 ORDER BY 2 DESC; SELECT DISTINCT auteur FROM bestsell UNION SELECT DISTINCT auteur FROM doelgrpn; 5.4.2 Query By Example Query-By-Example werd samen met het IBM database-systeem DB2 geïntroduceerd. Het biedt quasi dezelfde mogelijkheden als SQL, maar is eerder interactief opgevat, daar waar SQL in wezen transactioneel is. Bij QBE dient de gebruiker bovendien de SQL-syntax niet te kennen. QBE gebruikt de tabel-metafoor ook voor de vraagstelling naar de databank. De gebruiker krijgt open sjablonen die de tabellen voorstellen te zien, waarin hij dan gewoon kan kiezen welke velden hij wil opnemen (= SELECT); door in de vakjes voorwaarden (example elements) te tikken kan hij bovendien rijen selecteren (= WHERE). Ook joins zijn mogelijk, door in de vakken link elements op te geven. 5.5 Data-analyse met behulp van een rekenblad: Microsoft Excel 5.5.1 Inlezen van datasets Excel beschikt over krachtige mogelijkheden om tekstbestanden met cijfergegevens in te lezen. Vaak moet men als historicus gegevens van verschillende herkomst integreren. In vele gevallen zijn de data in de vorm van ascii-tekst beschikbaar. Dat is onder meer het geval bij de datasets van het Nederlands Historisch Data Archief (http://www.niwi.knaw.nl/nl/homepag.htm). Het archief beschikt over gedeponeerde historische datasets, waarvan er een aantal vrij gebruikt kunnen worden voor verder onderzoek of onderwijs. © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 150 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL We nemen als voorbeeld de dataset “Demography of Batavia 1689-1789”, meer bepaald de “Population of inner city of Batavia”. Van deze data wordt zowel een codeboek, een dataset als documentatie geleverd. Het is van belang eerst de documentatie grondig te bestuderen, om de juiste betekenis en draagwijdte van de gegevens te kunnen inschatten. In het codeboek wordt de dataset-structuur beschreven (gopher://oasis.leidenuniv.nl:71/00/nhda/nhda-datasets/nhda-datasets-vrij/datasetd0003/d0003f01/demography-of-batavia-d0003f01-code-nl.txt): VARIABLE LIST AND CODEBOOK DATASET: D0003 FILE: F01 VARIABLE POSITION(nr): NAME: YEAR 1-4 (4) QUARTER 6-7 (2) Codes QUARTER: code: 1 Oostzijde A 2 Oostzijde B 3 Oostzijde C 4 Oostzijde D DEMOGRAPHY OF BATAVIA - Population of inner city of Batavia TYPE OF DATA: VARIABLE LABEL: Numeric Numeric Year of observation City quarter explanation: 5 Oostzijde E 6 Oostzijde F 7 Oostzijde G en H 8 Oostzijde G © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 151 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL 27 28 29 30 31 32 33 34 35 36 37 38 39 40 43 44 45 9 Oostzijde H 10 Oostzijde J of I 11 Oostzijde K 12 Oostzijde L 13 Oostzijde M 14 Oostzijde Q1 15 Oostzijde Q2 16 Oostzijde Q3 17 Oostzijde Q4 18 Oostzijde S1 19 Oostzijde S2 20 Westzijde A 21 Westzijde B 22 Westzijde C 23 Westzijde C-B 24 Westzijde D 25 Westzijde D-H 26 Westzijde E GRPCODE 9-10 (2) Codes GRPCODE: code: BC Baliers en Maccasaren CH Chinezen CI Christen Inlanders EU Europeanen MA Mardijkers MG Moren en Gentieven MH Mahometanen MI Mixtischen MJ Malijers en Javanen ML Malijers MO Moren SL Slaven MEN 12-14 (3) WOMEN 16-18 (3) SONGE14 20-22 (3) Numeric Numeric Numeric SONLT14 DAUGGE14 24-26 (3) 28-30 (3) Numeric Numeric DAUGLT14 32-34 (3) Numeric CHILD 36-38 (3) Numeric Westzijde F Westzijde G Westzijde H Westzijde J Westzijde K Westzijde L Westzijde M Westzijde N en Westzijde O Westzijde P en Zuidervoorstad Zuidervoorstad Zuidervoorstad Zuidervoorstad Zuidervoorstad Zuidervoorstad No specified O Q Totaal deel 28-31 deel 29 en 30 deel 32 deel 32 en 33 deel 34 Character Section of the population explanation: Number of men Number of women Number of sons older than 14 year Number of sons younger than Number of daughters older than 14 year Number of daughters younger than 14 year Number of children © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 152 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL De bijgeleverde dataset bestaat enkel uit regels met getallen per veld, gescheiden door blanco’s: In Netscape kiezen we nu voor “File, Save As”, en we bewaren het document onder een naam, b.v. batavia.txt, een een folder naar keuze, b.v. data. In Excel kunnen we dit bestand nu inlezen via File Open. Er verschijnt een import wizard: © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 153 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL We opteren in dit geval inderdaad voor Fixed width. Een delimited bestand heeft een andere structuur: daar wordt een conventioneel bepaald teken geplaatst tussen elk veld, een zogenaamde delimiter. Drukken we op Next, dan tracht Excel de verschillende velden af te lijnen. Soms zijn eventueel manuele correcties nodig. © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 154 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL Selecteren we terug Next, dan wordt nog de mogelijkheid geboden het data-type bij te sturen. General is het veiligst. In elk geval is deze data-type herkenning niet de sterkste kant van Excel; professionele software zoals SAS beschikt over sterkere tools om tekst-velden onmiddellijk in het juiste data-formaat in te lezen, wat voornamelijk bij datum-velden van belang kan zijn. Is alles naar wens, kan men voor “Finish” kiezen. © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 155 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL Om vlot met de data te kunnen werken is het nodig om een eerste rij in te voegen met de labels voor de kolommen. Die labels vinden we in het codeboek. Om af te ronden kan men het bestand opslaan als Excel Workbook. Het is nu klaar voor verdere analyse. 5.5.2 PivotTables Met behulp van een PivotTable kan op een erg eenvoudige wijze de verschillende aggregatiefuncties toepassen op gegevens in een werkblad. In feite koppelt deze methode de kracht van b.v. een SQL "Group By" statement met de schier oneindige doorverwijzingsmogelijkheden van Excel. Het principe van een PivotTable is simpel: het borduurt voort op het welbekende thema van de "crosstabulation": Verschillende observatiegegevens voor één variable worden zelf nieuwe variabelen of kolomtitels. Een voorbeeld kan dit verduidelijken. Stel dat je over een tabel "CHOL" beschikt met een aantal observaties over patiënten (http://fuzzy.arts.kuleuven.ac.be/files/chol.xls). Eén van de variabelen is "smoke". In deze kolom wordt m.a.w. per patiënt aangeduid of hij roker, niet-roker of pijp-roker is. We hebben m.a.w. te maken met een categoriale variabele, die voor een reeks observaties maar een eerder beperkt aantal waarden kan aannemen. © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 156 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL Het zou nu zinvol kunnen zijn de gegevens over de observanten te analyseren in relatie tot hun statuut als roker. Dit betekent, dat we de data willen groeperen volgens de kolom "smoke". Op de andere variabelen kunnen dan aggregatiefuncties, b.v. een gemiddelde, worden toegepast. In een database-omgeving kan dit meteen klassiek SQL-statement als volgt: SELECT AVG(variabele1), AVG(variabele2) FROM CHOL GROUP BY smoke; In Excel kan dit op volgende manier: • Kies Data PivotTable • Selecteer Microsoft Excel List or Database, kies Next • Duid het bereik aan waarop dient gewerkt: Excel kiest de database in het huidige werkblad; kies Next • • Op volgend scherm kan je dan aangeven hoe de resulterende PivotTable eruit moet gaan zien. • Stel dat je vraag volgende vorm heeft: "Geef het GEMIDDELDE voor HEIGHT en WEIGHT PER categorie SMOKE" • Dit betekent dat je groepeert op SMOKE • In dat geval wil je een rij per verschillende waarde die SMOKE kan aannemen. • Om dat te bereiken zet je SMOKE in het vakje "ROW". • De variabelen waarvan je de waarden wil aggregeren plaats je onder "DATA". © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 157 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL • Excel neemt als standaard aggregatiefunctie "SUM". Vermits we "AVERAGE" nodig hebben, dubbelklikken we op elk van de twee variabelen "Sum of HEIGHT" en "Sum of WEIGHT" en selecteren "AVERAGE" in het menu. • Kies Next; Word stelt voor de PivotTable op een nieuw Werkblad te maken. Kies Finish. • Excel maakt volgend werkblad aan: © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 158 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL Deze PivotTable biedt naast een overzichtelijke presentatie van de aggregaatsgegevens ook een hele reeks navigatiehulpmiddelen om de data verder te exploreren. • Dubbelklikken op een geaggregeerd cijfer geeft de details die dat cijfer samenstellen aan. • Men kan van de rijen Average of Height en Average of Weight kolom-headings maken door op Data te klikken en dit naar Total te slepen. Data SMOKE Average of HEIGHT Average of WEIGHT nonsmo 171,3673469 75,6122449 pipe 172,7857143 78,42857143 sigare 172,6238532 75,02752294 Grand Total 172,35 75,885 © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 159 5.5. DATA-ANALYSE MET BEHULP VAN EEN REKENBLAD: MICROSOFT EXCEL Hiervan kan men dan een grafische representatie maken met behukp van een staafdiagram: • Klik op de cel A1; de tabel wordt geselecteerd; • Kies Insert Chart • Kies een type (hier Column) en klik op Next; • Klik op Next bij Data Range • Vul eventueel grafiektitel in, dan Next; • Kies "As New Sheet" en klik Finish © F. Truyen en J. Tolleneer 1999 - DATABANKEN - 160 INHOUDSTAFEL 5.6 Historische databanken Tot de bekendste 'historische' databasesystemen of historische databanken mogen worden gerekend: • het door Manfred Thaller van het Max Planck Institut für Geschichte, Göttingen, sinds enkele jaren opgebouwde 'historical workstation' ; • de via het Research Libraries Information Network (RLIN) in Amerika en Europa toegankelijke Medieval and Early Modern Data Bank (MEMDB). 5.7 Data-archieven Onder data-archief wordt een verzameling van databases verstaan. Het kan worden beschouwd als een bibliotheek van machineleesbare bestanden. In heel wat landen beschikt men over een sociaalwetenschappelijk data-archief, b.v. het in 1964 in Amsterdam opgerichte Steinmetzarchief. Historische data-archieven zijn nog zeer zeldzaam. In Leiden functioneert sinds 1991 het Nederlands Historisch Data Archief (NHDA). 5.8 Bibliografische toepassingen Ook van bijzonder nut voor het historisch onderzoek zijn de specifieke bibliografische database management systemen. De nadruk ligt er op het genereren van referentielijsten of bibliografieën, die zonder enige verdere bewerking aan manuscripten van artikelen kunnen worden toegevoegd. De software produceert deze lijsten in een lay-out zoals voorgeschreven door de belangrijkste wetenschappelijke tijdschriften. Een in tijdschrift A afgewezen artikel kan dan zonder extra moeite in de voor tijdschrift B vereiste lay-out aangeboden worden. Met een (al dan niet meegeleverd) conversieprogramma kunnen referenties van b.v. externe databanken afgetapt ('gedownload') en in de te produceren bibliografie opgenomen worden. Een verfijnde zoekprocedure vergemakkelijkt het zoeken, selecteren en sorteren van in het bibliografisch DBMS opgeslagen referenties. Voorbeelden van dergelijke pakketten: Bib/Search (het meest geavanceerde), Notebook-II, Papyrus, ProCite, ReferenceManager en Ref-Filer. Een Programma als ProCite laat op een eenvoudige wijze toe gegevens in te voeren voor verschillende beschrijvingstypes. Zo is het mogelijk om naast boeken ook bijdragen in een bundel of hoofdstukken bibliografisch te beschrijven. Wie speciale vereisten heeft t.a.v. de lay-out kan zelf een “output style” samenstellen. In het volgende voorbeeld zien we een ProCite database in een spreadsheet view: © F. Truyen en J. Tolleneer 1999 - DATABANKEN- 161 INHOUDSTAFEL Records invoeren kan via F9 of Database – New Record. We zien het invoerscherm voor Book, Short Form. Er zijn een tiental formulieren voorhanden, die elk een aantal van de 45 ProCite-velden zullen aanbieden. Het is mogelijk zelf een formulier samen te stellen. Via het menu Bibliography – Print Bibliography kan men een bibliografische lijst bekomen, die men dan rechtstreeks kan afdrukken of kan opslaan als RTF-bestand, © F. Truyen en J. Tolleneer 1999 - DATABANKEN- 162 INHOUDSTAFEL voor integratie in een tekstverwerker. Overigens voorziet ProCite ook in tools voor rechtstreekse integratie met een tekstverwerker, om b.v. voetnoten te beheren. Men kiest voor het aanmaken van de lijst een reeks uitvoermodellen, zoals MLA, APA of ANSI. Een voorbeeld van een afdruk volgens MLA-conventie: Bibliografie Frege - geselecteerde artikels 1. DUDMAN, V. H. "The Concept Horse." Australasian Journal of Philosophy. 50, 1972. 67-75. 2. DUMMETT, M. "Frege on Functions : A Reply." in: Philosophical Review. 1955. 96-107. 3. ---. "Frege's 'Kernsätze Zur Logik'." in: Inquiry. 1981c. 439-48. 4. ---. "Nominalism." in: Philosophical Review. 1956. 491-505. 5. ---. "Note : Frege on Functions." in: Philosophical Review. 1956. 229-30. 6. ---. "Review of P. Geach and M. Black, Translations From the Philosophical Writings of Gottlob Frege." in: Mind. 1954. 102-05. 7. MACKAY, A. F. "Mr. Donnellan and Humpty Dumpty on Referring." in: Philosophical Review. 1968. 197-202. 8. MERLAN, PH. "Metaphysik : Name Und Gegenstand." in: The Journal of Hellenic Studies. 1957. 87-92. 9. MILLER, B. "Exists and Existence." in: Review of Metaphysics. 1986. -. 10. MOORE, G. E. "Is Existence a Predicate ?" in: Proceedings of the Aristotelian Society. 1936. 171-88. 11. NOLAN, J. "Kant on Meaning. Two Studies." in: Kant-Studien. 1979. 113-30. 12. NOONAN, H. "Fregean Thoughts." in: The Philosophical Quarterly. 1984. 20524. © F. Truyen en J. Tolleneer 1999 - DATABANKEN- 163 INHOUDSTAFEL 6. Literatuur 1. Bell, Rudolph M., and Eddy G. Van Cauwenberghe. "The Medieval and Early Modern Data Bank." Tijdschrift Voor Geschiedenis .103 (1990): 260-78. 2. Werken Met WordPerfect 5.1. Henk Boeke. Amsterdam, 1990. 3. Informatiekunde in Het Onderwijs. BBI-Reeks 2. Albert K Boekhorst. Amsterdam : Universiteit van Amsterdam. Faculteit Letteren.Vakgroep Boek-, Bibliotheek- en Informatiewetenschap, 1992. 4. Writing Space: the Computer, Hypertext, and the History of Writing. Jay David Bolter. Hillsdale, NJ: Lawrence Erlbaum Associates, 1991. 5. Programmeren in DBase. O. W. A. Boonstra, B.J. van Elderen , and F. M. M. Hendrickx. Muiderberg, 1991. 6. Voortgezette Statistiek Voor Historici. O. W. A. Boonstra, P. K. Doorn, and F. M. M. Hendrickx. Muiderberg: Coutinho, 1990. 7. Boonstra, Onno. "NLKAART - Een Computerprogramma Voor Het Tekenen Van Een Historische Kaart Van Nederlandse Gemeenten." Historisch Geografisch Tijdschrift .4 (1987): 145-47. 8. Historische Informatiekunde: Inleiding Tot Het Gebruik Van De Computer Bij Historische Studies. Onno Boonstra, Leen Breure, and Pieter Doorn. Hilversum: Verloren, 1992. 9. History and Computing in Eastern Europe. eds. Leonid I. Borodkin and Wolfgang Levermann. St. Katharinen: Max-Planck-Institut für Geschichte, in Kommission bei Scripta Mercaturae Verlag, 1993. 10. Boydens, Isabelle. "Les Systèmes De Méta-Information, Instruments D'Interprétation Critique Des Sources Informatiques." History and Computing 8.1 (1996): 11-23. 11. Computer Applications in the Social Sciences. Edward E. Brent and Ronald E. Anderson. New York, 1990. 12. Geschiedenis En Informatica. L. Breure. Groningen: Wolters-Noordhoff, 1990. © F. Truyen en J. Tolleneer 1999 - LITERATUUR- 164 INHOUDSTAFEL 13. Breure, Leen. "Historische Databasesystemen." Tijdschrift Voor Geschiedenis 103 (1990): 217-32. 14. ---. "Interactive Data Entry: Problems, Models, Solutions." History and Computing 7.1 (1995): 30-49. 15. ---. "Persoonsgerichte Information Retrieval Systemen." Namen in Historische Bronnen. ed. A. J. Lever. Den Haag, 1995. 33-37. 16. Time Series. Theory and Methods. Peter J. Brockwell and Richard Davis. New York-Berlin, 1991. 17. Calff, J. "De Automatisering Van De Bibliografie Voor Moderne Europese Geschiedenis." Online Informatie Conferentie Nederland (1990): 217-21. 18. A Bibliographic Guide to the History of Computing, Computers, and the Information Processing Industry. James W. Cortada. New York: Greenwood Press, 1990. 19. Second Bibliographic Guide to the History of Computing, Computers, and the Information Processing Industry. James W. Cortada. Westport, Conn: Greenwood Press, 1996. 20. The Teaching of Historical Computing: an International Framework: a Workshop of the International Association for History and Computing, University of London, 26-28 February 1993. ed. Virginia Davis. St. Katharinen: Scripta Mercaturae Verlag, 1993. 21. Denley, P. "Models, Sources and Users: Historical Database Design in the 1990's." History and Computing 6.1 (1994): 33-43. 22. Text Databases: One Database Model and Several Retrieval Languages. CristJan Doedens. Amsterdam: Rodopi, 1994. 23. Towards an International Curriculum for History and Computing: a Workshop of the International Association for History and Computing, University of Glasgow, 15-17 May 1992. ed. Donald Spaeth. St. Katharinen: MaxPlanck-Institut für Geschichte, in Kommission bei Scripta Mercaturae Verlag, 1992. 24. Nederlands Historisch Data Archief II: Chronos Historical Data Archive System: Handbook of a Prototype. ed. P. K. Doorn. Almere: Vereniging voor Geschiedenis en Informatica, 1990. © F. Truyen en J. Tolleneer 1999 - LITERATUUR- 165 INHOUDSTAFEL 25. Doorn, P. K., and J. Th. Lindblad. "Computertoepassingen in De Economische Geschiedenis, in Het Bijzonder Bij Tijdreeksanalyse." Tijdschrift Voor Geschiedenis 103 (1990): 326-41. 26. Nederlands Historisch Data Archief. eds. P. K. Doorn, MPM van Horik, and L. J. Touwen. Almere: Vereniging voor Geschiedenis en Informatica, 1990. 27. Doorn, Peter. "Gecomputeriseerd Historisch Onderzoek Revisited." Spiegel Historiael 25 (1990): 300-01. 28. Data, Computers and the Past: Proceedings of the Conference Archiving and Disseminating Historical Machine Readable Data, (Leiden, April 27-28, 1990). eds. Peter Doorn, Céleste Kluts, and Ellen Leenarts. Hilversum: Verloren, 1992. 29. Historians, Computers and Data: Applications in Research and Teaching: History and Computing III . ed. Evan Mawdsley. Manchester: Manchester University Press, 1990. 30. HTML Sourcebook. Ian S. Graham. New York: Wiley Computer Publishing, 1997. 31. Internet En Geschiedenis. Een Historische, Methodologische En Heuristische Benadering. Jan Guldentops. Leuven: Acco, 1996. 32. Computers for Family History: an Introduction. David Hawgood. London: Hawgood, 1992. 33. 101 Uses of DBase in Libraries. Lynne Hayman. Meckler: London, 1990. 34. Elektrische Taal: Een Wijsgerige Studie Van Tekstverwerking. Michael Heim. Meppel: Boom, 1994. 35. Text-Based Intelligent Systems: Current Research and Practice in Information Extraction and Retrieval. ed. Paul S. Jacobs. Hillsdale, NJ: Lawrence Erlbaum Associates, 1992. 36. Zen and the Art of the Internet. A Beginner's Guide to the Internet. Brendan P. Kehoe. 1992. 37. Landmarks in Digital Computing: a Smithsonian Pictorial History. Peggy Aldrich Kidwell and Paul E. Ceruzzi. Washington: Smithsonian Institution Press, 1994. © F. Truyen en J. Tolleneer 1999 - LITERATUUR- 166 INHOUDSTAFEL 38. King, Steve. "Historical Demography, Life-Cycle Reconstruction and Family Reconstruction: New Perspectives." History and Computing 8.2 (1996): 62-77. 39. Database-Ontwerp Met DBase IV. Van Informatiesysteem. I. S. Korpershoek Schoonhoven: Academic Service, 1992. Informatiebehoefte Naar and B. J. Groenendijk. 40. L'Ordinateur Et Le Métier D'Historien: IVe Congrès "History and Computing": Talence, 14-16 Septembre 1989: Volume Des Actes. ed. Bernard Lavallé. Bordeaux: Maison des Pays Ibériques, 1990. 41. Using Computers in History: Practical Guide. M. J. Lewis and Roger Lloyd-Jones. London: Routledge, 1996. 42. Loeffen, A. "AskSam Vrs. 4.2b Kritisch Beschouwd." Cahiers VGI .4 (1992): 4562. 43. Computers in the History Classroom: Proceedings of an International Conference Held at the University of Leeds, 6th-8th July 1988. eds. Allan Martin and Frances Blow. Leeds: Leeds Univ. Press, 1990. 44. Special Topic Issue: Full-Text Retrieval. ed. MaryEllen C. Sievert. New York: John Wiley & Sons, 1996. 45. Text Information Retrieval Systems. Charles T. Meadow. San Diego : Academic Press, 1992. 46. Historical Informations Systems, (Proceedings Tenth International Economic History Congress, Leuven, August 1990, Session B-12b). eds. Rainer Metz, Eddy Van Cauwenberghe , and Roel van der Voort. Leuven, 1990. 47. Morton, Graeme. "Presenting the Self. Record Linkage and Referring to Ordinary Historical Persons." History and Computing 6.1 (1994): 12-20. 48. Van Laurens Jansz. Coster Tot Apple Macintosh: Vijf Eeuwen Tekstverwerking. J. Mulder. Groningen: Grafisch Museum, 1993. 49. HTML. The Definitive Guide . Chuck Musciano and Bill Kennedy. Sebastopol: O'Reilly & Associates, 1996. 50. A History of Scientific Computing. ed. Stephen G. Nash. Reading, Mass.: Addison-Wesley, 1990. © F. Truyen en J. Tolleneer 1999 - LITERATUUR- 167 INHOUDSTAFEL 51. Nieuwenhuysen, Paul. "A Bibliography of Text Information Management Software for IBM Microcomputers and Compatibles." The Electronic Library 8.4 (1990): 254-78. 52. Geschiedenis Van De Rekenkunst: Van Kerfstok Tot Computer. Anton Nijholt and Jan van den Ende. Schoonhoven: Academic Service Informatica, 1994. 53. Universele Informatiekunde. G. M. Nijssen. Beutenaken: PNA Publishing, 1993. 54. Informatiekunde. James A. O'Brien. Schoonhoven: Academic Service, 1992. 55. Pairon, E., and I. Schoups. "Hoever Staat Het Met De Computer in De Geschiedwetenschappen?" Spiegel Historiael 25 (1990): 296-300. 56. Pasleau, Suzy. "Méthodologie Cartographique Appliquée à L'Histoire. Le Cas De Migrations." Belgisch Tijdschrift Voor Nieuwste Geschiedenis .21 (1990): 575-603. 57. Computing Parliamentary History: George III to Victoria. John A. Phillips. Edinburgh: Edinburgh University Press, 1994. 58. Price, Gwyn, and Alec Gray. "Object Oriented Databases and Their Application to Historical Data." History and Computing 6.1 (1994): 44-51. 59. Pruett, Nancy Jones. "Using Asksam to Manage Files of Bibliographic References." Online 11.4 (1987): 46-52. 60. Structuring the Past: the Use of Computers in History. Janice L. Reiff. Washington: American Historical Association, 1991. 61. Computational Linguistics in Information Science: Information Retrieval (Full-Text or Conceptual), Automatic Indexing, Text Abstraction, Content Analysis, Information Extraction, Query Languages: Bibliography. Conrad F. Sabourin. Montreal/Hudson: Infolingua, 1994. 62. Teaching History With a Computer: a Complete Guide for College Professors . James B. M. Schick. Chicago, IL: Lyceum Books, 1990. 63. Die Datenbanksysteme Lars Und AskSam Im Vergleich. Kurt Schröder and Horst Walther. Dortmund: Universitätsbibliothek, 1993. 64. Microcomputerprogrammatuur Voor Documentatie En Bibliotheek. Een SoftwareVergelijking Voor Conversie, Opslag, Ontsluiting En Bibliotheekbeheer. © F. Truyen en J. Tolleneer 1999 - LITERATUUR- 168 INHOUDSTAFEL ed. E. G. Sieverts. 's-Gravenhage, 1990. 65. Microcomputerprogrammatuur Voor Documentatie En Bibliotheek. Een SoftwareVergelijking Voor Conversie, Opslag, Ontsluiting En Bibliotheekbeheer. ed. E. G. Sieverts. 's-Gravenhage, 1990. 66. Geautomatiseerde Tekstverwerking: Zelfstandig Leren Werken Met WordPerfect 5.1. Jan Snijders. Houten: Stenfert Kroese, 1996. 67. Speck, W. A. "History and Computing: Some Reflexions on the Past Decade." History and Computing 6.1 (1994): 28-32. 68. Automating the Library With AskSam : a Practical Handbook. Marcia D Talley and Virginia A. McNitt. Westport: Meckler, 1991. 69. Thaller, Manfred. "Databases and Expert Systems As Complementary Tools for Historical Research." Tijdschrift Voor Geschiedenis 103: 233-47. 70. Handboek Informatiewetenschap . eds. G. M. van Trier, D. W. K. Jansen, and H. Prins. Houten: Bohn, 1996. 71. Op Zoek Naar De Verborgen Stad: Sittard in Verleden En Heden: Een Voorbeeld Van Omgevingsonderwijs Geschiedenis in De Klas, in Het Veld, in De Computer. R. F. M. Verstaen. Sittard: Stichting Charles Beltjens, 1993. 72. K. Rogiers, "Trends binnen het denken over de rol van geschiedenis in het secundair onderwijs. Aanzet tot een symbiose tussen wetenschappelijke discipline en lespraktijk", in Hermes. Tijdschrift voor geschiedenis, nr. 5 (maart l998), p. 8-23. 73. K. Rogiers, "Informatieen communicatietechnologie (ICT) en geschiedenisonderwijs: het Maerlant-project", in Tijdingen uit Leuven, nr. 115 (april l998), p. 13-17. 74. K. Rogiers, "Historische vaardigheden en ICT: een geschreven bron uit de Middeleeuwen", in Geschiedenis in de klas, nr. 5l (ter perse). 75. J. van Leeuwen, "Historische vaardigheden en ICT: een iconografische bron uit de middeleeuwen", in Geschiedenis in de klas, nr. 5l (ter perse). 76. J. van Leeuwen, "Analyseraster op 4 niveaus: aanzet tot een theoretische fundering van het Maerlant-project", in Hermes, Tijdschrift voor geschiedenis, nr. 6 (juni 1998), p. 41-46. 77. R. De Keyser, K. Rogiers en F. Truyen, "Historical skills and ICT", in Informations. International society for history didactics, XVIII, nr. 2 (ter perse). © F. Truyen en J. Tolleneer 1999 - LITERATUUR- 169