HandleidingToepassenGWSW Neutrale bronbestanden conform het GWSW http://sparql.gwsw.nl Het Gegevenswoordenboek Stedelijk Water (GWSW) is een ontwikkeling van de stichting RIONED (zie http://www.riool.net/gwsw). Op basis van de GWSW datastructuur (“ontologie”) worden neutrale bronbestanden met stedelijk-water-gegevens opgebouwd. Zowel de GWSW ontologie als de daarop gebaseerde bronbestanden zijn gepubliceerd op de GWSW-Server van RIONED. Deze handleiding beschrijft hoe een gebruiker gepubliceerde bronbestanden kan ondervragen. Basiskennis van querytalen (SPARQL, SQL) is daarbij van nut maar niet noodzakelijk. Versiegeschiedenis 20160311 (enkele tekstwijzigingen) 20151209 (eerste opzet) 1 Inleiding Het GWSW is een ontologie waarin systemen en processen voor Stedelijk Water zijn beschreven. De inrichting van het GWSW is afgestemd op technieken binnen het “semantische web” en sluit aan de laatste ontwikkelingen binnen het vakgebied en aanpalende disciplines. Het GWSW staat in het linked-data-formaat RDF/RDFS/OWL-2. Feitelijk is het gehele GWSW opgebouwd uit zogenaamde “triples” die elk een relatie (“predicate”) tussen subject en object beschrijven. Voor het GWSW en daarop gebaseerde bronbestanden is de generieke uitwisselvorm OroX ontworpen. Het OroX is geformatteerd in “Turtle”, een breed gebruikt formaat voor RDF-data. Voor de bronbestanden, die een beschrijving van een bestaand stedelijk water systeem of proces bevatten, wordt ook wel de term BIM (Bouwwerk Informatie Model) gebruikt. De volgende figuur geeft een indruk van de gegevensstromen conform het GWSW. 1 Op de GWSW (Semantische) Server heeft RIONED de GWSW-Ontologie als dataset opgeslagen. Externe partijen hebben toegang tot deze dataset. De GWSW Server verzorgt daarnaast de opslag en validatie van BIM’en. De bronbestanden worden daartoe getoetst aan de validatienormen binnen de GWSW-Ontologie. Externe gebruikers kunnen de server aanwenden voor dit proces. 1.1 SemantischedatabaseGraphDB–Repositories,SPARQL Op de GWSW Server is de semantische database GraphDB geïnstalleerd. Deze database heeft een hoog prestatieniveau en biedt uitgebreide mogelijkheden voor opslag en beheer van semantische datasets (‘repositories’). Voor achtergrondinformatie van GraphDB: http://ontotext.com/products/graphdb/ GraphDB beschikt over een SPARQL toegang voor “querying”. Het query-protocol SPARQL wordt gebruikt voor onderhoud van de data (insert, delete), raadplegen van de data (valideren, overzichten) en (webbased) uitwisselen van data. SPARQL wordt gebruikt voor triple-based datasets, het is de triplestore-tegenhanger van SQL dat gebruikt wordt voor de traditionele relationele databases. SPARQL is een W3C aanbeveling, voor nadere informatie: http://www.w3.org/TR/sparql11-overview/ 1.2 VoorbeeldBronbestandenGWSW In het kader van de praktijkproef Minimale Dataset hebben de gemeentes Pijnacker-Nootdorp en Zwolle bronbestanden geleverd. Benadrukt wordt dat deze datasets een eerste test betreffen, de gegevens zijn niet representatief en als voorbeeld bedoeld. Enkele kengetallen vanuit de geleverde bronbestanden: Pijnacker-Nootdorp Leidingtype Aansluitleiding Drain Drukleiding Duiker GemengdRiool Hemelwaterriool Infiltratieriool Vuilwaterriool Aantal 21 364 1824 40 777 3573 104 2885 Zwolle Leidingtype Bergingsleiding GemengdRiool Hemelwaterriool Infiltratieriool Overstortleiding Persleiding Transportleiding Vuilwaterriool Lengte m 644 9726 111719 1347 28385 136643 4137 117737 Aantal 19 7435 5315 1791 231 2 99 5113 Lengte m 663 258148 201641 75083 5974 156 4913 198603 De gegevens van de gemeentes zijn gecombineerd met de module GWSW-MDS-Project. Deze ontologie is een subset van het GWSW en richt zich op inspectie- en reinigingsprojecten. Deze GWSW module is separaat (in html-vorm) in te zien op: http://data.gwsw.nl/mdsproj 2 2 GebruikdatabaseGraphDB De GraphDB database is geïnstalleerd op de GWSW Server en via een zogenaamde workbench zijn onder meer de opslaglocaties via SPARQL te benaderen. De link naar de database: http://sparql.gwsw.nl Als deze link niet direct van dit document opent kunt u de link-tekst kopiëren in de adres-balk van de internet browser. Als u via proxyserver met het web verbonden bent is het mogelijk dat deze link geblokkeerd wordt. 2.1 Algemeen Allereerst is aanmelden op de site nodig, gebruik de volgende inlogcodes: gebruiker: guest wachtwoord: guest 3 Na aanmelden kunt u één van de opslaglocaties openen: Ter geruststelling, omdat u ingelogd bent als “gast” zijn opties waarmee repositories worden beheerd en gewijzigd, afgeschermd. De gegevens zijn hiermee voldoende beveiligd (en zo nodig reproduceerbaar). 2.2 Databaseondervragen-SPARQLtoepassen Kies het menu-item SPARQL. Als de onderstaande querytekst (“select * where { …”) niet verschijnt, kies dan het tabblad “+”. Druk vervolgens op Run. Uw eerste query is nu uitgevoerd op het voorbeeld bronbestand, de resultaten verschijnen in een tabel onder het query-venster. 4 In de resultaten verschijnen de titels “s” voor subject, “p” voor predicate en “o” voor object. De eerste 100 triples uit het bronbestand van Pijnacker-Nootdorp staan in lijst. Een uitleg van de SPARQL-syntax valt buiten bereik van deze handleiding. Met enkele voorbeelden wordt wellicht wel het principe van SPARQL duidelijk. Een voorbeeldquery om het aantal voorkomende puttypes op te vragen: PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX : <http://data.gwsw.nl/> SELECT ?Puttype (COUNT (?Put) AS ?Aantal) WHERE { ?Put rdf:type :Put ; sesame:directType ?Puttype . FILTER (!(isBlank(?Puttype))) } GROUP BY ?Puttype ORDER BY ASC (?Puttype) U kunt de bovenstaande tekst kopiëren naar het klembord en vervolgens plakken in een nieuw query-tabblad. Daarna wederom op “Run” klikken: Afhankelijk van de prestaties van de GWSW-Server kan de uitvoering van de query enkele seconden in beslag nemen. De processorsnelheid van de GWSW-Server wordt nog verbeterd. De lijst met voorkomende puttypes verschijnt. Met de knop “Download” kunt de lijst in een te kiezen uitvoervorm downloaden. Een download is niet altijd aan te raden, na uitvoering van de query uit 5 het eerste voorbeeld downloadt u het gehele bronbestand. Zo’n bestand is heel groot, nauwelijks leesbaar en niet relevant. De resultaten kunnen ook in grafiekvorm worden getoond, kies dan de knoppen “Google Chart” en “Chart Config”: 2.3 NogmeerSPARQL U heeft nu kennis kunnen maken met de opslagwijze van GWSW-Bronbestanden en het ondervragen daarvan met eenvoudige SPARQL-queries. Deze techniek wordt binnen het GWSW-Project breder toegepast om onder meer de brongegevens op kwaliteit te kunnen meten. Hiertoe is een serie validatiequeries uitgewerkt die niet alleen via de getoonde workbench maar ook via web-services kunnen worden gestart. Deze techniek is eenvoudig toe te passen en komt ook voor externe gebruikers beschikbaar. 3 Afsluitend We hopen dat deze handleiding een indruk geeft van de GWSW Server-mogelijkheden op het gebied van dataopslag, -beheer en -acquisitie. Suggesties en vragen ontvangen wij graag via [email protected] of rechtstreeks gericht aan ons projectteam. Naast de behandelde website zijn voor het GWSW nog een tweetal sites ingericht, namelijk voor “ontwikkelen” (review, inhoudelijke vragen, opmerkingen en verbetersuggesties: http://review.gwsw.nl ) en “raadplegen” (Overzicht alle GWSW Concepten: http://data.gwsw.nl ). 6 Voor deze websites en voor meer informatie over RIONED en het GWSW zie de website van RIONED: http://www.riool.net. Voor meer informatie over het GWSW, zie de website van Stichting RIONED: http://www.riool.net/gwsw. 7