Handleiding Toepassen GWSW

advertisement
HandleidingToepassenGWSW
Neutrale bronbestanden conform het GWSW
http://sparql.gwsw.nl
Het Gegevenswoordenboek Stedelijk Water (GWSW) is een ontwikkeling van de stichting RIONED (zie
http://www.riool.net/gwsw). Op basis van de GWSW datastructuur (“ontologie”) worden neutrale
bronbestanden met stedelijk-water-gegevens opgebouwd. Zowel de GWSW ontologie als de daarop
gebaseerde bronbestanden zijn gepubliceerd op de GWSW-Server van RIONED.
Deze handleiding beschrijft hoe een gebruiker gepubliceerde bronbestanden kan ondervragen.
Basiskennis van querytalen (SPARQL, SQL) is daarbij van nut maar niet noodzakelijk.
Versiegeschiedenis
20160311 (enkele tekstwijzigingen)
20151209 (eerste opzet)
1 Inleiding
Het GWSW is een ontologie waarin systemen en processen voor Stedelijk Water zijn beschreven. De
inrichting van het GWSW is afgestemd op technieken binnen het “semantische web” en sluit aan de
laatste ontwikkelingen binnen het vakgebied en aanpalende disciplines.
Het GWSW staat in het linked-data-formaat RDF/RDFS/OWL-2. Feitelijk is het gehele GWSW
opgebouwd uit zogenaamde “triples” die elk een relatie (“predicate”) tussen subject en object
beschrijven.
Voor het GWSW en daarop gebaseerde bronbestanden is de generieke uitwisselvorm OroX
ontworpen. Het OroX is geformatteerd in “Turtle”, een breed gebruikt formaat voor RDF-data.
Voor de bronbestanden, die een beschrijving van een bestaand stedelijk water systeem of proces
bevatten, wordt ook wel de term BIM (Bouwwerk Informatie Model) gebruikt. De volgende figuur
geeft een indruk van de gegevensstromen conform het GWSW.
1
Op de GWSW (Semantische) Server heeft RIONED de GWSW-Ontologie als dataset opgeslagen.
Externe partijen hebben toegang tot deze dataset. De GWSW Server verzorgt daarnaast de opslag en
validatie van BIM’en. De bronbestanden worden daartoe getoetst aan de validatienormen binnen de
GWSW-Ontologie. Externe gebruikers kunnen de server aanwenden voor dit proces.
1.1 SemantischedatabaseGraphDB–Repositories,SPARQL
Op de GWSW Server is de semantische database GraphDB geïnstalleerd. Deze database heeft een
hoog prestatieniveau en biedt uitgebreide mogelijkheden voor opslag en beheer van semantische
datasets (‘repositories’).
Voor achtergrondinformatie van GraphDB:
http://ontotext.com/products/graphdb/
GraphDB beschikt over een SPARQL toegang voor “querying”. Het query-protocol SPARQL wordt
gebruikt voor onderhoud van de data (insert, delete), raadplegen van de data (valideren,
overzichten) en (webbased) uitwisselen van data.
SPARQL wordt gebruikt voor triple-based datasets, het is de triplestore-tegenhanger van SQL dat
gebruikt wordt voor de traditionele relationele databases.
SPARQL is een W3C aanbeveling, voor nadere informatie:
http://www.w3.org/TR/sparql11-overview/
1.2 VoorbeeldBronbestandenGWSW
In het kader van de praktijkproef Minimale Dataset hebben de gemeentes Pijnacker-Nootdorp en
Zwolle bronbestanden geleverd. Benadrukt wordt dat deze datasets een eerste test betreffen, de
gegevens zijn niet representatief en als voorbeeld bedoeld. Enkele kengetallen vanuit de geleverde
bronbestanden:
Pijnacker-Nootdorp
Leidingtype
Aansluitleiding
Drain
Drukleiding
Duiker
GemengdRiool
Hemelwaterriool
Infiltratieriool
Vuilwaterriool
Aantal
21
364
1824
40
777
3573
104
2885
Zwolle
Leidingtype
Bergingsleiding
GemengdRiool
Hemelwaterriool
Infiltratieriool
Overstortleiding
Persleiding
Transportleiding
Vuilwaterriool
Lengte m
644
9726
111719
1347
28385
136643
4137
117737
Aantal
19
7435
5315
1791
231
2
99
5113
Lengte m
663
258148
201641
75083
5974
156
4913
198603
De gegevens van de gemeentes zijn gecombineerd met de module GWSW-MDS-Project. Deze
ontologie is een subset van het GWSW en richt zich op inspectie- en reinigingsprojecten. Deze GWSW
module is separaat (in html-vorm) in te zien op:
http://data.gwsw.nl/mdsproj
2
2 GebruikdatabaseGraphDB
De GraphDB database is geïnstalleerd op de GWSW Server en via een zogenaamde workbench zijn
onder meer de opslaglocaties via SPARQL te benaderen. De link naar de database:
http://sparql.gwsw.nl
Als deze link niet direct van dit document opent kunt u de link-tekst kopiëren in de adres-balk van de
internet browser. Als u via proxyserver met het web verbonden bent is het mogelijk dat deze link
geblokkeerd wordt.
2.1 Algemeen
Allereerst is aanmelden op de site nodig, gebruik de volgende inlogcodes:
gebruiker: guest wachtwoord: guest
3
Na aanmelden kunt u één van de opslaglocaties openen:
Ter geruststelling, omdat u ingelogd bent als “gast” zijn opties waarmee repositories worden
beheerd en gewijzigd, afgeschermd. De gegevens zijn hiermee voldoende beveiligd (en zo nodig
reproduceerbaar).
2.2 Databaseondervragen-SPARQLtoepassen
Kies het menu-item SPARQL. Als de onderstaande querytekst (“select * where { …”) niet verschijnt,
kies dan het tabblad “+”. Druk vervolgens op Run. Uw eerste query is nu uitgevoerd op het voorbeeld
bronbestand, de resultaten verschijnen in een tabel onder het query-venster.
4
In de resultaten verschijnen de titels “s” voor subject, “p” voor predicate en “o” voor object. De
eerste 100 triples uit het bronbestand van Pijnacker-Nootdorp staan in lijst.
Een uitleg van de SPARQL-syntax valt buiten bereik van deze handleiding. Met enkele voorbeelden
wordt wellicht wel het principe van SPARQL duidelijk.
Een voorbeeldquery om het aantal voorkomende puttypes op te vragen:
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX : <http://data.gwsw.nl/>
SELECT ?Puttype (COUNT (?Put) AS ?Aantal)
WHERE
{
?Put rdf:type :Put ;
sesame:directType ?Puttype .
FILTER (!(isBlank(?Puttype)))
}
GROUP BY ?Puttype
ORDER BY ASC (?Puttype)
U kunt de bovenstaande tekst kopiëren naar het klembord en vervolgens plakken in een nieuw
query-tabblad. Daarna wederom op “Run” klikken:
Afhankelijk van de prestaties van de GWSW-Server kan de uitvoering van de query enkele seconden in
beslag nemen. De processorsnelheid van de GWSW-Server wordt nog verbeterd.
De lijst met voorkomende puttypes verschijnt. Met de knop “Download” kunt de lijst in een te kiezen
uitvoervorm downloaden. Een download is niet altijd aan te raden, na uitvoering van de query uit
5
het eerste voorbeeld downloadt u het gehele bronbestand. Zo’n bestand is heel groot, nauwelijks
leesbaar en niet relevant.
De resultaten kunnen ook in grafiekvorm worden getoond, kies dan de knoppen “Google Chart” en
“Chart Config”:
2.3 NogmeerSPARQL
U heeft nu kennis kunnen maken met de opslagwijze van GWSW-Bronbestanden en het ondervragen
daarvan met eenvoudige SPARQL-queries.
Deze techniek wordt binnen het GWSW-Project breder toegepast om onder meer de brongegevens
op kwaliteit te kunnen meten. Hiertoe is een serie validatiequeries uitgewerkt die niet alleen via de
getoonde workbench maar ook via web-services kunnen worden gestart. Deze techniek is eenvoudig
toe te passen en komt ook voor externe gebruikers beschikbaar.
3 Afsluitend
We hopen dat deze handleiding een indruk geeft van de GWSW Server-mogelijkheden op het gebied
van dataopslag, -beheer en -acquisitie. Suggesties en vragen ontvangen wij graag via
[email protected] of rechtstreeks gericht aan ons projectteam.
Naast de behandelde website zijn voor het GWSW nog een tweetal sites ingericht, namelijk voor
“ontwikkelen” (review, inhoudelijke vragen, opmerkingen en verbetersuggesties:
http://review.gwsw.nl ) en “raadplegen” (Overzicht alle GWSW Concepten: http://data.gwsw.nl ).
6
Voor deze websites en voor meer informatie over RIONED en het GWSW zie de website van RIONED:
http://www.riool.net.
Voor meer informatie over het GWSW, zie de website van Stichting RIONED:
http://www.riool.net/gwsw.
7
Download