Fundamentals of spatial data warehousing for geographic knowledge discovery Michiel Rook, 15/9/2003 Introductie (1) Door technologische vooruitgang nieuwe eisen Evolutie van GIS volgt grofweg zelfde pad als overige IT Databases gebruiken voor besluitvorming Maar, – – Meerdere, onafhankelijke databases Lastig te integreren Introductie (2) Behoefte aan – – – – – Gebruik data van huidige systemen Snelle antwoorden Simpele GUI Verschillende niveaus van aggregatie, detail en tijd (Gedeeltelijke) Automatische analyse Kortom, uit verschillende bronnen moet nuttige informatie gehaald worden Data Warehouse (1) Beslissingsondersteunend Integratie van meerdere,verschillende bronnen Non-volatile, Read-only Meerdere detailniveaus Data Warehouse (2) 1 van de belangrijkste buzzwords van afgelopen 10 jaar Combineren, transformeren en aggregeren van data is moeilijk en kost veel tijd – – – Incompatibiliteit Ontbrekende data Schaalverschillen Mogelijk erg groot Data Warehouse vs. Database Database Data Warehouse Bron Kopie Transacties Analyse Gedetailleerd Aggregatie Applicatie-gericht Business-gericht Genormaliseerd Redudancy Data Mart Subset van Data Warehouse Gespecialiseerd op 1 onderwerp Hoog niveau, veel aggregatie, weinig detail Data Mart vs. Data Warehouse Data Warehouse Data Mart Voor analyse Voor analyse op hoger niveau Aggregatie Extreme aggregatie Business-gericht Onderwerp-gericht Denormalisatie Extreme denormalisatie Grote database Kleine database Multi-dimensioneel (1) N-dimensionele matrix – – N onafhankelijke variabelen 1 afhankelijke variabele (measure) Elke dimensie heeft members – – Maanden = {Januari,Februari,Maart,…} Hiërarchisch rangschikken Jaar > kwartaal > maand > week > dag Multi-dimensioneel (2) Measures – bijv. totale omzet van vlees in 2002 in filiaal X ‘The reason why multidimensional systems appear intuitive is because they do business the way we do’ Multi-dimensioneel (3) Afhankelijk van sterke denormalisering – – – Redundancy Grote databases … maar wel sneller Multidimensioneel (4) Veel dimensies, meerdere niveaus – Groot aantal ‘datacubes’ te berekenen Deelverzameling berekenen Betere methodes voor indexeren OLAP (1) On-Line Analytical Processing Interactief bekijken en analyseren Multidimensioneel Visualisatie ‘Datacubes’ OLAP (2) ROLAP (Relational OLAP) MOLAP (Multidimensional OLAP) HOLAP (Hybrid OLAP) SOLAP (Spatial OLAP) Werkt het beste op ‘kleinere’ databases Data Mining (1) Knowledge discovery uit data Automatisch ontdekken van trends en patronen Verschillende technieken – – – – – Neurale netwerken Beslissingsbomen Genetische algoritmen Rule induction Nearest neighbour Data Mining (2) Beste prestaties op grote datasets – – Volume Complexiteit regels ‘There must be sufficient types and data in a database, before data mining software can discover any useful pattern’ Architecturen 4 ‘standaard’ architecturen – – – – Generic Federated Multi-tiered No Warehouse Architecturen: Generic (1) Simpel en veel gebruikt Gecentraliseerd Clients gebruiken eigen software – – – OLAP Data Mining EIS Architecturen: Generic (2) IDC Integra tie van data Data Warehouse Bron databases Clients Architecturen: Federated (1) Standaard ‘three-tiered’ architectuur Deels gedecentraliseerd Subset van data in data marts Architecturen: Federated (2) IDC Integra tie van data Data Warehouse Bron databases Data Marts Clients Architecturen: Multi-tiered (1) Typisch ‘four-tiered’ (meer is mogelijk) DW met data op schaal/detailniveau van bronnen DW(‘s) met geaggregeerde data Handig als resultaat van integratie waardevol is Architecturen: Multi-tiered (2) IDC IDC Integra tie van data Bron databases Data Warehouse (detail) Data Warehouse (aggregatie) Data Marts Clients Architecturen: No Warehouse (1) No Warehouse = Virtual Warehouse Integratie wordt real-time gedaan Hogere responstijd Architecturen: No Warehouse (2) Bron databases Data Marts Clients Physical DW vs. Virtual DW Physical Virtual Op disk Niet op disk Integratie vooraf Real-time (‘on the fly’) Alle data integreren On-demand integratie Sneller Extreme denormalisatie Grote database Kleine database Spatial Data Warehousing (1) Combineren van GIS en DW geeft interessante resultaten Maar, GIS alleen niet genoeg voor beslissingsondersteuning Ruimtelijke en semantische data al geintegreerd Maar, tools nog steeds te beperkt Spatial Data Warehousing (2) Numerieke measure – Inkomen per gemeente Ruimtelijke measure – Gebieden met zelfde hoogte Spatial Data Warehousing (3) Integreren van ruimtelijke data is lastig – – – – Elke kaart en overlay moet correct zijn Consistente precisie Juiste referentie systeem Verschillende detailniveaus Aggregeren van spatial data Aggregatie kan meerdere vormen aannemen – – – Geometrisch: polygons -> polygon Niet-geometrisch: polygons -> naam Combinatie: polygons -> naam + polygon Problemen (1) Problemen bij importeren – – – – – Slechte documentatie van bronsystemen Referentiesystemen zijn veranderd Semantieken en begrippen zijn hergedefinieerd Precisie van meetinstrumenten is veranderd Historische gegevens ontbreken Mogelijk geen antwoord op vragen Problemen (2) Niet altijd een probleem bij – – Gereguleerde databases (kadaster) Stricte kwaliteitseisen (topografische databases) Anders – – Geen/ontbrekende historische data (eigenlijk geen DW) Onbekende kwaliteit Problemen (3) Gebrek aan data is onvermijdelijk Moeten we mee leven 80% van de moeite gaat in het bouwen van SDW Resultaat is vaak niet wat men hoopt Research (1) Betere integratie, interoperability – – – Automatisch integreren a.d.h.v. metadata Checken van constraints Automatisch generaliseren Betere planning – – Implementatie van warehouse Inzicht in beperkingen van resultaten Research (2) Beter omgaan met grote databases – – – Query optimizers Spatio-temporal indexing and partitioning Data update mechanisms Scalability – – Incrementele updates Detail niveaus Research (3) Query building – – Complexiteit van spatio-temporal querying GUI mist die complexiteit Web technology – XML Conclusie DW’s combineren data uit heterogene databases en ondersteunen door analyse de besluitvoering Spatial Data Warehouse Spatial OLAP Jong topic, nog veel onderzoek en ontwikkeling