Fundamentals of blablabla

advertisement
Fundamentals of spatial data
warehousing for geographic
knowledge discovery
Michiel Rook,
15/9/2003
Introductie (1)




Door technologische vooruitgang nieuwe eisen
Evolutie van GIS volgt grofweg zelfde pad als
overige IT
Databases gebruiken voor besluitvorming
Maar,
–
–
Meerdere, onafhankelijke databases
Lastig te integreren
Introductie (2)

Behoefte aan
–
–
–
–
–

Gebruik data van huidige systemen
Snelle antwoorden
Simpele GUI
Verschillende niveaus van aggregatie, detail en tijd
(Gedeeltelijke) Automatische analyse
Kortom, uit verschillende bronnen moet nuttige
informatie gehaald worden
Data Warehouse (1)




Beslissingsondersteunend
Integratie van meerdere,verschillende bronnen
Non-volatile, Read-only
Meerdere detailniveaus
Data Warehouse (2)


1 van de belangrijkste buzzwords van
afgelopen 10 jaar
Combineren, transformeren en aggregeren van
data is moeilijk en kost veel tijd
–
–
–

Incompatibiliteit
Ontbrekende data
Schaalverschillen
Mogelijk erg groot
Data Warehouse vs. Database
Database
Data Warehouse
Bron
Kopie
Transacties
Analyse
Gedetailleerd
Aggregatie
Applicatie-gericht
Business-gericht
Genormaliseerd
Redudancy
Data Mart



Subset van Data Warehouse
Gespecialiseerd op 1 onderwerp
Hoog niveau, veel aggregatie, weinig detail
Data Mart vs. Data Warehouse
Data Warehouse Data Mart
Voor analyse
Voor analyse op hoger
niveau
Aggregatie
Extreme aggregatie
Business-gericht
Onderwerp-gericht
Denormalisatie
Extreme denormalisatie
Grote database
Kleine database
Multi-dimensioneel (1)

N-dimensionele matrix
–
–

N onafhankelijke variabelen
1 afhankelijke variabele (measure)
Elke dimensie heeft members
–
–
Maanden = {Januari,Februari,Maart,…}
Hiërarchisch rangschikken

Jaar > kwartaal > maand > week > dag
Multi-dimensioneel (2)

Measures
–

bijv. totale omzet van vlees in 2002 in filiaal X
‘The reason why multidimensional systems
appear intuitive is because they do business
the way we do’
Multi-dimensioneel (3)

Afhankelijk van sterke denormalisering
–
–
–
Redundancy
Grote databases
… maar wel sneller
Multidimensioneel (4)

Veel dimensies, meerdere niveaus
–


Groot aantal ‘datacubes’ te berekenen
Deelverzameling berekenen
Betere methodes voor indexeren
OLAP (1)





On-Line Analytical Processing
Interactief bekijken en analyseren
Multidimensioneel
Visualisatie
‘Datacubes’
OLAP (2)





ROLAP (Relational OLAP)
MOLAP (Multidimensional OLAP)
HOLAP (Hybrid OLAP)
SOLAP (Spatial OLAP)
Werkt het beste op ‘kleinere’ databases
Data Mining (1)



Knowledge discovery uit data
Automatisch ontdekken van trends en patronen
Verschillende technieken
–
–
–
–
–
Neurale netwerken
Beslissingsbomen
Genetische algoritmen
Rule induction
Nearest neighbour
Data Mining (2)

Beste prestaties op grote datasets
–
–

Volume
Complexiteit regels
‘There must be sufficient types and data in a
database, before data mining software can
discover any useful pattern’
Architecturen

4 ‘standaard’ architecturen
–
–
–
–
Generic
Federated
Multi-tiered
No Warehouse
Architecturen: Generic (1)



Simpel en veel gebruikt
Gecentraliseerd
Clients gebruiken eigen software
–
–
–
OLAP
Data Mining
EIS
Architecturen: Generic (2)
IDC
Integra
tie van
data
Data
Warehouse
Bron databases
Clients
Architecturen: Federated (1)



Standaard ‘three-tiered’ architectuur
Deels gedecentraliseerd
Subset van data in data marts
Architecturen: Federated (2)
IDC
Integra
tie van
data
Data
Warehouse
Bron databases
Data
Marts
Clients
Architecturen: Multi-tiered (1)




Typisch ‘four-tiered’ (meer is mogelijk)
DW met data op schaal/detailniveau van
bronnen
DW(‘s) met geaggregeerde data
Handig als resultaat van integratie waardevol is
Architecturen: Multi-tiered (2)
IDC
IDC
Integra
tie van
data
Bron databases
Data
Warehouse
(detail)
Data
Warehouse
(aggregatie)
Data
Marts
Clients
Architecturen: No Warehouse (1)



No Warehouse = Virtual Warehouse
Integratie wordt real-time gedaan
Hogere responstijd
Architecturen: No Warehouse (2)
Bron databases
Data
Marts
Clients
Physical DW vs. Virtual DW
Physical
Virtual
Op disk
Niet op disk
Integratie vooraf
Real-time (‘on the fly’)
Alle data integreren
On-demand integratie
Sneller
Extreme denormalisatie
Grote database
Kleine database
Spatial Data Warehousing (1)




Combineren van GIS en DW geeft interessante
resultaten
Maar, GIS alleen niet genoeg voor
beslissingsondersteuning
Ruimtelijke en semantische data al
geintegreerd
Maar, tools nog steeds te beperkt
Spatial Data Warehousing (2)

Numerieke measure
–

Inkomen per gemeente
Ruimtelijke measure
–
Gebieden met zelfde hoogte
Spatial Data Warehousing (3)

Integreren van ruimtelijke data is lastig
–
–
–
–
Elke kaart en overlay moet correct zijn
Consistente precisie
Juiste referentie systeem
Verschillende detailniveaus
Aggregeren van spatial data

Aggregatie kan meerdere vormen aannemen
–
–
–
Geometrisch: polygons -> polygon
Niet-geometrisch: polygons -> naam
Combinatie: polygons -> naam + polygon
Problemen (1)

Problemen bij importeren
–
–
–
–
–

Slechte documentatie van bronsystemen
Referentiesystemen zijn veranderd
Semantieken en begrippen zijn hergedefinieerd
Precisie van meetinstrumenten is veranderd
Historische gegevens ontbreken
Mogelijk geen antwoord op vragen
Problemen (2)

Niet altijd een probleem bij
–
–

Gereguleerde databases (kadaster)
Stricte kwaliteitseisen (topografische databases)
Anders
–
–
Geen/ontbrekende historische data (eigenlijk geen
DW)
Onbekende kwaliteit
Problemen (3)




Gebrek aan data is onvermijdelijk
Moeten we mee leven
80% van de moeite gaat in het bouwen van
SDW
Resultaat is vaak niet wat men hoopt
Research (1)

Betere integratie, interoperability
–
–
–

Automatisch integreren a.d.h.v. metadata
Checken van constraints
Automatisch generaliseren
Betere planning
–
–
Implementatie van warehouse
Inzicht in beperkingen van resultaten
Research (2)

Beter omgaan met grote databases
–
–
–

Query optimizers
Spatio-temporal indexing and partitioning
Data update mechanisms
Scalability
–
–
Incrementele updates
Detail niveaus
Research (3)

Query building
–
–

Complexiteit van spatio-temporal querying
GUI mist die complexiteit
Web technology
–
XML
Conclusie

DW’s combineren data uit heterogene
databases en ondersteunen door analyse de
besluitvoering
Spatial Data Warehouse
Spatial OLAP

Jong topic, nog veel onderzoek en ontwikkeling


Download