1 Komponenten und Phasen des Data Warehousing Simon König

Preview:

Citation preview

1

Komponenten und Phasen des Data Warehousing

Simon König

2

Einführung

• Arbeitskreis „Konzepte des Data Warehousing“ der GI

• Ziele– Schaffung einer einheitlichen Terminologie– Ausgangspunkt für den Vergleich

bestehender und die Empfehlung für geplante Data-Warehouse-Systeme

3

Datenquellen: Auswahl

• Zweck• Verfügbarkeit

– rechtlich– sozial– technisch– organisatorisch

• Preis

• Qualität– Genauigkeit

(Granularität)– Vollständigkeit– Konsistenz– Relevanz– Korrektheit

Anschließend: Klassifikation

4

Extraktion

• Umfang– Struktureller Extrakt– Inhaltlicher Extrakt– Aggregierter Extrakt

• Arbeitsbereich

• Zeitliche Steuerung– Periodisch– Anfragegesteuert– Ereignisgesteuert– Sofort

5

Monitor

• Überwachungsstrategie– Snapshot– Log– Zeitstempel– Replikation– Trigger

• Anwendungsunterstützt

6

Transformation

• Schematransformation– Integration der Einzelschemata– Einmalige Durchführung– Ziele

• Vollständigkeit• Korrektheit• Minimalität• Verständlichkeit

7

Transformation

• Schematransformation– Konflikte

• Semantische Konflikte• Beschreibungskonflikte• Heterogenitätskonflikte• Strukturkonflikte

8

Transformation

• Datentransformation– Überführung der Daten in neue Schemata– Durchführung bei jeder Transformation– Synonym-, Homonymkonflikte– Vereinheitlichung von Kodierungen– Integritätsbedingungen

9

Transformation

• Datenbereinigung– Durchführung bei jeder Transformation– Korrektur fehlerhafter bzw. Ergänzung

unvollständiger Daten– Referenzielle Integrität beachten

• Gewährleistung hoher Datenqualität– Nachvollziehbarkeit

10

Basisdatenbank

• Zentrale Komponente: Datenlager• Inhalt (Inmon)

– Themenorientierte Daten (subject-oriented)– Integrierte Daten (integrated)– Dauerhafte Daten (non-volatile)– Historische Daten (time-variant)

• Ausgangspunkt für Data Warehouses

11

Konsistenz

12

Data Warehouse

• Extraktion der Daten aus der Basis-datenbank

• Umfang– Struktureller Extrakt– Inhaltlicher Extrakt– Aggregierter Extrakt

• Zeitliche Steuerung– Periodisch– auf Anfrage– Ereignisgesteuert– Sofort

13

Nabe-Speiche-Architektur

14

Data Warehouse

• Data Marts– Verteilung des Data Warehouse– abhängige und unabhängige Data Marts– Abgrenzung zum Data Warehouse

problematisch• Ansatzpunkt für die Analyse

15

Data Marts

abhängig unabhängig

16

Metadaten

• Definition– „Daten über Daten“– fachliche und technische Metadaten– Informationen über Datenstrukturen,

Datentransformationen, Veränderungen von Metadaten

• Erleichtern das Wiederfinden von Informationen

17

Analyse

• Drei Ansätze– Data Access– Online Analytical Processing (OLAP)

• Rotation oder Pivotierung• Roll-up, drill-down, drill-across• Slice and dice

– Data Mining

18

OLAP

19

OLAP

• Rotation• Roll-up• Drill-down• Drill-across• Slice• Dice

20

Architekturbeispiel

21

Vielen Dank für Ihre Aufmerksamkeit

Recommended