Upload
buikhanh
View
214
Download
0
Embed Size (px)
Citation preview
Aufbau IntegrierterInformationssysteme
Datenintegration durch Aufbau von Data-Warehouse-Systemen
Michael Schmidt, Jens Dietrich, Marco Schopp, Sven
Dammann
Martin-Luther-Universität Halle-Wittenberg
Hauptseminar - Halle - 12.12.2001
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 2
Übersicht über den Vortrag
• Einleitung
• Referenzarchitektur– Allgemein– Am Beispiel eines Data Warehouse Systems
• Phasen des Data Warehouse– Phasen (Extraktion, Transformation, Laden)– Analysephase
• Multidimensionale Datenmodell– Kurze Erklärung– Analyse mittels OLAP– Umsetzung
• Metadaten– Definition– Nutzung und Klassifikation– Repositorium– Metadatenmanagement
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 3
Der erste Block - Einleitung
IV. Anwendung
II. DefinitionenDefinition Jnmon
Weiterführendes Begriffsverständniss
Data Warehousesystem
Data Warehousing
Abgrenzung zu OLTP
III. HistorieHistorie des Themenbereiches
Abgrenzung zu anderen Datenbankansätzen
I. Begriffliche Einordnung Eine Ist-Situation
Begriffliche EinordnungI. Begriffliche Einordnung Eine Ist-Situation
Begriffliche Einordnung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 4
Eine Ist-Situation
• Wal*Mart
• Marktführer im amerikanischen Einzelhandel
• Unternehmensweites Data Warehouse• Unternehmensweites Data WarehouseUnternehmensweites Data Warehouse
Größe:ca. 25TB
täglich bis zu20.000
DW-Anfragen
hoherDetaillierungsgrad
Basis fürWarenkorbanalysen,
Kundenklassifizierung ...
•Artikelumsätze
•Lagerbestand
•Kundenverhalten
täglicheAuswertung von
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 5
Fragestellung und Aufgaben (Bsp.)
Überprüfung des Warensortimentes zurErkennung von Ladenhütern
oder VerkaufsschlagernStandortanalyse zur
Einschätzung der Rentabilität
von NiederlassungenUntersuchung derWirksamkeit von
Marketing-AktionenAuswertung von Kundenbefragungen,
Reklamationen bzgl.
Bestimmter Produkte etc.Analyse des LagerbestandesWarenkorbanalyse mit Hilfe der Kassenbons
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 6
Beispiel einer Anfrage
Welche Umsätze sind in den Jahren 1998 und 1999 in den
Abteilungen Kosmetik, Elektro und Haushaltswaren in denBundesländern Sachsen-Anhalt und Thüringen angefallen?
?????
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 7
Stellt Daten fürAnalysezwecke
zur Verfügung
I ntegration von DatenverschiedenerDatenquellen
I. Begriffliche Einordnung (1)
• Häufige Verwendung des Begriffes Data Warehouse
• Da vielseitige Verwendungà einheitliche Begriffsklärungnotwendig
Technische Seite
Grundlagen derDatenbanksysteme
Anwendungsseite
Bwl. Anforderungenund tägliche Praxis
Zwei Bereiche
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 8
I. Begriffliche Einordnung (2)Konventionelle Produktionsfaktoren
BO
DEN
AR
BE
IT
KA
PIT
AL
INFO
RM
AT
ION
Daten, entweder ausUnternehmen selbst, oder extern
zugekauft
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 9 © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 10
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 11
I. Begriffliche Einordnung (5)
• Was ist eigentlich ein Data Warehouse?
• Ist ein Data Warehouse eine integrierte Datenbank oder eineDatenbasis zu Analysezwecken?
• Was bedeutet der Begriff Data-Warehousesystem?
Zweiter Teil: analytischeAspekt
Transaktionale Verarbeitung mit vielenkurzen Lese- und Schreibzyklen
vergleichender/auswertenden Charaktersitikabei der ANALYTISCHEN Verwendung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 12
Der erste Block - Einleitung
IV. Anwendung
II. DefinitionenDefinition Jnmon
Weiterführendes Begriffsverständniss
Data Warehousesystem
Data Warehousing
Abgrenzung zu OLTP
III. HistorieHistorie des Themenbereiches
Abgrenzung zu anderen Datenbankansätzen
I. Begriffliche Einordnung Eine Ist-Situation
Begriffliche Einordnung
II. DefinitionenDefinition Jnmon
Weiterführendes Begriffsverständniss
Data Warehousesystem
Data Warehousing
Abgrenzung zu OLTP
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 13
“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in
support of managment’s decisions.”
“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in
support of managment’s decisions.”
• Fachorientierung:–Zweck des Systems ist nicht Erfüllung einer Aufgabe(z.B. Personaldatenverwaltung),sondern Modellierung eines spezifischenAnwendungsziels
“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in
support of managment’s decisions.”
•Integrierte Datenbasis:–Verarbeitung von Daten aus mehreren verscheidenenDatenquellen (intern und extern)
“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in
support of managment’s decisions.”
•Historische Daten:–Vergleich der Daten über Zeit möglich(Zeitreihenanalyse)–Speicherung über längeren Zeitraum
“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in
support of managment’s decisions.”
•Nicht-flüchtige Datenbasis:–stabile, perisitente Datenbasis–Daten im DW werden nicht mehr entfernt oder geändert
II. Definition:Data Warehouse (W. H. Inmon )
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 14
Problem
• Definition ist nicht konkret für Praxis und Theorie
• sehr einschränkend (viele Anwendungsgebiete und Ansätzefallen heraus)
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 15
Weiterführendes Begriffsverständniss(1)
• DW ist eine physische Datenbank
• ermöglicht integrierte Sicht auf beliebige Daten
• Entstehung von Problemen– Integration von Schemata und Daten aus unterschiedlichen Quellen
– Thematik ist in föderierten Datenbanksystemen anzutreffen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 16
• Forderung nach Analyseaspekt
Weiterführendes Begriffsverständniss(2)
•erreichbar durch
multidimensionales Datenmodell
–Denkweise des Anwenders in Dimensionen und Klassifikationen–besondere Strukturen und Auswertemöglichkeiten
•OLAP Data Mining
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 17
• Daten in der Regel nicht modifizierbar –Übernommene Daten dürfen nicht mehr verändert werden
Weiterführendes Begriffsverständniss(3)
• neue Daten werden aufgenommen,
ohne alte zu überschreiben
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 18
Data Warehouse-System
• Data Warehouse in Data-Warehouse-System eingebettet
• umfaßt alle notwendigen Komponenten für Integration und
Analyse– Datenbeschaffung– Analyse– Basisdatenbank
Die Datenquellen und deren verwaltendeSysteme gehören nicht zumData-Warehouse-System!!!
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 19
Data Warehousing
• Data–Warehouse-Prozess beschreibt dynamischen Vorgangvon:
Speichernder Daten
• mit Data-Warehouse-Prozess können Aufgaben erfüllt werden
Datenbeschaf-fungsprozess
Analyseder Daten
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 20
Abgrenzung zu OLTP 1
Data Warehouse– Vereinigung von Daten aus diversen Datenquellen– Notwendigkeit der intelligenten Datenreduktion– in geforderter Darstellungsform
klassische operative Informationssysteme
Erfassung &Verwaltungvon Daten
Verarbeitungunter Verant-wortung derjeweiligenAbteilung
TransaktionaleVerar-
beitung
Eigenschaften :OLTP
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 21
Abgrenzung zu OLTP: Anfragen
Anfrage transaktional analytisch
FokusLesen, Schreiben,
Modifizieren, LöschenLesen, periodi-
sches Hinzufügen
Transaktions-dauer und –typ
kurze Lese-/Schreibaktionen
lange Lese-transaktionen
Anfragestruktur einfach strukturiert komplex
Datenvolumeneiner Anfrage
wenige Datensätze viele Datensätze
Datenmodellanfrageflexibles
Datenmodellanalysebezogenes
Datenmodell
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 22
Abgrenzung zu OLTP: Daten
Daten transaktional analytisch
Datenquellen meist eine mehrere
Eigenschaftennicht abgeleitet, zeit-
aktuell, autonom,dynamisch
abgeleitet,konsolidierthistorisiert, integriert,
stabil
Datenvolumen Megabyte-Gigabyte Gigabyte-Terabyte
Zugriffe Einzeltupelzugriff Bereichsabfragen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 23
Abgrenzung zu OLTP: Anwender
Anwender transaktional analytisch
AnwendertypEin-/Ausgabe durch
Sachbearbeiter
Auswertung durchManager, Controller
Analysten
Anwenderzahl sehr vielewenige (bis
einige Hundert)
Antwortzeit ms - s s - min
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 24
Der erste Block - Einleitung
IV. Anwendung
II. DefinitionenDefinition Jnmon
Weiterführendes Begriffsverständniss
Data Warehousesystem
Data Warehousing
Abgrenzung zu OLTP
III. HistorieHistorie des Themenbereiches
Abgrenzung zu anderen Datenbankansätzen
I. Begriffliche Einordnung Eine Ist-Situation
Begriffliche Einordnung
III. HistorieHistorie des Themenbereiches
Abgrenzung zu anderen Datenbankansätzen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 25 © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 26
Historie (2)
• Problem der Erschließung des Potenzials vor Wettbewerber
heute:
• geschäftsprozessorientierter Transaktionssysteme (SAP R/3) –
großes Volumen an entscheidungsrel. Informationen
• Idealerweise ergänzt durch externe Informationssysteme
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
• vom Quellsystem losgelöste redundante Daten
• nur derTeil, der Analysezweck dienlich
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 27
Integration
Abgrenzung zu anderenDatenbankansätzen
Data WarehouseSystem
Mehrrechner-datenbanksystem
Unterscheidungsmerkmale
paralleleDatenbankansätze
verteilteDatenbankansätze
räumlichVerteilung
KopplungHomogenität
föderierteDatenbankansätze
föderierteDatenbankansätze
•originäre konzeptuelle Schemableibt erhalten
•Quellsysteme bleiben autonom
•Bildung von neuem konzeptuellenSchema
Data WarehouseAnsatz
•kein schreibender Zugriff auf Quelle
•Daten redundant
•Schema dient spezielleAnalysezweck
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 28
Der erste Block - Einleitung
IV. Anwendung
II. DefinitionenDefinition Jnmon
Weiterführendes Begriffsverständniss
Data Warehousesystem
Data Warehousing
Abgrenzung zu OLTP
III. HistorieHistorie des Themenbereiches
Abgrenzung zu anderen Datenbankansätzen
I. Begriffliche Einordnung Eine Ist-Situation
Begriffliche Einordnung
IV. Anwendung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 29
IV. Anwendungsbereiche
Überall wo Daten gespeichert werden,entsteht Wunsch nach Auswertung
Technische Anwendungsgebiete
Wissenschaftliche Anwendungsgebiete
Betriebswirtschaftliche Anwendungsgebiete
- homogene/integrierte Datenbasis
-aufbereitet – zur effektiven/ zielorientierten Analyse
Grundlage
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 30
Wissenschaftliche und TechnischeAnwendungen
• Wissenschaftlich Anwendungen– Statistical und Scientific Databasesà technische Wurzeln des DW
– Beispiel: Projekt Earth Observing System(Klima- und Umweltforschung)
• Täglich ca. 1,9 TB meteorologischer Daten• Aufbereitung und Analyse (statistisch, Data Mining)
• Technische Anwendungen– Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten
(z.B. Wasseranalysen)– Stoff- oder Materialdatenbank eines Unternehmens
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 31
Betriebswirtschaftliche Anwendungen(1)
Informationsbereitstellung
• Daten und Informationen als Grundlage
einer erfolgreichen Abwicklung vonGeschäftsprozessen (z.B. Kennzahlen)
• Formen der Bereitstellung:– Query-Ansätze: frei definierbare Anfragen und Berichte– Reporting: Zugriff auf vordefinierte Berichte– Redaktionell aufbereitete, personalisierte Informationen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 32
Wichtige Anwendungsgebiete in derBetriebswirtschaft
Bertriebs-wirtschaft
Informations-bereitstellung
Analyse
Planung
Kampagnen-managment
•Detaillierte Analyse der Daten zurUntersuchung von Abweichungenoder Auffälligkeiten
•Anwender: Spezialisten (z.B.Controlling, Marketing)
•Unterstützung durch explorativeDatenanalyse
•Aggregierung von Einzelplänen
•Unterstüzung strategischerKampagnen
•Kundenanalyse, Risikoanalyse
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
•Erlös-, Marketin- oderVertriebs-Controlling•Kennzahlensysteme•Kostenrechnung
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 33
Referenzarchitektur
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 34
Aspekte einer Referenzarchitektur
• Basis für die zu erläuternden Konzepte
• korrekte Wiedergabe der Realität
• verschiedene Alternativen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 35
Zwei Teile der Referenzarchitektur
• Referenzmodell
– Modellmuster
• Sachverhalt
– Gegliederte Aufbau eines Systems (Architektur)
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 36
Zweck der Referenzarchitektur
• ermöglicht Vergleiche
• Basis für eine konkrete Implementierung
• bessere Übersichtlichkeit durch die Zerlegung in Komponenten
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 37
Anforderungen an die Referenzarchitektur
• idealtypisch
• funktionsorientiert
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 38
Referenzarchitektur eines Data-Warehouse-System
•Data-Warehouse-Manager
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 39
•Data-Warehouse-Manager
•Datenquelle
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 40
•Data-Warehouse-Manager
•Datenquelle
•Monitor
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 41
•Data-Warehouse-Manager
•Datenquelle
•Monitor
•Arbeitsbereich
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 42
•Data-Warehouse-Manager
•Datenquelle
•Monitor
•Arbeitsbereich
•Extraktionskomponente
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 43
•Data-Warehouse-Manager
•Datenquelle
•Monitor
•Arbeitsbereich
•Extraktionskomponente
•Transformationskomponente
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 44
•Data-Warehouse-Manager
•Datenquelle
•Monitor
•Arbeitsbereich
•Extraktionskomponente
•Transformationskomponente
•Ladekomponente
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 45
•Basisdatenbank
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 46
•Basisdatenbank
•Data Warehouse
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 47
•Basisdatenbank
•Data Warehouse
•Analysekomponente
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 48
•Basisdatenbank
•Data Warehouse
•Analysekomponente
•Repositorium
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 49
•Basisdatenbank
•Data Warehouse
•Analysekomponente
•Repositorium
•Metadatenmanager
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Referenzarchitektur eines Data-Warehouse-System
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 50
Extraktionskomponente
• verantwortlich für die Übertragung von Daten aus einerDatenquelle in den Arbeitsbereich
• steuert die Auswahl der Quellen für das Data-Warehouse-System
• Festlegung des Zeitpunktes der Extraktionen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 51
Technische Realisierung der Extraktion
• mit Hilfe von Schnittstellen zwischen Netzwerken und Standard-Datenbankschnittstellen (ODBC)
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 52
Extraktionsphase
• Daten aus den quellenspezifischen Datenstrukturen ausgelesen
• in die Datenstruktur des Arbeitsbereiches eingetragen
• Komprimierung der Daten sinnvoll
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 53
Strategien für den Zeitpunkt
• periodische Extraktionen
• Extraktionen auf Anfrage
• ereignisgesteuerte Extraktionen
• sofortige Extraktionen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 54
Transformationskomponente
• umwandeln nach strukturellen Aspekten und inhaltlichenAspekten
• Überführung der Daten aus heterogene Quellen in eineeinheitliches internes Format (Integration)
• Datenbereinigung (Data Scrubbing, Data Auditing)
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 55
Transformationsphase (1)
• Datenintegration:
– Transformation in (de-) normalisierte Datenstruktur– Schlüsselbehandlung– Anpassung von Datentypen– Konvertierung von Kodierung– Vereinheitlichung von Zeichenketten– Vereinheitlichung von Datumsangaben– Umrechnung von Maßeinheiten/Skalierung– Aggregierung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 56
Transformationsphase (2)
• Datenbereinigung:
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Qualitätsmanagement für Data-Warehouse-Systeme
Verfahren derDatenbereinigung
Problembereiche der Datenqualität
Datenbereinigung
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 57
Ladekomponente
• Weiterleitung von transformierten Daten
– Komponente zur Übertragung von analyseunabhängigenDetaildaten
– Komponente zur Übertragung von analyseabhängigen Daten
• Historisierung von Daten
• Online-Ladevorgänge
• Offline-Ladevorgänge
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 58
Ladephase
• Granularität der Daten– Basisdatenbank Daten auf Detailebene– Data Warehouse Aktualisierung der materialisierten Sicht
kommt hinzu
• Unterscheidung zwischen:– erstem Laden zur Initialisierung der Basisdatenbank und des Data
Warehouse– regelmäßigen Aktualisierung
• Ladephase zum Zeitpunkt an dem das System nicht ausgelastet
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 59
DATA WAREHOUSE
DATA MART DATA MART DATA MART
Teil 1:DATA MARTS –
Verteilung des Data Warehouse
Definition von Data Marts:
>> kleinere Einheiten des Data Warehouse
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 60
Gründe für die Aufteilung in Data Marts:
• Bessere Übersichtlichkeit
• Leichtere Pflege
• Eigenständigkeit
• Datenschutz, da nur eine Teilsicht auf die Daten gewährt ist
• Organisatorische Aspekte ( Unabhängigkeit von Abteilungen )
• Verringerung des Datenvolumens
• Performanzgewinn
• Verteilung der Last
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 61
Teil 2:ANALYSE
Was versteht man unter der Analyse ?
? alle Operationen, die mit den Daten des Data Warehouse
durchgeführt werden können
Dazu zählen:
• Anfragen
• Darstellung von Daten
• Anwendung von Analysefunktionen auf ausgewählte Daten zurGenerierung von neuen Informationen
• Arithmetische Operationen & statistischen Untersuchungen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 62
Anwenderakzeptanz
? ist ein entscheidendes Kriterium für Erfolg und Misserfolg vonData-Warehouse-Projekten
Anforderungen:
• Richtigkeit der Daten
• Hohe Geschwindigkeit der Informationsbereitstellung
• Funktionalität
• Benutzungsfreundlichkeit der Oberfläche
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 63
DATA WAREHOUSE-Unterstützung des Analyseprozesses
• Anwender möchte eine Analyse der Daten durchführen
? Daten des Data Warehouse werden den Analyseprozessen ingeeigneter Form zur Verfügung gestellt
• Beziehung zwischen Analysewerkzeug zum Auswerten derDaten und dem Datenbanksystem
• Data Warehouse bietet neben Funktionen zum Zugriff auf dieDaten auch Funktionen zur Verarbeitung der Daten an
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 64
Darstellungsformen der Analyse (1)
Tabellen
• Darstellung numerischer Daten des Data Warehouse mittelsPivot-Tabellen
Grafiken
• Bildliche Darstellung lässt eine effizientere Verarbeitung
größerer Datenmengen durch das Gehirn zu als Texte oderTabellen
• Anspruchsvolle Analysen benötigen Formen wie Netz-, Punkt-und Oberflächengraphen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 65
Darstellungsformen der Analyse (2)
Texte und multimediale Elemente
• Multimediale Elemente finden Eingang in die darstellendenOberflächen
• Berichte und Analysen können um Audio- und Videodateienergänzt werden
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 66
Funktionalität der Analyse
• Data Access
• Online Analytical Processing ( OLAP )
• Data Mining
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 67
Funktionalität der Analyse – Data Access
DATA ACCESS
• lassen sich Informationen aus Daten, die auf Grundlage desrelationalen Datenmodells abgebildet sind, ableiten
• Funktionalität beschränkt sich auf das Lesen der Daten,Veränderungen durch einfache arithmetische Operationen oder
Präsentation der Daten in Berichten
• Analyse basiert auf Fragestellungen wie z.B.
Wie viele Einheiten eines Artikels wurden in einer Filiale zu
einem bestimmten Zeitpunkt verkauft ?
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 68
Funktionalität der Analyse – OLAP (1)
OLAP ( Online Analytical Processing )
• Analyseansatz, der die dynamische, multidimensionale Analysevon Daten bezeichnet
• Ziel: Erkennen neuer unerwarteter Beziehungen zwischen denVariablen
• Analyse basiert auf Fragestellungen wie z.B.
In welchem Bezirk macht eine Produktgruppe den größtenUmsatz ?
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 69
Funktionalität der Analyse – OLAP (2)
Regeln der Charakteristik von OLAP ( Auszug aus 12 Regeln )
• Multidimensionale konzeptionelle
Sichtweise
2. Zugriffsmöglichkeit
3. Gleichbleibende Antwortzeitbei der Berichterstellung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 70
Funktionalität der Analyse – OLAP (3)
4. Client-Server-Architektur
5. Mehrbenutzer-Unterstützung
6. Intuitive Datenbearbeitung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 71
Funktionalität der Analyse – OLAP (4)
Seit 1995 wird OLAP mit 5 Schlüsselwörtern beschrieben:
• Geschwindigkeit
• Analysemöglichkeit
• Sicherheit
• Multidimensionalität
• Kapazität
? FASMI ( fast analysis of shared multidimensional information )
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 72
Funktionalität der Analyse – Data Mining (1)
• Analyseansatz, der darauf abzielt Regelmäßigkeiten undAuffälligkeiten in den Daten zu ermitteln und abzubilden
• Analyse basiert auf Fragestellungen wie z.B.
Wie ist die Entwicklung des Absatzes der Produktgruppen ?
• Ermittlung und Abbildung von Beziehungsmustern in Datenerfolgt durch folgende Verfahren:
1. Fallbasierte Systeme
2. Entscheidungsbaumverfahren
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 73
Funktionalität der Analyse – Data Mining (2)
Fallbasierte Systeme
• Lösung neuer Probleme auf der Grundlage von Fällen aus derVergangenheit
Falldatenbasis
Auswahl geeigneter Fälle
Problemlösung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 74
Funktionalität der Analyse – Data Mining (3)
Entscheidungsbaumverfahren
• Grafische Darstellung der Segmentierung eines
Datenbestandes
• Entscheidungsbäume haben den Vorteil einer einfachen undverständlichen Darstellung der ermittelten Beziehungsmuster
weiblich
Geschlecht
Alter Alter
Käufer T75 Käufer T78Käufer T75 Käufer T78
20-45 46-60
männlich
20-35 36-55
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 75
Realisierung der Analyse (1)
Einsatz folgender Werkzeuge:
Anw
ende
rzah
l
groß gering
Kom
plex
ität
• Standard Reporting
- erzeugen lediglich Berichte
• Berichtshefte
- grafische Entwicklungsumgebungen
• Ad-hoc Query & Reporting
- erlauben Erstellung und Präsentation von
Berichten auf einer grafischen Oberfläche
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 76
Realisierung der Analyse (2)
4. Spreadsheet Add-ins
- Tabellenkalkulationsprogramme, die umfassende
Möglichkeiten zur Darstellung von Informationen
in Tabellen und Grafiken bieten
Anw
ende
rzah
l
Kom
plex
ität
gering hoch
5. Entwicklungsumgebungen
- eigens entwickelte Analyseoberflächen für
spezielle Anforderungen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 77
Plattformen der Analyse
Fat Client
• Systeme, die über eigene Speicher- und Verarbeitungskapazitätverfügen und diese zur Informationsbereitstellung einsetzen
Thin Client
• stellen nur die Informationen dar, die vom Server übertragen
werden
• zunehmend werden für den Empfang von Informationen auchandere Medien als der Bildschirm entdeckt
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 78
Teil 3:MULTIDIMENSIONALE
DATENMODELLE &ANALYSE MITTELS OLAP
Elemente des multidimensionalen Datenmodells (1):
• Dimensionen
• Über Kenngrößen existieren verschiedeneBetrachtungsperspektiven, die als
Dimensionen bezeichnet werdenZeit
Geographie
Produkt
Umsatz
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 79
Elemente des multidimensionalen Datenmodells (2) :
2. Würfel
• Grundlage der multidimensionalen Analyse
• seine Kanten werden von den Dimensionen aufgespannt
Zeit
Geographie
JahrQuartal
TagMonat
Land
RegionBezirk
StadtFiliale
P.Kategorie
P.Familie
P.Gruppe
P.Artikel
Prod
ukt
Verkäufe
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 80
Datenanalyse mittels OLAP
• Pivotierung
• Drehen des Würfels durch Vertauschen der Dimensionen um
seine Achsen
• Roll-up, Drill-down und Drill-across
• Beim Roll-up werden die Daten immer stärker aggregiert
• Drill-down ist die komplementäre Operation zum Roll-up
• Drill-across ist der Wechsel von einem Würfel zum anderen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 81
Datenanalyse mittels OLAP-Grafische Darstellung
Prod
ukt
Geog
raph
ie
Zeit
Quartal
Monate
Zeit
Geogr
aphi
e
Prod
ukt
Verkäufe
Drill-dow
n Rol
l-up
Drill-across
Geog
raph
ie
Zeit
QuartalProd
ukt
Umsatz
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 82
Umsetzung des multidimensionalenDatenmodells
• Fragestellung:• Wie kann das MDD auf das Datenmodell des
Datenbanksystems abgebildet werden?
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 83
Möglichkeiten und Aspekte
• Möglichkeiten:• Umsetzung auf relationales Datenmodell• Umsetzung direkt auf multidimensionale
Speicherstrukturen
• Aspekte• Speicherung• Anfrageformulierung bzw. -ausführung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 84
Relationale Speicherung: Faktentabelle
Produkt
Geographie
Zeit
03.01.2000
München
Nürnber
g
02.01.2000Lavamat S
Duett
Artikel Filiale Tag Verkäufe
• Spalten: Dimensionen, Kennzahlen
• Tupel: Zellen des Würfels
• Umsetzung des Datenwürfels ohne Klassifikationshierarchien
3
Duett München 03.01.00 3
7Duett Nürnberg 03.01.00 7
2
Lavamat S München 02.01.00 2
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 85
Snowflake-Schema
Eigenschaften:
• eigene Tabelle für jede Klassifikationsstufe
• eine Fakttabelle
• Darstellung der Hierarchie über Fremdschlüssel in den Tabellen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 86
Beispiel: Snowflake-Schema
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Artikel_IDTag_IDFilial_ID
VerkäufeUmsatz
Artikel_IDTag_IDFilial_ID
VerkäufeUmsatz
Verkauf
Artikel_IDArtikelnameBezeichnungMarkePackungstypProdgruppe_ID...
Artikel_IDArtikelnameBezeichnungMarkePackungstypProdgruppe_ID...
Artikel
Filial_IDBezeichnungStadt_ID
Filial_IDBezeichnungStadt_ID
Filiale
Tag_IDBezeichnungMonat_IDWoche_ID
Tag_IDBezeichnungMonat_IDWoche_ID
Tag
1
1
1
n
n
n
ProdKat_IDBezeichnung
ProdKat_IDBezeichnung
Produktkategorie
Region_IDBezeichnungLand_ID
Region_IDBezeichnungLand_ID
Region
Jahr_IDJahr
Jahr_IDJahr
Jahr1
n
1
1
1
n
n
nProdgruppe_IDBezeichnungProdKat_ID
Prodgruppe_IDBezeichnungProdKat_ID
Produktgruppe
Stadt_IDBezeichnungRegion_ID
Stadt_IDBezeichnungRegion_ID
Stadt
Monat_IDBezeichnungJahr_ID
Monat_IDBezeichnungJahr_ID
Monat
Woche_IDBezeichnungJahr_ID
Woche_IDBezeichnungJahr_ID
Woche
1
1
1
1
n
n
n
n
Land_IDBezeichnung
Land_IDBezeichnung
Land
1
n
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 87
Star-Schema
Eigenschaften:• eine Dimensionstabelle für jede Dimension• eine Faktentabelle
Ø Ziel: schnellere Anfragebearbeitung
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 88
Beispiel: Star-Schema
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Produkt_IDZeit_IDGeo_IDVerkäufeUmsatz
Produkt_IDZeit_IDGeo_IDVerkäufeUmsatz
Verkauf
Zeit_IDTagWocheMonatQuartalJahr
Zeit_IDTagWocheMonatQuartalJahr
Zeit
Produkt_IDArtikelProduktgruppeProduktfamilieProduktkategorieBezeichnungMarkePackungstyp...
Produkt_IDArtikelProduktgruppeProduktfamilieProduktkategorieBezeichnungMarkePackungstyp...
Produkt
Geo_IDFilialeStadtBezirkRegionLand...
Geo_IDFilialeStadtBezirkRegionLand...
Geographie
1
1
1
nn
n
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 89
Probleme im Star-Schema
• Redundanzen innerhalb der Dimensionstabelle
• Beziehungen zwischen den Klassifikations-
stufen nicht erkennbar
Produkt ID Artikel ... Produktgruppe Produktfamilie Produktkategorie ...1235 Lavamat S ... Waschmaschinen Waschgeräte Weiße Ware ...1236 Duett ... Waschmaschinen Waschgeräte Weiße Ware ...1237 Novotronic ... Trockner Waschgeräte Weiße Ware ...1238 Vento 500 ... Trockner Waschgeräte Weiße Ware ...
... ... ... ... ... ... ...
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 90
Mischformen
Entscheidungskriterien:
• Änderungshäufigkeit der Dimensionen
• Anzahl der Klassifikationsstufen einer Dimension
• Anzahl der Dimensionselemente
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 91
Darstellung vonKlassifikationshierarchien (1)
• Horizontal: Hierarchien als Spalten der Dimensionstabelle
Produkt ID Artikel ... Produktgruppe Produktfamilie Produktkategorie ...1235 Lavamat S ... Waschmaschinen Waschgeräte Weiße Ware ...1236 Duett ... Waschmaschinen Waschgeräte Weiße Ware ...1237 Novotronic ... Trockner Waschgeräte Weiße Ware ...1238 Vento 500 ... Trockner Waschgeräte Weiße Ware ...
... ... ... ... ... ... ...
• Vorteil:
ü Einschränkungen auf höherer Granularität ohne Join
• Nachteil:
ü Duplikatelimination bei Anfragen in bestimmten Stufen
ü Schemaänderung bei Hinzufügen neuer StufenEinleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 92
Darstellung vonKlassifikationshierarchien (2)
• Vorteil:ü flexible Änderung am
Klassifikationsschemaüeinfache Behandlung
vorberechneter Aggregate
• Nachteil:üAnfragen zwischen
höheren Granularitätenè Self-Join
Dimensions_ID Eltern_IDLavamatS WaschmaschinenDuett WaschmaschinenNovotronic TrocknerVento 500 Trockner... ...Waschmaschinen WaschgeräteTrockner Waschgeräte... ...Waschgeräte Weiße Ware... ...
• Vertikal (Rekursiv): Dimensionstabelle mit Attributen:• Dimensions_ID• Eltern_ID
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 93
Darstellung vonKlassifikationshierarchien (3)
• Kombiniert: Verbindung beider Strategien• Klassifikationsstufen als Spalten• Tupel auch Knoten höherer Hierarchieebenen• zusätzliches Attribut Stufe
Dimensions_ID Stufe1_ID Stufe2_ID Stufe3_ID StufeLavamatS Waschmaschinen Waschgeräte Weiße Ware 0Duett Waschmaschinen Waschgeräte Weiße Ware 0Novotronic Trockner Waschgeräte Weiße Ware 0Vento 500 Trockner Waschgeräte Weiße Ware 0... ... ... ... ...Waschmaschinen Waschgeräte Weiße Ware NULL 1Trockner Waschgeräte Weiße Ware NULL 1... ... ... ... ...Waschgeräte Weiße Ware NULL NULL 2... ... ... ... ...
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 94
Vermeidung Semantikverluste
• Semantikverlust bei relationaler Abbildung:• Faktentabelle: Attribute KenngrößeçèDimension• Dimensionstabelle: Attribute HierarchieçèBeschreibung• Aufbau der Dimension (Drill-Pfade)
• Lösung:• Erweiterung um Metadaten-Tabellen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 95
Umsetzung multidimensionaler Anfragen
• meist Aggregatanfragen
• Bsp.:– Wieviele Artikel der Produktfamilie Waschgeräte wurden 2000 pro Monat in den
unterschiedlichen Regionen verkauft?
SELECTGeographie.Region, Zeit.Monat, SUM(Verkäufe)
FROMVerkauf, Zeit, Produkt, Geographie
WHEREVerkauf.Produkt_ID = Produkt.Produkt_ID ANDVerkauf.Zeit_ID = Zeit.Zeit_ID ANDVerkauf.Geo_ID = Geographie.Geo_ID ANDProdukt.Produktfamilie = „Waschgeräte“ ANDZeit.Jahr = 2000 ANDGeographie.Land = „Deutschland“
GROUP BYGeographie.Region,Zeit.Monat
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 96
Metadaten
• Fragestellung:• Welche Informationen werden benötigt, um ein Data
Warehouse System effektiv zu nutzen?
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 97
• Klassische Sicht: Definition der Struktur der Datenbank
• Definition:Unter Metadaten versteht man jede Art von Information, die fürden Entwurf, die Konstruktion und die Benutzung einesInformationssystems benötigt wird.
• Aufgaben:ü Aufbauü Wartungü Administrationü Informationsgewinn
Definition Metadaten
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 98
Beispiele für Metadaten
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 99
Nutzung von Metadaten
• Passiv• Dokumentation der Architektur eines DW
• Aktiv:• Semantische AspekteØ metadatengetriebener Prozess
• Semiaktiv• StrukturinformationenØ Werden zur Überprüfung verwendet
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
• Bechreibende Informationen
• Prozessbezogene Informationen
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 100
Klassifikation von Metadaten
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
MetadatenMetadaten
TypTyp AbstraktionAbstraktion AnwendersichtAnwendersicht HerkunftHerkunft ZeitpunktZeitpunkt
ProzessdatenProzessdaten
PrimärdatenPrimärdaten
logischlogisch
physischphysisch
konzeptuellkonzeptuell Business-Metadaten
Business-Metadaten
TechnischeMetadaten
TechnischeMetadaten
automatisiertautomatisiert
manuellmanuell
ErstellungErstellung
VerwendungVerwendung
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 101
Komponenten im Metadaten-Bereich
• Repositorium:• Speicherung (Ablage) und Bereitstellung der Metadaten
• Metadatenmanager:• Steuerung der Metadatenverwaltung• Schemaverwaltung aller Metadaten
RepositoriumRepositoriumMetadaten-manager
Metadaten-manager
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
KontrollflussDatenfluss
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 102
Repositorium: Ziele
• Minimierung des Aufwandes für Aufbau undBetrieb eines DW
• Gewährleistung eines optimalen
Informationsgewinns
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 103
Repositorium: Architekturalternativen
Zentral Verteilt
FöderiertCentral
Repository
Tool A Tool B Tool C
LocalRepository
Tool A
LocalRepository
Tool C
LocalRepository
Tool B
SharedRepository
LocalRepository
Tool C
LocalRepository
Tool B
LocalRepository
Tool A
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 104
Metadatenmanagement: Standardisierung
• Bemühungen um einheitliches Format zur Repräsentation undzum Austausch von Metadaten
• Open Information Model (OIM):• Ziel: Unterstützung der Tool-Interoperabilität verschiedener
Technologien und Unternehmen
• Comon Warehouse Model (CWM):• Ziel: Unterstützung des Metadatenaustausches
spezifisch in Data Warehouse-Umgebungen
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 105
UnifiedModelingLanguage
UnifiedModelingLanguage
Standardisierung: OIM
A BB ist abh. von A
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
Database andWarehousing
Model
Database andWarehousing
Model
Object andComponent
Model
Object andComponent
Model
Analysis andDesignModel
Analysis andDesignModel
KnowledgeManagement
Model
KnowledgeManagement
Model
BusinessEngineering
Model
BusinessEngineering
Model
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 106
CWMFoundation
Model
CWMFoundation
Model
Standardisierung: CWM
A BB ist abh. von A
Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten
RecordOriented
Model
RecordOrientedModel
RelationalModel
RelationalModel
WarehouseDeployment
Model
WarehouseDeployment
Model
XMLModel
XMLModel
TransformationModel
TransformationModel
MDDBModel
MDDBModel
WarehouseOperation
Model
WarehouseOperation
Model
WarehouseProcessModel
WarehouseProcessModel
OLAPModel
OLAPModel
© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 107
Zusammenfassung
• Integration auf technischer Ebene (Datenintegration)
• Ziel eines DWS:– Analyse von Unternehmensdaten zur Entscheidungs-
unterstützung
• Datenbeschaffungsprozess (Extraktion, Transformation, Laden)
• Analyseprozess (Data Access, Data Mining, OLAP)
• Modell: Multidimensionales Datenmodell
• Metadaten zur effektiven Informationsverarbeitung der Daten
des DW