14
Aufbau Integrierter Informationssysteme Datenintegration durch Aufbau von Data- Warehouse-Systemen Michael Schmidt, Jens Dietrich, Marco Schopp, Sven Dammann Martin-Luther-Universität Halle-Wittenberg Hauptseminar - Halle - 12.12.2001 © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 2 Übersicht über den Vortrag Einleitung Referenzarchitektur Allgemein Am Beispiel eines Data Warehouse Systems Phasen des Data Warehouse Phasen (Extraktion, Transformation, Laden) Analysephase Multidimensionale Datenmodell Kurze Erklärung Analyse mittels OLAP Umsetzung Metadaten Definition Nutzung und Klassifikation Repositorium Metadatenmanagement Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 3 Der erste Block - Einleitung IV. Anwendung II. Definitionen Definition Jnmon Weiterführendes Begriffsverständniss Data Warehousesystem Data Warehousing Abgrenzung zu OLTP III. Historie Historie des Themenbereiches Abgrenzung zu anderen Datenbankansätzen I. Begriffliche Einordnung Eine Ist-Situation Begriffliche Einordnung Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 4 Eine Ist-Situation Wal*Mart Marktführer im amerikanischen Einzelhandel Unternehmensweites Data Warehouse Unternehmensweites Data Warehouse Unternehmensweites Data Warehouse Größe: ca. 25TB täglich bis zu 20.000 DW-Anfragen hoher Detaillierungsgrad Basis für Warenkorbanalysen, Kundenklassifizierung ... • Artikelumsätze • Lagerbestand • Kundenverhalten tägliche Auswertung von Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 5 Fragestellung und Aufgaben (Bsp.) Überprüfung des Warensortimentes zur Erkennung von Ladenhütern oder Verkaufsschlagern Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen Untersuchung der Wirksamkeit von Marketing-Aktionen Auswertung von Kundenbefragungen, Reklamationen bzgl. Bestimmter Produkte etc. Analyse des Lagerbestandes Warenkorbanalyse mit Hilfe der Kassenbons Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 6 Beispiel einer Anfrage Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltswaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen? ??? ?? Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 7 Stellt Daten für Analysezwecke zur Verfügung I ntegration von Daten verschiedener Datenquellen I. Begriffliche Einordnung (1) Häufige Verwendung des Begriffes Data Warehouse Da vielseitige Verwendung einheitliche Begriffsklärung notwendig Technische Seite Grundlagen der Datenbanksysteme Anwendungsseite Bwl. Anforderungen und tägliche Praxis Zwei Bereiche Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 8 I. Begriffliche Einordnung (2) Konventionelle Produktionsfaktoren BODEN ARBEI T KAPI TAL I NFORMATI ON Daten, entweder aus Unternehmen selbst, oder extern zugekauft Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Aufbau Integrierter Übersicht über den Vortrag ...dbs.informatik.uni-halle.de/Lehre/Integr/04_DataWarehousesysteme.pdf · Aufbau Integrierter Informationssysteme Datenintegration

Embed Size (px)

Citation preview

Aufbau IntegrierterInformationssysteme

Datenintegration durch Aufbau von Data-Warehouse-Systemen

Michael Schmidt, Jens Dietrich, Marco Schopp, Sven

Dammann

Martin-Luther-Universität Halle-Wittenberg

Hauptseminar - Halle - 12.12.2001

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 2

Übersicht über den Vortrag

• Einleitung

• Referenzarchitektur– Allgemein– Am Beispiel eines Data Warehouse Systems

• Phasen des Data Warehouse– Phasen (Extraktion, Transformation, Laden)– Analysephase

• Multidimensionale Datenmodell– Kurze Erklärung– Analyse mittels OLAP– Umsetzung

• Metadaten– Definition– Nutzung und Klassifikation– Repositorium– Metadatenmanagement

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 3

Der erste Block - Einleitung

IV. Anwendung

II. DefinitionenDefinition Jnmon

Weiterführendes Begriffsverständniss

Data Warehousesystem

Data Warehousing

Abgrenzung zu OLTP

III. HistorieHistorie des Themenbereiches

Abgrenzung zu anderen Datenbankansätzen

I. Begriffliche Einordnung Eine Ist-Situation

Begriffliche EinordnungI. Begriffliche Einordnung Eine Ist-Situation

Begriffliche Einordnung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 4

Eine Ist-Situation

• Wal*Mart

• Marktführer im amerikanischen Einzelhandel

• Unternehmensweites Data Warehouse• Unternehmensweites Data WarehouseUnternehmensweites Data Warehouse

Größe:ca. 25TB

täglich bis zu20.000

DW-Anfragen

hoherDetaillierungsgrad

Basis fürWarenkorbanalysen,

Kundenklassifizierung ...

•Artikelumsätze

•Lagerbestand

•Kundenverhalten

täglicheAuswertung von

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 5

Fragestellung und Aufgaben (Bsp.)

Überprüfung des Warensortimentes zurErkennung von Ladenhütern

oder VerkaufsschlagernStandortanalyse zur

Einschätzung der Rentabilität

von NiederlassungenUntersuchung derWirksamkeit von

Marketing-AktionenAuswertung von Kundenbefragungen,

Reklamationen bzgl.

Bestimmter Produkte etc.Analyse des LagerbestandesWarenkorbanalyse mit Hilfe der Kassenbons

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 6

Beispiel einer Anfrage

Welche Umsätze sind in den Jahren 1998 und 1999 in den

Abteilungen Kosmetik, Elektro und Haushaltswaren in denBundesländern Sachsen-Anhalt und Thüringen angefallen?

?????

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 7

Stellt Daten fürAnalysezwecke

zur Verfügung

I ntegration von DatenverschiedenerDatenquellen

I. Begriffliche Einordnung (1)

• Häufige Verwendung des Begriffes Data Warehouse

• Da vielseitige Verwendungà einheitliche Begriffsklärungnotwendig

Technische Seite

Grundlagen derDatenbanksysteme

Anwendungsseite

Bwl. Anforderungenund tägliche Praxis

Zwei Bereiche

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 8

I. Begriffliche Einordnung (2)Konventionelle Produktionsfaktoren

BO

DEN

AR

BE

IT

KA

PIT

AL

INFO

RM

AT

ION

Daten, entweder ausUnternehmen selbst, oder extern

zugekauft

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 9 © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 10

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 11

I. Begriffliche Einordnung (5)

• Was ist eigentlich ein Data Warehouse?

• Ist ein Data Warehouse eine integrierte Datenbank oder eineDatenbasis zu Analysezwecken?

• Was bedeutet der Begriff Data-Warehousesystem?

Zweiter Teil: analytischeAspekt

Transaktionale Verarbeitung mit vielenkurzen Lese- und Schreibzyklen

vergleichender/auswertenden Charaktersitikabei der ANALYTISCHEN Verwendung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 12

Der erste Block - Einleitung

IV. Anwendung

II. DefinitionenDefinition Jnmon

Weiterführendes Begriffsverständniss

Data Warehousesystem

Data Warehousing

Abgrenzung zu OLTP

III. HistorieHistorie des Themenbereiches

Abgrenzung zu anderen Datenbankansätzen

I. Begriffliche Einordnung Eine Ist-Situation

Begriffliche Einordnung

II. DefinitionenDefinition Jnmon

Weiterführendes Begriffsverständniss

Data Warehousesystem

Data Warehousing

Abgrenzung zu OLTP

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 13

“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in

support of managment’s decisions.”

“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in

support of managment’s decisions.”

• Fachorientierung:–Zweck des Systems ist nicht Erfüllung einer Aufgabe(z.B. Personaldatenverwaltung),sondern Modellierung eines spezifischenAnwendungsziels

“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in

support of managment’s decisions.”

•Integrierte Datenbasis:–Verarbeitung von Daten aus mehreren verscheidenenDatenquellen (intern und extern)

“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in

support of managment’s decisions.”

•Historische Daten:–Vergleich der Daten über Zeit möglich(Zeitreihenanalyse)–Speicherung über längeren Zeitraum

“ A data warehouse is a subject oriented, integrated,non–volatile, and time variant collection of data in

support of managment’s decisions.”

•Nicht-flüchtige Datenbasis:–stabile, perisitente Datenbasis–Daten im DW werden nicht mehr entfernt oder geändert

II. Definition:Data Warehouse (W. H. Inmon )

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 14

Problem

• Definition ist nicht konkret für Praxis und Theorie

• sehr einschränkend (viele Anwendungsgebiete und Ansätzefallen heraus)

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 15

Weiterführendes Begriffsverständniss(1)

• DW ist eine physische Datenbank

• ermöglicht integrierte Sicht auf beliebige Daten

• Entstehung von Problemen– Integration von Schemata und Daten aus unterschiedlichen Quellen

– Thematik ist in föderierten Datenbanksystemen anzutreffen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 16

• Forderung nach Analyseaspekt

Weiterführendes Begriffsverständniss(2)

•erreichbar durch

multidimensionales Datenmodell

–Denkweise des Anwenders in Dimensionen und Klassifikationen–besondere Strukturen und Auswertemöglichkeiten

•OLAP Data Mining

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 17

• Daten in der Regel nicht modifizierbar –Übernommene Daten dürfen nicht mehr verändert werden

Weiterführendes Begriffsverständniss(3)

• neue Daten werden aufgenommen,

ohne alte zu überschreiben

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 18

Data Warehouse-System

• Data Warehouse in Data-Warehouse-System eingebettet

• umfaßt alle notwendigen Komponenten für Integration und

Analyse– Datenbeschaffung– Analyse– Basisdatenbank

Die Datenquellen und deren verwaltendeSysteme gehören nicht zumData-Warehouse-System!!!

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 19

Data Warehousing

• Data–Warehouse-Prozess beschreibt dynamischen Vorgangvon:

Speichernder Daten

• mit Data-Warehouse-Prozess können Aufgaben erfüllt werden

Datenbeschaf-fungsprozess

Analyseder Daten

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 20

Abgrenzung zu OLTP 1

Data Warehouse– Vereinigung von Daten aus diversen Datenquellen– Notwendigkeit der intelligenten Datenreduktion– in geforderter Darstellungsform

klassische operative Informationssysteme

Erfassung &Verwaltungvon Daten

Verarbeitungunter Verant-wortung derjeweiligenAbteilung

TransaktionaleVerar-

beitung

Eigenschaften :OLTP

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 21

Abgrenzung zu OLTP: Anfragen

Anfrage transaktional analytisch

FokusLesen, Schreiben,

Modifizieren, LöschenLesen, periodi-

sches Hinzufügen

Transaktions-dauer und –typ

kurze Lese-/Schreibaktionen

lange Lese-transaktionen

Anfragestruktur einfach strukturiert komplex

Datenvolumeneiner Anfrage

wenige Datensätze viele Datensätze

Datenmodellanfrageflexibles

Datenmodellanalysebezogenes

Datenmodell

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 22

Abgrenzung zu OLTP: Daten

Daten transaktional analytisch

Datenquellen meist eine mehrere

Eigenschaftennicht abgeleitet, zeit-

aktuell, autonom,dynamisch

abgeleitet,konsolidierthistorisiert, integriert,

stabil

Datenvolumen Megabyte-Gigabyte Gigabyte-Terabyte

Zugriffe Einzeltupelzugriff Bereichsabfragen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 23

Abgrenzung zu OLTP: Anwender

Anwender transaktional analytisch

AnwendertypEin-/Ausgabe durch

Sachbearbeiter

Auswertung durchManager, Controller

Analysten

Anwenderzahl sehr vielewenige (bis

einige Hundert)

Antwortzeit ms - s s - min

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 24

Der erste Block - Einleitung

IV. Anwendung

II. DefinitionenDefinition Jnmon

Weiterführendes Begriffsverständniss

Data Warehousesystem

Data Warehousing

Abgrenzung zu OLTP

III. HistorieHistorie des Themenbereiches

Abgrenzung zu anderen Datenbankansätzen

I. Begriffliche Einordnung Eine Ist-Situation

Begriffliche Einordnung

III. HistorieHistorie des Themenbereiches

Abgrenzung zu anderen Datenbankansätzen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 25 © 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 26

Historie (2)

• Problem der Erschließung des Potenzials vor Wettbewerber

heute:

• geschäftsprozessorientierter Transaktionssysteme (SAP R/3) –

großes Volumen an entscheidungsrel. Informationen

• Idealerweise ergänzt durch externe Informationssysteme

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

• vom Quellsystem losgelöste redundante Daten

• nur derTeil, der Analysezweck dienlich

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 27

Integration

Abgrenzung zu anderenDatenbankansätzen

Data WarehouseSystem

Mehrrechner-datenbanksystem

Unterscheidungsmerkmale

paralleleDatenbankansätze

verteilteDatenbankansätze

räumlichVerteilung

KopplungHomogenität

föderierteDatenbankansätze

föderierteDatenbankansätze

•originäre konzeptuelle Schemableibt erhalten

•Quellsysteme bleiben autonom

•Bildung von neuem konzeptuellenSchema

Data WarehouseAnsatz

•kein schreibender Zugriff auf Quelle

•Daten redundant

•Schema dient spezielleAnalysezweck

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 28

Der erste Block - Einleitung

IV. Anwendung

II. DefinitionenDefinition Jnmon

Weiterführendes Begriffsverständniss

Data Warehousesystem

Data Warehousing

Abgrenzung zu OLTP

III. HistorieHistorie des Themenbereiches

Abgrenzung zu anderen Datenbankansätzen

I. Begriffliche Einordnung Eine Ist-Situation

Begriffliche Einordnung

IV. Anwendung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 29

IV. Anwendungsbereiche

Überall wo Daten gespeichert werden,entsteht Wunsch nach Auswertung

Technische Anwendungsgebiete

Wissenschaftliche Anwendungsgebiete

Betriebswirtschaftliche Anwendungsgebiete

- homogene/integrierte Datenbasis

-aufbereitet – zur effektiven/ zielorientierten Analyse

Grundlage

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 30

Wissenschaftliche und TechnischeAnwendungen

• Wissenschaftlich Anwendungen– Statistical und Scientific Databasesà technische Wurzeln des DW

– Beispiel: Projekt Earth Observing System(Klima- und Umweltforschung)

• Täglich ca. 1,9 TB meteorologischer Daten• Aufbereitung und Analyse (statistisch, Data Mining)

• Technische Anwendungen– Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten

(z.B. Wasseranalysen)– Stoff- oder Materialdatenbank eines Unternehmens

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 31

Betriebswirtschaftliche Anwendungen(1)

Informationsbereitstellung

• Daten und Informationen als Grundlage

einer erfolgreichen Abwicklung vonGeschäftsprozessen (z.B. Kennzahlen)

• Formen der Bereitstellung:– Query-Ansätze: frei definierbare Anfragen und Berichte– Reporting: Zugriff auf vordefinierte Berichte– Redaktionell aufbereitete, personalisierte Informationen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 32

Wichtige Anwendungsgebiete in derBetriebswirtschaft

Bertriebs-wirtschaft

Informations-bereitstellung

Analyse

Planung

Kampagnen-managment

•Detaillierte Analyse der Daten zurUntersuchung von Abweichungenoder Auffälligkeiten

•Anwender: Spezialisten (z.B.Controlling, Marketing)

•Unterstützung durch explorativeDatenanalyse

•Aggregierung von Einzelplänen

•Unterstüzung strategischerKampagnen

•Kundenanalyse, Risikoanalyse

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

•Erlös-, Marketin- oderVertriebs-Controlling•Kennzahlensysteme•Kostenrechnung

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 33

Referenzarchitektur

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 34

Aspekte einer Referenzarchitektur

• Basis für die zu erläuternden Konzepte

• korrekte Wiedergabe der Realität

• verschiedene Alternativen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 35

Zwei Teile der Referenzarchitektur

• Referenzmodell

– Modellmuster

• Sachverhalt

– Gegliederte Aufbau eines Systems (Architektur)

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 36

Zweck der Referenzarchitektur

• ermöglicht Vergleiche

• Basis für eine konkrete Implementierung

• bessere Übersichtlichkeit durch die Zerlegung in Komponenten

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 37

Anforderungen an die Referenzarchitektur

• idealtypisch

• funktionsorientiert

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 38

Referenzarchitektur eines Data-Warehouse-System

•Data-Warehouse-Manager

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 39

•Data-Warehouse-Manager

•Datenquelle

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 40

•Data-Warehouse-Manager

•Datenquelle

•Monitor

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 41

•Data-Warehouse-Manager

•Datenquelle

•Monitor

•Arbeitsbereich

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 42

•Data-Warehouse-Manager

•Datenquelle

•Monitor

•Arbeitsbereich

•Extraktionskomponente

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 43

•Data-Warehouse-Manager

•Datenquelle

•Monitor

•Arbeitsbereich

•Extraktionskomponente

•Transformationskomponente

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 44

•Data-Warehouse-Manager

•Datenquelle

•Monitor

•Arbeitsbereich

•Extraktionskomponente

•Transformationskomponente

•Ladekomponente

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 45

•Basisdatenbank

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 46

•Basisdatenbank

•Data Warehouse

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 47

•Basisdatenbank

•Data Warehouse

•Analysekomponente

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 48

•Basisdatenbank

•Data Warehouse

•Analysekomponente

•Repositorium

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 49

•Basisdatenbank

•Data Warehouse

•Analysekomponente

•Repositorium

•Metadatenmanager

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Referenzarchitektur eines Data-Warehouse-System

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 50

Extraktionskomponente

• verantwortlich für die Übertragung von Daten aus einerDatenquelle in den Arbeitsbereich

• steuert die Auswahl der Quellen für das Data-Warehouse-System

• Festlegung des Zeitpunktes der Extraktionen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 51

Technische Realisierung der Extraktion

• mit Hilfe von Schnittstellen zwischen Netzwerken und Standard-Datenbankschnittstellen (ODBC)

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 52

Extraktionsphase

• Daten aus den quellenspezifischen Datenstrukturen ausgelesen

• in die Datenstruktur des Arbeitsbereiches eingetragen

• Komprimierung der Daten sinnvoll

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 53

Strategien für den Zeitpunkt

• periodische Extraktionen

• Extraktionen auf Anfrage

• ereignisgesteuerte Extraktionen

• sofortige Extraktionen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 54

Transformationskomponente

• umwandeln nach strukturellen Aspekten und inhaltlichenAspekten

• Überführung der Daten aus heterogene Quellen in eineeinheitliches internes Format (Integration)

• Datenbereinigung (Data Scrubbing, Data Auditing)

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 55

Transformationsphase (1)

• Datenintegration:

– Transformation in (de-) normalisierte Datenstruktur– Schlüsselbehandlung– Anpassung von Datentypen– Konvertierung von Kodierung– Vereinheitlichung von Zeichenketten– Vereinheitlichung von Datumsangaben– Umrechnung von Maßeinheiten/Skalierung– Aggregierung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 56

Transformationsphase (2)

• Datenbereinigung:

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Qualitätsmanagement für Data-Warehouse-Systeme

Verfahren derDatenbereinigung

Problembereiche der Datenqualität

Datenbereinigung

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 57

Ladekomponente

• Weiterleitung von transformierten Daten

– Komponente zur Übertragung von analyseunabhängigenDetaildaten

– Komponente zur Übertragung von analyseabhängigen Daten

• Historisierung von Daten

• Online-Ladevorgänge

• Offline-Ladevorgänge

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 58

Ladephase

• Granularität der Daten– Basisdatenbank Daten auf Detailebene– Data Warehouse Aktualisierung der materialisierten Sicht

kommt hinzu

• Unterscheidung zwischen:– erstem Laden zur Initialisierung der Basisdatenbank und des Data

Warehouse– regelmäßigen Aktualisierung

• Ladephase zum Zeitpunkt an dem das System nicht ausgelastet

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 59

DATA WAREHOUSE

DATA MART DATA MART DATA MART

Teil 1:DATA MARTS –

Verteilung des Data Warehouse

Definition von Data Marts:

>> kleinere Einheiten des Data Warehouse

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 60

Gründe für die Aufteilung in Data Marts:

• Bessere Übersichtlichkeit

• Leichtere Pflege

• Eigenständigkeit

• Datenschutz, da nur eine Teilsicht auf die Daten gewährt ist

• Organisatorische Aspekte ( Unabhängigkeit von Abteilungen )

• Verringerung des Datenvolumens

• Performanzgewinn

• Verteilung der Last

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 61

Teil 2:ANALYSE

Was versteht man unter der Analyse ?

? alle Operationen, die mit den Daten des Data Warehouse

durchgeführt werden können

Dazu zählen:

• Anfragen

• Darstellung von Daten

• Anwendung von Analysefunktionen auf ausgewählte Daten zurGenerierung von neuen Informationen

• Arithmetische Operationen & statistischen Untersuchungen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 62

Anwenderakzeptanz

? ist ein entscheidendes Kriterium für Erfolg und Misserfolg vonData-Warehouse-Projekten

Anforderungen:

• Richtigkeit der Daten

• Hohe Geschwindigkeit der Informationsbereitstellung

• Funktionalität

• Benutzungsfreundlichkeit der Oberfläche

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 63

DATA WAREHOUSE-Unterstützung des Analyseprozesses

• Anwender möchte eine Analyse der Daten durchführen

? Daten des Data Warehouse werden den Analyseprozessen ingeeigneter Form zur Verfügung gestellt

• Beziehung zwischen Analysewerkzeug zum Auswerten derDaten und dem Datenbanksystem

• Data Warehouse bietet neben Funktionen zum Zugriff auf dieDaten auch Funktionen zur Verarbeitung der Daten an

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 64

Darstellungsformen der Analyse (1)

Tabellen

• Darstellung numerischer Daten des Data Warehouse mittelsPivot-Tabellen

Grafiken

• Bildliche Darstellung lässt eine effizientere Verarbeitung

größerer Datenmengen durch das Gehirn zu als Texte oderTabellen

• Anspruchsvolle Analysen benötigen Formen wie Netz-, Punkt-und Oberflächengraphen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 65

Darstellungsformen der Analyse (2)

Texte und multimediale Elemente

• Multimediale Elemente finden Eingang in die darstellendenOberflächen

• Berichte und Analysen können um Audio- und Videodateienergänzt werden

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 66

Funktionalität der Analyse

• Data Access

• Online Analytical Processing ( OLAP )

• Data Mining

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 67

Funktionalität der Analyse – Data Access

DATA ACCESS

• lassen sich Informationen aus Daten, die auf Grundlage desrelationalen Datenmodells abgebildet sind, ableiten

• Funktionalität beschränkt sich auf das Lesen der Daten,Veränderungen durch einfache arithmetische Operationen oder

Präsentation der Daten in Berichten

• Analyse basiert auf Fragestellungen wie z.B.

Wie viele Einheiten eines Artikels wurden in einer Filiale zu

einem bestimmten Zeitpunkt verkauft ?

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 68

Funktionalität der Analyse – OLAP (1)

OLAP ( Online Analytical Processing )

• Analyseansatz, der die dynamische, multidimensionale Analysevon Daten bezeichnet

• Ziel: Erkennen neuer unerwarteter Beziehungen zwischen denVariablen

• Analyse basiert auf Fragestellungen wie z.B.

In welchem Bezirk macht eine Produktgruppe den größtenUmsatz ?

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 69

Funktionalität der Analyse – OLAP (2)

Regeln der Charakteristik von OLAP ( Auszug aus 12 Regeln )

• Multidimensionale konzeptionelle

Sichtweise

2. Zugriffsmöglichkeit

3. Gleichbleibende Antwortzeitbei der Berichterstellung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 70

Funktionalität der Analyse – OLAP (3)

4. Client-Server-Architektur

5. Mehrbenutzer-Unterstützung

6. Intuitive Datenbearbeitung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 71

Funktionalität der Analyse – OLAP (4)

Seit 1995 wird OLAP mit 5 Schlüsselwörtern beschrieben:

• Geschwindigkeit

• Analysemöglichkeit

• Sicherheit

• Multidimensionalität

• Kapazität

? FASMI ( fast analysis of shared multidimensional information )

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 72

Funktionalität der Analyse – Data Mining (1)

• Analyseansatz, der darauf abzielt Regelmäßigkeiten undAuffälligkeiten in den Daten zu ermitteln und abzubilden

• Analyse basiert auf Fragestellungen wie z.B.

Wie ist die Entwicklung des Absatzes der Produktgruppen ?

• Ermittlung und Abbildung von Beziehungsmustern in Datenerfolgt durch folgende Verfahren:

1. Fallbasierte Systeme

2. Entscheidungsbaumverfahren

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 73

Funktionalität der Analyse – Data Mining (2)

Fallbasierte Systeme

• Lösung neuer Probleme auf der Grundlage von Fällen aus derVergangenheit

Falldatenbasis

Auswahl geeigneter Fälle

Problemlösung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 74

Funktionalität der Analyse – Data Mining (3)

Entscheidungsbaumverfahren

• Grafische Darstellung der Segmentierung eines

Datenbestandes

• Entscheidungsbäume haben den Vorteil einer einfachen undverständlichen Darstellung der ermittelten Beziehungsmuster

weiblich

Geschlecht

Alter Alter

Käufer T75 Käufer T78Käufer T75 Käufer T78

20-45 46-60

männlich

20-35 36-55

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 75

Realisierung der Analyse (1)

Einsatz folgender Werkzeuge:

Anw

ende

rzah

l

groß gering

Kom

plex

ität

• Standard Reporting

- erzeugen lediglich Berichte

• Berichtshefte

- grafische Entwicklungsumgebungen

• Ad-hoc Query & Reporting

- erlauben Erstellung und Präsentation von

Berichten auf einer grafischen Oberfläche

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 76

Realisierung der Analyse (2)

4. Spreadsheet Add-ins

- Tabellenkalkulationsprogramme, die umfassende

Möglichkeiten zur Darstellung von Informationen

in Tabellen und Grafiken bieten

Anw

ende

rzah

l

Kom

plex

ität

gering hoch

5. Entwicklungsumgebungen

- eigens entwickelte Analyseoberflächen für

spezielle Anforderungen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 77

Plattformen der Analyse

Fat Client

• Systeme, die über eigene Speicher- und Verarbeitungskapazitätverfügen und diese zur Informationsbereitstellung einsetzen

Thin Client

• stellen nur die Informationen dar, die vom Server übertragen

werden

• zunehmend werden für den Empfang von Informationen auchandere Medien als der Bildschirm entdeckt

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 78

Teil 3:MULTIDIMENSIONALE

DATENMODELLE &ANALYSE MITTELS OLAP

Elemente des multidimensionalen Datenmodells (1):

• Dimensionen

• Über Kenngrößen existieren verschiedeneBetrachtungsperspektiven, die als

Dimensionen bezeichnet werdenZeit

Geographie

Produkt

Umsatz

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 79

Elemente des multidimensionalen Datenmodells (2) :

2. Würfel

• Grundlage der multidimensionalen Analyse

• seine Kanten werden von den Dimensionen aufgespannt

Zeit

Geographie

JahrQuartal

TagMonat

Land

RegionBezirk

StadtFiliale

P.Kategorie

P.Familie

P.Gruppe

P.Artikel

Prod

ukt

Verkäufe

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 80

Datenanalyse mittels OLAP

• Pivotierung

• Drehen des Würfels durch Vertauschen der Dimensionen um

seine Achsen

• Roll-up, Drill-down und Drill-across

• Beim Roll-up werden die Daten immer stärker aggregiert

• Drill-down ist die komplementäre Operation zum Roll-up

• Drill-across ist der Wechsel von einem Würfel zum anderen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 81

Datenanalyse mittels OLAP-Grafische Darstellung

Prod

ukt

Geog

raph

ie

Zeit

Quartal

Monate

Zeit

Geogr

aphi

e

Prod

ukt

Verkäufe

Drill-dow

n Rol

l-up

Drill-across

Geog

raph

ie

Zeit

QuartalProd

ukt

Umsatz

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 82

Umsetzung des multidimensionalenDatenmodells

• Fragestellung:• Wie kann das MDD auf das Datenmodell des

Datenbanksystems abgebildet werden?

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 83

Möglichkeiten und Aspekte

• Möglichkeiten:• Umsetzung auf relationales Datenmodell• Umsetzung direkt auf multidimensionale

Speicherstrukturen

• Aspekte• Speicherung• Anfrageformulierung bzw. -ausführung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 84

Relationale Speicherung: Faktentabelle

Produkt

Geographie

Zeit

03.01.2000

München

Nürnber

g

02.01.2000Lavamat S

Duett

Artikel Filiale Tag Verkäufe

• Spalten: Dimensionen, Kennzahlen

• Tupel: Zellen des Würfels

• Umsetzung des Datenwürfels ohne Klassifikationshierarchien

3

Duett München 03.01.00 3

7Duett Nürnberg 03.01.00 7

2

Lavamat S München 02.01.00 2

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 85

Snowflake-Schema

Eigenschaften:

• eigene Tabelle für jede Klassifikationsstufe

• eine Fakttabelle

• Darstellung der Hierarchie über Fremdschlüssel in den Tabellen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 86

Beispiel: Snowflake-Schema

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Artikel_IDTag_IDFilial_ID

VerkäufeUmsatz

Artikel_IDTag_IDFilial_ID

VerkäufeUmsatz

Verkauf

Artikel_IDArtikelnameBezeichnungMarkePackungstypProdgruppe_ID...

Artikel_IDArtikelnameBezeichnungMarkePackungstypProdgruppe_ID...

Artikel

Filial_IDBezeichnungStadt_ID

Filial_IDBezeichnungStadt_ID

Filiale

Tag_IDBezeichnungMonat_IDWoche_ID

Tag_IDBezeichnungMonat_IDWoche_ID

Tag

1

1

1

n

n

n

ProdKat_IDBezeichnung

ProdKat_IDBezeichnung

Produktkategorie

Region_IDBezeichnungLand_ID

Region_IDBezeichnungLand_ID

Region

Jahr_IDJahr

Jahr_IDJahr

Jahr1

n

1

1

1

n

n

nProdgruppe_IDBezeichnungProdKat_ID

Prodgruppe_IDBezeichnungProdKat_ID

Produktgruppe

Stadt_IDBezeichnungRegion_ID

Stadt_IDBezeichnungRegion_ID

Stadt

Monat_IDBezeichnungJahr_ID

Monat_IDBezeichnungJahr_ID

Monat

Woche_IDBezeichnungJahr_ID

Woche_IDBezeichnungJahr_ID

Woche

1

1

1

1

n

n

n

n

Land_IDBezeichnung

Land_IDBezeichnung

Land

1

n

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 87

Star-Schema

Eigenschaften:• eine Dimensionstabelle für jede Dimension• eine Faktentabelle

Ø Ziel: schnellere Anfragebearbeitung

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 88

Beispiel: Star-Schema

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Produkt_IDZeit_IDGeo_IDVerkäufeUmsatz

Produkt_IDZeit_IDGeo_IDVerkäufeUmsatz

Verkauf

Zeit_IDTagWocheMonatQuartalJahr

Zeit_IDTagWocheMonatQuartalJahr

Zeit

Produkt_IDArtikelProduktgruppeProduktfamilieProduktkategorieBezeichnungMarkePackungstyp...

Produkt_IDArtikelProduktgruppeProduktfamilieProduktkategorieBezeichnungMarkePackungstyp...

Produkt

Geo_IDFilialeStadtBezirkRegionLand...

Geo_IDFilialeStadtBezirkRegionLand...

Geographie

1

1

1

nn

n

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 89

Probleme im Star-Schema

• Redundanzen innerhalb der Dimensionstabelle

• Beziehungen zwischen den Klassifikations-

stufen nicht erkennbar

Produkt ID Artikel ... Produktgruppe Produktfamilie Produktkategorie ...1235 Lavamat S ... Waschmaschinen Waschgeräte Weiße Ware ...1236 Duett ... Waschmaschinen Waschgeräte Weiße Ware ...1237 Novotronic ... Trockner Waschgeräte Weiße Ware ...1238 Vento 500 ... Trockner Waschgeräte Weiße Ware ...

... ... ... ... ... ... ...

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 90

Mischformen

Entscheidungskriterien:

• Änderungshäufigkeit der Dimensionen

• Anzahl der Klassifikationsstufen einer Dimension

• Anzahl der Dimensionselemente

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 91

Darstellung vonKlassifikationshierarchien (1)

• Horizontal: Hierarchien als Spalten der Dimensionstabelle

Produkt ID Artikel ... Produktgruppe Produktfamilie Produktkategorie ...1235 Lavamat S ... Waschmaschinen Waschgeräte Weiße Ware ...1236 Duett ... Waschmaschinen Waschgeräte Weiße Ware ...1237 Novotronic ... Trockner Waschgeräte Weiße Ware ...1238 Vento 500 ... Trockner Waschgeräte Weiße Ware ...

... ... ... ... ... ... ...

• Vorteil:

ü Einschränkungen auf höherer Granularität ohne Join

• Nachteil:

ü Duplikatelimination bei Anfragen in bestimmten Stufen

ü Schemaänderung bei Hinzufügen neuer StufenEinleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 92

Darstellung vonKlassifikationshierarchien (2)

• Vorteil:ü flexible Änderung am

Klassifikationsschemaüeinfache Behandlung

vorberechneter Aggregate

• Nachteil:üAnfragen zwischen

höheren Granularitätenè Self-Join

Dimensions_ID Eltern_IDLavamatS WaschmaschinenDuett WaschmaschinenNovotronic TrocknerVento 500 Trockner... ...Waschmaschinen WaschgeräteTrockner Waschgeräte... ...Waschgeräte Weiße Ware... ...

• Vertikal (Rekursiv): Dimensionstabelle mit Attributen:• Dimensions_ID• Eltern_ID

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 93

Darstellung vonKlassifikationshierarchien (3)

• Kombiniert: Verbindung beider Strategien• Klassifikationsstufen als Spalten• Tupel auch Knoten höherer Hierarchieebenen• zusätzliches Attribut Stufe

Dimensions_ID Stufe1_ID Stufe2_ID Stufe3_ID StufeLavamatS Waschmaschinen Waschgeräte Weiße Ware 0Duett Waschmaschinen Waschgeräte Weiße Ware 0Novotronic Trockner Waschgeräte Weiße Ware 0Vento 500 Trockner Waschgeräte Weiße Ware 0... ... ... ... ...Waschmaschinen Waschgeräte Weiße Ware NULL 1Trockner Waschgeräte Weiße Ware NULL 1... ... ... ... ...Waschgeräte Weiße Ware NULL NULL 2... ... ... ... ...

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 94

Vermeidung Semantikverluste

• Semantikverlust bei relationaler Abbildung:• Faktentabelle: Attribute KenngrößeçèDimension• Dimensionstabelle: Attribute HierarchieçèBeschreibung• Aufbau der Dimension (Drill-Pfade)

• Lösung:• Erweiterung um Metadaten-Tabellen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 95

Umsetzung multidimensionaler Anfragen

• meist Aggregatanfragen

• Bsp.:– Wieviele Artikel der Produktfamilie Waschgeräte wurden 2000 pro Monat in den

unterschiedlichen Regionen verkauft?

SELECTGeographie.Region, Zeit.Monat, SUM(Verkäufe)

FROMVerkauf, Zeit, Produkt, Geographie

WHEREVerkauf.Produkt_ID = Produkt.Produkt_ID ANDVerkauf.Zeit_ID = Zeit.Zeit_ID ANDVerkauf.Geo_ID = Geographie.Geo_ID ANDProdukt.Produktfamilie = „Waschgeräte“ ANDZeit.Jahr = 2000 ANDGeographie.Land = „Deutschland“

GROUP BYGeographie.Region,Zeit.Monat

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 96

Metadaten

• Fragestellung:• Welche Informationen werden benötigt, um ein Data

Warehouse System effektiv zu nutzen?

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 97

• Klassische Sicht: Definition der Struktur der Datenbank

• Definition:Unter Metadaten versteht man jede Art von Information, die fürden Entwurf, die Konstruktion und die Benutzung einesInformationssystems benötigt wird.

• Aufgaben:ü Aufbauü Wartungü Administrationü Informationsgewinn

Definition Metadaten

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 98

Beispiele für Metadaten

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 99

Nutzung von Metadaten

• Passiv• Dokumentation der Architektur eines DW

• Aktiv:• Semantische AspekteØ metadatengetriebener Prozess

• Semiaktiv• StrukturinformationenØ Werden zur Überprüfung verwendet

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

• Bechreibende Informationen

• Prozessbezogene Informationen

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 100

Klassifikation von Metadaten

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

MetadatenMetadaten

TypTyp AbstraktionAbstraktion AnwendersichtAnwendersicht HerkunftHerkunft ZeitpunktZeitpunkt

ProzessdatenProzessdaten

PrimärdatenPrimärdaten

logischlogisch

physischphysisch

konzeptuellkonzeptuell Business-Metadaten

Business-Metadaten

TechnischeMetadaten

TechnischeMetadaten

automatisiertautomatisiert

manuellmanuell

ErstellungErstellung

VerwendungVerwendung

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 101

Komponenten im Metadaten-Bereich

• Repositorium:• Speicherung (Ablage) und Bereitstellung der Metadaten

• Metadatenmanager:• Steuerung der Metadatenverwaltung• Schemaverwaltung aller Metadaten

RepositoriumRepositoriumMetadaten-manager

Metadaten-manager

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

KontrollflussDatenfluss

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 102

Repositorium: Ziele

• Minimierung des Aufwandes für Aufbau undBetrieb eines DW

• Gewährleistung eines optimalen

Informationsgewinns

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 103

Repositorium: Architekturalternativen

Zentral Verteilt

FöderiertCentral

Repository

Tool A Tool B Tool C

LocalRepository

Tool A

LocalRepository

Tool C

LocalRepository

Tool B

SharedRepository

LocalRepository

Tool C

LocalRepository

Tool B

LocalRepository

Tool A

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 104

Metadatenmanagement: Standardisierung

• Bemühungen um einheitliches Format zur Repräsentation undzum Austausch von Metadaten

• Open Information Model (OIM):• Ziel: Unterstützung der Tool-Interoperabilität verschiedener

Technologien und Unternehmen

• Comon Warehouse Model (CWM):• Ziel: Unterstützung des Metadatenaustausches

spezifisch in Data Warehouse-Umgebungen

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 105

UnifiedModelingLanguage

UnifiedModelingLanguage

Standardisierung: OIM

A BB ist abh. von A

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

Database andWarehousing

Model

Database andWarehousing

Model

Object andComponent

Model

Object andComponent

Model

Analysis andDesignModel

Analysis andDesignModel

KnowledgeManagement

Model

KnowledgeManagement

Model

BusinessEngineering

Model

BusinessEngineering

Model

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 106

CWMFoundation

Model

CWMFoundation

Model

Standardisierung: CWM

A BB ist abh. von A

Einleitung Referenzarchitektur Phasen des Data Warehousing Multidimensionales Datenmodell Metadaten

RecordOriented

Model

RecordOrientedModel

RelationalModel

RelationalModel

WarehouseDeployment

Model

WarehouseDeployment

Model

XMLModel

XMLModel

TransformationModel

TransformationModel

MDDBModel

MDDBModel

WarehouseOperation

Model

WarehouseOperation

Model

WarehouseProcessModel

WarehouseProcessModel

OLAPModel

OLAPModel

© 2001 Sven Dammann, Jens Dietrich, Michael Schmidt, Marko Schopp, MLU Halle-Wittenberg 107

Zusammenfassung

• Integration auf technischer Ebene (Datenintegration)

• Ziel eines DWS:– Analyse von Unternehmensdaten zur Entscheidungs-

unterstützung

• Datenbeschaffungsprozess (Extraktion, Transformation, Laden)

• Analyseprozess (Data Access, Data Mining, OLAP)

• Modell: Multidimensionales Datenmodell

• Metadaten zur effektiven Informationsverarbeitung der Daten

des DW