24
00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung Matthias Ansorg FH Gießen-Friedberg Seminarvortrag 2004-06-02

00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

Embed Size (px)

Citation preview

Page 1: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Multidimensionale Datenstrukturen -semantische und logische Modellierung

Teilvortrag: logische Modellierung

Matthias Ansorg

FH Gießen-FriedbergSeminarvortrag 2004-06-02

Page 2: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Inhalt

Einführung

Vergleichende Darstellung der logischen Modelle

Schlussgedanken

Page 3: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Einführung :: Inhalt

EinführungEinordnung logischer Modelle

Definitionen zu multidim. Datenstrukturen

Page 4: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Einführung ::Einordnung logischer Modelle (1)

Datenabstraktion bei OLTP und Data Warehouse

Sichten

konzeptionelle Ebene

logische Ebene

physische Ebene

Page 5: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Einführung ::Einordnung logischer Modelle (2)

Aufgabe logischer Modellierung:Abbildung des konzeptionellen Schemas für das Ziel-DBVS

Berücksichtigung des Datenmodells des Ziel-DBVS

Verlustfreie Abbildung der Semantik

Besonderheiten bei multidim. Modellenoptimiert für Endbenutzer

optimiert auf effiziente OLAP-Abfragen

Page 6: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Dimension: Eine Analysesicht auf Daten; Element des Kontextes von Kennzahlen.

Dimensionsposition: Basisgranular einer Dimension, »Blatt« in der Dimensionshierarchie.

Kennzahl: Quantitative Größe im Dimensionskontext. Eine oder mehrere Kennzahlen bilden den Inhalt einer Würfelzelle.

Fakt: Der Inhalt einer Würfelzelle zusammen mit ihrem Kontext (den Dimensionspositionen, die diese Würfelzelle identifizieren)

Datenwürfel: Eine multidimensionale Matrix, aufgespannt von beliebig vielen Dimensionen. Eine Zelle für jede Kombination von Dimensionspositionen.

Hierarchie: Die Struktur einer Dimension. Sie definiert die möglichen Aggregationen.

Einführung ::Definitionen zu multidim. Datenstrukturen

Page 7: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Inhalt

Vergleichende DarstellungÜberblick

Kriterienkatalog

Einzelne Modelle

Flat Schema

Star Schema

Snowflake Schema

Constellation Schema und Galaxy Schema

Vergleichende Zusammenfassung der Ergebnisse

Page 8: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Überblick (1)

Multidimensionalität im relationalen Datenmodell

Grundlage aller logischen Modelle

Dimension analog Attribut:Attribute einer Dimension spannen einen multidimensionalen Raum auf

Kennzahl analog Attribut:Attribut als Information, die mit einem Punkt im multidimensionalen Raum assoziiert ist.

Page 9: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Überblick (2)

Unterschiede:● Normalisierungsgra

d● Aggregationen?● künstliche

Primärschlüssel?● Anzahl Datenwürfel● Wiederverwendung

von Dimensionen

Page 10: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Kriterienkatalog (1)

Verständlichkeit für Endbenutzer»de facto«-Anforderung

Unterschied zum Entwurf operativer Datenbanken

Effizienz typischer AbfragenOn-Line Analytical Processing

Abbildung für reichhaltige SemantikDimensionen

Hierarchien

Kennzahlen

Aggregationen, Aggregationsverhalten

Page 11: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Kriterienkatalog (2)

Orientierung am ZieldatenbanksystemBeschreibungselemente sollen kompatibel mit dessen Datenmodell sein

Wartbarkeit

Werkzeugunterstützung

Page 12: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Flat Schema

eine einzige Tabelle (»flat«)

Analogie zum Relationenmodell: Dimensionen und Kennzahlen als Attribute

vollständige Denormalisierung (»alle Joins vorberechnet«)

minimale Zahl an Fakttabellen

Problemefehlerhafte Aggregationen möglich

hohe Elementkomplexität

Page 13: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Star Schema (1)

Page 14: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Star Schema (2)

Page 15: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Star Schema (3)

das »beliebteste denormalisierte Schema«

Star Joins nicht mehr vorberechnetDimensionstabellen und Fakttabellen

verständlicher durch diese Konzepttrennung

fehlende SemantikDimensionshierarchien nur implizit

Fakttabellenhierarchien nicht modelliert

Page 16: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Snowflake Schema (1)

ein Star Schema mit expliziten Dimensionshierarchien durch normalisierte Dimensionstabellen

zusätzliche Joins (deshalb tw. abgelehnt)

besser verständlich durch explizite Modellierung

Parallelhierarchien möglich

Page 17: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Snowflake Schema (2)

Page 18: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Constellation Schema und Galaxy Schema (1)

Page 19: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Constellation Schema und Galaxy Schema (2)

Möglichkeiten, einzelne Schemata zu konsolidieren

ein einzelnes Schema pro Datenwürfel

Schematypen der einzelnen Schemata beliebig

gemeinsame Dimensionen werden einmal angelegt und gemeinsam genutzt

Fakttabellenhierarchien modellierbar

UnterschiedeConstellation Schema modelliert Fakttabellenhierarchien

Galaxy Schema ist allgemeiner: Fakttabellenbeziehungen nicht zwingend

Page 20: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Einzelne Modelle :: Constellation Schema und Galaxy Schema (3)

Page 21: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Vergleichende Darstellung :: Vergleichende Zusammenfassung der Ergebnisse

Page 22: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Kritische Schlussbemerkung :: Inhalt

Kritische Schlussbemerkung zum Einsatz der logischen Modelle

Wartungsproblematik im Data Warehouse

Wartungsfreiheit durch Data Marts mit Cache-Struktur?

Page 23: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Kritische Schlussbemerkung :: Wartungsproblematik im Data Warehouse

Wartung am logischen Schema ist notwendig:

... wenn sich die Datenstrukturen der Quellschichten ändern.

... wenn sich die aktuellen Analyseanforderungen der Benutzer ändern.

logischer Entwurf manuell, ebenso die Schema-Evolution

keine Lösung:Verzicht auf multidimensionale Datenstrukturen auf logischer Ebene

das allumfassende logische Schema

Page 24: 00:13 Matthias Ansorg FH Gießen-Friedberg1 / 24 Multidimensionale Datenstrukturen - semantische und logische Modellierung Teilvortrag: logische Modellierung

00:13 Matthias Ansorg FH Gießen-Friedberg 1 / 24

Kritische Schlussbemerkung :: Wartungsfreiheit durch Data Marts mit Cache-Struktur?

Ausgangsarchitekturmultidim. logische Schemata nur in Data Marts

Cache-Paradigmaoptimierter Zwischenspeicher (OLAP-Analysen, Endbenutzer-Tauglichkeit)

Transparenz (nur redundante Daten und Datenstrukturen)

mögliche multidimensionale Sichten definiert durch Metadaten im Data Warehouse

Wartung durch Administratoren der OLTP-Datenbanken

benutzerdefinierte Würfelstruktur (per GUI)

manuelle Schema-Evolution unnötig