47
Sattler / Saake Data-Warehouse-Technologien 1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff „Data Warehouse“ DW-Architektur Benchmarks

Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Embed Size (px)

Citation preview

Page 1: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 1

1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff „Data Warehouse“ DW-Architektur Benchmarks

Page 2: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 2

Szenario: Getränkemarkt

SauflandSWerbung

Umsatz,Portfolio

Page 3: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 3

DB-Schema

Produkt

Kunde

Lieferant

kauft

liefert

Menge

Page 4: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 4

DB-Nutzung Anfragen:

Wie viele Flaschen Cola wurden letzten Monat verkauft?

Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt?

Wer sind unsere Top-Kunden? Von welchem Lieferanten beziehen wir die

meisten Kisten? Probleme

Nutzung externer Quellen (Kundendatenbank, Lieferantendatenbank, …)

Daten mit historischem Bezug

Page 5: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 5

Erweitertes Szenario

Saufland

Saufland

Saufland

Page 6: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 6

DB-Nutzung /2 Anfragen

Verkaufen wir in Ilmenau mehr Bier als in Erfurt?

Wie viel Cola wurde im Sommer in ganz Thüringen verkauft?

Mehr als Wasser? Problem

Anfragen über mehrere Datenbanken

Page 7: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 7

Lösungen Variante 1: „Verteilte DB“

Globale Anfrage über mehrere DBs Sicht mit Union

Nachteil: aufwändige verteilte Anfrageausführung

Variante 2: „Zentrale DB“ Änderungen über einer zentralen DB Nachteil: lange Antwortzeiten im

operativen Betrieb

Page 8: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 8

Data Warehouse-Lösung

Data Warehouse

DB Ilmenau DB Erfurt DB Jena

SauflandS SauflandS SauflandS

Redundante Datenhaltung,Transformierte, vorberechnete Daten

Asynchrone Aktualisierung

Page 9: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 9

Gegenstand der Vorlesung Data Warehouse: Sammlung von

Technologien zur Unterstützung von Entscheidungsprozessen

Herausforderung an Datenbanktechnologien Datenvolumen (effiziente Speicherung und

Verwaltung, Anfragebearbeitung) Datenmodellierung (Zeitbezug, mehrere

Dimensionen) Integration heterogener Datenbestände

Schwerpunkt Datenbanktechniken von Data Warehouses

Page 10: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 10

ÜberblickMonitoring & Administration

Metadaten-Repository

ExterneQuellen

OperativeDatenbanken

Data Marts

Data Warehouse

OLAP-Server

Werkzeuge

Analyse

Query/Reporting

Data Mining

ExtraktionTransformationLaden

Page 11: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 11

Betriebswirtschaftliche Anwendungen Informationsbereitstellung

Daten und Informationen als Grundlage einer erfolgreichen Abwicklung von Geschäftsprozessen (z.B. Kennzahlen)

Anwender: Manager, Abteilungsleiter, Fachkräfte

Formen der Bereitstellung Query-Ansätze: frei definierbare Anfragen

und Berichte Reporting: Zugriff auf vordefinierte Berichte Redaktionell aufbereitete, personalisierte

Informationen

Page 12: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 12

Betriebswirtschaftliche Anwendungen Analyse

Detaillierte Analyse der Daten zur Untersuchung von Abweichungen oder Auffälligkeiten

Anwender: Spezialisten (z.B. Controlling, Marketing)

Planung Unterstützung durch explorative Datenanalyse Aggregrierung von Einzelplänen

Kampagnenmanagement Unterstützung strategischer Kampagnen Kundenanalyse, Risikoanalyse

Page 13: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 13

Wissenschaftliche und Technische Anwendungen Wissenschaftliche Anwendungen

Statistical und Scientific Databases technische Wurzeln des DW

Beispiel: Projekt Earth Observing System (Klima- und Umweltforschung) täglich ca. 1,9 TB meteorologischer Daten Aufbereitung und Analyse (statistisch, Data

Mining) Technische Anwendungen

Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten (z.B. Wasseranalysen)

Page 14: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 14

Einsatzbeispiel Wal-Mart (www.wal-mart.com) Marktführer im amerikanischen

Einzelhandel Unternehmensweites Data Warehouse

Größe: ca. 300 TB (2003) Täglich bis zu 20.000 DW-Anfragen Hoher Detaillierungsgrad (tägliche Auswertung

von Artikelumsätzen, Lagerbestand, Kundenverhalten)

Basis für Warenkorbanalyse, Kundenklassifizierung, ...

Page 15: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 15

Fragestellungen und Aufgaben (Bsp.) Überprüfung des Warensortiments zur

Erkennung von Ladenhütern oder Verkaufsschlagern

Standortanalyse zur Einschätzung der Rentabilität von Niederlassungen

Untersuchung der Wirksamkeit von Marketing-Aktionen

Auswertung von Kundenbefragungen, Reklamationen bzgl. bestimmter Produkte etc.

Analyse des Lagerbestandes Warenkorbanalyse mit Hilfe der Kassenbons

Page 16: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 16

Beispiel einer Anfrage

Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltswaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen ?

Page 17: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 17

Ergebnis (Würfel)

Zeitraum

1999

1998

Summe

Summe

Summe

RegionThüringen

Sachsen-

Anhalt

Produkt

KosmetikElektro

Haushalt

KennzahlUmsatz

Page 18: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 18

Ergebnis (Bericht)Umsatz Kosmetik Elektro Haushalt SUMME

1998 Sachsen-Anhalt 45 123 17 185

Thüringen 43 131 21 195

SUMME 88 254 38 380

1999 Sachsen-Anhalt 47 131 19 197

Thüringen 40 136 20 196

SUMME 87 267 39 393

SUMME 175 521 77 773

Page 19: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 19

Marktentwicklung Marktgröße: Data Warehouse und OLAP (Quelle:

OLAP Report OnLine www.olapreport.com)

0

0,5

1

1,5

2

2,5

3

3,5

1994 1996 1998 2000 2002

Mrd. Euro

Page 20: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 20

Aspekte von Data Warehouses Integration

Vereinigung von Daten aus verschiedenen, meist heterogenen Quellen

Überwindung der Heterogenität auf verschiedenen Ebenen (System, Schema, Daten)

Analyse Bereitstellung der Daten in einer vom Anwender

gewünschten Form (bezogen auf Entscheidungsgebiet)

erfordert Vorauswahl, Zeitbezug, Aggregation

Page 21: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 21

Abgrenzung zu OLTP Klassische operative Informationssysteme

Online Transactional Processing (OLTP) Erfassung und Verwaltung von Daten Verabeitung unter Verantwortung der jeweiligen

Abteilung Transaktionale Verarbeitung: kurze Lese-/

Schreibzugriffe auf wenige Datensätze Data Warehouse

Analyse im Mittelpunkt lange Lesetransaktionen auf vielen Datensätzen Integration, Konsolidierung und Aggregation der

Daten

Page 22: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 22

Abgrenzung zu OLTP: AnfragenAnfrage transaktional analytisch

Fokus Lesen, Schreiben, Modifizieren, Löschen

Lesen, periodisches Hinzufügen

Transaktionsdauer und –typ

kurze Lese-/ Schreibtransaktionen

lange Lesetransaktionen

Anfragestruktur einfach strukturiert komplex

Datenvolumen einer Anfrage

wenige Datensätze viele Datensätze

Datenmodell anfrageflexibel analysebezogen

Page 23: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 23

Abgrenzung zu OLTP: Daten

Daten transaktional analytisch

Datenquellen meist eine mehrere

Eigenschaften nicht abgeleitet, zeitaktuell, autonom, dynamisch

abgeleitet/konsolidiert, nicht zeitaktuell, integriert, stabil

Datenvolumen MByte ... GByte GByte ... TByte

Zugriffe Einzeltupelzugriff Tabellenzugriff

Page 24: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 24

Abgrenzung zu OLTP: Anwender

Anwender transaktional analytisch

Anwendertyp Ein-/Ausgabe durch Angestellte oder Applikationssoftware

Manager, Controller Analyst

Anwenderzahl sehr viele wenige (bis einige hundert)

Antwortzeit ms ... sec sec ... min

Page 25: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 25

Abgrenzung: DBMS-Techniken Parallele Datenbanken

Technik zur Realisierung eines DWH Verteilte Datenbanken

I.d.R. keine redundante Datenhaltung Verteilung als Mittel zur Lastverteilung Keine inhaltliche Integration/Verdichtung

der Daten Föderierte Datenbanken

Höhere Autonomie und Heterogenität Kein spezifischer Analysezweck

Page 26: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 26

Data Warehouse: Begriff

A Data Warehouse is a subject-oriented, integrated, non-volatile, and time variant collection of data in support of managements decisions.

(W.H. Inmon 1996)

Page 27: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 27

Data Warehouse: Charakteristika Fachorientierung (subject-oriented):

Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels

Integrierte Datenbasis (integrated): Verarbeitung von Daten aus mehreren verschiedenen

Datenquellen (intern und extern) Nicht-flüchtige Datenbasis (non-volatile):

stabile, persistente Datenbasis Daten im DW werden nicht mehr entfernt oder geändert

Historische Daten (time-variant): Vergleich der Daten über Zeit möglich (Zeitreihenanalyse) Speicherung über längeren Zeitraum

Page 28: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 28

Weitere Begriffe Data Warehousing

Data-Warehouse-Prozess, d.h. alle Schritte der Datenbeschaffung (Extraktion, Transformation, Laden), des Speicherns und der Analyse

Data Mart externe (Teil-)Sicht auf das Data Warehouse durch Kopieren anwendungsbereichsspezifisch

OLAP (Online Analytical Processing) explorative, interaktive Analyse auf Basis des

konzeptuellen Datenmodells

Page 29: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 29

Trennung operativer und analytischer Systeme

Gründe Antwortzeitverhalten: Analyse auf operativen

Quelldatensystemen schlechte Performance, Langfristige Speicherung der Daten

Zeitreihenanalyse Zugriff auf Daten unabhängig von operativen

Datenquellen (Verfügbarkeit, Integrationsproblematik)

Vereinheitlichung des Datenformats im DW Gewährleistung der Datenqualität im DW

Page 30: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 30

Historie Wurzeln

60er Jahre: Executive Information Systems (EIS) qualitative Informationsversorgung von Entscheidern kleine, verdichtete Extrakte der operativen

Datenbestände Aufbereitung in Form statischer Berichte Mainframe

80er Jahre: Management Information Systems (MIS) meist statische Berichtsgeneratoren Einführung von Hierarchieebenen für Auswertung von

Kennzahlen (Roll-Up, Drill-Down) Client-Server-Architekturen, GUI (Windows, Apple)

Page 31: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 31

Historie 1992: Einführung des Data-Warehouse-Konzeptes

durch W.H. Inmon redundante Haltung von Daten, losgelöst von

Quellsystemen Beschränkung der Daten auf Analysezweck

1993: Definition des Begriffs OLAP durch E.F. Codd Dynamische, multidimensionale Analyse

Weitere Einflussgebiete Verbreitung geschäftsprozeßorientierter

Transaktionssysteme (SAP R/3) Bereitstellung von entscheidungsrelevanten Informationen

Data Mining WWW (Web-enabled Data Warehouse etc.)

Page 32: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 32

Vorlesung: Zielstellungen Vermittlung von Kenntnissen zu

Datenbanktechniken für Aufbau und Implementierung von Data Warehouses

Anwendung bekannter DB-Techniken (siehe Vorlesung „Datenbanken I“) Datenmodellierung, Anfragesprachen und

-verarbeitung DW-spezifische Techniken

multidimensionale Datenmodellierung spezielle Anfragetechniken Indexstrukturen materialisierte Sichten

Page 33: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 33

DW-Architektur Komponenten von DW und deren

Aufgaben Datenbanken

Datenquellen: Herkunftsort der Daten Arbeitsbereich: temporäre Datenbank für

Transformation Data Warehouse: physische Datenbank

für Analyse Repository: Datenbank mit Metadaten

Page 34: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 34

DW-Architektur Komponenten

Data-Warehouse-Manager: zentrale Kontrolle und Steuerung

Monitore: Überwachung der Quellen auf Veränderungen

Extraktoren: Selektion und Transport der Daten aus Quellen in Arbeitsbereich

Transformatoren: Vereinheitlichung und Bereinigung der Daten

Ladekomponenten: Laden der transformierten Daten in das DW

Analysekomponenten: Analyse und Präsentation der Daten

Page 35: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 35

Multidimensionales Datenmodell

Datenmodell zur Unterstützung der Analyse Fakten und Dimensionen Klassifikationsschema Würfel Operationen: Pivotierung, Roll-Up, Drill-Down,

Drill-Across, Slice und Dice Notationen zur konzeptuellen Modellierung Relationale Umsetzung

Star-Schema, Snowflake-Schema Multidimensionale Speicherung

Page 36: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 36

Anfrageverarbeitung und -optimierung

Gruppierung und Aggregation Supergroups, CUBE OLAP-Funktionen aus SQL:1999

Star-Joins Optimierungsaspekte

Histogramme, Sampling Mehrdimensionale Erweiterungen von

Anfragesprachen MDX

Page 37: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 37

Index- und Speicherungsstrukturen

Klassifikation Wiederholung: B-Baum und B*-Baum Mehrdimensionale Indexstrukturen

R-Baum UB-Baum

Bitmap-Index Vergleich Multidimensionale Speicherung

Page 38: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 38

Materialisierte Sichten Materialisierte Sicht (engl. materialized

view): vorab berechneter Ausschnitt aus einer Faktentabelle

Verwendung: Anfrageersetzung generalized projection

Auswahl: Bestimmung der redundant gehaltenen Daten statische vs. dynamische Auswahlverfahren Semantisches Caching

Wartung und Aktualisierung

Page 39: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 39

Metadaten und Datenqualität Metadatenmanagement Metadaten-Repository Standards für Metadaten Aspekte der Datenqualität

Page 40: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 40

OLAP und Data Mining OLAP

Anforderungen OLAP-Operationen OLAP-Werkzeuge

Data-Mining-Technikem Klassifikation, Assoziationsregeln,

Clustering

Page 41: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 41

TPC-Benchmarks Vergleich der Leistungsfähigkeit von

Datenbanken (www.tpc.org) TPC-C: OLTP Benchmark TPC-H: Ad-hoc Decision Support

(variable Anteile) TPC-R: Reporting Decision Support

(feste Anfragen) TPC-W: eCommerce Transaktionsprocessing

Vorgegebene Schemata (Lieferwesen) Schema-, Query- und Datengeneratoren Unterschiedliche DB-Größen

TPC-H: 100 GB - 300 GB - 1 TB - 3 TB

Page 42: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 42

TPC-H: Schema

REGION REGION

NATION

NATION

CUSTOMER

ORDERS

LINEITEMPARTSUPP

SUPPLIER

PART

1

N

1

N

1

N

N1 N1

N

1

N

1

N1

N

1

Page 43: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 43

TPC-H: AnfragenSELECT c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice, SUM(l_quantity)FROM customer, orders, lineitemWHERE o_orderkey IN (SELECT l_orderkey

FROM lineitemGROUP BY l_orderkey HAVING SUM(l_quantity) > :1)

AND c_custkey = o_custkeyAND o_orderkey = l_orderkey

GROUP BY c_name, c_custkey, o_orderkey, o_orderdate, o_totalprice

ORDER BY o_totalprice desc, o_orderdate;

Page 44: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 44

TPC-H: Zahlen (100 GB)

Page 45: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 45

TPC-H: Zahlen (3.000 GB)

Page 46: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 46

Produkte OLAP-Tools/Server

MS Analysis Services, Hyperion, Cognos DW-Erweiterungen für RDBMS

Oracle9i, IBM DB2, MS SQL Server: SQL-Erweiterungen, Indexstrukturen, mat. Sichten, Bulk-Load/Insert, …

ETL-Tools MS Data Transformation Services, …

Page 47: Sattler / SaakeData-Warehouse-Technologien1 1. Einführung Motivation Überblick Anwendungen Abgrenzung Begriff Data Warehouse DW-Architektur Benchmarks

Sattler / Saake Data-Warehouse-Technologien 47

Literatur Lehner: „Datenbanktechnologie für Data-

Warehouse-Systeme“, dpunkt.verlag, 2003 Inmon: „Building the Data Warehouse“,

John Wiley & Sons, 1996 Bauer, Günzel (Hrg.): Data Warehouse –

Architektur, Entwicklung, Anwendung; dpunkt.verlag, 2000

Westerman: „Data Warehousing: Using the Wal-Mart Model“, Morgan Kaufman, 2000

Kurz: Data Warehousing: Enabling Technology; MITP, 1999