17
Data Warehouse und Data Mining Seminarvortrag zum Thema: Von Christian Hägele gehalten am 30. Januar 2004 Betreuer: Dr. M. Grabert Einführungsseminar Data Mining

Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

  • Upload
    lyxuyen

  • View
    216

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Data Warehouse und Data Mining

Seminarvortrag zum Thema:

VonChristian Hägele

gehalten am 30. Januar 2004

Betreuer: Dr. M. Grabert

Einführungsseminar Data Mining

Page 2: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 2Einführung − Problemstellung

Einführung" Unternehmen bekommen eine Unmenge von Daten

aus den unterschiedlichsten Quellen

" Es ist sicherlich auch wichiges Wissen in diesen Daten enthalten

" Dieses Wissen aus der Vielfalt von Daten effektiv zu extrahieren ist ein großes Problem

Page 3: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 3Einführung − Lösungsmöglichkeiten

Lösungsmöglichkeiten" Data Warehouse

� Zum Bereitstellen der Daten

" Online Analytic Processing (OLAP)� Zur Durchführung von Ad−hoc Anfragen in

multidimensionalen Datenmodellen

" Data Mining� Zum Aufdecken von Zusammenhängen auf Grundlage der

zugrunde liegenden Daten

Page 4: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

ETL

DataWarehouse

Data Mining

OLAP

Data Marts

OperativeSysteme

ExterneQuellen

ETL − Prozess Datenspeicher Analysetools

Christian Hägele30. Januar 2004

Universität Ulm

Seite 4Einführung − Grafischer Überblick

Page 5: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 5Data Warehouse

Data Warehouse" Was ist ein DW?

� Zentraler Datenpool

" Warum DW? Was sind die Vorteile gegenüber den operativen Systemen?

� DW ist optimiert für die Datenanalyse und Reporting

� DW hat auch historische Daten gespeichert (read−only)

� DW hat alle Daten zentral, aufbereitet, bereinigt und im gleichen Format gespeichert

Page 6: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 6Data Warehouse − Data Marts

Data Marts" Was sind Data Marts?

� Data Marts sind „kleine“ Data Warehouses, die nur einen Teil des Unternehmens erfassen

" Warum Data Marts?

� Passen unter Umständen besser in die unternehmensinterne IT−Struktur

� Schneller zu erstellen als ein „großes“ DW / Performance

E T L

D a taW a r e h o u s e

D a ta M in in g

O L A P

D a ta M a r t s

O p e r a t iv eS y s te m e

E x t e r n eQ u e l l e n

E T L − P r o z e s s D a te n s p e ic h e r A n a ly s e t o o ls

Page 7: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 7Data Warehouse − Data Marts

" Unabhängige Data Marts Vorteile:" Entspricht unter

Umständen der vorhanden IT−Struktur besser

" Schneller zu erstellen als direkt ein großes DW

Nachteile:" 2 malige

Datentransformation" Überschneidungen

zwischen den Data Marts kaum zu vermeiden

Page 8: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 8Data Warehouse − Data Marts

" Abhängige Data Marts Vorteile:" Keine

Überschneidungen" Nur eine Daten−

transformation

Nachteile:" In der Praxis nur mit

viel Mehraufwand durchführbar

Page 9: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 9Data Warehouse − Enstehung eines DW

Entstehung eines DW" Planung

� DW sollte von allen Stellen, die später mit dem DW arbeiten möchten, mitgeplant werden

� Insbesondere sollte auch das Management in die Planungen einbezogen werden

� Einbettung in die unternehmensinterne IT−Struktur

� Abhängige oder unabhängige Data Marts

Page 10: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 10Data Warehouse − ETL

Der ETL−Prozess" Die Extraktionsphase (E)

� Extrahieren der Daten aus den operativen Systemen bzw. externen Quellen

" Die Transformationsphase (T)� Alle Daten auf ein einheitliches Format (z.B. CWM)

bringen� Daten bereinigen

" Die Ladephase (L)

ETL

DataWarehouse

Data Mining

OLAP

Data Marts

OperativeSysteme

ExterneQuellen

ETL − Prozess Datenspeicher Analysetools

Page 11: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 11Anwendungen des DW − OLAP

OLAP" Was ist OLAP? (Online Analytic Processing)

� Multidimensionales Analysewerkzeug

" Was hat OLAP mit Data Warehouse zu tun?

� Ein DW ist ideal für die mehrdimensionalen Analysen eines OLAP−Werkzeugs

Page 12: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 12Anwendungen des DW − OLAP − Werkzeuge

" Darstellung als Datenwürfel Beispielanfrage" Wie viele Produkte

der Produktgruppe G wurden in Region 3 im 2. Quartal 2002 verkauft?

Page 13: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 13Anwendungen des DW − OLAP − Werkzeuge

" Roll−Up, Drill−Down und Drill−Across

Page 14: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 14Anwendungen des DW − OLAP − Werkzeuge

" Pivotierung / Rotierung

" Slicing und Dicing

Page 15: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 15Anwendungen des DW − Data Mining

Data Mining" Was ist Data Mining?

� Analysewerkzeug, das Zusammenhänge und Auffälligkeiten innerhalb der Daten aufdeckt

" Was sind die Vorteile des Data Minings gegenüber anderen Analysetools?

� Data Mining findet selbständig Zusammenhänge innerhalb der Daten

Page 16: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

Christian Hägele30. Januar 2004

Universität Ulm

Seite 16Anwendungen des DW − Data Mining

Data Mining" Data Mining vs. OLAP

� OLAP liefert statistische Belege für die Hypothesen eines Anwenders

� Data Mining liefert selbständig neue Zusammenhänge aus den Daten heraus

" Data Mining und DW

� Data Mining innerhalb eines „großen“ DW oder Data Mining innerhalb der vielen „kleinen“ Data Marts

Page 17: Einführungsseminar Data Mining Seminarvortrag zum … · Christian Hägele 30. Januar 2004 Universität Ulm Einführung − Lösungsmöglichkeiten Seite 3 Lösungsmöglichkeiten

ETL

DataWarehouse

Data Mining

OLAP

Data Marts

OperativeSysteme

ExterneQuellen

ETL − Prozess Datenspeicher Analysetools

Christian Hägele30. Januar 2004

Universität Ulm

Seite 17Fazit − Ende