27
Einsatz von Oracle in der BI Lehre org Bellan Florian Langenbruch Hochschule Ulm Institut f¨ ur Informatik Fachgebiet Betriebliche Informationssysteme 21. April 2010

Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einsatz von Oracle in der BI Lehre

Jorg BellanFlorian Langenbruch

Hochschule UlmInstitut fur Informatik

Fachgebiet Betriebliche Informationssysteme

21. April 2010

Page 2: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Inhalt

1 Einleitung

2 Oracle BI Referenzumgebung

3 Oracle Data Mining

4 Fragen

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 2/27

Page 3: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Ziele

Welche Inhalte sollen vermittelt werden?

Ziele

Erfahrung mit kommerziellen BI Tools und der OracleDatenbank

Veranschaulichen der Zusammenhange beim Aufbau einesDWH und Durchfuhrung von Ubungen

Erkennen von unterschiedlichen Problemen und Losungswegenim Vergleich zu Open Source Losungen wie MySQL undPentaho

Starken und Schwachen von verschiedenen Produktenselbst(!) erkennen

Interesse wecken fur Praktika oder Abschlussarbeiten im BIUmfeld

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 3/27

Page 4: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Aufbau des DWH

Szenario der BI Umgebung

Beteiligte Systeme

Ausgangsbasis ist der kostenlose Dell DVD Store, bestehend ausRohdaten, Shell-Skripten und JSP Web-Frontend.

Online DVD Shop mit Kunden-, Produkt- und Bestelldaten

Das Data Warehouse integriert verschiedene Systeme

DVD Store (OLTP System)DVD Laden (OLTP System)MovieSite (Internetseite mit Informationen uber Filme, derenSchauspieler und verantwortliche Studios)

Gesamtgroße der Datenbank: ca. 10 GB (OLTP, CDWH,Staging Area etc.)

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 4/27

Page 5: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Aufbau des DWH

Zentrale Daten

Woraus besteht die Referenzumgebung?

Aufgebaut wird auf einer Bachelorarbeit aus dem SS 2009Damals noch mit Oracle 11g Release 1 unter Windows 2003 Server32-bit

Virtuelle Maschine auf einem VMWare ESX ServerAMD Opteron (2,5 GHz) mit 2 Kernen, 4 GB Arbeitsspeicher

Betriebssystem: OpenSUSE 11.1 64-bit

Datenbank: Oracle 11g Release 2 Enterprise Edition

ETL: Oracle Warehouse Builder 11gR2

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 5/27

Page 6: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Aufbau des DWH

Die Struktur der Referenzumgebung

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 6/27

Page 7: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Aufbau des DWH

Beispielhaftes Mapping im Oracle Warehouse Builder

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 7/27

Page 8: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Von Oracle 11gR1 auf 11gR2

Update auf das neue Release

Erfahrungen beim Releasewechsel

11gR2 zunachst nicht fur Windows verfugbar, somit Wechselauf Linux notwendig

Einspielen des logischen Backups (Data Pump) ohne Probleme

Schwieriger war das Update beim OWB→ Mappings wurden teilweise als fehlerhaft erkannt→ Mappings von Flat Files mussten neu erstellt werden, auchSynchronisierung schlug fehl

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 8/27

Page 9: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Von Oracle 11gR1 auf 11gR2

Update auf das neue Release

Neu eingerichtete Funktionalitaten

Um dauerhaften Betrieb zu gewahrleisten, war es notwendig furDatensicherheit zu sorgen.

Einrichtung eines wochtenlichen Offline Backups mit Backupund Recovery

Direktzugriff auf Oracle Support mit Oracle EnterpriseManager (erleichtertes Einspielen von Updates undMoglichkeit zur Erstellung von Bug Reports)

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 9/27

Page 10: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Von Oracle 11gR1 auf 11gR2

Erfahrungen

Gewonnene Erkenntnisse

Oracle 11g ist ein umfangreiches DBMS → Einarbeitungnotwendig

viele Einstellungsmoglichkeiten und hohes Maß an Kontrollemoglich

spezielle Features erleichtern die Entwicklung eines DWH, z.B.Change Data Capture (CDC)

sehr gute Performance, Erstellen des CDWH dauert nurwenige Minuten

Oracle stellt diverse Tools bereit, Auswahl ist nicht einfach

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 10/27

Page 11: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Ausblick und weitere Vorhaben

Wie geht es weiter?

Ideen

MicroStrategy BI Plattform fur Reporting und OLAP

Moglichkeiten zum Einsatz fur Mobile BI vorhanden

Untersuchung von Analytic Workspaces: Performancevorteilebei OLAP oder Data Mining?

Entwicklung eines Wahlfachs, welches die Konzepte derOracle Datenbank und der BI Software vermittelt und einenVergleich zu Open Source Losungen bietet

Verwendung der Referenzumgebung, um Inhalte derVorlesungen ”Data Warehousing” (Bachelor) und”Informationsintegration” (Master) zu veranschaulichen

Oracle BPM Suite 10g Evaluation im Rahmen eines Seminarsim Masterstudium

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 11/27

Page 12: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Inhalt

1 Einleitung

2 Oracle BI Referenzumgebung

3 Oracle Data Mining

4 Fragen

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 12/27

Page 13: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Data Mining

Data Mining [1/2]

Abgrenzung zu Reporting und OLAP

Data Mining ist ein Prozess zur Analyse von großen Datenmengenmit automatischen und halbautomatischen Methoden, umaussagefahige Muster und Regeln zu finden.

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 13/27

Page 14: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Data Mining

Data Mining [2/2]

Warum Data Mining?

Datenmenge zu groß fur klassische Datenanalyse

Hohe Anzahl von Tabellenspalten

Interessante Fragestellungen zur Unternehmensfuhrungkonnen nicht direkt abgeleitet werden

Prognosen fur die Zukunft ermoglichen

Nutzen von Data Mining

Neues Wissen aus vorhandenen Daten

Bessere Entscheidungsgrundlage

Fur Unternehmen −→ Wettbewerbsvorteile

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 14/27

Page 15: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Data Mining

Prozess Modell fur Data Mining

CRISP-DM

CRoss Industry Standard Process for Data Mining

Vorgehens-Modell in mehreren Teilschritten

Figure: Abb. 1: CRISP-DM Prozess-Modell [http://www.crisp-dm.org/Process]Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 15/27

Page 16: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Oracle Data Mining

Oracle Data Mining

Allgemeines

Data Mining seit der Version 9iR2 moglich(Enterprise Edition)

Data Mining mit In-Database Ansatz

In-Database Data Mining: in Anlehnung an Berger, C., Oracle White PaperOracle Data Mining 11g Release 2 - Competing on In-Database Analytics, 2010

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 16/27

Page 17: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Oracle Data Mining

Oracle Data Mining

Oracle Data Miner

Data Miner seit Oracle 10gR1 verfugbar

Java GUI

Automatische Generierung von PL/SQL-Code

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 17/27

Page 18: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Oracle Data Mining in der Hochschule Ulm

Beispielprojekt Data Mining Cup 2009

Aufgabenstellung Data Mining Cup 2009

Aufgabe aus dem Bereich des Buchgroßhandels

Daten der Libri GmbH

Trainings- und Vorhersagedaten

Ziel

Moglichst genaue Voraussage zu den Abverkaufszahlen von achtBuchtiteln in 2418 verschiedenen Verkaufsstellen

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 18/27

Page 19: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Erfahrungsbericht

Daten Import

Oracle Data Miner

SQL Loader der Datenbank wird verwendet

Delimiter wahlbar

Datenvorschau

SQL Loader der Datenbank wird benutzt↪→ als Clientanwendung unpraktikabel

SQL Developer

Unterstutzt nur CSV-Dateien

Delimiter nicht einstellbar −→ Komma wird vorausgesetzt

Als Clientanwendung praktikabler

−→ Auch andere Tools verwenden

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 19/27

Page 20: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Erfahrungsbericht

Daten Import - Tabellenlimit

Problem

Tabellenlimit von max. 1000 Spalten

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 20/27

Page 21: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Erfahrungsbericht

Multi Record Data Format

1

−→ Multi Record Data Format Ansatz durch Oracle Dokumentation beschrieben

−→ Transformation von Single Record zum Multi Record fehlt in der Dokumentation!

1siehe http://download.oracle.com/docs/html/B10698_01/2data.htm#1005685

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 21/27

Page 22: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Erfahrungsbericht

Weitere Schritte im CRISP-DM

Unterstutzung durch Oracle Data Miner in den Phasen DataUnderstanding und Data Preparation

Data Understanding

Statistische Werte (Min, Max, Average, Variance,...)

Histogramm

Data Preparation

Behandlung von fehlenden Werten

Ausreißerbehandlung

Normalisierung

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 22/27

Page 23: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Erfahrungsbericht

Weitere Schritte im CRISP-DM - Modeling

Unterstutzung des Multi Record Data Format im Oracle DataMiner

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 23/27

Page 24: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Erfahrungsbericht

Weitere Schritte im CRISP-DM - Fehler in GLM

Fehler bei der Modellierung mit der Data Mining MethodeGLM (Generalized Linear Model Regression)

Fehler datenunabhangig

Fehler an Oracle Support gemeldet

Losung des Fehlers nach mehreren Iterationen

Ergebnis nach Releasewechsel zu 11g R2

Vorhersage des Buchtitels T1 fur 1000 Buchladen

Absolute Abweichung vom Soll = 25

Statistisch nicht aussagekraftig!

Bietet aber eine gute Ausgangsbasis zur weiteren Bearbeitung

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 24/27

Page 25: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Erfahrungsbericht

Erfahrungen

Gewonnene Erkentnisse

Eine direkte Anbindung an Oracle BI-Tools ist durch denIn-Database Ansatz moglich.

Bei Daten mit mehr als 1000 Attributen bietet Oracle dasMulti Record Data Format an, jedoch wird eineTransformation in dieses Tabellenformat nicht unterstutzt.

Die Behebung von Fehlern ist durch die Hilfe des personlichenSupports moglich.

Die Losung eines Fehlers kann auch mit Hilfe des Supportseinige Zeit in Anspruch nehmen.

Der Oracle Data Miner bietet nur eingeschrankteDaten-Visualisierungsmoglichkeiten.

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 25/27

Page 26: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Erfahrungsbericht

Wie geht es weiter?

Data Mining Cup 2010

Umsatzmaximierung durch intelligentes Couponing

Anhand der vorhandenen Merkmale der Erstbestellung einesKunden wie z.B. Bestellmenge pro Warengruppe ist eineEntscheidung zu treffen ob dem Kunden ein Gutschein inHohe von 5,00 Euro zugesandt werden soll

Es sollen jene Kunden einen Gutschein erhalten, welche sichnicht von selbst fur eine erneute Bestellung entschiedenhatten.

Herausforderung

−→ Losen des Klassifikationsproblem mit Oracle Data Miningdurch Projektteam im Masterstudiengang Informationssysteme

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 26/27

Page 27: Einsatz von Oracle in der BI Lehre - doag.org · Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen Inhalt 1 Einleitung 2 Oracle BI Referenzumgebung 3 Oracle Data Mining

Einleitung Oracle BI Referenzumgebung Oracle Data Mining Fragen

Fragen

Fragen

Vielen Dank fur Ihre Aufmerksamkeit

Haben Sie noch Fragen?

Jorg Bellan und Florian Langenbruch Einsatz von Oracle in der BI Lehre 27/27