Themenblock: Data Warehousing II · • Nutzen multidimensionale Struktur der Daten • Erlauben...

Preview:

Citation preview

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Themenblock: Data Warehousing II

Praktikum:Data Warehousing und

Data Mining

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 2

Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 3

Pivotieren

Geographie

Produkt

Zeit

Geographie

Produkt

Zeit

Geographie

Produkt

Zeit

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 4

Roll-up und Drill-down

Geographie

Produkt

Februar

Geographie

Produkt

1. QuartalJanuar

März

2. Quartal

3. Quartal

2

4

3

21

33

12

29

455

11 36 107

18

15

25

51

58

22

Roll-up

Drill-down

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 5

Slicing und Dicing

Produkt

Geographie

Produkt

Zeit Zeit

Geographie

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 6

Zusammenfassung: multidim. Operatoren• Nutzen multidimensionale Struktur der Daten• Erlauben einfache Modifikation von Anfragen

• …zu inhaltlich ähnlichen Anfragen• …zu strukturell ähnlichen Anfragen

• Sind auf die Fragestellungen im Data Warehouse zugeschnitten

• Ergänzen bisher bekannte Operatoren

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 7

Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 8

Cognos• Ermöglicht Erstellen von

• Ad-hoc-Anfragen (Query Studio)• Berichten (Report Studio)• Multidimensionalen Anfragen (Analysis Studio)

• Backend• Data Cube• Relationale Daten

• Anmeldung• Internet-Explorer• URL: http://i40virt01.ipd.uni-karlsruhe.de/cognos8• Benutzername: <Benutzername>• Passwort: <Passwort>

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 9

Cognos - Startbildschirm

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 10

QueryStudio vs. ReportStudio• QueryStudio (für einfache Anfrage)

• „In Echtzeit“• Visuell

• ReportStudio (für komplexe Berichte)• Visuell• Ergebnisgenerierung auf Befehl• Bedingte Variablen• Dynamische Berichte• Layout individueller anpassbar

• AnalysisStudio (für multidimensionale Sicht)• „In Echtzeit“• Visuell

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 11

Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 12

ReportStudio

• Erstellen komplexer Berichte• vielfältige Ausgabe- und Darstellungsoptionen• Parameterabfrage bei Anfrageaufruf• Relationale Sicht auf die Daten

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 13

Aufbau

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 14

Grundlegende Berichtsstruktur• Layout

• Menge von Seiten• Bestimmt Aussehen und Formatierung eines Berichts

• Seiten• Container für Objekte• Kopf/Fußzeile

• Objekte• Eigentliche Informationen• Typen

• Listen• Pivottabellen• Diagramme

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 15

Grundlegende Berichtsstruktur• Abfragen

• Auf Basis „relationaler“ Anfragesprachen• Bilden Grundlage für Berichte

• Vorgehen Berichterstellung• Datenquelle (Package) angeben• Berichtsvorlage auswählen• Abfrageelemente hinzufügen• Speichern und ausführen des Berichts

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 16

Abfragen erstellen• Vorgehen

• Quelldaten wählen• Daten anpassen

• Aggregate berechnen• Daten filtern• Daten sortieren

• Visualisierung wählen• Ergebnis speichern

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 17

Daten einfügen• Baumstruktur

• Enthält Zeichenketten• Enthält Werte• Oder Sonstiges

• Einfache Anfragen stellen• „Drag and drop“

• Baumelemente auf Arbeitsfläche• Elemente auf Arbeitsfläche verschieben

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 18

Menü - Daten bearbeiten• Anwendung gängiger SQL-Anweisungen

• Filtern• Sortieren• Aggregate berechnen

• Vorgehen• Daten im Arbeitsbereich markieren• Funktion anklicken• Dialog befolgen

• Hinweis:Die Funktionen in der Shortcutleiste sind nicht mit den Befehlen hier identisch!

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 19

Menü - Berechnete Attribute• Berechnung neuer

Attribute

• Unterstützte Funktionen• Grundrechenarten• Runden• Abrunden• Quadratwurzel• usw.

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 20

Menü - Filter• Cognos erkennt,

ob Attribut • kategorisch

• Filter auf Menge von Attributwerten

• …oder numerisch• Filter auf Wertebereich

• Optional • Ausnahmebehandlung bei fehlenden Werten

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 21

Menü - Sortieren• Sortieren nach

mehreren Attributen• Sortierung von links

nach rechts

• Modi• Einmaliges Anklicken:

aufsteigende Sortierung• Zweimaliges Anklicken:

absteigende Sortierung• Dreimaliges Anklicken:

Aufhebung der Sortierung

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 22

Menü - Aggregatfunktion• Aggregate über Attribute

• Wird automatisch eingeblendet

• Modi• Diverse Aggregate

• Summe• Anzahl• Durchschnitt• Maximum• Minimum

• Ausblenden

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 23

Menü – Struktur ändern• Änderung der Darstellungsweise

• Gruppieren / Gruppierung aufheben• Pivotieren• Tabelle gemäß eines Attribut

unterteilen• Liste in Kreuztabelle umwandeln

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 24

Menü – Gruppieren

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 25

Menü –Pivottabelle erstellen

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 26

Menü –Pivotieren

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 27

Menü – Abschnitte erstellen

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 28

Einfügbare Objekte – Diagramm

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 29

Report Studio Basiswissen I• Seiten-Explorer

• Verwaltung Berichtsseiten • Erstellen• Anzeigen• Manipulieren• Neue hinzufügen

• Dient• Strukturierung• graphischer Aufbereitung

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 30

Report Studio Basiswissen II• Abfragen-Explorer

• Abfragen• Erstellen• Anzeigen• Ändern

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 31

Report Studio Basiswissen III• Bedingungs-Explorer

• Variablen • Sichten• Verwenden

• Bedingte Formatierung• z.B. Hinterlegung ausgezeichneter

Werte

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 32

Zusätzliche Funktionen vgl. mit Query Studio

• Automatische Anpassung

• Bedingte Formatierung

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 33

Bericht mit Eingabeparametern

• Vorgehen• Entsprechendes Attribut

markieren• Eingabeaufforderungsseite

erstellen anklicken• Seite über Seiten-Explorer

öffnen• Einstellungen über

Eigenschaften-Dialog verfeinern

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 34

Bedingte Formatierung• Vorgehen

• Im Bedingungsexplorer auf Variablen klicken

• Name eingeben und Typ boolsch auswählen

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 35

Bedingte Formatierung• Ausdrucksdefinition

eingeben• im Bedingungs-Explorer

„neue Variable“ „ja“ auswählen (um festzulegen, was passiert, wenn die Bedingung erfüllt ist)

• Bedingter Stil: Variable auswählen

• Hintergrundfarbe wählen

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 36

Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

AnalysisStudio – Aufbau

Praktikum Data Warehousing und Mining 37

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Sicht auf die Daten• Blättern in der

Hierarchie möglich

• Ähnlich MDX Tools in SQL Server

• Unterscheidung zwischen Fakten und Dimensionen

Praktikum Data Warehousing und Mining 38

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Multidimensionale Operationen• Rechtsklick auf Spalten

bzw. Zeilennamen

• Kontextmenü erlaubt • Drilldown und Drillup• Slicing und Dicing

(über Ausschließen)

• Pivotieren analog ReportStudio

• Entsprechendes Icon im Menü anklicken

Praktikum Data Warehousing und Mining 39

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 40

Agenda• Wiederholung: multidimensionale Operatoren• Cognos• Cognos Report Studio• Cognos Analysis Studio• Hinweise zur Bearbeitung

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 41

Hinweise zur Bearbeitung• Erreichen der Tools

• Internet Explorer• URL: http://i40virt01.ipd.uni-karlsruhe.de/cognos8

• ReportStudio bevorzugt nutzen• Performance!

• Daten des Data Cubes aus• Package: DWM Relational / DWM Multidimensional

• Ergebnis in „Eigenem Ordner“ speichern

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Lösungen last.fm Übungsblatt:Preprocessing

Lösungen nachMatthias Huber

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Identifikation relevanter Künstler I

Praktikum Data Warehousing und Mining 43

• Idee:Ausblenden von Künstlern, …… die von wenigen Nutzern gehört werden

• Motivation:selten gehörte Künstler sind uninteressant(Ausreißer, …)

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Identifikation relevanter Künstler II• Idee:

Kombination der relevanten Künstler mit Tags

• Motivation:nur so können Tags erhalten bleiben

• Ergebnis: Liste aller relevanten Künstler + Tags

Praktikum Data Warehousing und Mining 44

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Anzeigen nur relevanter Künstler bei Nutzern• Idee:

Auch Nutzerdaten sollten nur wichtige Künstler enthalten

Praktikum Data Warehousing und Mining 45

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Lösungen last.fm Übungsblatt:Aufgabe 1

Lösungen nachMatthias Huber

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

• Bisher:Ausreißer eliminiert

• Idee:Anwenden von k-means

• Ergebnis:GleichgroßeCluster

Identifikation der Cluster

Praktikum Data Warehousing und Mining 47

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Identifikation der Tags• Bisher:

10 Cluster bestimmt,mit Band-Häufigkeiten pro Cluster

• Idee:Identifikation der häufigsten Tags

Praktikum Data Warehousing und Mining 48

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Unsere Erwartungen• Ergebnisse ähnlich zu bisherigen Folien

• Identifikation sinnvoller Clusterzahlen mit alternativem (hierarchischem) Clustering

• Sinnvolle Benennung der Cluster

• Text in managerfreundlicher Version

Praktikum Data Warehousing und Mining 49

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Häufige Fehler / Schwächen• Ausreißer nicht eliminiert

• Attribute nicht / unzureichend normiert

• Designentscheidungen nicht diskutiert

• Nicht auf Vorteile / Nachteile unterschiedlicher Lösungen eingegangen

Praktikum Data Warehousing und Mining 50

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Lösungen last.fm Übungsblatt:Aufgabe 2

Lösungen nachMatthias Huber

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Identifikation der häufigsten Künstler• Vorgehen:

Einfache Aggregation undBestimmung der häufigsten Künstler

Praktikum Data Warehousing und Mining 52

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Identifikation von Assoziationsregeln• Bisher:

Identifikation der häufigsten Künstler

• Jetzt:Bestimmen von Assoziationsregeln

Praktikum Data Warehousing und Mining 53

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Beliebteste Künstler• Jetzt:

Bestimmen von Assoziationsregeln(hier: mit minSupp = 10%, minConf = 65%)

Praktikum Data Warehousing und Mining 54

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Portishead• Jetzt:

Vorgehen Analog zu beliebtesten Künstlern,aber: mit minSupp = 1%, minConf = 50%(beide geringer)

Praktikum Data Warehousing und Mining 55

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Unsere Erwartungen• Normalisierung der Nutzer

• Identifikation der Assoziationsregeln

• Nutzen unterschiedlicher minConf und minSupp

• Auswahl geeigneter Assoziationsregeln und Begründung

• Vorschläge für das ManagementPraktikum Data Warehousing und Mining 56

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Häufige Fehler / Schwächen• Entscheidungen für das Management nicht

formuliert / begründet

• minConf und minSupp nicht variiert

• minConf zu gering für Cross-Selling

• Keine / unbegründete Normalisierung der Nutzer

Praktikum Data Warehousing und Mining 57

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Alternativen• Identifizierung der Cluster mit hohem

Portishead-Anteil

• Formulierung als Klassifikations- oder Regressionsproblem (auf Basis gehörter Musikrichtungen oder Bands)

• Einbeziehung des bisherigen Portishead-Hörverhaltens ist sinnvoll

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Ergebnisse Aufgabe DM II

Praktikum Data Warehousing und Mining 59

DMC DM IIVorname Name Vortrag Top-X Einzel Gruppe

Michael Knoll 1,5 0,20 6,00 6,00 2

Roland Görlitz 1,5 0,17 6,00 6,00 2

Hristina Taneva 1 0,23 6,00 6,00 1,5

Grigor Gyorev 1 0,24 6,00 6,00 1,5

Kirstina Uzunova 1 0,22 6,00 6,00 1,5

Christopher Oßner 1,5 0,21 6,00 5,00 2

Robert Jungblut 1,5 0,15 6,00 5,00 2

Fabian Lehn 1,5 0,46 4,00 5,00 2

Dan Dragan 1,5 0,27 5,00 6,00 2

Tilmann Böhme 2 0,32 5,00 5,00 2,5

Matthias Stumpp 1,5 0,28 5,00 6,00 2

Benjamin Kille 1,5 0,19 6,00 6,00 2

Marcel Noe 2 0,29 5,00 5,00 2,5

DMC DM IIVorname Name Vortrag Top-X Einzel Gruppe

Moritz Lapp 2 5,00 2,5

Alexander Turek 1,5 0,43 4,00 6,00 2

Martin Zang 1,5 0,41 4,00 5,00 2

Mirko Wächter 1,5 0,14 6,00 5,00 2

Pierre Weber 1 0,22 6,00 6,00 1,5

Xiajun Feng 1,5 0,45 4,00 5,00 2

Ahmet Göcksel 1,5 0,13 6,00 6,00 2

Mathilde Janin 2 5,00 2,5

Elena Blazheva 1,5 0,33 5,00 5,00 2

Kiril Aleksandrov 1,5 0,33 5,00 5,00 2

Norbert Ottahal 1,5 0,13 6,00 6,00 2

Xiang Lei 1,5 0,31 5,00 6,00 2

Systeme der InformationsverwaltungUniversität Karlsruhe (TH)

Praktikum Data Warehousing und Mining 60

QuellenangabenA. Bauer, H. Günzel: „Data Warehouse

Systeme – Architektur, Entwicklung, Anwendung“, dpunkt.verlag, 2004.

Recommended