EUS SS 2011 - wi.msm.uni-due.de · PDF fileManagementinformationssysteme (MIS) (I) Einkauf Produktion Lager Periodische, verdichtete, ... Data Management Subsystem • Komponenten

Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme 1

Prof. Dr. Peter Chamoni

Sommersemester 2017

EntscheidungsunterstützungssystemeOrganisatorisches

Mercator School of Management

Lehrstuhl für Wirtschaftsinformatik, insb. Business Intelligence


Prof. Dr. Peter Chamoni – Entscheidungsunterstützungssysteme

Organisatorisches

Dozenten: Prof. Dr. Peter Chamoni

Silke Bandyszak

Ansprechpartnerin: Silke Bandyszak

[email protected]

LF 219

Website: http://www.msm.uni-due.de/wi

Download der Unterlagen: Lehre – Lehrveranstaltungen –

Entscheidungsunterstützungssysteme (EUS)

2

Kontakt

mailto:[email protected]

http://www.msm.uni-due.de/wi

https://www.wi.msm.uni-due.de/lehre/lehrveranstaltungen/sommersemester-17/eus-3323/


Organisatorisches

• Die Folien stellen eine Vorlesungsbeilage dar, kein Skript.

• Die Folien sollten mit den in der Vorlesung besprochenen Inhalten ergänzt werden.

• Die angegebene Literatur sollte in Verbindung mit diesem Foliensatz aus der

Veranstaltung durchgearbeitet werden.

3

Vorlesungsunterlagen


Organisatorisches

• Alte Klausuren sind am Lehrstuhl bei Herrn Stefan Krebs, LF 212, erhältlich.

Die alten Klausuren sollen nur Orientierungshilfe sein (kein Fragenkatalog).

• Für die Klausur im Sommersemester 2017 wie auch für die Klausur im Wintersemester

2017/2018 gibt es keine Eingrenzung bzw. Ausgrenzung von Vorlesungsinhalten.

• Die Schwerpunkte, die im Rahmen der Vorlesung gesetzt werden, gelten sowohl für

die Klausur im Sommersemester 2017 wie auch für die Klausur im Wintersemester

2017/2018.

4

Klausur / Klausurvorbereitung


Organisatorisches

5

Zeitplan

25.04.2017 Grundlagen Entscheidungsunterstützungssysteme

02.05.2017 Business Intelligence und Business Analytics I

09.05.2017 Business Intelligence und Business Analytics II

16.05.2017 Reporting

23.05.2017 Dashboards und Visualisierung

30.05.2017 Knowledge Discovery in Databases

20.06.2017 Data Mining Grundlagen und Übung I

27.06.2017 Data Mining Grundlagen und Übung II

04.07.2017 Data Mining Grundlagen und Übung III

11.07.2017 Data Mining Grundlagen und Übung IV

18.07.2017 Data Mining Grundlagen und Übung V

25.07.2017 Zusammenfassung/Wiederholung


Organisatorisches

6

Literatur

• Gluchowski, Peter / Gabriel, Roland / Dittmar, Carsten (2008):

Management Support Systeme und Business Intelligence,

2. Aufl. Berlin: Springer-Verlag.

• Sharda, Ramesh / Delen, Dursun / Turban, Efraim (2014):

Business Intelligence and Analytics: Systems for Decision Support,

10. Aufl. Boston: Pearson.

• Kemper, Hans-Georg / Baars, Henning / Mehanna, Walid (2010):

Business Intelligence – Grundlagen und praktische Anwendungen: eine Einführung in

die IT-basierte Managementunterstützung,

3. Aufl. Wiesbaden: Vieweg+Teubner.



Sommersemester 2017

EntscheidungsunterstützungssystemeGrundlagen Entscheidungsunterstützungssysteme





Gliederung

1 Grundlagen Entscheidungsunterstützungssysteme

8

2 Business Intelligence und Business Analytics

3 Reporting

4 Dashboards und Visualisierung

5 Knowledge Discovery in Databases

6 Data Mining


Gliederung


9

1.1 Managementunterstützungssysteme

1.2 Entscheidungsunterstützungssysteme



• Management Support Systeme

… haben die Aufgabe, die Manager (Führungskräfte und Entscheidungsträger) bei

ihrer Arbeit im Unternehmen zu unterstützen.

• Um eine Konzeption eines Managementunterstützungssystems

aufstellen zu können, sind vorab

- die Managementprozesse zu analysieren und

- Unterstützungsmöglichkeiten durch IuK-Systeme herauszuarbeiten.

10

Grundlagen MSS(I)


Problemstellungsphase

Suchphase

Beurteilungsphase

Entscheidungsphase

Realisierungsphase

Kontrollphase


Managementprozess

11


Interpersonelle

Rolle

Informationsrolle

Entscheiderrolle

1 Vorbild

2 Führer

3 Vermittler

4 Monitor

5 Verkünder

6 Sprecher

Information

erzeugen

verarbeiten/

verteilen

nutzen


Mintzberg’s 10 Management Roles

12

7 Entrepreneur

8 Problemlöser

9 Mittelverteiler

10 Verhandler



13

Klassifikation betrieblicher Informationssysteme

[Hansen, Mendling, Neumann 2015]



14

Managementinformationssysteme (MIS) (I)

Einkauf Produktion Lager

Periodische, verdichtete,

vergangenheitsorientierte

Information MIS



Managementinformationssysteme (MIS) (II)



• Periodische, standardisierte Berichte,

• Verfügbarkeit der relevanten Informationen auf allen Managementebenen,

• Verdichtete, zentralisierte Informationen über alle Geschäftsaktivitäten,

• Größtmögliche Aktualität und Korrektheit der Informationen.

16

MIS-Anforderungen



• Standardberichte: operative Kontrollinstrumente mit kurz- und mittelfristigem

Entscheidungshorizont für das untere und mittlere Management.

• Informationsaufbereitung

- ohne (aufwendige) Modellbildung und

- ohne Anwendung von anspruchsvollen Methoden

(logisch-algorithmische Bearbeitung).

• Kritik: Ersetzung des vorhandenen Informationsdefizits

durch eine Informationsflut

17

Managementinformationssysteme (MIS) (III)

[Gluchowski, Gabriel, Dittmar 2008]



18

Entscheidungsunterstützungssysteme (EUS) (I)


MIS

Modelle zur

Simulation und Optimierung EUS



• Effektive Unterstützung im Planungs- und Entscheidungsprozess

• Ausgeprägte Modell- und Methodenorientierung

• Eigene Datenbank

• Interaktive Nutzung durch Dialogsystem

• Problemstrukturierung, Alternativengenerierung und -bewertung

bei erkanntem Problemlösungsbedarf

• Zur Problemerkennung und Wahrnehmung von Signalen nicht geeignet

19

Entscheidungsunterstützungssysteme (EUS) (II)



20

Führungsinformationssysteme (FIS) (I)


FIS

EUS

MIS

Strategische IS zur individuellen,

zeitnahen Informationsbeschaffung

Komplexitätsreduzierend



• Dialog- und datenorientierte Informationssysteme für das Management

• Ausgeprägte Kommunikationselemente,

• Aktuelle entscheidungsrelevante interne und externe Informationen,

• Intuitiv benutzbare und individuell anpassbare Benutzungsoberflächen.

• Exception Reporting, Key Performance Indicator, Color-Coding

21

Führungsinformationssysteme (FIS) (II)



22

Historische Entwicklung (I)


FIS

EUS

MIS

Führungsinformationssystem

(Executive Information System)

Entscheidungsunterstützungs-

system

(Decision Support System)

Managementinformations-

system

(Management Information System)

1990

1980

1970



23

Historische Entwicklung (II)

MIS

MIS als automatischer

Entscheidungs-

generator

Datenqualität =

Entscheidungsqualität

Informationsvoll-

ständigkeit durch IuK-

Technik

Informationsbedarf

a priori bestimmbar

EUS/DSS

Entscheidungsvor-

bereitung durch

Fachspezialisten

Datenbank-

orientierung

Konzentration auf das

interne Berichtswesen

Komplexe

Entscheidungsmodelle

FIS/EIS

Entscheidungsunter-

stützend

Information auf

Knopfdruck

Konzentration auf

TOP-Management

Interne und externe

Daten werden

einbezogen

DW/OLAP

Entscheidungsunter-

stützend

Vorstrukturiert und

interaktiv

Information for

everybody

Vielfältige

Datenquellen

Vielfältige

Analysemöglichkeiten

Business

Intelligence

E-Intelligence

Strategische

Anwendungen

Analysecockpits

Verknüpfung mit

Knowlegde-

Management

CPM

1970 1980 19901960 2000

Unte

rstü

tzungsniv

eau


Gliederung


24





25

Entscheidungsprozess (nach Simon) (1)

Implementation

Monitoring

Problemlösung

Analyse: „Wo stehen wir?“

„Welche Alternativen gibt es?“

Entscheidung: „Welche Alternative ist die beste?“

Umsetzung: „So machen wir es!“

Kontrolle: „Wie erfolgreich waren wir?“

Signale

Organisation

Intelligence

Design

Choice



Intelligence-Phase

• Scan der Umwelt

• Analyse der Ziele

• Sammlung von Daten

• Problemidentifikation und Kategorisierung des Problems

• Verantwortlichkeiten bzgl. der Problemlösung

Design-Phase

• Entwicklung von alternativen Handlungsoptionen

• Analyse potenzieller Lösungen

• Modellgestaltung

• Machbarkeitstest

• Ergebnisvalidierung

• Selektion des Auswahlprinzips

26




Choice-Phase

• Festlegung der Verfahrenweise

- Analyseverfahren

- Algorithmen

- Heuristiken

- Blind Search

• Test der Robustheit des Modells

Implementation-Phase

• Umsetzung der Lösung

- Umgang mit Widerständen

- Unterstützung durch das höhere Management

- User Training

27




28

EUS (I)

EUS und seine Systemumgebung

[Turban, Aronson, Liang 2004, S. 43]



Eigenschaften und Leistungsvermögen eines EUS

• Entscheidungsunterstützungssysteme zeichnen sich u.a. durch

folgende Eigenschaften aus:

- flexibel und adaptiv

- interaktiv

- GUI-basiert

- iterativ

- Modelleinsatz

- u.v.m.

29

EUS (II)

[Turban, Aronson, Liang, Sharda 2007, S. 107]



30

EUS (III)


Komponenten eines EUS (1)




Data Management Subsystem

• Komponenten

- Datenbank

- Datenbankmanagementsystem

- Data directory

- Komponenten zur Daten-

abfrage und -manipulation

31

EUS (IV)

Struktur eines Data Management Subsystem






• Datenbank

Extraktion von Daten aus verschiedenen Datenquellen,

die dem Unternehmen zur Verfügung stehen und die

ausgewertet werden sollen:

- Interne Daten, normalerweise aus OLTP-Systemen

- Externe Daten

• Regierungsbehörden

• Wirtschaftsverbände

• Marktforschungsinstitute, etc.

- Private Daten oder Richtlinien von Entscheidungsträgern

32

EUS (V)





• Datenbankmanagementsystem

- Extraktion der Daten

- Management der Daten und ihrer Beziehungen

untereinander

- Updates (hinzufügen, löschen, verändern)

- Datenabfragen und Datenmanipulation

- Verwendung des Data Directory (Data Dictionary)

• Data Directory

- Katalog der Daten enthält

• Datendefinitionen

• Informationen zur Datenverfügbarkeit, Datenquelle, Bedeutung

33

EUS (VI)




Modell Management Subsystem

• Komponenten

- Modellbasis

- Model Base Management System

- Modellierungssprache

- Model Directory

- Modellausführung, -integration

und Kommandoprozessor

34

EUS (VII)

Struktur eines Modell Management Subsystem





Modell Management Subsystem

• Model Base Management System

- Modellerstellung

- Modellupdates

- Modelldatenmanipulation

- Generierung neuer Routinen

- Verwendung des Model Directory

• Model Directory

- Modellkatalog

- Vordefinierte Modelle ergänzt mit Informationen zur Verfügbarkeit

und zu den Einsatzmöglichkeiten der Modelle

35

EUS (VIII)




Modellausführung

• Kontrolle der jeweils aktuell laufenden Modellberechnung

Model Command Processor

• … empfängt Modellinstruktionen über das User Interface

• … steuert und leitet Anweisungen an das

Model Base Management System

• Modellintegration

• Kombination verschiedener Modelloperationen

36

EUS (IX)




Knowledge-Based Management Subsystem

Zahlreiche unstrukturierte und semi-strukturierte Probleme sind so komplex,

dass zur ihrer Lösung Expertenwissen benötigt wird.

• Knowlegde Component besteht aus einem oder aus mehreren intelligenten

Systemen: „Expert/Intelligent Agent System Component“.

• … dient zur Lösung komplexer Probleme

• … stellt Funktionen anderer Komponenten zusätzliches „Wissen“ zur Verfügung

• Vorsicht:

Ein Knowledge Management System ist typischerweise ein textorientiertes EUS,

kein: Knowledge-Based Management System.

37

EUS (X)



Sommersemester 2017

EntscheidungsunterstützungssystemeBusiness Intelligence und Business Analytics





Gliederung


39


3 Reporting



6 Data Mining


Gliederung


40

2.1 Begriffsbestimmungen

2.2 Data Warehouse

2.3 On-Line Analytical Processing

2.4 Modellierung multidimensionaler Datenstrukturen


2.1 Begriffsbestimmung Business Intelligence

41

Business Intelligence (I)

„Data analysis, reporting and query tools can help business users wade through a

sea of data to synthesize valueable information from it – today these tools collectively

fall into a category called ‚Business Intelligence‘.“

[Gartner Group 1996]

„BI bezeichnet den analytischen Prozess, der – fragmentierte – Unternehmens-

und Wettbewerbsdaten in handlungsgerichtetes Wissen über die Fähigkeiten,

Positionen, Handlungen und Ziele der betrachteten internen oder externen

Handlungsfelder (Akteure und Prozesse) transformiert.“

„Die rechtzeitige Entdeckung und zielgerichtete Nutzung von Zusammenhängen

und Diskontinuitäten innerhalb oder außerhalb des Unternehmens ist der Kern

des Business Intelligence.“

[Grothe 1999]



• Unter Business Intelligence (BI) wird ein integrierter, unternehmensspezifischer,

IT-basierter Gesamtansatz zur betrieblichen Entscheidungsunterstützung verstanden.

• Gesamtheit aller Werkzeuge und Anwendungen mit entscheidungsunterstützendem

Charakter, die zur besseren Einsicht in das eigene Geschäft und damit zum besseren

Verständnis in die Mechanismen relevanter Wirkungsketten verhelfen.

• Begriffliche Klammer, die eine Vielzahl unterschiedlicher Ansätze zur Analyse

geschäftsrelevanter Daten zu bündeln versucht (kein neues Konzept / Produkt).

42

Business Intelligence (II)



43

Business Intelligence (III)

Begriffsverständnis BI



• Zu BI gehören alle Systemkomponenten, die dabei helfen, das

entscheidungsrelevante Datenmaterial

- zu sammeln und aufzubereiten,

- dauerhaft und nutzungsorientiert zu speichern,

- aufgabenadäquat zu analysieren und

- in geeigneter Form anzuzeigen.

• Die zugehörigen Funktionalitäten werden

von unterschiedlichen Software-Werkzeugen

erbracht.

• Mit Datenbereitstellung und Datennutzung

lassen sich zwei grundlegende Funktionsblöcke

von BI-Systemen voneinander abgrenzen,

die logisch und technisch aufeinander aufbauen.

44

Business Intelligence (IV)

[Gluchowski/Kemper (2006)]



45

Begriffsabgrenzung

Corporate Performance

Management (CPM)Business Intelligence (BI)

Methoden, Kennzahlen, Prozesse

und Systeme, um die Leistung des

Unternehmens zu messen und zu steuern.

[Gartner Group 2002]

Analytischer Prozess, der Unternehmens-

und Wettbewerbsdaten in handlungs-

gerechtes Wissen für die Unternehmens-

steuerung überführt

Top down Ansatz Bottom up Ansatz

Im Vordergrund steht in beiden Fällen die betriebswirtschaftliche Anwendung,

nicht ein IT-System.


2.1 Begriffsbestimmung Business Analytics

46

Business Analytics (I)

• Business Analytics umfasst Werkzeuge, Methoden und Verfahren zur Erforschung und Analyse

historischer und aktueller Daten, um aus ihnen neue Erkenntnisse zu gewinnen, Geschäfts-

prozesse zu optimieren und die gesamte Unternehmensplanung auf die Zukunft auszurichten.

• Der Schwerpunkt liegt auf dem Einsatz von statistischen Methoden, Data Mining, quantitativen

Analysen und Prognosemodellen.

• Der Begriff kann als Erweiterung von Business Intelligence gesehen werden:

- Während sich Business Intelligence auf die aktuelle Unternehmensituation und gegenwartsbezogene

Entscheidungsunterstützung konzentriert (stützt sich insb. auf Ad-hoc-Abfragen, OLAP, Reporting &

Visualisierung), ist Business Analytics eher zukunftsorientiert; der Fokus liegt auf der Datenauswertung.

• Ziele von Business Analytics sind bspw.:

- Aufdeckung von Ursache-Wirkungs-Beziehungen und verdeckten Mustern anhand historischer Daten

- Vorhersage zukünftiger Entwicklungen, Unterstützung der langfristigen Geschäftsplanung

- Simulation & Optimierung von Zukunftsszenarien (was kann bestenfalls passieren?)



47

Business Analytics (II)

[Gluchowski 2016, S. 277]

Einordnung unterschiedlicher Analytics-Ausprägungen



48

Business Analytics (III)

• Descriptive & Diagnostic Analytics

- Betrachtung der Vergangenheit und ihrer Wirkung auf die Gegenwart

- Untersuchung der Gründe, Auswirkungen, Wechselwirkungen oder Folgen von bestimmten

Ereignissen in der Vergangenheit

• Predictive Analytics

- Blick in die Zukunft, Vorhersagen über die Wahrscheinlichkeit von zukünftigen Ereignissen

auf Basis von Data Mining, maschinellem Lernen und anderen statistischen Methoden

• Prescriptive Analytics

- Zusätzlich Handlungsempfehlungen, um auf vorhergesagte Ereignisse zu reagieren und

Trends zu beeinflussen, Wenn/Dann-Szenarien, Optimierung

Analytics-Ausprägungen



49

Business Analytics (IV)

[Lehmann 2012, S. 10]

Analytics-Evolutionsstufen


Gliederung


50


2.2 Data Warehouse




2.2 Data Warehouse

Data Warehouse (DW)

• … ist ein unternehmensweites Konzept, welches

• eine einheitliche und konsistente Datenbasis zur

Entscheidungsunterstützung für alle Mitarbeiter

aller Bereiche und Ebenen anbietet und

• getrennt von den operativen Datenbanken betrieben wird.

• “A data warehouse is a subject-oriented, integrated, nonvolatile, and

time-variant collection of data in support of management’s decisions.”

[Inmon, 1993]

51

Data Warehouse (I)


2.2 Data Warehouse

Eigenschaften nach Inmon

• subject-oriented

- Ausrichtung an inhaltlichen Themenschwerpunkten (Dimensionen)

- Beispiel: Kunden, Regionen, Produkte

• integrated

- Vereinheitlichung der Daten aus den operativen Systemen

- Benennung, Skalierung und Kodierung

• nonvolatile

- Dauerhaftigkeit, Stabilität der Daten

- Bereitstellung von Zeitreihendaten über längere Zeiträume

52

Data Warehouse (II)


2.2 Data Warehouse

Eigenschaften nach Inmon

• time-variant

- Zeitorientierung der Informationen

- Aktualität der Daten

- Schnappschuss des Unternehmensgeschehens

- Zeitbezug:

• Bestandsgrößen – Datumsangaben

• Bewegungsgrößen – Zeitraumangaben

53

Data Warehouse (III)


2.2 Data Warehouse

54

Data Warehouse (IV)

Architektur eines DW

Komponenten Schichten

Referenzarchitektur eines DW


2.2 Data Warehouse

55

Data Warehouse (V)

ETL-Prozess

ETL-Prozess

[Kemper/Baars/Mehanna (2010), S. 38]


2.2 Data Warehouse

56

Data Warehouse (VI)

Vergleich von operativen Systemen und Data-Warehouse-Lösungen

ETL-Prozess


Gliederung


57


2.2 Data Warehouse





• Techniken des On-Line Analytical Processing (OLAP) ermöglichen dynamische,

konsistente und interaktive Zugriffe auf multidimensionale Datenbestände

• Als charakteristisch für die OLAP-Funktionalität gelten dynamische, multi-

dimensionale Analysen auf konsolidierten Unternehmensdatenbeständen.

• …ermöglicht und erleichtert Entscheidungsträgern eine schnelle Einsicht in

relevante Daten durch ein umfangreiches Angebot an direkt nutzbaren Sichten

auf die vorhandenen Informationen.

• Intuitive Benutzungsoberflächen

58

Grundlagen des On-Line Analytical Processing (I)



Einsatzbereiche

• Breite Fächerung potenzieller Anwendungsbereiche für multidimensionale

Informationssysteme

• überall dort, wo dispositive bzw. analytische Aufgaben zu lösen sind

- sowohl zur reinen Informationsversorgung von Fach- und Führungskräften

- als auch als Datenbasis für anspruchsvolle Analysen

z.B. Kalkulationen im Rahmen von Marktprognosen und Investitionsentscheidungen

• in allen betrieblichen Funktionsbereichen und Branchen

- z.B. Handelsketten und Versandhäusern, Banken und Versicherungen,

Energieversorgern, kommunalen Organisationen, Chemieunternehmen

und Stahlerzeugern

59

Grundlagen des On-Line Analytical Processing (II)



Evaluationsregeln zur Feststellung der OLAP-Fähigkeit nach Edgar F. Codd (1)

Codd formulierte und veröffentlichte erstmalig Anforderungen in Form von zwölf

Evaluationsregeln zur Feststellung der OLAP-Fähigkeit von Informationssystemen.

• Mehrdimensionale konzeptionelle Perspektiven

- Analyse betriebswirtschaftlicher Kennzahlen (z. B. Umsatz, Kosten)

entlang verschiedener Dimensionen (z. B. Kunde, Produkt, Zeit)

• Transparenz

- Nahtlose Integration in bestehende Informationssystemlandschaft

- Alle verfügbaren Informationen sind dem Anwender nach gleichen

optischen Gestaltungskriterien zu präsentieren.

60

OLAP-Anforderungen nach Codd (I)




• Zugänglichkeit

- Zugriff auf zahlreiche heterogene unternehmensinterne und -externe

Datenquellen und Datenformate

• Stabile Antwortzeiten bei der Berichterstattung

- Unabhängig vom Datenvolumen und der Anzahl der Dimensionen

• Client-Server-Architektur

- Aufgrund der Datenvolumina und der Komplexität der Abfragen sollten

eine verteilte Programmausführung wie auch eine verteilte Datenhaltung

möglich sein.

61

OLAP-Anforderungen nach Codd (II)




• Grundprinzip der gleichgestellten Dimensionen

- In ihrer Wertigkeit sollten die Dimensionen gleichgestellt sein.

- Einheitlicher Befehlsumfang zum Aufbau, Strukturieren, Bearbeiten

und Pflegen der Dimensionen

• Dynamische Verwaltung „dünn besetzter“ Matrizen

- Dünn besetzte Matrizen resultieren aus dem Umstand,

dass in multi-dimensionalen Datenmodellen nicht alle

denkbaren Kombinationen der Dimensionselemente

werttragende Verbindungen eingehen.

• Unbegrenzte Anzahl an Dimensionen und Aggregationsstufen

62

OLAP-Anforderungen nach Codd (III)

Jahr

Pro

dukt




• Mehrbenutzerunterstützung

• Unbeschränkte dimensionsübergreifende Operationen

• Intuitive Datenmanipulation

- Eine einfache und ergonomische Benutzerführung und

Benutzungsoberfläche soll das intuitive Arbeiten in der

Datenbasis mit wenig Lernaufwand ermöglichen.

• Flexibles Berichtswesen

63

OLAP-Anforderungen nach Codd (IV)



Fast Analysis of Shared Multidimensional Information (FASMI) (1)

• Fast

- Stabile Antwortzeiten

(i.d.R. fünf Sekunden, einfache Abfragen innerhalb von einer Sekunde,

komplexe Abfragen sollten kaum mehr als 20 Sekunden dauern)

- Untersuchungen haben gezeigt, dass bei Antwortzeiten von 30 Sekunden

und mehr Anwender annehmen, dass die Abfrage fehlgeschlagen ist.

• Analysis

- Beherrschung beliebiger Businesslogik und statistischer Analysen

• „ What-If“-Betrachtungen

• „How to achieve“-Betrachtungen

- Intuitive Benutzung

64

OLAP-Anforderungen nach Pendse und Creeth (I)



Fast Analysis of Shared Multidimensional Information (FASMI) (2)

• Shared

- Mehrbenutzerbetrieb

- Implementierung geeigneter Sicherheitsanforderungen zur Wahrung der

Vertraulichkeit der Daten

• Multidimensional

- Unterstützung multidimensionaler konzeptioneller Sichten auf die zugrunde-

liegenden Daten

- Hierarchien

• Information

- Zugriff auf alle benötigten Daten und abgeleiteten Informationen

- Verarbeitung großer Datenvolumina

65

OLAP-Anforderungen nach Pendse und Creeth (II)



Betriebswirtschaftliche Variablen

(Messgrößen, Kennzahlen, Fakten)

Dimensionen

Dimensionshierarchien

Regeln

66

Multidimensionale Datenstrukturen (I)

Bausteine multidimensionaler Datenstrukturen



Visualisiert werden multidimensionale Datenmodelle mit einem Würfel (Cube)

• Kanten des Würfels: Dimensionen

• Würfelzellen: Kennzahlen

67

Multidimensionale Datenstrukturen (II)

Darstellung multidimensionaler Datenstrukturen



Betriebswirtschaftliche Variablen (Kennzahlen) (1)

• Kennzahlendefinition

- Zahl, die betriebliche und außerbetriebliche Informationen

in aussagekräftiger, komprimierter Form wiedergibt

• Abgrenzungsmerkmale

- Gegenstand

(Mengen / Werte, Zeitpunkt / Zeitraum)

- Objektbereich

(Gesamtwirtschaftlich, Konzern, Teilbetrieb)

68

Multidimensionale Datenstrukturen (III)



Betriebswirtschaftliche Variablen (Kennzahlen) (2)

• geordnete Anzahl von Kennzahlen, die in einer Beziehung zueinander stehen

und als Gesamtheit über einen Sachverhalt vollständig informieren

• Spitzenkennzahl liefert die betriebswirtschaftlich wichtigste Aussage des

Systems in komprimierter Form

- DuPont-Kennzahlensystem

- RL-Kennzahlensystem

- ZVEI-Kennzahlensystem

- Balanced Scorecard

• Finanzen

• Kunden

• Geschäftsprozesse

• Lernen/Wachstum

69

Multidimensionale Datenstrukturen (IV)

Auszug: DuPont-Kennzahlensystem



Verdichtungshierarchien

• Eine Dimensionshierarchie wird als ein endlicher Baum definiert, der durch

die einzelnen Elemente (Dimensionsausprägungen) gebildet wird.

Level eines Knotens

Anzahl der Kanten auf dem Weg vom Knoten zum Blatt

Tiefe eines Knotens

Anzahl der Kanten auf dem Weg vom Knoten zur Wurzel

Generation eines Knotens

Tiefe + 1

70

Multidimensionale Datenstrukturen (V)



Parallele Hierarchien

• Mehrfache Verdichtungshierarchien

Einzelne Elemente einer Dimension werden auf verschiedene Arten verdichtet.

• Hierarchisierung der Monate

- nach Quartalen

- nach saisonalen Aspekten

• Hierarchisierung der Kunden

- nach sachlichen Kriterien

(A-, B-, C-Kunden)

- nach Branchen

71

Multidimensionale Datenstrukturen (VI)



Navigieren in den Daten entspricht dem „Drehen, Wenden und Durchschneiden“

des OLAP-Würfels

• Pivoting / Rotation

• Slicing & Dicing

• Drill-Down & Roll Up

72

Navigation in multidimensionalen Datenstrukturen (I)

45 60 56

15 54 80

23 40 45

Kunde

Pro

du

kt



73

Navigation in multidimensionalen Datenstrukturen (II)

Pivoting / Rotation

• Rotation des Datenwürfels durch Drehen oder Kippen, um eine andere Perspektive

auf die Daten zu ermöglichen.

• Drehen des Datenwürfels, so dass (mindestens)

eine andere Dimension sichtbar wird.

• Klassische OLAP-Analyse

(Rotation von Produkt, Zeit → Vertriebsbereich, Zeit)

Pro

dukt

Ver

trie

bsbe

reic

h

Zeit



Slicing & Dicing

• Slicing

- „Ausschneiden von Datenscheiben“

- Filtersetzung

74

Navigation in multidimensionalen Datenstrukturen (III)

• Dicing

- Gleichzeitige Slicing-Vorgänge in unterschiedlichen

Dimensionen

- Auf diese Weise wird ein kleinerer Würfel erzeugt,

der einen Teilbereich des Gesamtwürfels enthält.

Dicing

Alle Produkte

über den gesamten Zeitraum

für einen bestimmten Kunden

Alle Produkte

über alle Kunden

zu einem bestimmten Zeitpunkt

Alle Kunden

über den gesamten Zeitraum

für ein bestimmtes Produkt

Slicing



Drill Down & Roll Up

• Mithilfe des Drill Down können aggregierte Daten auf unterschiedlicher Detailtiefe

betrachtet werden - von der höchsten

bis zur untersten Aggregationsebene.

• Der umgekehrte Weg zum gröberen

Überblick wird als Roll Up bezeichnet.

• Klassische OLAP-Analyse

(Produktgruppe → Produkt)

75

Navigation in multidimensionalen Datenstrukturen (IV)



76

Navigation in multidimensionalen Datenstrukturen (V)

Drill Down

Roll Up


Gliederung


77


2.2 Data Warehouse





78

Klassifikation der Datenmodelle anhand ihrer Nähe zur Realwelt

• Semantisches Datenmodell

- Brücke zwischen Realwelt und logischem Datenmodell

- Realitätsausschnitt wird abstrahierend in einem

Modell abgebildet

- DV-unabhängig

• Logisches Datenmodell

- Ebenfalls unabhängig von der physischen Repräsentation

- Ausrichtung an der für die Datenspeicherung

einzusetzenden DB-Technologie

• Physisches Datenmodell

- Aspekte der physischen Speicherung und

Speicheroptimierung

Grundlagen (I)

Fachkonzept

DV-Konzept

Implementierung


Entwurfsebene Entwurfsmethode

Konzeptueller (semantischer)

Entwurf

• Multidimensionales ERM

• Dimensional Fact Modeling

• Application Design for

Analytical Processing Technologies (ADAPT)

Logischer Entwurf • Starschema

• Erweitertes SAP-Starschema

• Snowflake Schema

• Galaxien

Physischer Entwurf • Speicherstrukturen

• Zugriffsmechanismen

• Datenbanktuning

79

Grundlagen (II)

Ausgewählte Entwurfsmethoden zur Modellierung multidimensionaler Datenstrukturen



Multidimensionales Datenmodell

• "Grundkomponenten eines multidimensionalen Datenbankdesign sind geordnete

Mengen von sachlogisch zusammenhängenden Dimensionselementen, die mit

Aggregations- und Disaggregationsoperatoren strukturiert werden können.

• Ein multidimensionaler Datenraum wird durch die strukturellen Daten (Dimensionen)

aufgespannt.

• Die materiellen Daten (auch als Faktdaten, Kennzahlen oder Werte bezeichnet)

werden entsprechend des Mapping und der Synchronisation aus den transaktions-

orientierten Systemen geladen.“

80

Grundlagen (III)


[vgl. Chamoni, Gluchowski: Analytische Informationssysteme 1998]


Multidimensionales Entity Relationship Modell (1)

• Grundlage ist die bereits bekannte graphische Modellierungssprache für semantisch

konzeptionelle Datenmodelle: Entity Relationship Modell (ERM)

• Diese ist mit den nachfolgenden

neuen Konstruktionselementen

erweitert worden:

• Faktenrelation

• Dimensionsfeld

• hierarchische Beziehung

• Prinzip der Minimalität,

daher nur fünf Metaobjekte

81

Semantische Datenmodellierung (I)


Konstruktionselement Graphische Notation

Zentrale Faktenrelation

Dimensionsfeld

Variable oder Attribut

Hierarchische Beziehung

Beziehung


Multidimensionales Entity Relationship Modell – Beispiel (2)

82

Semantische Datenmodellierung (II)


Filiale Gebiet Land

Region

Gesamt

Absatz Umsatz

Vertrieb Tag

Monat

Quartal

Jahr

Szenario

Produkt

Multidimensionales ERM

[Hahne 2006]


Dimensional Fact Modeling (1)

• … wurde 1998 von Golfarelli, Maio und Rizzi als formale und grafische

Beschreibungssprache für konzeptionelle multidimensionale Datenmodelle

vorgestellt.

Die Beschreibungselemente in diesem Ansatz sind:

• Fakten stellen die relevanten betriebswirtschaftlichen Betrachtungsgegenstände dar,

denen konkrete Kennzahlen in Form von Attributen zugeordnet sind.

• Die Aufgliederungsrichtungen, nach

denen die Fakten betrachtet werden

können, sind die Dimensionen.

• Dimensionen werden durch Hierarchien

weiter strukturiert.

83

Semantische Datenmodellierung (III)


Beschreibungselement Graphische Notation

Fakten

Dimension

Hierarchie


Dimensional Fact Modeling (2) - Beispiel

84

Semantische Datenmodellierung (IV)


Hierarchie

Nicht-dimensionales

Attribut

Dimension

Fakt-AttributFakt



• Für die Aggregation entlang der verschiedenen Hierarchiestufen ist

die Addition als Standard vorgesehen.

• Für Fakt-Attribute, die sich

nicht sinnvoll entlang aller

Dimensionen addieren las-

sen, sieht das Modell eine

gesonderte Notation der

Verdichtungsoperation vor.

(im Beispiel: die Fakt-Attribute

Käuferzahl und Bestand)

85

Semantische Datenmodellierung (V)


Eingeschränkte Addierbarkeit

für Kennzahl „Käuferzahl“ in

allen Dimensionen

Alternative Aggregation

für Kennzahl „Bestand“ in

Dimension „Woche“



• Das Dimensional Fact Modeling ist mathematisch formal definiert.

Nachteile

• In den Hierarchien sind nur 1:n – Beziehungen vorgesehen.

• Für nicht-additive Kennzahlen besteht zwar die Möglichkeit der Kennzeichnung,

konkrete Berechnungsvorschriften sind jedoch nicht Bestandteil des Modells.

Somit ist auch eine Darstellung von Kennzahlensystemen nicht möglich.

86

Semantische Datenmodellierung (VI)



Multidimensional Data Model (MD-Modell)

• … wurde 1997 von Cahibbo und Torlone als grafische Beschreibungssprache für

konzeptionelle multidimensionale Datenmodelle vorgestellt.

• In seinen Konstruktionselementen

wie im inneren Aufbau weist das

MD-Modell gewisse Parallelen

zum Dimensional Fact Modeling auf.

87

Semantische Datenmodellierung (VII)


Beschreibung eines

Dimensionslevels

Variablen

f-node

[Hahne 2006]

Dimensionslevel


Application Design for Analytical Processing Technologies (1)

• … wurde 1996 zunächst von Bulos als semantische Notationsform für

multidimensionale Datenmodelle vorgestellt.

• Die Basisstruktur von ADAPT sieht

die Verwendung von

• Datenwürfeln,

• Dimensionen und

• Kennzahlen

vor, die durch Verbindungselemente

verknüpft werden.

88

Semantische Datenmodellierung (VIII)


ADAPT - Grundlegende Modellierungselemente

ADAPT - Verbindungselemente

Berechnungs-

formel


Application Design for Analytical Processing Technologies (2) - Beispiel

89

Semantische Datenmodellierung (IX)


Cube Vertrieb mit Dimensionen

Dimension Produkt


Application Design for Analytical Processing Technologies (3) - Beispiel

90

Semantische Datenmodellierung (X)


Hierarchy Unbalancierte Produkthierarchie


Klassisches Star Schema (1)

• Unter dem Begriff Star Schema werden verschiedene logische Datenmodelle

zur Modellierung eines Data Warehouse auf Basis relationaler Datenbanken

zusammengefasst.

• Diese Modelle zielen darauf ab,

mehrdimensionale Datenstrukturen

in Relationenmodelle abzubilden.

91

Logische Datenmodellierung (I)



Klassisches Star Schema (2) – Abbildung von Hierarchien in Dimensionstabellen

92

Logische Datenmodellierung (II)


Durch den Level-Eintrag wird die Zuordnung von

Werten zu einer Hierarchieebene sichergestellt.

Aggre

gationsebene

Hierarchiestruktur


Klassisches Star Schema (3)

• Darstellung im Tool „Oracle Business Analysis Suite“

93

Logische Datenmodellierung (III)



Snowflake Schema (1)

… entsteht, indem

• die Dimensionstabellen des klassischen Star Schema normalisiert werden -

„normalized by level-attribute“ -

und

• aggregierte Fakten in Detail-Fakten-

tabellen abgespeichert werden.

94

Logische Datenmodellierung (IV)



Snowflake Schema (2)

95

Logische Datenmodellierung (V)


Dimensionstabellen

„normalized by level-attribute“

n:1

n:1

Level 0

Level 1

Level 2


Fact Constellation Schema (1)

… kann aus einem klassischen Star Schema abgeleitet werden.

Die Idee ist, die aggregierten Werte aus der Faktentabelle

in separate Faktentabellen auszulagern.

Dadurch wird in den Dimensionstabellen

kein Level-Eintrag mehr benötigt.

96

Logische Datenmodellierung (VI)


Aggregation


Galaxien (1)

In einem klassischen Star Schema werden alle Fakten in nur einer einzigen

Tabelle abgelegt.

• Problem

Sind viele Fakten sehr unterschiedlicher Dimensionierung zu speichern, bringt

dies Nachteile mit sich. Da der Primärschlüssel der Faktentabelle sich aus den

Primärschlüsseln aller Dimensionstabellen zusammensetzt, werden unnötig viele

Null-Werte im Primärschlüssel der Faktentabelle generiert.

• Verbesserung

Trennung in Faktentabellen, in welchen jeweils nur Fakten gleicher Dimensionierung

gespeichert werden.

97

Logische Datenmodellierung (VII)



Galaxien (2)

• Trennung in Faktentabellen, in welchen jeweils nur Fakten gleicher

Dimensionierung gespeichert werden.

98

Logische Datenmodellierung (VIII)



Galaxien (3) - Beispiel

99

Logische Datenmodellierung (IX)



Zusammenfassung

• Star-Schema-Modellierung erweist sich als geeignete Technik zur relationalen

Implementierung multidimensionaler Datenstrukturen:

• wenige Tabellen,

• wenige und einfache Beziehungen zwischen den Tabellen,

• leicht nachvollziehbar,

• auswertungs- und nicht erfassungsorientiert.

• Grundbausteine multidimensionaler Datenstrukturen finden sich in Fakten- und

Dimensionstabellen wieder.

• Auch Dimensionsanomalien lassen sich abbilden.

• Resultierende Datenmodelle sind auswertungs- und nicht erfassungsorientiert.

(Denormalisierung)

100

Logische Datenmodellierung (X)



EntscheidungsunterstützungssystemeReporting


Sommersemester 2017





Organisatorisches

102102

Literatur

• Gluchowski, Peter (2010):

Techniken und Werkzeuge zur Unterstützung des betrieblichen Berichtswesens.

In: Chamoni, Peter / Gluchowski, Peter [Hrsg.]:

Analytische Informationssysteme:

Business-Intelligence-Technologien und -Anwendungen,

4.Aufl., Berlin: Springer.

• Kemper, Hans-Georg / Baars, Henning / Mehanna, Walid (2010):

Business Intelligence – Grundlagen und praktische Anwendungen: eine Einführung in

die IT-basierte Managementunterstützung,

3. Aufl. Wiesbaden: Vieweg+Teubner.

• Horváth, Péter (2011):

Controlling, 12. Aufl., München: Vahlen.


Gliederung


103


3 Reporting



6 Data Mining


Gliederung

104104

3 Reporting

3.1 Betriebliches Berichtswesen

3.2 Betriebliche Berichtssysteme



Bericht

• Im betrieblichen Kontext:

Überblick betriebswirtschaftlicher Sachverhalte zu einem abgegrenzten

Verantwortungsbereich in aufbereiteter Form

• Aufbereitung erfolgt durch Visualisierung von Sachzusammenhängen

beispielsweise in Diagrammen

• Die Erzeugung und Bereitstellung von Berichten wird unter dem Begriff

betriebliches Berichtswesen zusammengefasst.

105

Grundlagen (I)



Merkmale zur Kennzeichnung und Gestaltung von Berichten

106

Grundlagen (II)

Berichtsinhalt

• Gegenstand

• Detaillierung

• Breite

• Genauigkeit

Berichtsform

• Darstellungsart

• Struktur

• Präsentationsmedium

• Übertragungsweg

Berichtszeit

• Berichtsintervall

• Berichtszeitraum

Berichtsinstanz

• Empfänger

• Verantwortlicher

• Ersteller

Berichtszweck

• Dokumentation

• Entscheidungs-

vorbereitung

• Auslösen Bearbei-

tungsvorgang

• Kontrolle

[Koch 1994]



Berichtsarten (1)

Standardberichte

• Basieren weitgehend auf dem einmalig ermittelten Informationsbedarf

einzelner Stellen und Abteilungen.

• Hoher Detaillierungsgrad

• Adressat muss die für ihn relevanten Informationen aus dem Bericht herausfiltern.

• Berichtserstellung und -verteilung erfolgt in festgelegten Abständen,

ein Eingreifen in diesen Rhythmus ist i.d.R. nicht möglich.

• Anpassung der Berichtsinhalte durch den Adressaten nicht möglich.

107

Grundlagen (III)



Berichtsarten (2)

Abweichungsberichte

• Hervorhebung von Sachverhalten, die individuelle Entscheidungen erfordern.

• Auslöser für die Generierung eines Abweichungsberichtes ist i.d.R. die

Überschreitung festgelegter Toleranzgrenzen.

Bedarfsberichte

• Werden nach Bedarf angefordert, beispielsweise zur Analyse bestimmter

kritischer oder strategisch relevanter Sachverhalte

• Unterliegen keinem festen Rhythmus oder Muster

108

Grundlagen (IV)


Berichtsgestaltung und -erstellung

Berichtsaufnahme und -diskussion

Berichts-

verwaltung

Berichtsverteilung

[Leßweng 2003]

Prozesse des betrieblichen Berichtswesens (I)



Berichtsgestaltung

• Festlegung des Layouts und der empfängerorientierten

Inhalte eines Berichts

Berichtserstellung

• Ausfüllen des Layouts und der Inhalte mit zeitpunkt- oder

periodenbezogenen Daten

• Zusammenfassung zum eigentlichen Bericht

Berichtsverteilung

• Verteilung der Ergebnisse an die jeweiligen Empfänger

• Ggf. Präsentation und zusätzliche Erläuterungen

110


Prozesse des betrieblichen Berichtswesens (II)


Berichtsverwaltung

• Speicherung und Katalogisierung von Berichten

Berichtsaufnahme

• Aufnahme der in einem Bericht dargestellten Informationen

durch den jeweiligen Adressaten

• Aufnahme kann direkt nach der Generierung oder zu einem

späteren Zeitpunkt erfolgen.

Berichtsdiskussion

• Ggf. Diskussion über Berichtsinhalte mit Experten aus der Fachabteilung

111111


Prozesse des betrieblichen Berichtswesens (III)


Gliederung

3 Reporting

3.1 Betriebliches Betriebswesen




113113

Berichtssysteme

Periodische

Berichtssysteme

(Standard-Berichtswesen)

Passive

Berichtssysteme

Aktive

Berichtssysteme

Aperiodische

Berichtssysteme

(Früherkennungssysteme)

Ad-hoc-

Berichtssysteme

[Gluchowski 1998]

Klassifizierung von Berichtssystemen (I)



Aktive Berichtssysteme

• Erstellung und Verteilung von Standard- und Abweichungsberichten

• Einmalige Spezifikation der Berichtsinhalte und -formate

• Selbstständige Erstellung der Berichte nach einem festen Muster

• Zustellung an den jeweiligen Adressaten

• Unterscheidung in

- Periodische Berichtssysteme (Standardberichte)

• Generierung von Berichten in festen Zeitabständen

• Älteste und etablierteste Form

- Aperiodische Berichtssysteme (Abweichungsberichte)

• Ergänzung zu periodisch generierten Berichten

• Automatische Generierung von Berichten und Benachrichtigung bei

Überschreitung von festgelegten Grenzwerten

• Einsatz für die betriebliche Früherkennung zur Identifikation strategischer

Potenziale und Gefahren114

Klassifizierung von Berichtssystemen (II)



Passive Berichtssysteme

• Erstellung von Bedarfsberichten

• Keine selbstständige Generierung von Berichten

• Berichte werden auf Anforderung des Benutzers erstellt

• Erstellung individueller und bedarfsspezifischer Berichte

• IT-Kenntnisse beim Anwender zur Zusammenstellung des Layouts

und der Inhalte notwendig

• Umsetzung von Ad-hoc-Berichtssystemen häufig durch OLAP-Werkzeuge

115

Klassifizierung von Berichtssystemen (III)


EntscheidungsunterstützungssystemeDashboards und Visualisierung


Sommersemester 2017





Organisatorisches

117117

Literatur

• Eckerson, Wayne W. (2011):

Performance Dashboards: Measuring, Monitoring, and Managing Your Business,

2. Aufl. New Jersey: John Wiley & Sons.

• http://www.bissantz.com/

• http://www.hichert.com/

• https://www.microstrategy.com/de/capabilities/dashboards/

http://www.bissantz.com/

http://www.hichert.com/

http://www.microstrategy.com/dashboards/


Gliederung


118


3 Reporting



6 Data Mining


Gliederung

119119


4.1 Dashboards

4.2 Visualisierung


4.1 Dashboards

• Hohe Komplexität in Unternehmen durch

- Verschiedene Gesellschaften

- Viele Geschäftseinheiten und Standorte

- Unterschiedliche Produkte, Prozesse und Strategien

- Vielzahl von unterstützenden Systemen

• Unternehmen benötigen ein Instrument, das die Unternehmensstrategie

übersetzt in

- Ziele

- Metriken

- Initiativen

- Aufgaben

120

Ausgangssituation


4.1 Dashboards

121

Instrumente zur Visualisierung von (kritischen) Informationen auf einen Blick

Dashboard

• Visualisierung von Informationen durch Graphen, Diagramme etc.

• Darstellung von Ereignissen und Prozessen

• Dynamische Betrachtung möglich

• Regelmäßige Aktualisierung

Scorecard

• Überwachung von Ergebnissen

eines Prozesses bezogen auf den Zielerreichungsgrad

• Zusammenfassung von Daten über einen bestimmten Zeitraum

• Graphen, Diagramme etc. werden in der Regel ausführlich kommentiert

Dashboards vs. Scorecards

[Eckerson 2006]


4.1 Dashboards

122

Hintergrund der BSC

• Entwickelt von Robert S. Kaplan und David P. Norton

• Veröffentlicht 1992 im Harvard Business Review unter dem Titel:

„The Balanced Scorecard – Measures that Drive Business Performance“

• Entwicklung auf Grund der Kritik an

bestehenden Kennzahlensystemen

• BSC berücksichtigt erstmals nicht-

monetäre Kennzahlen

Balanced Scorecard (I)

Perspektiven einer BSC


4.1 Dashboards

123123123

[Kaplan, Norton 1996]

Balanced Scorecard (II)

BSC als Managementsystem


4.1 Dashboards

124

Nutzen von Dashboards

• Strategie kommunizieren

• Strategie weiterentwickeln

• Sichtbarkeit verbessern

• Koordination verbessern

• Motivation erhöhen

• Konsistente Sicht auf das Unternehmen ermöglichen

• Kosten und Redundanzen verringern

• Eigenständigkeit der Nutzer erhöhen

• Handlungsrelevante Informationen liefern

Performance Dashboard (I)


4.1 Dashboards

125125

Performance Dashboard (II)

• „A performance dashboard is a multilayered application built on a business

intelligence and data integration infrastructure that enables organizations to

measure, monitor and manage business performance more effectively“

[Eckerson 2006]

• Performance Dashboards gehen über die reine Darstellung/Visualisierung

von Informationen hinaus.

• umfassen beispielsweise auch Portale, Business-Intelligence-Werkzeuge

und Analysewerkzeuge

• Informationssystem für Unternehmen zur Erreichung strategischer Ziele und

zur Optimierung der Performance

• Synonym: performance management system


4.1 Dashboards

126

Schichten eines Performance Dashboard

Performance Dashboard (III)

[Eckerson 2006]


4.1 Dashboards

127

Anwendungsbereiche von Performance Dashboard

Performance Dashboard (IV)

[Eckerson 2006]


4.1 Dashboards

128

Arten von Performance Dashboard

Performance Dashboard (V)

[Eckerson 2006]


Gliederung

129129129129129


4.1 Dashboards

4.2 Visualisierung


4.2 Visualisierung

Empfehlungen (1)

• Zunächst auf Daten und Prozesse fokussieren

- Vor der graphischen Gestaltung: Metriken und Ziele definieren

- Daten müssen aus den entsprechenden Systemen geliefert werden

• Anwender und deren Anforderungen kennen

- Führungskräfte

- Power User

• Komplexität gering halten

- Übersichtlichkeit

- Schnelle und einfache Bedienbarkeit

130130130130130130130130130

Design-Prozess von Dashboards (I)


4.2 Visualisierung

Empfehlungen (2)

• Optik und Funktionalitäten in allen Anwendungsbereichen optimieren

131131131131131131131131131

Design-Prozess von Dashboards (II)

[Eckerson 2006]


4.2 Visualisierung

Empfehlungen (3)

• Kompetenz für die visuelle Gestaltung schaffen

- Internes oder externes Know-How

- Feedback bei der Gestaltung einholen

• Prototypen einsetzen

- Zufriedenheit der Anwender mit Layout testen

- Gestaltung in Rücksprache mit Anwendern optimieren

132132132132132132132132132

Design-Prozess von Dashboards (III)


4.2 Visualisierung

• Informationen auf einem einzigen Bildschirm darstellen

- Anwender sollten nicht scrollen oder ein neues Fenster öffnen müssen.

- (Erfolgskritische) Informationen müssen auf einen Blick erfasst werden können.

• Anzahl von Metriken und Objekten auf dem Bildschirm minimieren

- Informationsbedarf und Reihenfolge, in der ein Anwender die Informationen

sehen möchte, müssen bekannt sein.

- 3-7 Metriken haben die größte visuelle Wirkung.

- Möglich: Anwender kann sich die Metriken selbst zusammenstellen.

(Personalisierung)

133133133133133133133133133133133

Visuelle Gestaltung der Benutzeroberfläche (I)


4.2 Visualisierung

• Graphische Symbole sparsam verwenden

- Zusammenfassen von Informationen durch Verwendung von Graphiken

- Überladene Graphiken vermeiden

- Sinnvoller Einsatz von Ampeln, Thermometern etc.

134134134134134134134134134134134134

Visuelle Gestaltung der Benutzeroberfläche (II)


4.2 Visualisierung

• Zusammenhänge in verkürzter Form darstellen

- Anwender soll schnell erfassen können, was dargestellt wird

- Status

• Darstellung der aktuellen Situation

• Häufig dargestellt durch Farben

• Z.B. rot = dringend/schlecht, grün = gut

- Trend

• Prognose für die nächste(n) Periode(n)

• Darstellung von Aufwärts- oder Abwärtstrends

• Darstellung z.B. durch + (plus) und – (minus)

- Abweichung

• Darstellung von Über- oder Untererfüllung eines Ziels

• Darstellung z.B. in Tabellen oder Liniendiagrammen

135135135135135135135135135135135135135

Visuelle Gestaltung der Benutzeroberfläche (III)


4.2 Visualisierung

136136136136136136136136136136136136136

Visuelle Gestaltung der Benutzeroberfläche (IV)

• Farbsättigung verändern statt verschiedene Farbtöne nutzen

Einheitliches Layout des Dashboards

Hervorheben von wichtigen Informationen durch Kontraste

Vermeidung von Fehlinterpretationen durch farbenblinde Anwender

• Position und Anordnung von Elementen beachten

Aufnahme von Informationen erfolgt von oben links nach unten rechts

Gruppierung von Informationen zur Darstellung von Zusammenhängen


EntscheidungsunterstützungssystemeKnowledge Discovery in Databases


Sommersemester 2017





Organisatorisches

138138

Literatur

• Ester, Martin /Sander, Jörg (2000):

Knowledge Discovery in Databases: Techniken und Anwendungen.

Berlin: Springer.

• Fayyad, Usama M. / Piatetsky-Shapiro, Gregory / Smyth, Padhraic (1996):

From data mining to knowledge discovery: An overview.

In: Fayyad, Usama M. / Piatetsky-Shapiro, Gregory / Smyth, Padhraic /

Uthurusamy, Ramasamy [Hrsg.]:

Advances in knowledge discovery and data mining.

Menlo Park et al. : AAAI Press, S. 1-34.


Gliederung


139


3 Reporting



6 Data Mining


Gliederung

140140


5.1 Begriffsabgrenzung

5.2 Prozessmodelle

5.3 Ausgewählte Prozessphasen



… Wir sind zwar konkursreif,

aber dank Data Mining wissen

wir genau warum ... !

141



142142

Knowledge Discovery in Databases

… beschreibt den

“… non-trivial process of identifying valid, novel, potentially useful, and ultimately

understandable patterns in data ...” [Fayyad, et al. 1996]

Bemerkungen

• process

KDD ist der Prozess der (semi-) automatischen Extraktion von implizit vorhandenem

Wissen aus umfangreichen Datenbeständen, das

- valid → im statistischen Sinne

- novel → bisher nicht explizit vorhanden, kein „Allgemeinwissen“

- potentially useful → für eine gegebene Anwendung

ist.

Grundbegriffe des Knowledge Discovery in Databases (I)


Knowledge

Discovery

Expert

Systems

Machine

Learning

StatisticsDatabases

Visualization


143143

KDD als interdisziplinäres Forschungsgebiet

• KDD nutzt und integriert eine Vielzahl von Methoden und Techniken

aus verschiedenen Gebieten

Grundbegriffe des Knowledge Discovery in Databases (II)



144144

Data Mining

Zwei alternative Bedeutungen

Bedeutung 1

• Synonym für KDD: beinhaltet alle Aspekte des Prozesses

• Diese Bedeutung ist insbesondere in der Praxis weit verbreitet!

Bedeutung 2

Data Mining bezeichnet alle Aktivitäten

“... that find a logical or mathematical description, eventually of a complex nature,

of patterns and regularities in a set of data ...” [Decker, Focardi 1995]

• Teil des KDD: Mustergewinnung / Modellierung, Interpretation

Grundbegriffe des Knowledge Discovery in Databases (III)


Gliederung



5.2 Prozessmodelle



5.2 Prozessmodelle

146

• Die Definition nach Fayyad betont den Prozesscharakter.

• Der Prozess ist interaktiv und iterativ.

- Anwender muss entscheiden.

- Führt der Prozess nicht zu

verwertbaren Ergebnissen,

sind Rücksprünge in die vor-

herigen Phasen vorgesehen.

KDD-Prozess nach Fayyad


5.2 Prozessmodelle

147

• CRISP-DM (cross-industry standard process for data mining) ist ein branchen- und

anbieterneutraler Industriestandard.

• Er betont

- das Verständnis der betriebswirtschaftlichen

Problemstellung,

- das Verständnis der zu Grunde liegenden

Datenbasis sowie

- den zyklischen Charakter von DM-Projekten.

• Herauszustellen sind die engen Wechselwirkungen

zwischen den Phasen

- Business und Data understanding sowie

- Data preparation und Modeling.

KDD-Prozess – CRISP-DM

[Chapman et al. 2000]

CRISP - DM


5.2 Prozessmodelle

148

KDD-Prozess - Zeitaufwand


Gliederung



5.2 Prozessmodelle




150

• Bildung von Clustern

• Konstruktion eines Klassifikationsmodells

• Konstruktion eines Regressionsmodells

• Entdeckung von Abhängigkeiten

Zielsetzung und Aufgabenstellung (I)



151

Marketing

Kunden sollen gezielt in Mailingaktionen angesprochen werden

• Frage: „Welche Kundengruppen gibt es?“

• Ziel: Aufteilung der Kunden in Segmente mit ähnlichem Kaufverhalten

• Aufgabe: Bilden von Clustern

• Praxis

- Bankenbereich: 25 % - 30 % Verbesserung der Response-Scores

wurden nachgewiesen

- American Express: 15 % - 20 % Steigerung des Kreditkartengebrauchs

- Spendenaktionen Unicef: 80 % erfolgreichere Spendeneinwerbung

Zielsetzung und Aufgabenstellung - Beispiele (II)



152

CRM - Kundentreue

Einer Versicherung fällt auf, dass viele Kunden ihre Versicherungen kündigen.

• Frage: „Wie kann man diese Kunden identifizieren?“

• Aufgaben

- Bilden von Clustern

mit dem Ziel, Cluster mit kündigungswilligen Kunden zu identifizieren.

- Klassifikationsmodell

Einteilung der Kunden in die Klassen „kündigungswillig“ und

„nicht kündigungswillig“

Zielsetzung und Aufgabenstellung - Beispiele (II)



153

Bonitätsanalyse

Ein neuer Kunde einer Bank möchte einen Kredit bekommen.

Es soll eine Bonitätsanalyse durchgeführt werden

• Frage: „Welcher Risikoklasse ist der Kunde zuzuordnen?“

• Aufgabe: Klassifikationsmodell

Vorhersage von Devisen- / Aktienkursen

• Frage: „Wie entwickelt sich der Kurs des Dollars?“

• Aufgabe: Regressionsmodell

Zielsetzung und Aufgabenstellung - Beispiele (III)



154

Warenkorbanalyse

• Frage: „Welche Artikel werden zusammen gekauft?“

• Aufgabe: Entdecken von Abhängigkeiten

Kreditkartenmissbrauch (fraud detection)

• Frage: „Welche zeitlichen Verhaltensmuster sind festzustellen,

wenn ein Kreditkartenmissbrauch vorliegt?“

• Aufgabe: Entdecken von (temporalen) Abhängigkeiten - Sequenzanalyse

Zielsetzung und Aufgabenstellung - Beispiele (IV)



155

Zusammenfassung

Zielsetzung und Aufgabenstellung - Beispiele (V)

Aufgaben

Klassifikation/ Regression

Clusterung

Abhängigkeitsanalyse

Verfahren

Entscheidungsbaum

Künstliche neuronale Netze

Clusterverfahren

Assoziationsanalyse


• Auswahl und Verknüpfung der Daten

• Bereinigung von fehlerhaften oder fehlenden Daten

• Löschen von redundanten Daten

• Transformation für die Data-Mining-Phase

• Aufteilung des Datenbestandes

156

Datenvorbereitung



Datenvorbereitung (I) - Beispiel

Name Alter Region Ort Anz. Kinder

Meier 56 NRW Duisburg 3

Schulz 32 NRW Duisburg Ja

Muster NRW Essen 2

Müller 18 NRW Diusburg 4

157


fehlende Werte fehlerhafte Werteredundante Werte


• Transformation

Nominale Werte → Zahlen

YES → 1

• Pivotisierung

158

Datenvorbereitung (II) - Beispiel


TID Item 1 Item 2 Item 3 Item 4

1234 1 1 0 1

TID ITEM

1234 Item1

1234 Item2

1234 Item4


EntscheidungsunterstützungssystemeData Mining


Sommersemester 2017





Organisatorisches

160160

Literatur

• Witten, Ian H. / Frank, Eibe / Hall, Mark A. (2011):

Data mining: Practical Machine Learning Tools and Techniques, 3. Aufl.

Amsterdam: Elsevier.

• Cleve, Jürgen / Lämmel, Uwe (2016):

Data Mining, 2. Aufl. Berlin: De Gruyter Oldenbourg.

• Han, Jiawei / Kamber, Micheline / Pei, Jian (2012):

Data mining: Concepts and Techniques, 3. Aufl. Amsterdam: Elsevier.

• Quinlan, John Ross (1986):

Induction of Decision Trees. In: Machine Learning, 1(1): 81-106.


Gliederung


161


3 Reporting



6 Data Mining


Gliederung

162162

6 Data Mining

6.2 Clusterverfahren

6.3 Assoziationsanalyse

6.1 Entscheidungsbaumverfahren



163

• Ziel der Anwendung von Entscheidungsbaumverfahren ist die Erzeugung eines

Modells, durch das unbekannte Datenobjekte einer von mehreren vorgegebenen

Klassen zugeordnet werden können.

• Diese Zuordnung geschieht anhand von Regeln, die durch einen Klassifikationsbaum

dargestellt werden können.

• Beispiel:

Einteilung von Datensätzen, die Angaben über Kunden enthalten, so dass damit

die Käufergruppe erkannt werden kann, in die der Kunde voraussichtlich gehört.

• Voraussetzung

Datenbestand, dessen Datenobjekte ein ausgezeichnetes Merkmal besitzen, durch

das die Klassenzugehörigkeit angegeben ist.

Einführung



• Der Gesamtdatenbestand wird in

eine Trainingsmenge – zur Erstellung des Entscheidungsbaumes – und

eine Testmenge – zur Ermittlung der Klassifikationsgüte –

aufgeteilt.

• Die Trainingsmenge wird dann sukzessive aufgeteilt, so dass sich in den daraus

resultierenden Teilmengen homogenere Gruppen von Datensätzen bezüglich

der Klassifikationsvariablen ergeben.

• Die Aufteilung der Datenmengen kann durch einen (Entscheidungs-) Baum

dargestellt werden, in dem jeder Knoten eine Datenmenge indiziert, dem ein

Homogenitätsmaß zugeordnet wird.

• Erreicht dieses Homogenitätsmaß einen vorgegebenen Wert, so wird der Knoten

einer bestimmten Klasse zugeordnet.

164

Grundsätzliche Arbeitsweise



• Für eine Kreditwürdigkeitsprüfung liegen Kundendaten vor wie

Alter, Einkommen usw. Dabei werden im Gesamtdatenbestand

50 % der Datensätze als kreditwürdig und

50 % der Datensätze als nicht-kreditwürdig

bezeichnet.

• Durch eine Aufteilung des Gesamtdatenbestandes bezogen auf

ein Merkmal sollen zwei Teilmengen derart entstehen, dass sich

in der einen Teilmenge mehr Datensätze mit der Eigenschaft

„kreditwürdig“ und in der anderen Teilmenge mehr Datensätze

mit der Eigenschaft „nicht-kreditwürdig“ befinden.

Beide Teilmengen weisen dann eine bessere Homogenität bzgl.

der Klassifikationsvariablen auf als der Ausgangsdatenbestand.

165

Beispiel Kreditwürdigkeitsprüfung (I)

xx

xx

x

x

xx

x

x

x

x

x

x

xx

x

xx

x x

xx

x

Gesamtdatenbestand

kreditwürdigNicht

kreditwürdig



166

Beispiel Kreditwürdigkeitsprüfung (II)

* Attribut A: Monatliches Einkommen

Bedingung K1: >= 3000

** Attribut B: Sicherheit vorhanden?

Bedingung K2: ja / nein



Regeln

Nachdem ein derartiger Baum generiert worden ist, können nun anhand des Baumes

neuen Datensätzen deren voraussichtliche Klassen zugeordnet werden.

* In obigem Beispiel sind dies:

• WENN ein Mindesteinkommen nicht überschritten wird,

DANN wird der Kredit nicht gewährt.

• WENN ein Mindesteinkommen überschritten wird

und Sicherheiten vorhanden sind,

DANN wird ein Kredit gewährt.

• WENN ein Mindesteinkommen überschritten wird

und keine Sicherheiten vorhanden sind,

DANN wird der Kredit nicht gewährt.

167

Beispiel Kreditwürdigkeitsprüfung (III)

1

32

1

3

2

* Attribut A: Monatliches Einkommen

Bedingung K1: >= 3000** Attribut B: Sicherheit vorhanden?

Bedingung K2: ja / nein



168

• Ein Entscheidungsbaum ist ein Baum mit folgenden Eigenschaften:

Ein innerer Knoten repräsentiert ein Attribut.

Eine Kante repräsentiert einen Test auf dem Attribut des Vaterknotens.

Ein Blatt repräsentiert eine der Klassen.

• Konstruktion eines Entscheidungsbaums

Anhand einer Trainingsmenge

Top-Down

• Anwendung eines Entscheidungsbaums

Durchlauf des Entscheidungsbaums von der

Wurzel zu einem der Blätter

Eindeutiger Pfad

Zuordnung des Objekts zur Klasse des erreichten Blatts.

Grundbegriffe

Klasse

Attribut

Test



Voraussetzungen

• Trainingsmenge T

• Mindestwert für die Homogenität eines Knotens: min-conf

Algorithmus (Pseudocode)

169

Algorithmus “Entscheidungsbaum-Konstruktion”



Zur konkreten Umsetzung von Entscheidungsbaumverfahren ist es notwendig,

eine sog. Split-Strategie festzulegen.

Gegeben

• Trainingsmenge T

• eine disjunkte, vollständige Partitionierung T1, T2, . . . , Tm von T

• pi = die relative Häufigkeit der Klasse ci in T

• Homogenitätsmaß: ein Maß der „Reinheit“ eines Knotens in Bezug auf die

Klassenzugehörigkeit

Gesucht

• ein Split von T in T1, T2, . . . , Tm , der die Unreinheit der Knoten minimiert.

Zur qualitativen Bewertung eines Splits können als Maße genutzt werden:

• Informationsgewinn

• Gini-Index

170

Splitkriterien (I)



Zur konkreten Umsetzung von Entscheidungsbaumverfahren werden zunächst

die zugehörigen Splitkriterien betrachtet.

• Splitkriterien basieren auf einem Homogenitätsmaß, welches z.B. mit Hilfe der

relativen Häufigkeit pi des Auftretens bestimmter Datensätze einer bestimmten

Klasse i definiert werden kann.

• Beispiel:

• Je unterschiedlicher die relativen Häufigkeiten sind, desto homogener ist ein Knoten.

Ideal wäre eine auf eine Ausprägung konzentrierte Verteilung, z.B. (100%, 0%, 0%).

171

Splitkriterien (I)

Anzahl

Datensätze

Relative

Häufigkeit

Gesamt 100 ---

Klasse 1 30 p1 = 30%

Klasse 2 50 p2 = 50%

Klasse 3 20 p3 = 20%



• Als Maß für die Homogenität des Knotens T kann die Entropie verwendet werden:

𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑇 = −

𝑖=1

𝑘

𝑝𝑖 ⋅ log2 𝑝𝑖

Dabei gilt: und man setzt

Es gilt:

• Der Maximalwert der Entropie eines Knotens hängt von der Anzahl der vorhandenen Klassen ab;

bei zwei Klassen nimmt sie Werte zwischen 0 und 1 an: 0 ≤ Entropie(T) ≤ 1

• Die Entropie wächst mit sinkender Homogenität an bis eine Gleichverteilung vorliegt.

• Entropie(T) = 0 ⇔ Knoten T ist homogen

• Entropie(T) = 1 ⇔ Knoten T ist inhomogen, es liegt eine Gleichverteilung vor,

(für Klassenanzahl k = 2 mit pi = 1/2)

172

Splitkriterien (II) - Informationsgewinn

𝑙𝑜𝑔2(𝑥) =ln(𝑥)

ln(2)0 ∙ 𝑙𝑜𝑔2 0 ≔ 0



• Für den Split eines Knotens T nach den verschiedenen Ausprägungen a eines

Attributs A definiert man den Informationsgewinn (IG)

𝐼𝐺(𝑇, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑇 −

𝑎∈𝐴

𝑇𝑎

𝑇∙ 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑇𝑎

Es gilt:

• Der Informationsgewinn IG beschreibt die erwartete Reduktion der Entropie,

wenn die Ausprägung a des Attributs A bekannt ist.

• Für alle Attribute, die bisher beim Baumaufbau noch nicht berücksichtigt wurden,

wird der IG berechnet.

• Zur Expansion bzw. Aufteilung des Baumes wird das Attribut gewählt, das den

größten IG bringt.

173

Splitkriterien (III) - Informationsgewinn



• Als Maß für die Homogenität des Knoten T kann der Gini-Index verwendet werden:

• Es gilt:

• kleiner Gini-Index ⇔ geringe Unreinheit des Knotens

• großer Gini-Index ⇔ hohe Unreinheit des Knotens

• Der Gini-Index nimmt seinen Maximalwert an, wenn eine Gleichverteilung vorliegt.

• Gini(T) = 0 ⇔ Knoten T ist homogen

• Für den Split eines Knotens T nach den verschiedenen Ausprägungen a eines Attributs A

wird der kleinste Gini-Index gewählt.

174

Splitkriterien (IV) – Gini-Index

k

i

ipTGini

1

21)(

Aa

aTGiniT

aTATGini )(

||

||),(



175

Kunde Alter (M1) Einkommen (M2)Personen pro

Haushalt (M3)Kundengruppe

x 1 mittel wenig mittel A

x 2 jung mittel wenig D

x 3 mittel viel mittel C

x 4 alt wenig viel A

x 5 jung mittel viel B

x 6 alt mittel wenig C

x 7 jung viel wenig B

x 8 mittel wenig wenig D

x 9 alt wenig wenig A

x 10 jung wenig viel D

x 11 jung viel mittel B

x 12 alt viel viel C

Übung “Kundengruppen”

Tabellarische Darstellung von 12 Kundenprofilen


Gliederung

176176

6 Data Mining






• Ziel der Anwendung von Clusterverfahren ist das Erkennen und Bewerten

von Clustern.

• Cluster sind Gruppen von Datensätzen. Die Aufteilung der Datensätze soll

so erfolgen, dass

• die Unterschiede zwischen den einzelnen Gruppen möglichst groß sind,

(Datensätze aus verschiedenen Cluster sehr unähnlich)

• die Unterschiede innerhalb der einzelnen Gruppen möglichst klein sind.

(Datensätze in einem Cluster sehr ähnlich)

Voraussetzung

Es müssen Distanz- bzw. Ähnlichkeitsmaße definiert werden

• zwischen Datensätzen sowie

• zwischen Clustern.

177

Einführung (I)



Anwendungsbeispiele

• Kundensegmentierung: Welche Kundenprofile existieren?

(Analyse von Kundenattributen)

• Kaufverhalten: Welche Gruppen bzgl. des Kaufverhaltens bestehen?

(Analyse von Kaufähnlichkeiten)

• Technik: Finden ähnlicher Oberflächen

• Text-Mining: Finden ähnlicher Texte

• Web-Log-Mining: Auffinden von Benutzergruppen auf Websites

178

Einführung (II)



• Um die Ähnlichkeit bzw. Verschiedenheit von Datensätzen zu beurteilen,

muss ein Maß festgelegt werden:

• beim Clustern von Datensätzen in der Regel ein Distanzmaß d

(distance, dissimilarity)

• beim Clustern von Variablen meistens ein Ähnlichkeitsmaß sim

(correlation, similarity)

• Es soll gelten: kleine Distanz ↔ große Ähnlichkeit

große Distanz ↔ kleine Ähnlichkeit

• Bei der Anwendbarkeit von Maßen gilt es, auf die Definitionsbereiche der

Attribute zu achten. Unterschieden werden muss zwischen

• numerischen und

• nominalen Attributen.

179

Distanzmaße für Datensätze (I)



Distanzfunktion zweier Datensätze mit numerischen Attributen

Gegeben

Zwei Datensätze x und y, die Objekte anhand von n numerischen Merkmalen

unterscheiden: x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)

Distanzfunktionen

• Euklidischer Abstand:

• Manhattan Abstand:

• Maximum Abstand: (Tschebyscheff-Abstand)

180

Distanzmaße für Datensätze (II)

22112 )()(),( nn yxyxyxd

||),( 111 nn yxyxyxd

|)|,|,max(|),( 11 nn yxyxyxd



Distanzfunktion zweier Datensätze mit nominalen Attributen

Gegeben

Zwei Datensätze x und y, die Objekte anhand von n nominalen Merkmalen

unterscheiden: x = (x1, x2, ..., xn) und y = (y1, y2, ..., yn)

• Distanz d(x,y)

Anzahl der Attribute, deren Ausprägungen nicht übereinstimmen.

• Ähnlichkeit sim(x,y)

Anzahl der Attribute, deren Ausprägungen übereinstimmen.

Beispiel

181

Distanzmaße für Datensätze (III)

x blue high fat sweet London

y green high fat sweet New York

Distanz: d(x,y) = 2

Ähnlichkeit: sim (x,y) = 3



Distanz zweier Datensätze mit nominalen und numerischen Attributen

Gower-Koeffizient

• wobei

für nominale Attribute gilt:

für numerische Attribute gilt:

• mit: Anzahl der Attribute: n

Spannweite des i-ten Attributs: Ri für 1 ≤ i ≤ n

(= größte Attributsausprägung – kleinste Attributsausprägung)

182

Distanzmaße für Datensätze (IV)

n

i

i yxdn

yxd

1

)( ),(1

),(

ii

iii

yx

yxyxd

falls, 0

falls, 1),()(

i

iii

R

yxyxd

),()(



Distanzmaße für zwei Gruppen von Datensätzen

Gegeben

Zwei Gruppen X und Y von Datensätzen und ein Distanzmaß D

zwischen diesen Datensätzen

Distanzmaße

• Single Linkage:

(nearest neighbour rule)

• Complete Linkage:

(furthest neighbour rule)

• Average Linkage:

183

Distanzmaße für Gruppen

)y,x(dmin)Y,X(DYy,Xx

)y,x(dmax)Y,X(DYy,Xx

Yy,Xx

)y,x(d|Y||X|

)Y,X(D1

Cluster 1 Cluster 2



Vorgehensweise

• Hierarchische Clusteranalyse – Sukzessive Aufteilung in Cluster

• Sukzessive Zusammenfassung von Clustern: agglomerativ

Es wird schrittweise gruppiert, d. h. beginnend mit N Gruppen werden bei jedem

Schritt je zwei Gruppen zu einer zusammengesetzt. So entstehen Partitionen, aus

welchen mögliche Cluster abgeleitet werden können.

• Sukzessive Aufspaltung in Cluster: divisiv.

Von der Initialgruppe, die alle Datensätze enthält, werden schrittweise Untergruppen

gebildet, bis letztlich N Gruppen mit je einem Datensatz vorliegen.

• Partitionierende Clusteranalyse – Anzahl der Cluster wird vorgegeben

• Optimierungsmethode: Es wird eine optimale Partition bei fester

Clusteranzahl K von N Objekten gesucht.

184

Cluster - Algorithmen (I)



Darstellung hierarchischer Clusterverfahren – Dendrogramm

185

Cluster - Algorithmen (II)



Algorithmus für agglomerative Verfahren

186

Cluster - Algorithmen (III)

1. Ausgehend von m (= Anzahl der Elemente) Clustern.

3. Vereinigung der beiden Cluster mit dem geringsten Abstand

zu einem neuen Cluster.

4. Wiederhole ab Schritt 2,

bis sich alle Objekte in einem einzigen Cluster befinden.

2. Erstelle die Distanzmatrix.



Partitionierende Verfahren (1)

Gegeben

• Anzahl der Cluster: K

• Distanzmaß für Datensätze: d → Hier: Euklidisches Distanzmaß

• Jedes der K Cluster wird durch einen Centroid repräsentiert.

• Gilt x = (x1, ..., xn) so kann der Centroid eines Clusters Ci geschrieben werden als:

wobei der arithmetische Mittelwert der j-ten Merkmalsausprägung der Objekte aus

dem Cluster Ci ist.

187

Cluster - Algorithmen (IV)

jx

),...,( 1 ni xxc



Partitionierende Verfahren (2)

• Maß für die Clusterhomogenität für jedes Cluster, z.B.

(z.B. Summe der quadrierten euklidischen Distanzen der Clusterobjekte zum Centroid)

• Daraus lässt sich ein Maß für die erfolgte Gesamtclusteraufteilung ermitteln:

(z.B. Summe der Homogenitätswerte der einzelnen Cluster)

• Ziel ist, eine Partition zu finden, mit der HGesamt minimiert werden kann:

Minimiere HGesamt

188

Cluster - Algorithmen (V)

2

2 ),(

iCx

iiC cxdH

K

iiCGesamt HH

1



Algorithmus für partitionierende Verfahren: K-Means (1)

• Optimierung der Aufteilung in K Cluster

• Cluster werden jeweils durch ihre Centroide repräsentiert. (Mittelwert = means)

189

Cluster - Algorithmen (VI)

1. Wähle K Objekte zufällig als initiale Clustercentroide.

3. Bestimme in den Clustern die aktuellen Centroide.

4. Prüfe, ob alle Objekte den Clustern mit dem geringsten Abstand

zum Centroiden zugeordnet sind, wenn nein, springe zu 2.

2. Ordne die Objekte jeweils dem Cluster zu, zu dessen Centroid

der geringste Abstand vom Objekt besteht.



Algorithmus für partitionierende Verfahren: K-Means (2)

Problem

• Abhängigkeit von

• der Auswahl der initialen Centroide und

• der Reihenfolge der Werte

190

Cluster - Algorithmen (VII)

Ergebnis eines K-Means Verfahrens

Ergebnis: 3 Cluster mit hohem Homogenitätsgrad



191

Kunde Artikelanzahl Durchschnittspreis Artikelgruppen

x 1 20 80 A, B, C

x 2 30 100 A, B, C

x 3 18 150 A, D

x 4 45 60 A, B, C, D

x 5 35 50 A, C, D

x 6 10 120 A, B

Cluster - Algorithmen (VIII)

Übung “Agglomoratives Clustering”



192

Kunde Altersgruppe Kaufhäufigkeit

x 1 1 2

x 2 4 2

x 3 3 1

x 4 4 4

x 5 1 4

x 6 3 5

Cluster - Algorithmen (IX)

Übung “K-Means”


Gliederung

193193

6 Data Mining






• Ziel der Assoziationsanalyse ist das Erkennen und Bewerten von gemeinsam

auftretenden Datenelementen (Items).

• Items können Elemente von Mengen oder einzelne Attributwerte von Datensätzen

sein. Eine Menge von Items wird als Itemset oder auch Itemmenge bezeichnet.

• Beispiel

• Items in Mengen: Warenkorb {Artikel a, Artikel b}

• Items im Datensatz: (PLZ = 47057, ..., Käufergruppe = A)

Voraussetzung

Vorhandensein einer Datenbasis bestehend aus einzelnen Transaktionen

(z. B. Menge von Kassenbons)

194

Einführung (I)



Assoziationsregeln (1)

• Assoziationsregeln beschreiben Korrelationen zwischen gemeinsam

auftretenden Items oder Itemsets.

• Ziel ist die Erzeugung von Regeln der Art

WENN Item a DANN Item b Kurz: a → b

WENN Itemset X DANN Itemset Y (mit X Y = ) Kurz: X →Y

• Beispiel: Warenkorb {Artikel a, Artikel b, Artikel c}

WENN Artikel a und Artikel b gekauft werden,

DANN wird auch Artikel c gekauft.

195

Einführung (II)



Assoziationsregeln (2) – Support und Konfidenz

• Die Anzahl möglicher Regeln kann immens hoch sein. Deswegen sind

Kenngrößen zur Bewertung der Regeln notwendig.

• Support und Konfidenz sind sog. Gültigkeitsmaße zur Bestimmung der

Relevanz von Assoziationsregeln.

• Beispiel

Die Aussagekraft von Regeln soll bewertet werden, z.B.:

„Wird Produkt A gekauft, so wird in 75% der Fälle auch Produkt B gekauft!“

Dies ist im Gesamtdatenbestand bei 10% aller Transaktionen festzustellen.

Diese Größen bezeichnet man als Konfidenz und Support.

• Zur Definition dieser Gültigkeitsmaße benötigt man einen Datenbestand D,

der aus einzelnen Transaktionen t1, ..., tn besteht:

D = {t1, ..., tn} mit |D| = n (Anzahl der Elemente)196

Einführung (III)



Assoziationsregeln (3) – Support

• Support einer Regel

Relative Anzahl der Transaktionen im Gesamtdatenbestand D = {t1, ..., tn} ,

in denen X und Y enthalten sind.

• Support eines Itemsets

Relative Anzahl der Transaktionen im Gesamtdatenbestand D = {t1, ..., tn},

in denen X enthalten ist.

197

Einführung (IV)

D

D t}Y)(X|{tY)Support(X

D

D t}X|{tSupport(X)



Assoziationsregeln (4) – Konfidenz

• Konfidenz einer Regel

Die Konfidenz ist der Anteil der Transaktionen, die die Regel erfüllen,

bezogen auf die Anzahl der Transaktionen, die die Prämisse erfüllen.

• Alternative Berechnung

• Die Konfidenz trifft eine Aussage darüber, mit welcher Sicherheit eine

Regel erfüllt wird, während der Support angibt, wie häufig die Regel

relativ zum Gesamtdatenbestand D auftritt.

198

Einführung (V)

t}(X|{t

t}Y)(X|{tY)XKonfidenz(

D

D

Support(X)

Y)(XSupport Y)XKonfidenz(



Grundstruktur des Algorithmus

Gegeben: MinSup, MinKonf

• Die Berechnung von Assoziationsregeln vollzieht sich in zwei Phasen

• Bestimmung aller Itemsets mit Support ≥ MinSup

Bestimme alle Itemsets, deren Support größer oder gleich einer

vorgegebenen Schranke MinSup ist. (sog. Large-Itemsets)

→ Apriori-Algorithmus

• Bestimmung der Assoziationsregeln aus den Large-Itemsets

Bestimme aus den Large-Itemsets die Regeln, deren Konfidenz größer

oder gleich einer vorgegebenen Schranke MinKonf ist.

→ Prozedur genrules

• Bekannteste Vertreter

Apriori- und Apriori-Tid-Algorithmus (Agrawal und Srikant (1994))

199

Algorithmus zur Berechnung von Assoziationsregeln (I)



Phase I: Apriori - Algorithmus

Gegeben

Alle Itemsets mit einem Item, deren Support ≥ MinSup ist (Large-1-Itemsets)

Ziel: Finde alle Large-Itemsets!

Algorithmus

200

Algorithmus zur Berechnung von Assoziationsregeln (II)



Phase I: Apriori-gen-Prozedur

• Ziel: Bestimmung neuer Candidate-Itemsets!

• „Closure Property“:

Ein Itemset I kann nur dann einen Support größer gleich MinSup besitzen,

wenn sämtliche Teilmengen von I diese Supporteigenschaft besitzen.

Algorithmus

201

Algorithmus zur Berechnung von Assoziationsregeln (III)

1 INSERT INTO Ck

2 SELECT p.item1, p.item2, ..., p.itemk-1, q.itemk-1

3 FROM Lk-1p, Lk-1q

4 WHERE p.item1=q.item1, ... , p.itemk-2=q.itemk-2, p.itemk-1<q.itemk-1;

5 FOR ALL itemsets c aus Ck DO

6 FOR ALL (k-1)-subsets s of c DO

7 IF (s Lk-1) THEN

8 DELETE c from Ck



Phase II: Regel-Erzeugung (simple algorithm)

Algorithmus

202

Algorithmus zur Berechnung von Assoziationsregeln (IV)

1 FOR ALL large Itemsets lk, k ≥ 2 DO

2 CALL Genrules(lk,lk)

3 PROCEDURE Genrules (lk: Large-k-Itemset, am: Large-m-Itemset)

4 A = {(m-1)-Itemsets am-1 | am-1 am}

5 FOR ALL am-1 A DO BEGIN

6 conf = support(lk)/support(am-1);

7 IF (conf ≥ MinKonf) THEN BEGIN

8 OUTPUT the rule am-1 → lk - am-1, with confidence = conf

and support = support(lk);

9 IF (m-1>1) THEN

10 CALL Genrules(lk, am-1)

11 END

12 END



203

Transaction ID Itemset

100 {a, c, d}

200 {b, c, e}

300 {a, b, c, e}

400 {b, e}

Algorithmus zur Berechnung von Assoziationsregeln (V)

Übung: Apriori-Algorithmus

• MinSup = 40%,

• MinConf = 80%

Documents

EUS SS 2011 - wi.msm.uni-due.de · PDF fileManagementinformationssysteme (MIS) (I) Einkauf Produktion Lager Periodische, verdichtete, ... Data Management Subsystem • Komponenten