Data Mining im SAP Business Intelligence 7business-intelligence-institute.org/download/Halboth DataMining im... · ABAP sind Marken oder eingetragene Marken der SAP AG, Deutschland

1 Einleitung

- 1 -

Diplomarbeit

Thema:

„Data Mining im SAP®

Business Intelligence 7.0“

An der Fachhochschule Dortmund

im Fachbereich Informatik

erstellte Diplomarbeit

im Studiengang Wirtschaftsinformatik

zur Erlangung des Grades

Diplom-Informatiker (FH) von

Dennis Halboth

geboren am 13.12.1981

(Matr.-Nr.: 7064539)

Betreuung: Prof. Dr. Engels

Dortmund, 15.03.2009

Markenrechtlicher Hinweis

- 2 -

Markenrechtlicher Hinweis

Die in dieser Arbeit wiedergegebenen Gebrauchsnamen, Handelsnamen, Warenzeichen usw.

können auch ohne besondere Kennzeichnung geschützte Marken sein und als solche den

gesetzlichen Bestimmungen unterliegen. Sämtliche in dieser Arbeit abgedruckten

Bildschirmabzüge unterliegen dem Urheberrecht © des jeweiligen Herstellers.

SAP, R/3, mySAP ERP, ABAP, BAPI, SAP Business Warehouse (BW), SAP Customer

Relationship Management (CRM), SAP Netweaver, SAP Business Intelligence (BI) und

ABAP sind Marken oder eingetragene Marken der SAP AG, Deutschland.

Microsoft, Microsoft Windows, Microsoft Office, Visio, Word, Excel sind Marken oder

eingetragene Marken der Microsoft Corp., USA.

Kurzfassung

- 3 -

Kurzfassung

Die vorliegende Diplomarbeit befasst sich mit dem Data Mining im SAP Business

Intelligence 7.0 (SAP BI 7.0) sowie den Funktionen und möglichen Einsatzgebieten in der

Versorgerindustrie. Vorausgegangen ist die Projektarbeit über den Analyse-Prozess-

Designer (APD), in der dieses, auch für das Data Mining benötigte Tool ausführlich in

seinen Möglichkeiten beschrieben wurde.

Es wird erläutert, warum Data Mining bei den stetig steigenden Datenmengen immer

bedeutender für den Erfolg von Unternehmen und zur Schaffung von Wettbewerbsvorteilen

wird und warum diese Technologie bereits umfassend in vielen Unternehmen für

strategische und operative Entscheidungen eingesetzt wird.

Ingesamt wird deutlich, dass die Data-Mining-Lösung im SAP BI 7.0 einen guten Reifegrad

erreicht hat. Die wichtigsten und bekanntesten Verfahren wurden stabil und sinnvoll

implementiert und können durch die einfache und intuitive Bedienung schnell eingesetzt

werden. Die nahtlose Integration in das Business Warehouse (BW) erlaubt nicht nur den

Zugriff auf das zentrale Metadata-Respository, sondern auch auf alle Datenquellen- und

Datenziele des BW. So ist das Data Mining sofort und ohne zusätzliche Anschaffungskosten

einsatzbereit.

Dennoch gibt es weiteres Verbesserungspotential. So müssen einige „Kinderkrankheiten“, je

nach Patchlevel des Systems, mit Hilfe von Hinweisen behoben werden. Andernfalls werden

ggf. Diagramme nicht korrekt angezeigt oder es kommt in spezifischen Situationen zu

Programmabbrüchen. Die nicht lineare Regression arbeitet im Gegensatz zu den anderen

implementieren Data-Mining-Verfahren äußerst instabil, so dass der Einsatz nach aktuellem

Stand nicht zu empfehlen ist. Zusätzliche Erweiterungen und Verbesserungen sind im

Bereich der Ergebnisdarstellung möglich, wenngleich sie in der aktuellen Form durchaus als

ausreichend angesehen werden kann.

Es wird gezeigt, dass Data Mining keine Geheimwissenschaft mehr ist. Dennoch basiert der

erfolgreiche Einsatz des Data Mining nicht nur auf verschiedenen Voraussetzungen

bezüglich Datenmanagement und Datenqualität, sondern auch auf Detailwissen im Hinblick

auf die Konfiguration der Modelle sowie Know-How und Domänenwissen zur Beurteilung

der Güte der erzielten Ergebnisse. Außerdem wird klar, dass Prozessmodelle äußerst

hilfreiche Instrumente für die schrittweise und gezielte Durchführung von Data-Mining-

Anwendungen sind, um effektiv zu brauchbaren, interessanten und neuen Erkenntnissen zu

gelangen.

Die Einsatzgebiete des Data Mining sind vielfältig. Viele der beispielhaft beschriebenen

Einsatzszenarien lassen sich mit unterschiedlichen Methoden und Konfigurationen

durchführen. Oftmals ist der Einsatz mehrerer Data-Mining-Verfahren innerhalb eines

Analyseprozesses nötig, um die gewünschten Ergebnisse erzielen zu können.

Anhand einer exemplarischen Fallstudie mit realen Daten erfolgt die Durchführung einer

Data-Mining-Anwendung unter Berücksichtigung eines ausgewählten Prozessmodells.

Abstract

- 4 -

Abstract

The present thesis deals with Data Mining in SAP Business Intelligence 7.0 (SAP BI 7.0)

supplemented with the functions and the application areas in the utilities industry. The

preceded project work was based on the Analyse-Process-Designer (APD). This tool, which

is also required for Data Mining, was described and its possibilities were characterised.

This work explains why Data Mining is (in the ever-increasing volume of data) very

important for the success of companies and for creating competitive advantages, and why

this technology already had and is being contributed in many companies for strategic and

operational decisions.

Overall it will be made clear that the Data Mining solution in SAP BI 7.0 has reached a good

degree of maturity and stability. The most important and well-known techniques were stable

and meaningful implemented and can be used quickly by the simple and intuitive handling.

The seamless full integration into the Business Warehouse (BW) not only allows the access

to the central Metadata Repository, but also to all data sources and data targets of the BW.

Thus the Data Mining can be used immediately and without any additional costs of purchase.

However, there is potential for further improvement. Thus some “teething problems”,

depending on the patch level of the system, can occur. If the system is not patched, maybe

diagrams are not properly displayed or in specific situations programs are terminating. The

non-linear regression works (in contrast to the other implemented Data Mining processes)

extremely unstable, so that the use is currently not recommended. Other possible extensions

and improvements are possible in the field of results presentation, although this can be

considered to be sufficient in the current form.

It is shown that Data Mining is no more a secret science. However, the successful

deployment of Data Mining not only bases on different requirements relative to data

management and data quality, but also detailed knowledge regarding to the configuration of

the models and know-how and even domain knowledge to assess the quality of the results

achieved. It is also made clear that process models are an useful instrument for the gradual

and targeted implementation of data mining applications to arrive at new, useful and

interesting conclusions and insights.

The application areas of data mining are manifold. Many of the examples describing the

implementation scenarios can be performed with different Data Mining methods and

configurations. Often the use of multiple Data Mining procedures in an analysis process is

needed to achieve the desired results.

Based on an exemplary case study with real data, the implementation of a Data Mining

application is done, regarding to a selected process model.

Inhaltsverzeichnis

- 5 -

Inhaltsverzeichnis

1 Einleitung .................................................................... 8

1.1 Beschreibung der Thematik .......................................... 8

1.1.1 evu.it GmbH ..................................................................................... 9

1.2 Zielsetzung der Arbeit ................................................. 10

1.3 Abgrenzung ................................................................ 10

1.4 Eingesetzte Software .................................................. 11

2 Einführung Data Mining ........................................... 12

2.1 Data Mining ................................................................. 12

2.2 Knowledge Discovery in Databases ........................... 14

2.3 Übersicht der Data-Mining-Verfahren ......................... 15

2.4 OLAP vs. Data Mining................................................. 18

2.5 Voraussetzungen für erfolgreiches Data Mining ......... 20

2.6 Prozessmodelle .......................................................... 21

2.6.1 CRISP-Prozess ............................................................................. 22

2.6.2 Fayyad-Prozess ............................................................................. 24

2.6.3 Säuberlich-Prozess ....................................................................... 25

2.6.4 Bewertung ..................................................................................... 26

3 Data-Mining-Workbench ........................................... 27

3.1 DM-Workbench vs. APD-Workbench .......................... 27

3.2 Aufbau der DM-Workbench ........................................ 28

3.3 Anlegen eines DM-Modells ......................................... 29

3.4 Weitere Funktionen ..................................................... 31

3.5 Automatisierungen ...................................................... 32

3.5.1 Hintergrundverarbeitung ................................................................ 32

3.5.2 Prozessketten ................................................................................ 34

4 Data-Mining-Verfahren im SAP BI 7.0 ..................... 36

4.1 Clusteranalyse ............................................................ 36

4.1.1 Beispiele in der Versorgerbranche ................................................ 37

4.1.2 Mathematische Grundlagen .......................................................... 39

4.1.3 Umsetzung im SAP BI 7.0 ............................................................. 43

4.1.4 Bewertung ..................................................................................... 49

4.2 ABC-Analyse .............................................................. 50




4.2.4 Bewertung ..................................................................................... 56

Inhaltsverzeichnis

- 6 -

4.3 Scoring-Verfahren ....................................................... 57




4.3.4 Bewertung ..................................................................................... 63

4.4 Assoziationsanalyse ................................................... 64




4.4.4 Bewertung ..................................................................................... 74

4.5 Entscheidungsbaum ................................................... 75

4.5.1 Beispiele in der Versorgerbranche: ............................................... 76



4.5.4 Bewertung ..................................................................................... 86

4.6 Regressionsanalyse ................................................... 87




4.6.4 Bewertung ..................................................................................... 95

4.7 Kombination verschiedener Verfahren ........................ 96


4.8 Implementierung weiterer Verfahren ........................... 99

5 Fallstudie „Kündigungsprävention“ ..................... 100

5.1 Business Understanding ........................................... 100

5.1.1 Determine Business Objectives .................................................. 100

5.1.2 Assess Situation .......................................................................... 101

5.1.3 Determine Data Mining Goals ..................................................... 101

5.2 Data Understanding .................................................. 102

5.2.1 Collect Initial Data........................................................................ 102

5.2.2 Describe Data .............................................................................. 102

5.2.3 Explore Data ................................................................................ 104

5.2.4 Verify Data Quality....................................................................... 104

5.3 Data Preparation ....................................................... 104

5.3.1 Select Data .................................................................................. 104

5.3.2 Clean, Construct, Integrate, Format Data ................................... 106

5.4 Modeling ................................................................... 109

5.4.1 Select Modeling Technique ......................................................... 109

5.4.2 Generate Test Design ................................................................. 109

5.4.3 Build Model .................................................................................. 110

5.4.4 Assess Model .............................................................................. 116

5.5 Evaluation ................................................................. 118

5.5.1 Evaluate Results .......................................................................... 118

Inhaltsverzeichnis

- 7 -

5.5.2 Determine Next Steps ................................................................. 120

5.6 Deployment ............................................................... 120

5.6.1 Plan Deployment ......................................................................... 120

5.6.2 Review Project ............................................................................. 121

6 Abschluss ................................................................ 123

6.1 Zusammenfassung ................................................... 123

6.2 Fazit .......................................................................... 124

6.3 Ausblick .................................................................... 125

7 Anhang .................................................................... 127

7.1 Erläuterungen zu den Hinweisen .............................. 127

7.2 A selection of useful ISU-Tables ............................... 128

7.3 Abbildungen und Listings zur Fallstudie.................... 129

7.3.1 Collect Initial Data........................................................................ 129

7.3.2 Clean, Construct, Integrate, Format Data ................................... 131

8 Abkürzungsverzeichnis .......................................... 136

9 Abbildungsverzeichnis ........................................... 137

10 Tabellenverzeichnis ................................................ 141

11 Formelverzeichnis .................................................. 142

12 Listingverzeichnis .................................................. 143

13 Quellenverzeichnis ................................................. 144

14 Glossar .................................................................... 148

15 Eidesstattliche Erklärung ....................................... 154

16 Erklärung ................................................................. 155

17 Stichwortverzeichnis .............................................. 156

1 Einleitung

- 8 -

1 Einleitung

1.1 Beschreibung der Thematik

Die Neuregelung des Energiewirtschaftsgesetzes (EnWG) im Jahre 1998 und das „Zweite

Gesetz zur Neuregelung des Energiewirtschaftsrechtes“ 2005 führten zu tiefgreifenden

Veränderungen in der Versorgerbranche. Die erzwungene Öffnung und Liberalisierung des

Marktes führte, wie in kaum einer anderen Branche, zu einer drastischen Steigerung der

Konkurrenzsituation und damit zu wirtschaftlichem Handeln. Die verstärkte Nutzung der

operativen ERP-Systeme (Enterprise Resource Planning) und damit auch der enorme

Anstieg der Datenmengen, in diesem ohnehin datenintensiven Industriezweig, waren die

Folge, so dass zunehmend Data-Warehouse-Lösungen eingesetzt wurden.1

Die Verarbeitung, vor allem aber die Analyse der Daten zur Schaffung eines

Wettbewerbsvorteils, wird zunehmend bedeutender für den Erfolg eines Unternehmens. Dies

ist der Ansatzpunkt für das Data Mining.

Data Mining ist jedoch keine neue Technologie. Die ersten Entwicklungen gab es bereits in

den 70er Jahren, in denen Data-Mining-Verfahren entwickelt wurden, um die in der

Forschung entstandenen Hypothesen zu bestätigen oder zu widerlegen. In den 80er Jahren

wurde dann zunehmend versucht, Zusammenhänge und Abhängigkeiten zwischen Daten mit

Hilfe des Data Mining zu identifizieren. Der Durchbruch des Data Mining erfolgte jedoch

erst mit dem flächendeckenden Einsatz von großen Datenbanken in Unternehmen sowie der

enormen Steigerung der Rechenleistung bei gleichzeitigem Verfall der Kosten für die

entsprechenden Systeme. Mit den weiterhin stetig steigenden Datenmengen der

Unternehmen gewinnt das Data Mining zunehmend an Bedeutung.

»Der Data-Mining-Ansatz verspricht, als Instrument des Informationsmanagements, ein

wirkungsvolles Hilfsmittel zur [Entdeckung und] Filterung relevanter Informationen zu

sein.«2

Trotz der langen Entwicklungsgeschichte wurde das Data Mining vielfach als „Hexenwerk“

oder „Geheimwissenschaft“ angesehen:

»[...] Analyseverfahren, die Unternehmen bisher unerkannte Zusammenhänge in ihren

Geschäftsinformationen aufzeigen sollen, umgibt die Aura einer Geheimwissenschaft, die

1 [Projektarbeit, 2008] S.8

2 [Küppers, 1999] S.30

1 Einleitung

- 9 -

nur Spezialisten beherrschen. Doch die Zeiten ändern sich. Data Mining wird strategisch

und tatsächlich genutzt«1

Der Markt der Data-Mining-Produkte wächst rasant und entsprechendes Fachpersonal wird

händeringend gesucht. An Hochschulen (nicht nur an der Fachhochschule Dortmund) finden

vermehrt Data-Mining-Seminare statt und auch Schulungen erfreuen sich zunehmender

Beliebtheit. So verwundert es nicht, dass auch SAP die Zeichen der Zeit erkannt hat und seit

längerem die Entwicklung der Data-Mining-Lösung innerhalb ihrer Systeme forciert.

»Das Spektrum an Verfahren, die Möglichkeiten zum modulübergreifenden Einsatz und die

Integration in grafische Entwicklungswerkzeuge haben in SAP [BI 7.0] einen vorläufigen

Höhepunkt erreicht.«2

Die Basis für den Einsatz von Data Mining im SAP BI 7.0 wurde bereits in der

vorangegangen Projektarbeit gelegt, indem das vorbereitende Werkzeug, der Analyse-

Prozess-Designer, mit seinen Funktionen und Einsatzgebieten ausführlich beschrieben

wurde. In dieser Diplomarbeit gilt es nun die Möglichkeiten zu erörtern und zu bewerten, die

im Rahmen des Data Mining im SAP BI 7.0 zur Verfügung stehen.

1.1.1 evu.it GmbH3

Die Durchführung dieser Diplomarbeit erfolgt in Zusammenarbeit mit der Firma evu.it

GmbH. Sie ist ein international tätiges Beratungsunternehmen für die Ver- und

Entsorgungswirtschaft, die öffentliche Verwaltung sowie den öffentlichen

Personennahverkehr. Mit ihrem Hauptsitz in Dortmund sowie weiteren Standorten in Kiel,

Mannheim, Nürtingen und Rostock, bietet die evu.it GmbH ein breites Angebot an

Beratungs- und Entwicklungsleistungen mit Schwerpunkt auf die Produkte SAP sowie

Microsoft Dynamics NAV.

Die Geschäftsbereiche der evu.it GmbH gliedern sich wie folgt:

■ Enterprise Solution Consulting

■ Billing

■ Business Intelligence

■ Customer Relationship Management

■ Energy Data Management

■ Enterprise Resource Planning

■ Public Sector

■ Development

Die evu.it GmbH ist eine 100%ige Tochter der rku.it GmbH in Herne. Das Leistungsangebot

der rku.it GmbH umfasst neben der Bereitstellung von Anwendungssystemen und deren

1 [Computerwoche, 2007]

2 [KiVa, 2007] S.12

3 [EVU-IT, 2008]

1 Einleitung

- 10 -

individueller Anpassung auch das Hosting von Systemen im rku.it-Rechenzentrum.

Umfangreiche Schulungsprogramme und umfassender Support runden das Leistungs-

spektrum ab.

1.2 Zielsetzung der Arbeit

Das Ziel dieser Arbeit ist es, die Möglichkeiten, Funktionen und Einsatzgebiete der Data-

Mining-Lösung im SAP BI 7.0 zu erörtern und zu beschreiben.

Zu diesem Zweck sollen zunächst die Grundlagen des Data Mining behandelt werden, indem

die verschiedenen Begrifflichkeiten definiert und voneinander abgegrenzt werden. Zusätzlich

soll ein erster, allgemeiner Überblick über die Data-Mining-Verfahren geschaffen sowie die

Voraussetzungen und Vorgehensweisen für erfolgreiches Data Mining bestimmt werden.

Um das Data Mining im SAP BI 7.0 durchführen zu können ist es notwendig, das Werkzeug,

die sogenannte Data-Mining-Workbench, näher kennen zu lernen. Daher soll der Aufbau und

die Funktionsweise der Data-Mining-Workbench sowie die Verbindung und das

Zusammenspiel zur Analyse-Prozess-Designer-Workbench dargestellt werden.

Der Großteil der Arbeit soll sich anschließend mit den verschiedenen im SAP BI 7.0

implementierten Data-Mining-Verfahren beschäftigen. Dabei soll erörtert werden, wie die

Techniken generell arbeiten und wie sie im SAP BI 7.0 umgesetzt worden sind. Die dafür

benötigten mathematischen Kenntnisse, die zum Verständnis und zur Konfiguration von

Bedeutung sind, sollen anschaulich beschrieben werden. Zusätzlich sollen Beispiele genannt

werden, in denen das jeweilige Verfahren in der Versorgerbranche sinnvoll eingesetzt

werden kann. Abschließend soll die Umsetzung des Verfahrens im SAP BI 7.0 bewertet und

Verbesserungspotentiale aufgezeigt werden.

Den Abschluss dieser Arbeit soll eine praxisorientierte Fallstudie mit Bezug zur

Versorgerindustrie bilden, die nach einem ausgewählten Vorgehensmodell schrittweise

durchgeführt und beschrieben wird.

1.3 Abgrenzung

Der Analyse-Prozess-Designer wurde bezüglich der Funktionsweise, der Bedienung, den

Einsatzgebieten und der Integration in das Business Warehouse bereits ausführlich in der

vorangegangen Projektarbeit beschrieben, ebenso wie der gesamte ETL-Prozess (Extraktion,

Transformation, Laden) der Datenbeschaffung sowie das Objektkonzept und der Datenfluss.

Somit wird die Projektarbeit als Grundlage für diese Diplomarbeit verstanden und einzelne

Teilaspekte werden nicht erneut dargestellt.1

Data Mining ist ein sehr komplexes Themengebiet, das einem stetigen Wandel unterliegt und

in dem die vielen unterschiedlichen Data-Mining-Verfahren ständig weiter- oder

neuentwickelt werden. In dieser Arbeit sollen jedoch nur die im SAP BI 7.0 implementierten

1 [Projektarbeit, 2008] passim

1 Einleitung

- 11 -

Verfahren erläutert und dargestellt werden. Eine Gesamtübersicht über alle aktuellen Data-

Mining-Techniken ist an dieser Stelle nicht zu leisten1 und in Anbetracht der Zielsetzung

auch nicht sinnvoll.

Bei der Beschreibung der Data-Mining-Verfahren im SAP BI 7.0 liegt der Schwerpunkt in

der Anwendung und nicht in der mathematischen Herleitung. Daher wird versucht, den

mathematischen Exkurs auf das Nötigste zu beschränken, indem lediglich diejenigen

Aspekte mathematisch erläutert werden, die für das Verständnis, den Ablauf und die

Konfiguration des jeweiligen Modells von Bedeutung sind.2

1.4 Eingesetzte Software

Die offiziellen Produktbezeichnungen von SAP sind recht unübersichtlich. Bis zu der

Version 3.3 wird das System als „SAP Business Information Warehouse“ bezeichnet. Die

Bezeichnung des Nachfolgers lautet „SAP Netweaver 2004“. Das in dieser Arbeit

verwendete System trägt die offizielle Bezeichnung „SAP Netweaver 7.0“ oder „SAP

Neatweaver 2004s“ oder „SAP BI 7.0“. Das neueste derzeit verfügbare System ist „SAP

Netweaver 7.1“.

Im Rahmen dieser Diplomarbeit wird ausschließlich und einheitlich die Bezeichnung „SAP

BI 7.0“ für das verwendete System benutzt, da sich dieser Begriff, neben der inoffiziellen

Bezeichnung „BW 7.0“, in der Praxis durchgesetzt hat.

Folgende SAP-Systeme kommen zum Einsatz:

■ SAP BI 7.0 Testsystem der rku.it und evu.it

■ SAP R/3 mit IS-U (Industry Solution for Utilities)-Modul

(Spiegelung eines Produktivsystems; Stand Mai 2008)

■ SAP BW 3.5 Produktivsystem mit der vollständigen Verkaufsstatistik

■ SAP GUI 640 mit Business Explorer (BEx Analyzer, BEx Query Designer)

Die gesamte Ausarbeitung und damit auch die Umsetzung erfolgt im BI 7.0-Testsystem. Die

anderen Systeme werden lediglich für die Datenbeschaffung im Rahmen der Fallstudie

benötigt.

1 Weiterführende Informationen siehe [Küppers, 1999] passim, [Petersohn, 2005] passim

2 Weiterführende Informationen siehe [Petersohn, 2005] passim, [Sachs, 1992] passim

2 Einführung Data Mining

- 12 -


Im Mittelpunkt des folgenden Kapitels steht die Definition, Erläuterung und Abgrenzung des

Data Mining und Knowledge Discovery in Databases (KDD) sowie ihre Einordnung im

Gesamtkomplex des Business Intelligence (BI). Nach einer einführenden Darstellung der

grundlegenden Aufgaben, Ziele und Potentiale, folgt eine kategorisierte Übersicht der

verschiedenen Data-Mining-Verfahren. Anschließend werden die wesentlichen Unterschiede

zwischen den beiden Analysemethoden OLAP (Online Analytical Processing) und Data

Mining herausgearbeitet. Den Abschluss dieser Einführung bildet die Darstellung

verschiedener Prozess-Modelle, die den Ablauf eines Data-Mining-Prozesses ganzheitlich

beschreiben.

2.1 Data Mining

Der rasante Anstieg der IT-Systeme in allen Unternehmensbereichen führt seit den 90er

Jahren in allen Branchen zu immer größeren und unübersichtlicheren Datenbeständen. Jeder

Kontakt eines Kunden mit einem Unternehmen führt zu einer Vielzahl an Informationen, die

erhoben, gespeichert und verwaltet werden müssen. Beginnend bei dem Abschluss eines

Vertrages mit einem Dienstleistungsunternehmen, über den täglichen Einkauf im

Supermarkt, bis hin zur Nutzung des Internets, werden Unmengen von Daten gespeichert,

die nicht nur persönliche oder geschäftliche Informationen enthalten, sondern auch Vorgänge

und Verhalten einzelner Personen oder Gruppen beschreiben. Mit Hilfe der Analyse dieses

Datenmaterials erhoffen sich Unternehmen zunehmend den entscheidenden Wettbewerbs-

vorteil gegenüber der Konkurrenz.

Der englische Begriff “Mining” stammt aus dem Bergbau und kann mit „Abbau“ oder

„Gewinnung“ übersetzt werden. Das englische Verb „to mine sth.“ bedeutet soviel wie

„etwas abbauen“, „etwas fördern“ oder „in etwas graben“. Diese Übersetzungen geben im

Zusammenhang mit den bereits genannten Ausführungen einen ersten anschaulichen

Eindruck, welches die Ziele des Data Mining sind.

Ähnlich wie im Bergbau ist es die Aufgabe des Data Mining die „nuggets“ zu finden;

genauer gesagt die „knowlegde nuggets“.1 Dabei erschwert es das stetig steigende

Datenvolumen, diese neuen, interessanten und für ein Unternehmen bedeutenden

Informationen zu extrahieren. Das Wissen, das aus diesen Informationen gewonnen werden

kann, unterstützt die Entscheidungsträger in einem Unternehmen bei allen strategischen,

taktischen und operativen Entscheidungen.

1 [Cubeserv, 2008]


- 13 -

Die meisten Entscheidungen in einem Unternehmen werden in Unwissenheit über die

Konsequenzen und Entwicklungen in der Zukunft getroffen. So werden beispielsweise

Lagerbestände gekauft oder verkauft, ohne zu wissen wie sich die zukünftige

Preisentwicklung gestaltet oder es werden Kredite vergeben, ohne Aussagen über das

zukünftige Verhalten der Kunden machen zu können. Unternehmerische Entscheidungen

werden demnach oft unter dem Aspekt der Unsicherheit und Ungewissheit getroffen.1

Da nach wie vor der „Blick in die Zukunft“ nicht möglich ist, werden Daten der

Vergangenheit verwendet, um Entscheidungen über die Zukunft zu treffen. Dabei wird

davon ausgegangen, dass Muster der Vergangenheit („Meier war bisher immer pünktlich“)

auch den Mustern der Zukunft entsprechen („Meier ist auch morgen wieder pünktlich“).

Diesen grundsätzlichen Gedankengang verfolgen auch die verschiedenen Verfahren des Data

Mining. Das heißt, auf Basis der vorhandenen Daten werden neue, nicht triviale

Informationen gewonnen, die für ein Unternehmen von besonderer Bedeutung sein können

und zukünftige Entscheidungen unterstützen.

»Data mining is the process of discovering meaningful new correlations, patterns and trends

by "mining" large amounts of stored data using pattern recognition technologies, as well as

statistical and mathematical techniques.«2

Die Entwicklungsgeschichte3 des Data Mining ist in Abbildung 1 veranschaulicht:

Abbildung 1: Entwicklungsgeschichte Data Mining

4

1 [Kandel et al., 2001] Preface

2 [AsSi, 2002]

3 In Anlehnung an [Doug, 2008]

4 In Anlehnung an [BW380, 2005] S.7


- 14 -

2.2 Knowledge Discovery in Databases

Im Zusammenhang mit Data Mining wird oftmals der Begriff Knowledge Discovery in

Databases als Synonym verwendet. Über diese Betrachtungsweise herrscht jedoch noch

immer Uneinigkeit, was folgende Definition deutlich macht:

»Data Mining ist ein Teilschritt des KDD-Prozesses, der aus bestimmten Algorithmen

besteht, die in akzeptabler Rechenzeit aus einer vorgegebenen Datenbasis eine Menge von

Mustern liefern«1

Demnach ist das Data Mining nur ein Teilschritt, der sich mit der eigentlichen Datenanalyse

beschäftigt, während der gesamte KDD-Prozess als übergreifender Prozess des Data Mining

verstanden wird, dem auch die Vorbereitung und Konsolidierung der Daten sowie die

Bewertung und Interpretation der Ergebnisse zugeordnet werden.2

»Knowledge Discovery in Databases bezeichnet den nicht-trivialen Prozess der

Identifikation valider, neuartiger, potentiell nützlicher und klar verständlicher Muster in

Daten.«3

Diese Abgrenzung zwischen Data Mining und KDD sowie die Einordnung beider Begriffe in

den Kontext des Business Intelligence ist in Abbildung 2 dargestellt:

Abbildung 2: Einordnung BI, KDD und DM

4

Es wird deutlich, dass sowohl der KDD-, als auch der Data-Mining-Prozess lediglich

Teilprozesse innerhalb des Gesamtkomplex Business Intelligence sind. Das Data Mining ist

nach der o.g. Definition wiederum nur ein Teilschritt innerhalb des Knowledge Discovery in

Databases.

1 [Säuberlich, 2000]

2 [KiVa, 2007] S.19

3 [Fayyad et al., 1996] S.6

4 In Anlehnung an [KiVa, 2007] S.21


- 15 -

Dieser Versuch der Präzisierung, der historisch getrennt voneinander gewachsenen Begriffe,

ist durchaus sinnvoll und verständlich, jedoch zeigt sich, dass diese Trennung in der Praxis

nicht angewandt wird. Folgende Gründe können dafür genannt werden:1

■ Data Mining als Überbegriff für eine Sammlung und Kombination von verschiedenen

Verfahren zu verstehen reicht kaum aus, um dafür einen neuen Begriff zu definieren.

■ Die Vorstellung in „Datenbergwerken“ nach Informationen „zu graben“ ist wohl

eingängiger und anschaulicher als „Wissen zu entdecken“.

■ »Die ergänzenden Prozeßschritte, die […] aus Data-Mining-Methoden den KDD-Prozeß

bilden, nämlich die Vor- und Nachbearbeitung sowie die Tatsache, dass ein iteratives

Vorgehen nötig ist, könnten somit leicht als notwendiges aber nicht begriffsbestimmendes

Beiwerk betrachtet werden.«2

Aus den genannten Gründen werden im weiteren Verlauf der Arbeit die Begriffe Knowledge

Discovery und Data Mining synonym verwendet.

2.3 Übersicht der Data-Mining-Verfahren

In der Literatur gibt es viele verschiedene Ansätze, die versuchen, die Vielzahl an Methoden

des Data Mining zu strukturieren. Beispielsweise werden alle Methoden auf nur einer Ebene

(der Verfahren) verteilt.3 Alternativ werden zwei Ebenen

4 verwendet (Verfahren und

Techniken bzw. Aufgaben und Methoden) oder sogar drei Ebenen5 (primäre Ziele,

Methoden, Algorithmen). Im Folgenden wird ein Ansatz mit zwei Ebenen gewählt.

Die erste Ebene wird als Aufgaben, die zweite als Methoden (oder Verfahren) bezeichnet.

Den folgenden Aufgaben können die einzelnen Methoden zugewiesen werden:

■ Segmentierung

■ Klassifikation

■ Prognose

■ Abhängigkeitsanalyse

■ Abweichungsanalyse

Segmentierung

Bei der Segmentierung werden Objekte in sinnvolle und interessante Gruppen und Klassen

aufgeteilt. Die Gruppen sind dabei im Vorfeld nicht bekannt. Anhand der gemeinsamen

Eigenschaften der Objekte werden sie in die neu entstandenen Gruppen eingeordnet. Ein

Beispiel für die Segmentierung sind die Bezeichnungen Yuppies (young urban professionals)

1 [Küppers, 1999] S.24

2 ebd.

3 [ChaGlu, 1998] S.301ff

4 [Schinzer, 1999], [AlNi, 2000] S.9ff

5 [Fayyad et al., 1996] S.1ff


- 16 -

oder Dinks (double income no kids).1 Mit Hilfe der Segmentierung sind beispielsweise

gezielte Marketingaktionen möglich.

Oftmals ist die Segmentierung nur ein Teilschritt im gesamten Data-Mining-Analyseprozess,

denn kleinere, homogene Teilmengen können zumeist besser analysiert werden.

Beispielsweise erschwert die Betrachtung aller Kunden das Erkennen von Mustern im

weiteren Verlauf des Data-Mining-Prozess. Die Einschränkung in Abhängigkeit von den

gewählten Zielsetzungen, auf z.B. alle besonders wertvollen Kunden oder alle Kunden mit

schlechter Zahlungsmoral, ist zumeist sinnvoller.

Klassifikation

Die Klassifikation dient der Zuordnung von Objekten zu Klassen, die im Vorfeld definiert

worden sind. Das bedeutet, wenn die Eigenschaften des Objekts mit denen der Klasse

übereinstimmen, wird dieses Objekt der Klasse zugewiesen. Die Klassen besitzen dabei

oftmals beschreibende Namen, z.B. „guter Kunde“, „schlechter Kunde“. Die Zuordnung der

Objekte kann zumeist über Regeln ausgedrückt werden (z.B. „wenn Einkommen > 3000

dann ist es ein guter Kunde“).

Dabei wird mit einer Trainingsmenge (z.B. die bekannten „guten Kunden“) ein Modell

erzeugt, das später neue, bisher unbekannte Objekte den Klassen zuordnen kann. Dieses

Modell wird auch Klassifikator genannt.

»Klassifikation ist eines der wichtigsten Data Mining Ziele, weil sich viele Anwendungs-

probleme darauf abbilden lassen.«2

Die Bildung der Klassen kann auch mit Hilfe der Segmentierung durchgeführt werden, um

so Gruppierungen erzeugen zu können, die zuvor nicht bekannt sind.

Prognose

Die Prognose (oder Vorhersage) ist in ihrer Zielsetzung sehr eng mit der Klassifikation

verknüpft. Auch die Klassifikation erlaubt die Vorhersage unbekannter Merkmalswerte.

Dabei werden jedoch eher symbolische Werte vorhergesagt (z.B. „guter Kunde“), während

in der Prognose stetige Werte erzeugt werden (z.B. Umsatz im nächsten Monat).

Aufgrund ihrer engen Verbindung, werden die Methoden beider Aufgaben oftmals unter

einem Begriff zusammengefasst.3

Abhängigkeitsanalyse

Die Abhängigkeitsanalyse versucht Beziehungen zwischen verschiedenen Merkmalen von

Objekten aufzudecken. Dabei können entweder feste Zeitpunkte (z.B. „fettarme Milch wird

häufig zusammen mit fettarmen Joghurt gekauft“), verschiedene Zeitpunkte (z.B. „5-6

Monate nach Kauf einer Digitalkamera werden oftmals digitale Videokameras gekauft“)

1 [AlNi, 2000] S.10

2 [Nakhaeizdaeh, 1998] S.8

3 [Säuberlich, 2000]


- 17 -

oder Zeitverläufe (z.B. bei verschiedenen Aktienkursen) betrachtet werden. Mit Hilfe der

Abhängigkeiten kann demnach die Wahrscheinlichkeit für das Eintreten einer bestimmten

Merkmalsausprägung berechnet werden.

Abweichungsanalyse

Die Abweichungsanalyse bildet das Gegenstück zur Abhängigkeitsanalyse. Es werden dabei

die Objekte identifiziert, die nicht mit den Regelmäßigkeiten der meisten anderen Objekte

übereinstimmen und sich so nicht in ein vorhandenes Muster einordnen lassen. Ziel dabei ist

es, die Gründe für die Abweichung festzustellen (z.B. warum die Umsätze ähnlicher

Produkte unterschiedlich stark gestiegen sind).

Die Abweichungs- und die Abhängigkeitsanalyse werden vielfach unter einem Begriff

zusammengefasst.

In der Literatur existieren noch weitere Aufgaben des Data Mining. Dies ist darin begründet,

dass viele der Data-Mining-Methoden eng miteinander verbunden sind (z.B. im Bereich der

Prognose und der Klassifikation) und sich deshalb nicht eindeutig einem Aufgabentyp

zuordnen lassen. Oftmals werden Methoden (z.B. Regressionsanalyse) auch als Bestandteil

der Statistik angesehen und nicht als Aufgabengruppe genannt oder sie sind zu trivial (z.B.

Datenzusammenfassung) um als eigene Aufgabe definiert zu werden.1 Da oftmals erst die

Kombination verschiedener Verfahren (z.B. Segmentierung und anschließend eine

Abhängigkeitsanalyse auf die einzelnen Segmente) zu einem brauchbaren Ergebnis führt, ist

die eindeutige Kategorisierung der Methoden schwierig.

Zu allen genannten Aufgaben gibt es hunderte von verschiedenen Data-Mining-Methoden

und deren Varianten. Im Fokus dieser Arbeit stehen jedoch die folgenden im SAP BI 7.0

implementierten Techniken:

■ Assoziationsanalyse

■ Clusteranalyse

■ ABC-Analyse

■ Scoringanalyse

■ Entscheidungsbaum

■ Regressionsanalyse

Wie diese Methoden in eine mögliche Struktur2 gebracht werden können, ist in Abbildung 3

dargestellt.

1 [AlNi, 2000] S.10

2 Basierend auf einem Vorschlag von [Säuberlich, 2000]


- 18 -

Abbildung 3: Einordnung der Data-Mining-Methoden

1

Wie bereits erläutert, sind die Aufgaben Prognose und Klassifikation ebenso wie die

Abhängigkeits- und die Abweichungsanalyse sehr eng miteinander verknüpft. Aus diesem

Grund wurden sie in der Darstellung in einer Aufgabe zusammengefasst. Die zusätzlich

genannten, aber nicht im SAP BI 7.0 implementierten Methoden werden im weiteren Verlauf

nicht näher erläutert.2

Zusätzlich zur Einteilung in Aufgaben, ist eine Unterscheidung zwischen überwachtem und

unüberwachtem Lernen möglich. Beim überwachten Lernen wird das Data-Mining-Modell

zunächst mit bekannten Ausprägungen trainiert. Lauten die Zielvariablen beispielweise

„kreditwürdig“ und „nicht kreditwürdig“, dann werden zunächst alle bekannten

kreditwürdigen Kunden an das Modell übergeben. Dieses „lernt“ aus den gegebenen

Objekten, was die Eigenschaften eines kreditwürdigen Kunden sind. Anschließend kann so

bei einem neuen Kunden vorhergesagt werden, ob dieser kreditwürdig ist.

Beim unüberwachten Lernen muss das Data-Mining-Verfahren eine Lösung finden, ohne

dass zuvor anhand vorgegebener Daten „gelernt“ werden kann. Beispielsweise muss bei der

Clusteranalyse das Verfahren selbst entscheiden, welche Gruppen und Klassen von Objekten

aufgrund ihrer Eigenschaften gebildet werden können.

2.4 OLAP vs. Data Mining

OLAP ist, wie auch das Data Mining, einer der Bestandteile der Business Intelligence- oder

Data Warehouse-Anwendungen. Es beschreibt ein multidimensionales Datenhaltungs-

konzept, mit dem umfangreiche Geschäftsanalysen möglich sind. Die zu analysierenden

Quelldaten, die sich zumeist in relationalen (eindimensionalen) Datenbanktabellen befinden,

werden dabei in einen mehrdimensionalen Datenwürfel abgelegt (z.B. mit den Dimensionen

Produkt, Zeit, Region etc.). Dieser kann anschließend aus verschiedenen Sichten betrachtet

werden, indem z.B. einzelne Elemente und Schichten des Würfels gedreht, ausgeblendet,

erweitert oder ausgetauscht werden.3


2 Weiterführende Informationen siehe Literatur aus Abschnitt 13

3 Weiterführende Informationen siehe [AlNi, 2000] S.14ff, [Nakhaeizdaeh, 1998] S.44


- 19 -

Die wesentlichen Unterschiede zwischen OLAP und Data Mining werden in Abbildung 4

veranschaulicht:

Abbildung 4: OLAP vs. Data Mining

1

Der größte Unterschied zwischen beiden Anwendungen liegt darin, dass OLAP den

hypothesengestützten Analysemethoden zugeordnet wird. Das bedeutet, dass bereits im

Vorfeld konkrete Fragestellungen definiert werden müssen, die anschließend durch die

Analyse bestätigt oder abgelehnt werden. Es handelt sich demnach um ein nutzergesteuertes

Top-Down-Verfahren, in dem die Dimensionen bekannt und die Daten vorstrukturiert sind.

Im Gegensatz dazu kann das Data Mining als datengesteuerter Bottom-Up-Ansatz betrachtet

werden, in dem der Anwender durch die Hypothesenfreiheit die Ergebnisse weniger

beeinflusst. Nur so kann das Data Mining zu Ergebnissen und Erkenntnissen führen die

zuvor gar nicht in Erwägung gezogen wurden. Im Gegensatz zum OLAP, wo der Anwender

in Kombination mit dem Analysewerkzeug die entscheidende Position einnimmt, betrachtet

das Data Mining selbständig die Daten und versucht daraus Zusammenhänge, Muster und

Trends zu erkennen.

»Bildlich gesprochen bedeutet dies, dass Unternehmen, die nur die vergangenheitsbasierte

OLAP-Technologie zur Datenanalyse anwenden, in einem Auto zu ihrer Orientierung nur

den Rückspiegel benutzen.

Im Gegensatz dazu blicken Unternehmen mit einem erfolgreichen Data-Mining-Ansatz

zusätzlich auch durch die Frontscheibe des Autos und erhalten so eine vorausschauende,

zukunftsorientierte Perspektive auf ihre Kunden und Geschäftsvorfälle.«2

OLAP und Data Mining sind dabei jedoch keine gegensätzlichen, sich ausschließenden

Ansätze, sondern ergänzen sich und führen bei gemeinsamer Nutzung zu Synergieeffekten.

So werden Data-Mining-Techniken oftmals im Vorfeld der OLAP-Analyse eingesetzt, um

z.B. Informationen bereitzustellen, die gar nicht oder nur durch eine umfangreichere

Interaktion des Anwenders mit dem OLAP-Werkzeug ersichtlich geworden wären.

1 In Anlehnung an [CubeServ, 2008]

2 [CubeServ, 2008]


- 20 -

2.5 Voraussetzungen für erfolgreiches Data Mining

Data Mining ist kein geheimnisvolles Hexenwerk, das aus dem „Nichts“ Zusammenhänge,

Muster und Trends erkennt und nur von wenigen Experten verstanden werden kann. Es

reicht andererseits aber auch nicht aus, eine Data-Mining-Software zu installieren und zu

hoffen, dass dies allein schon zu vollkommen neuen Informationen und Wissen führt,

welches dem Unternehmen einen Wettbewerbsvorteil gegenüber der Konkurrenz verschafft.

Für ein erfolgreiches Data Mining sind vielmehr einige Voraussetzungen zu schaffen1:

■ Business Understanding

Das Hintergrundwissen für Abläufe und Prozesse im Unternehmen mit Bezug auf die

Zielsetzungen des Data Mining sind von entscheidender Bedeutung. Nur mit den

entsprechenden Kenntnissen können die richtigen Daten und das ideale Data-Mining-

Verfahren sowie dessen Konfiguration ausgewählt werden. Darüber hinaus ist auch nur

so die Validierung der Ergebnisse möglich.

■ Problembewusstsein

Im Zusammenhang mit dem Business Understanding ist auch das detaillierte

Problembewusstsein wichtig. Nur wenn man verstanden hat was die Zielsetzungen bzw.

die Probleme sind, kann die Aufgabenstellung effizient und korrekt gelöst werden.

■ Kenntnisse über die Data-Mining-Verfahren

Zunächst muss ein grundlegendes Verständnis über die Data-Mining-Verfahren

vorhanden sein, um eine geeignete Methode auswählen zu können. Zusätzlich sollten die

Kenntnisse soweit ausgeprägt sein, dass die einzustellenden Parameter und deren

Auswirkungen auf die Ergebnisse des Data-Mining-Prozess bekannt sind.

■ Akzeptanz der Endanwender

Generell hängt der Erfolg von IT-Systemen und Anwendungen in erster Linie von der

Akzeptanz der Endanwender ab. Dies ist insbesondere auch beim Data Mining der Fall.

Dabei muss das Endergebnis verständlich und die Durchführung in kurzer Zeit möglich

sein. Außerdem sollten die Ergebnisse neue, noch nicht bekannte Sachverhalte

beschreiben.

■ Hohe Datenqualität

Einer der entscheidenden Faktoren für den Erfolg des Data Mining ist die Qualität der

Daten. Nur auf Basis einer hohen Datenqualität können aussagekräftige Analysen und

Auswertungen durchgeführt werden. Wenn fehlerhafte, doppelte, inkonsistente oder

anderweitig qualitativ minderwertige Daten vorliegen, führt das Data Mining zu

fehlerhaften Aussagen und damit zu falschen operativen oder strategischen

Entscheidungen („garbage in – garbage out“).

1 [KiVa, 2007] S.30ff


- 21 -

Um eine möglichst hohe Datenqualität erreichen zu können sind bei der sogenannten

Datenbereinigung verschiedene Aspekte zu beachten:

□ Fehlende Werte

Oftmals ist es möglich, dass Feldern kein Wert zugewiesen wird. Wird dies jedoch bei

der Verwendung von z.B. einem Klassifikationsverfahren nicht berücksichtigt, kann

dies zu unerwarteten Ergebnissen führen.

□ Unvollständige Daten

Die Daten werden in der Regel aus verschiedenen Quellsystemen auf der Ebene des

SAP BW konsolidiert. Oftmals stimmen die Anforderungen an die Daten im

operativen System jedoch nicht mit den Anforderungen an die Daten im Data-Mining-

Prozess überein. Daher kann es passieren, dass die für das Data Mining benötigten

Daten nicht zur Verfügung stehen, wodurch alternative Lösungen nötig sind.

□ Veränderungen der Daten im Zeitverlauf

Es gilt zu bedenken, ob die Daten in der Vergangenheit immer auf demselben Weg

erzeugt oder berechnet wurden. Insbesondere bei Kennzahlen ist dies oft nicht der

Fall. Die Problematik wird jedoch teilweise auf Ebene des Business Warehouse durch

die Entfernung von Synonymen (unterschiedliche Feldnamen mit gleichem Inhalt) und

Homonymen (gleicher Feldname bei unterschiedlichem Inhalt) entschärft.

□ Fehlerhafte Daten

Insbesondere bei der manuellen Eingabe von Daten kommt es im Datenbestand eines

Unternehmens oftmals zu Fehlern (Tippfehler, Eingaben im falschen Feld etc.). Das

Korrigieren dieser fehlerhaften Daten ist ein sehr aufwändiger Prozess. Jedoch können

sich solche Fehler drastisch auf die Ergebnisse des Data Mining auswirken.

■ Gesunden Menschenverstand einsetzen

Neben dem detaillierten Wissen über die Abläufe im Unternehmen sowie einem

ausgeprägten Problemverständnis ist der gesunde Menschenverstand in jedem Schritt des

Data Mining anzuwenden. Deshalb werden die Zwischen- und Endergebnisse des Data

Mining nicht blind übernommen, sondern mit Wissen und Verstand überprüft.

2.6 Prozessmodelle

Um eine möglichst hohe Qualität des Data-Mining-Prozess gewährleisten zu können, sind

verschiedene Prozessmodelle entstanden, die eine schrittweise Durchführung unter

Berücksichtigung der o.g. Voraussetzungen für ein erfolgreiches Data Mining erlauben. Die

bekanntesten Modelle werden im Folgenden näher erläutert.1 Im Fokus steht dabei das

CRISP-DM-Modell (Cross Industrie Process for Data Mining), da dieses als Grundlage für

die Durchführung der Fallstudie verwendet wird.

1 [KiVa, 2007] S.22ff


- 22 -

2.6.1 CRISP-Prozess1

Das CRISP-DM-Modell ist das Ergebnis eines Projektes, das im Jahr 1998 von den

Unternehmen Teradata, SPSS, Daimler-Chrysler und OHRA gestartetet wurde. Ziel war es,

ein generisches, branchen- und softwareunabhängiges Verfahren für die Durchführung von

Data-Mining-Projekten zu schaffen.

Das gesamte Prozessmodell ist hierarchisch aufgebaut.

Abbildung 5: Hierarchie des CRISP-Prozesses

2

In der obersten Ebene befinden sich die sogenannten Phasen (phases). Jede Phase umfasst

mehrere generische Aufgaben (generic tasks). Diese befinden sich in der zweiten Ebene der

Hierarchie und besitzen eine gewisse Allgemeingültigkeit, unabhängig von der jeweiligen

Data-Mining-Zielsetzung. Sie umfassen den kompletten Prozess des Data Mining mit all

seinen möglichen Anwendungen. Darüber hinaus sollen sie auch für zukünftige

Entwicklungen und neue Data-Mining-Methoden anwendbar sein.

Die dritte Ebene umfasst die spezialisierten Aufgaben (specialised tasks). Sie beschreiben

detailliert das konkrete Vorgehen in den jeweiligen Situationen und in Abhängigkeit von der

Data-Mining-Aufgabe.

Sowohl die generischen als auch die spezialisierten Aufgaben sind in einer definierten und

idealisierten Reihenfolge angegeben. In der Praxis kann es jedoch vorkommen, dass einzelne

Schritte wiederholt werden oder zu vorherigen Schritten zurückgesprungen wird.

Die vierte und letzte Ebene der Vorgänge (process instances) beschreibt schließlich alle

Aktionen, Entscheidungen und Ergebnisse des Data-Mining-Prozesses, die in der jeweiligen

Situation durchgeführt, entschieden und festgehalten werden.

1 [CRISP, 1999] passim

2 In Anlehung an [CRISP, 1999] S.6


- 23 -

Abbildung 6: CRISP-DM-Prozessmodell

1

Im Folgenden werden die Phasen (erste Ebene der Hierarchie), die das CRISP-DM-Modell

auf höchster Abstraktionsebene beschreiben (siehe Abbildung 6), noch etwas näher

erläutert.

Business Understanding

Bevor ein Problem gelöst werden kann, muss es verstanden worden sein. Aus diesem Grund

sollen in der ersten Phase des CRISP-DM-Prozesses alle Vorgänge, Ziele und

Anforderungen verstanden und aus der Business-Sicht betrachtet werden. Zusätzlich wird ein

erster vorläufiger Plan erstellt, mit dem die definierten Ziele erreicht werden sollen.

Data Understanding

Im nächsten Schritt sollen die Daten “verstanden” werden. Dies umfasst nicht nur die

generelle Datenauswahl und die erste Überprüfung der Datenqualität, sondern auch das

Untersuchen von Teilmengen, um so ein Verständnis für die inhaltliche Bedeutung der Daten

zu erlangen. Oftmals ist auch ein Schritt zurück zum Business Understanding nötig, um die

Vorgänge und Prozesse im Unternehmen im Zusammenhang mit den Daten besser verstehen

zu können.

Data Preparation

In der Phase Data Preparation werden die Daten für das Data-Mining-Modell aufbereitet.

Dabei werden die benötigten Tabellen und Felder selektiert und alle fehlerhaften,

unvollständigen oder anderweitig verschmutzten Daten korrigiert. Denn nur auf Basis von

qualitativ hochwertigen Daten können erfolgreiche und korrekte Analysen und

Berechnungen durchgeführt werden.

Die ersten drei Schritte sind von entscheidender Bedeutung für den gesamten Data-Mining-

Prozess und sollten mit entsprechend viel Sorgfalt durchgeführt werden. Aus diesem Grund

verbrauchen diese Phasen in der Regel auch einen Großteil der zur Verfügung stehenden

Ressourcen.

1 In Anlehnung an [CRISP, 1999] S.9


- 24 -

Modeling

Im folgenden Schritt Modeling werden die Data-Mining-Verfahren sowie deren individuelle

Konfiguration mittels Parameter ausgewählt. Oftmals werden verschiedene Verfahren mit

jeweils mehreren unterschiedlichen Parametereinstellungen für dieselbe Problemstellung

verwendet. Daher ist die Rückkehr zur Phase der Data Preparation oftmals nötig, um die

Daten für die Data-Mining-Techniken individuell vorzubereiten.

Evaluation

In dieser Phase werden die berechneten Ergebnisse sorgfältig geprüft. Dabei muss im

Zusammenspiel mit dem Business Understanding kontrolliert werden, ob die definierten

Ziele erreicht worden sind und ob bestimmte Problemstellungen noch gar nicht oder nur

unzureichend beleuchtet wurden. Nur korrekte Ergebnisse, die die Zielvorgaben erfüllen,

werden an die letzte Phase Deployment weitergereicht.

Deployment

Im Deployment werden die neu gewonnenen Informationen aufbereitet und verteilt, um sie in

eine für den Anwender verständliche Form zu bringen (z.B. als Report oder als dynamische

Variable). Oftmals wird dieser Schritt durch den Kunden selbst durchgeführt. Dabei ist es

jedoch von Bedeutung, dem Kunden alle Schritte zu vermitteln, die notwendig sind, um den

maximalen Nutzen aus den erzeugten Modellen und Informationen zu gewinnen.

Wie aus den Ausführungen deutlich wird, handelt es sich bei dem CRISP-Prozess um einen

zyklischen und iterativen Lösungsansatz, der den gesamten Data-Mining-Prozess in

Teilprobleme zergliedert und aufgrund der Abhängigkeiten der einzelnen Phasen keine starre

Abfolge der Prozesse und Aufgaben vorschreibt.

2.6.2 Fayyad-Prozess

Das Prozessmodell von Fayyad et al. ist zwar in der Abfolge der Schritte festgelegt, erlaubt

jedoch an jeder Stelle die Rückkopplung zu den vorangegangenen Prozessen (siehe

Abbildung 7). So ist eine stetige Korrektur und Überprüfung der Zwischenergebnisse

möglich.

Abbildung 7: Fayyad et al. Prozessmodell

1

1 In Anlehnung an [Fayyad et al., 1996] S.1ff


- 25 -

Bei der Auswahl der Daten werden aus dem gesamten Datenpool diejenigen Daten selektiert,

die für das Data Mining relevant sind. Bei der Aufbereitung werden die ausgewählten Daten

bereinigt, d.h. es werden z.B. fehlerhafte Werte entfernt oder korrigiert, Duplikate aussortiert

oder fehlende Werte ergänzt. Im nächsten Schritt der Transformation werden die Daten so

auf- und vorbereitet, dass sie dem jeweiligen Data-Mining-Verfahren übergeben werden

können. Im Schritt Data Mining erfolgt dann die Auswahl des geeigneten Verfahrens sowie

dessen Umsetzung. Die Interpretation und Evaluation hat zur Aufgabe, die berechneten

Ergebnisse des Data Mining zu validieren. Sollten die Ergebnisse fehlerhaft sein, werden die

entsprechenden Schritte im Prozess korrigiert und anschließend wiederholt. Sind die

Ergebnisse korrekt, werden sie in eine für den Anwender verständliche und geeignete Form

gebracht, um so die neuen Informationen und das daraus abgeleitete Wissen festhalten und

interpretieren zu können.

2.6.3 Säuberlich-Prozess

Wie aus der Darstellung der verschiedenen Modelle deutlich wird, ähneln sich die einzelnen

Schritte aller Prozesse inhaltlich sehr stark. Mit dem allgemeinen KDD-Prozess von

Säuberlich (siehe Abbildung 8) wurde versucht, diesem Gedanken Rechnung zu tragen,

indem verschiedene Prozessmodelle, die in der Literatur zu finden sind, in einem Modell

zusammengefasst wurden.

Abbildung 8: Allgemeiner KDD-Prozess von Säuberlich

1

Der erste Schritt Task Analysis umfasst die Definition der Anforderungen und Ziele an den

Analyseprozess. Dabei wird das grundlegende Verständnis geschaffen, um die

Aufgabenstellung optimal lösen zu können. Im Preprocessing finden die

Datenkonsolidierung und –bereinigung statt. Die Daten werden so in eine geeignete Form

gebracht und schließlich dem Data Mining übergeben. Anschließend erfolgt eine

Überprüfung und Validierung der Ergebnisse im Postprocessing. Zuletzt können dann die

Ergebnisse im Deployment ein- und umgesetzt werden.

Wie sich die verschiedenen Prozessmodelle aus der Literatur in dieses allgemeine KDD-

Prozessmodell von Säuberlich einordnen lassen, zeigt Abbildung 9.

1 In Anlehnung an [Säuberlich, 2000]


- 26 -

Abbildung 9: Allgemeiner KDD-Prozess von Säuberlich

1

2.6.4 Bewertung

Wie beschrieben, ähneln sich viele Data-Mining-Prozessmodelle sowohl in ihrer Abfolge der

einzelnen Schritte, als auch in ihrer inhaltlichen Ausprägung. Daher ist es schwierig, eine

abschließende Beurteilung durchzuführen.

Da sich das CRISP-DM-Prozessmodell jedoch durch seine Flexibilität, den generischen

Ansatz sowie die detaillierte Dokumentation2 von den anderen Modellen abhebt, dient es im

weiteren Verlauf dieser Arbeit als Grundlage für die Durchführung der Fallstudie.

Generell ist der Einsatz von Prozessmodellen sehr zu empfehlen. Nur so können plötzlich

auftretende Fehler oder falsche Ergebnisse und damit auch zusätzliche Kosten schon im

Vorfeld verhindert oder zumindest minimiert werden.

1 In Anlehnung an [GaSäu, 1999]

2 Weiterführende Informationen siehe [CRSIP, 1999]

3 Data-Mining-Workbench

- 27 -


Die Data-Mining-Workbench ist zusammen mit der APD-Workbench die zentrale

Umgebung für die Durchführung von Data-Mining-Aufgaben. Im folgenden Abschnitt findet

zunächst eine Abgrenzung zwischen APD- und DM-Workbench statt. Anschließend werden

der grundsätzliche Aufbau sowie die Funktionen der Data-Mining-Workbench dargestellt

und beschrieben. Darüber hinaus wird die Hintergrundverarbeitung sowie eine mögliche

Automatisierung von Data-Mining-Modellen mit Hilfe von Prozessketten erläutert.1

3.1 DM-Workbench vs. APD-Workbench

Die Data-Mining-Workbench dient der Verwaltung und Konfiguration von Data-Mining-

Modellen im SAP BI 7.0. Im Gegensatz dazu wird die APD-Workbench für die

Vorbereitung der Daten, die Befüllung des Data-Mining-Modells mit den Eingangsdaten

sowie für die Ablage der Berechnungsergebnisse und damit für den gesamten Workflow

rund um den Data-Mining-Prozess verwendet. In wieweit die Verwendung der APD-

Workbench ohne Data-Mining-Verfahren sinnvoll ist, wurde bereits detailliert in der

vorangegangenen Projektarbeit2 beschrieben.

Die Data-Mining-Workbench wird demnach nur für die Teilschritte zum Anlegen oder

Verwalten der Data-Mining-Modelle verwendet. Mit ihr können beispielsweise neue

Modelle angelegt und in ihren Parametern individuell konfiguriert werden. Die APD-

Workbench ist für alle Prozesse des Data-Mining rund um das eigentliche Modell zuständig,

und startet somit auch den Analyseprozess und damit das Data Mining.

Dieser Zusammenhang sowie die Funktionen des Analyse-Prozess-Designers werden in

Abbildung 10 noch einmal unter Berücksichtigung des allgemeinen KDD-Prozesses3

dargestellt.

Im Preprocessing werden die Funktionalitäten des Business Warehouse und der APD-

Workbench dazu verwendet, den ETL-Prozess effektiv und transparent umzusetzen, um so

dem Data Mining die auf- und vorbereiteten Eingangsdaten für die Berechnungen zur

Verfügung zu stellen. Im Data Mining wird dann die DM-Workbench für das Anlegen und

Verwalten der verschiedenen Verfahren genutzt. Im Postprocessing können einerseits die

APD-Workbench, andererseits die Möglichkeiten des Reportings verwendet werden, um die

1 In Anlehnung an [KiVa, 2007] S.123ff


3 Siehe Abschnitt 2.6.3 Säuberlich-Prozess


- 28 -

Ergebnisse des Data Mining abzulegen und sie dem Anwender in einer geeigneten Form

präsentieren zu können.

Abbildung 10: APD- und DM-Workbench-Funktionen im KDD-Prozess

1

3.2 Aufbau der DM-Workbench

Der Aufruf der Transaktion RSDMWB startet die Data-Mining-Workbench und bietet eine

hierarchische Übersicht über die im SAP BI 7.0 implementierten Data-Mining-Verfahren

sowie deren Einordnung in die verschiedenen Aufgabentypen2 des Data Mining.

Abbildung 11: Aufbau DM-Workbench


2 Siehe Abschnitt 2.3 Übersicht der Data-Mining-Verfahren


- 29 -

Die Hierarchie ist wie folgt aufgebaut: In der obersten Ebene befinden sich die

verschiedenen Aufgabentypen (z.B. Klassifikation). In der darunterliegenden zweiten Ebene

sind alle im SAP BI 7.0 implementierten Data-Mining-Verfahren (z.B. Entscheidungsbaum)

dem Aufgabentyp zugeordnet. Beim Anlegen eines neuen Modells erscheint dieses dann

unterhalb des entsprechenden Data-Mining-Verfahrens.

Zusätzlich hat man aus dieser Übersicht heraus die Möglichkeit, den Monitor (zur

Überprüfung der Verarbeitungsvorgänge bei der Durchführung von Analyseprozessen)

aufzurufen oder über eine Schaltfläche zum Analyseprozessdesigner zurückzukehren.

Alle weiteren Funktionen zum Anlegen und Verwalten der Data-Mining-Methoden werden

in den folgenden Abschnitten detailliert erläutert.

3.3 Anlegen eines DM-Modells

Das Kontextmenü in der zweiten Hierarchieebene der DM-Workbench erlaubt das Anlegen

von Modellen zu dem ausgewählten Data-Mining-Verfahren.

Abbildung 12: Modell in der DM-Workbench anlegen

Beim Anlegen von neuen Modellen gibt es zunächst drei Optionen:

■ Manuell

Bei der manuellen Anlage von Modellen werden alle Angaben zu den Feldern und

Parametern vom Benutzer angegeben. Es werden keinerlei Vorgaben durch das System

gemacht.

■ Modell als Vorlage verwenden

Diese Option erlaubt das Anlegen eines neuen Modells auf Grundlage eines schon

vorhandenen Modells. Dabei wird eine Kopie der Vorlage erstellt, dessen Einstellungen

anschließend verändert werden können.


- 30 -

■ Modellfeldauswahl BW Query

Die dritte Möglichkeit ist die Verwendung einer Query als Grundlage für die Definition

der Felder der Eingabedaten. Jedoch werden dabei nur die Strukturen und nicht die

eigentlichen (Ergebnis-)Daten der Query übernommen. Die Versorgung des Modells mit

den Eingangsdaten erfolgt, wie bereits erwähnt, in der APD-Workbench.

Anschließend erscheint die Übersicht über alle Datenfelder, die als Eingangsdaten für das

Data-Mining-Modell verwendet werden sollen.

Abbildung 13: DM-Workbench - Definition Datenfelder

Über die Registerkarten Felder und Parameter können entsprechend die Eingabedaten für

das Verfahren definiert, bzw. die für dieses Modell und dem zugrunde liegenden Data-

Mining-Verfahren spezifischen Parameter konfiguriert werden.

Bei der Definition der Datenfelder muss ein Wertetyp angegeben werden. Dabei sind

folgende Wertetypen möglich:

■ Stetig

Der Wertetyp stetig wird dann gewählt, wenn es sich bei den Daten um kontinuierliche,

nicht abzählbare Werte handelt, z.B. Einkommen oder Umsatz.

■ Diskret

Als diskret werden Daten bezeichnet die nur eine bestimmte Anzahl an Ausprägungen

und Werten annehmen, z.B. Kundentyp (guter Kunde/schlechter Kunde), Altersklassen

oder Tariftypen etc.

■ Schlüsselfeld

Schlüsselfelder werden zur Identifikation eines Datensatzes benötigt. Die Werte eines

oder mehrerer Schlüsselfelder müssen eindeutig sein.

Die detaillierte Beschreibung aller Parameter der verschiedenen Data-Mining-Methoden

erfolgt in den entsprechenden Abschnitten von Kapitel 4 Data-Mining-Verfahren im SAP BI

7.0.


- 31 -

3.4 Weitere Funktionen

Abbildung 14: Weitere Funktion in der DM-Workbench

Über das Kontextmenu des bereits vorhandenen Data-Mining-Modells in der untersten

Hierarchieebene der DM-Workbench können weitere nützliche Funktionen aufgerufen

werden. Sie werden im Folgenden kurz erläutert.

■ Anzeigen

Erlaubt das Anzeigen des ausgewählten Modells.

■ Ändern

Ermöglicht das Anzeigen des ausgewählten Modells im Änderungsmodus.

■ Prüfen

Mit dieser Funktion wird das Modell auf Fehler oder Inkonsistenzen geprüft.

■ Aktivieren

Erlaubt das Aktivieren des Data-Mining-Modells. Erst nach dem Aktivieren kann das

Modell verwendet werden. War das Modell schon einmal aktiviert und wurden

Berechnungen durchgeführt, muss es zunächst zurückgesetzt (Löschen der Modelldaten)

werden.

■ Zurücksetzen

Beim Zurücksetzen werden die Daten, die zum Training des Modells verwendet wurden,

gelöscht. Werden Änderungen an einem Modell durchgeführt und findet keine

Rücksetzung statt, kommt es zu Vorhersageergebnissen, die noch auf der alten

Konfiguration und den entsprechenden Trainingsergebnissen vor den Änderungen

beruhen.

■ Löschen

Beim Löschen wird das gesamte Modell mit allen Trainingsergebnisdaten, Zwischen-

berechnungen etc. gelöscht.


- 32 -

■ Verwendungsnachweis

Ähnlich wie in allen SAP-Systemen, erlaubt die Funktion Verwendungsnachweis das

Anzeigen aller Analyseprozesse, die das ausgewählte Modell verwenden. So kann z.B.

vor dem Löschen eines Modells geprüft werden, ob dieses an anderer Stelle noch

verwendet wird.

■ Modellergebnisse anzeigen

Anzeigen der Ergebnisse der Data-Mining-Berechnung in grafischer Form (z.B. Tabellen,

Diagramme usw.). Die Art der Darstellung ist dabei erneut von dem verwendeten Data-

Mining-Verfahren abhängig.

Die Modellergebnisse können jedoch auch innerhalb der APD-Workbench abgerufen

werden. Ein Umweg über die DM-Workbench ist nicht notwendig.

■ Vorhersagesimulation

Die Vorhersagesimulation ermöglicht das Testen von bereits trainierten Modellen. So

kann geprüft werden, ob die Ergebnisse (mit neuen Daten) mit den erwarteten

Ergebnissen übereinstimmen.

■ Als PMML exportieren

PMML (Predictive Model Markup Language) ist ein XML-ähnliches Format zur

Abspeicherung von Clustering- oder Entscheidungsbaummodellen. Diese so exportierten

Modelle können in andere Anwendungen und Systeme leicht importiert und verwendet

werden.

3.5 Automatisierungen

In der vorangegangen Projektarbeit1 und den bisherigen Abschnitten wurde erläutert, wie ein

Analyseprozess (mit oder ohne Data-Mining-Techniken) manuell gestartet werden kann.

Eine Automatisierung der regelmäßig wiederkehrenden Aufgaben (z.B. tägliche

Aktualisierungen) wäre wünschenswert. Im SAP BI 7.0 existieren jedoch noch keine

zufriedenstellenden Möglichkeiten alle Facetten eines Analyseprozesses (bei der

Verwendung von Data Mining) vollständig zu automatisieren. Im Folgenden werden

dennoch Möglichkeiten diskutiert, wie die Prozesse der Datenbewirtschaftung unter

Berücksichtigung spezifischer Anforderungen zumindest teilweise automatisiert werden

können, um so den Arbeitsaufwand nach dem Einrichten und Testen der Modelle zu

minimieren.

3.5.1 Hintergrundverarbeitung

Die Hintergrundverarbeitung hat sich seit vielen Jahren in den verschiedenen SAP-

Anwendungen bewährt. Mit ihr können Verarbeitungsprozesse innerhalb des SAP-Systems

automatisiert werden.

1 [Projektarbeit, 2008]


- 33 -

In Bezug auf das Starten von Analyseprozessen gibt es innerhalb der APD-Workbench

zunächst zwei grundsätzliche Möglichkeiten:

■ Ausführen

Dieser manuelle Startvorgang führt den Analyseprozess umgehend aus. Dabei ist jedoch

während der gesamten Durchführung eine Verbindung zu dem Client notwendig, von

dem der Prozess gestartet wurde. Bricht die Verbindung ab oder wird der Rechner

ausgeschaltet, endet auch die Ausführung des Analyseprozesses.

Vor allem bei Analyseprozessen die eine unbekannte oder längere Ausführungszeit

besitzen, ist demnach von dieser Möglichkeit abzusehen.

■ Job einplanen

Generell sollte die Durchführung von Analyseprozessen grundsätzlich mit der

Hintergrundverarbeitung und der Einplanung als Job stattfinden. Auch wenn der

Analyseprozess sofort gestartet werden soll, ist dies mit Hilfe der Hintergrund-

verarbeitung möglich. Zusätzlich steht eine Vielzahl an Optionen zur Verfügung, den Job

selbstständig und auch regelmäßig automatisiert zu starten (zeitpunktbezogen oder

periodisch nach Datum und Uhrzeit, nach einem Ereignis, nach der Ausführung eines

anderen Jobs etc.).1

Abbildung 15: Hintergrundverarbeitung

Existieren beispielsweise zwei zusammenhängende Analyseprozesse (einer der das Modell

trainiert, ein anderer der mit Hilfe des trainierten Modells eine Vorhersage erzeugt), so

können diese z.B. periodisch (wöchentlich) aktualisiert und gestartet werden. Jedoch gilt es

zu bedenken, dass der zweite Prozess erst nach Beendigung des ersten gestartet werden kann,

da dieser abhängig von den Trainingsergebnissen ist. Indem der zweite Prozess zeitlich so

versetzt gestartet wird, dass der erste Prozess sicher beendet ist, kann das Problem gelöst

werden.

1 Weiterführende Informationen siehe [SAPBibHV, 2008]


- 34 -

Flexibler kann man die Automatisierung dadurch gestalten, dass Ereignisse verwendet

werden, die zum Ausführen der Analyseprozesse führen. Hierbei würde der erste

Analyseprozess nach einem zu definierenden Ereignis gestartet. Mit der Funktion Nach Job

wird der zweite Analyseprozess erst dann gestartet, wenn der erste beendet ist. Nachteil ist

jedoch, dass der zweite Prozess nur einmalig mit der Funktion nach Job eingeplant werden

kann. Bei nochmaliger Ausführung müsste der zweite Prozess erneut geplant werden.

Ein Lösungsansatz um diese Problematik zu entschärfen ist die Verwendung von ABAP-

Programmen (Advanced Business Application Programming). Benötigt wird dafür je ein

Programm für das Starten der beiden Analyseprozesse sowie ein Rahmenprogramm, das die

zeitliche Abhängigkeit berücksichtigt und dafür sorgt, dass der zweite Prozess erst nach

erfolgreicher Beendigung des ersten Prozesses erfolgt. Dieses ABAP-Rahmenprogramm

kann dann mit Hilfe der Hintergrundverarbeitung (regelmäßig) gestartet werden.1

Es existiert im Zusammenhang mit der wiederholten Ausführung von Analyseprozessen, die

Modelle trainieren, ein weiteres schwerwiegendes Problem. Bei der mehrfachen Ausführung

werden die zuvor berechneten Trainingsergebnisse nicht gelöscht. Daher folgt bei einem

erneuten Versuch eine Fehlermeldung, dass das Modell bereits trainiert ist und vor dem

neuen Training zurückgesetzt werden muss.2 Jedoch existiert im SAP-Standard in der

Hintergrundverarbeitung keine Funktion für diesen Vorgang. So kann auch an dieser Stelle

nur die Implementierung eines eigenen ABAP-Programms zum Zurücksetzen des Modells

weiterhelfen.

3.5.2 Prozessketten

Eine weitere Möglichkeit der Automatisierung ist mit Hilfe der Prozessketten denkbar.3

»Eine Prozesskette ist eine Reihe von Prozessen, die im Hintergrund eingeplant auf einen

Event warten. Einige dieser Prozesse lösen einen eigenen Event aus, der wiederum andere

Prozesse starten kann.«4

In der Prozesskettenpflege (siehe Abbildung 16) können somit auch komplexe Abläufe

unter Berücksichtigung verschiedener Verläufe grafisch modelliert werden. Prozessketten

werden nicht nur für den Ladeprozess von Daten aus einem Quellsystem in das Business

Warehouse verwendet, sondern auch für eine Vielzahl weiterer Prozesse, die regelmäßig

auftreten. Dementsprechend ist es auch mit Hilfe von Prozessketten möglich, die Prozesse

rund um das Data Mining zu automatisieren.

So könnte beispielweise ein beliebiger Startprozess gewählt werden (z.B. periodisch nach

einem definierten Ereignis), um den Data-Mining-Prozess zu starten. Leider existieren keine

Prozesstypen für die Verwendung von APD- oder DM-Modellen, so dass auch hier wieder

ein Umweg über ABAP-Programme notwendig ist.

1 Weiterführende Informationen siehe [KiVa, 2007] S.137ff

2 Siehe auch Abschnitt 3.4 Weitere Funktionen

3 Weiterführende Informationen siehe [SAPBibPK, 2008]

4 [BW310, 2005] S.324


- 35 -

Es gilt jedoch auch bei den Prozessketten zu berücksichtigen, dass es nur mittels

Eigenprogrammierung möglich ist, bereits trainierte Modelle zurückzusetzen. Dieses zu

implementierende ABAP-Programm muss dann in der Prozesskette vor den Programmen zur

Durchführung des Data Mining eingebunden werden.

Abbildung 16: Beispiel einer Prozesskette

4 Data-Mining-Verfahren im SAP BI 7.0

- 36 -


In den folgenden Abschnitten werden alle im SAP BI 7.0 implementierten Data-Mining-

Verfahren ausführlich erläutert. Nach einer kurzen allgemeinen Einführung werden Beispiele

und Einsatzszenarien vorgestellt, in denen die entsprechenden Data-Mining-Methoden in der

Versorgungsindustrie verwendet werden können. Anschließend werden kurz die

mathematisch-statistischen Grundlagen vermittelt, die für das Verständnis der jeweiligen

Verfahren von Bedeutung sind. Darauf folgt die Beschreibung, wie das Verfahren im SAP

BI 7.0 umgesetzt wurde. Abschließend wird die Implementierung im SAP BI 7.0 bewertet

und Verbesserungspotentiale aufgezeigt.

4.1 Clusteranalyse

Die Clusteranalyse ist eines der bedeutendsten Data-Mining-Verfahren und wird in der

Wissenschaft und Medizin, vor allem jedoch im Marketing und in der Betriebswirtschaft,

angewandt.

»Unter dem Begriff Clusteranalyse [...] sind Verfahren aus dem Gebiet der multivarianten

Statistik zusammengefasst, die auf objektivem und automatisiertem Wege eine i.allg.

ungeordnete und umfangreiche Objektmenge in kleinere, homogene Teilmengen einteilen.«1

Das Clustering wird dazu verwendet, ähnliche Daten in zuvor unbekannte Cluster zu

gruppieren. Anschließend ist es möglich, neue Daten in die nun vorhandenen Gruppen des

Modells einzuordnen. Es wurde also ein Modell erzeugt, das nicht nur Gemeinsamkeiten von

Daten erkennt und zusammenfasst, sondern auch erlaubt Vorhersagen zu erzeugen.

Um diese abstrakten Beschreibungen zu konkretisieren, soll im Folgenden das Clustering

zunächst anhand eines sehr einfachen Beispiels dargestellt werden. So gibt es in diesem

Beispiel (siehe Abbildung 17) verschiedenfarbige Kisten, die zunächst aufgrund ihrer Farbe

segmentiert werden sollen.

Abbildung 17: einfaches Beispiel einer Clusteranalyse

1 [Nakhaeizdaeh, 1998] S.109


- 37 -

Dieser sehr einfache Ansatz zeigt ein Clustering, das auch manuell ohne die Verwendung

von Data-Mining-Techniken durchgeführt werden kann. In der Regel sind die

Anwendungsfälle des Clustering jedoch deutlich komplexer und ohne Unterstützung von IT-

Systemen nicht mehr möglich. So könnte das Beispiel in der Form erweitert werden, dass die

Segmentierung der Kisten nicht nur anhand ihrer Farbe, sondern auch aufgrund der Breite,

Höhe, Tiefe, Volumen, Zustand und dem Inhalt (mit wiederum einer Vielzahl an Attributen)

erfolgen soll. Wie dann die Zuordnung der Kisten zu Clustern aussehen würde, kann nicht

mehr so einfach beantwortet werden.

Ein weiteres einführendes Beispiel aus Sicht der Betriebswirtschaft stellt die Portfolio-

Analyse dar.

Abbildung 18: Beispiel Clusteranalyse – Portfolio-Analyse

Hier werden Produkte anhand ihrer Eigenschaften (Gewinn, Wachstumspotential und

Umsatz) in Kategorien und Gruppen eingeteilt. Auch dieses Beispiel lässt sich um viele

weitere Attribute ergänzen, wenn eine gezielte Analyse der Produktstrukturen notwendig ist.

Vielfach wird das Clustering im Marketing im Bereich der Kunden- und Markt-

segmentierung verwendet. Beispielsweise können so Marketingaktionen sehr gezielt für

spezifische Kundensegmente durchgeführt oder Produkte besser an Kundenwünsche

angepasst werden.

Clustering kann auch mehrfach durchgeführt werden. Beispielsweise können Kunden

zunächst anhand ihres Verhaltens (z.B. Kaufverhalten) gruppiert und anschließend die

einzelnen Segmente nach demographischen Aspekten (Alter, Einkommen, Ort) „geclustert“

werden.

4.1.1 Beispiele in der Versorgerbranche

Die folgenden Beispiele sollen einen ersten Überblick schaffen, welche Möglichkeiten dem

Anwender in der Versorgungsindustrie mit Hilfe der Clusteranalyse zur Verfügung stehen.

Wie auch bei den nachfolgenden Erläuterungen zu den anderen Verfahren, erfolgt an dieser

Stelle keine detaillierte Betrachtung, ob die genannten Beispiele mit den zur Verfügung

stehenden Daten realisierbar sind oder ob andere Daten zugekauft werden oder erweitert

werden müssen. Diese Analyse des Datenmaterials ist bereits einer der entscheidenden


- 38 -

Vorgänge innerhalb des Data-Mining-Prozesses1 und kann deshalb an dieser Stelle nicht für

jedes Beispiel durchgeführt werden.

Detaillierte Kundensegmentierung

Mit Hilfe der Clusteranalyse können neue, detaillierte Kundengruppen definiert werden. So

kann es in vielerlei Hinsicht sinnvoll sein, weitere Kundenarten zu entdecken, die weit über

die übliche Einordnung in Tarifkunden, Sonderkunden, Dienstleistungskunden und

Interessenten hinaus geht oder diese weiter verfeinert. Anhand der Eigenschaften von

Kunden, ihrer Verbräuche, Umsätze, Zahlungsverhalten, Alter, Wohnort und ggf. unter

Zuhilfenahme externer Daten (wie z.B. Arbeitslosen- oder Wohlstandsqoute), können

Kundengruppen gefunden werden, die Gemeinsamkeiten aufweisen, für die es jedoch so

noch keine Namen gibt. Anschließend ist eine gezielte Betrachtung dieser spezifischen,

zuvor unbekannten Gruppen möglich.

Kündigungsprävention

Indem die Kundensegmente definiert werden, die aufgrund ihrer Eigenschaften oder ihres

Verhaltens besonders kündigungsgefährdet sind, ist eine gezielte Marketingaktion mit

besonderen Angeboten möglich. So können diese potentiell abwanderungswilligen Kunden

eventuell weiter an das Unternehmen gebunden werden. Durch die gezielte Ansprache

werden keine „schlafenden Hunde“ geweckt und Kosten gespart. Zudem ist es in der Regel

wesentlich teurer, einen Neukunden zu gewinnen, als einen bestehenden Kunden weiter zu

binden.

Optimierung des Forderungsmanagement

Durch Identifikation der Gruppe der zahlungsunwilligen Kunden können schon frühzeitig

entsprechende Maßnahmen eingeleitet werden, um diese zur Zahlung zu bewegen. Auch eine

entsprechende Vorhersage über das Zahlungsverhalten und die Bonität eines neuen Kunden

ist so möglich.

Verkauf weiterer Produkte2

Kampagnen zum Ausbau von Kundenbeziehungen sind um ein Vielfaches erfolgreicher, als

die Gewinnung von Neukunden, da zwischen Kunde und Unternehmen schon eine gewisse

Vertrauensbasis geschaffen wurde. Mit Hilfe der Clusteranalyse können Kunden segmentiert

werden, die zusätzlich zu den vorhandenen noch an weiteren Produkten (z.B. zusätzlich zum

Stromvertrag auch ein Gasvertrag) oder an höherwertigen Tarifen interessiert sein könnten.

Verbesserung des Betriebsklimas

Indem Verhaltensmuster und betriebliche Vorlieben von Mitarbeitern genauer analysiert

werden, kann das Betriebsklima in einem Unternehmen deutlich verbessert werden. Diese

1 Siehe auch Abschnitt 2.6 Prozessmodelle

2 [Küppers, 1999] S.133


- 39 -

Art der Clusteranalyse benötigt jedoch Daten, die in der Regel nicht oder nur indirekt in den

vorhandenen Datenbanken abgelegt sind. Eine separate Aufnahme dieser „sozialen“ Daten

der Mitarbeiter kann jedoch beispielsweise mit Hilfe einer Umfrage erfolgen.

Optimierte Teambildung

Ähnliche Ansätze wie bei der Verbesserung des Betriebsklimas sind auch bei der

Optimierung von Teams denkbar. Durch die Analyse der Eigenschaften und Verhaltens-

weisen der Mitgliedern eines erfolgreichen Teams, können Rückschlüsse gezogen werden,

wie ein ideales und optimiertes Team aufgebaut sein sollte (z.B. Teamgröße,

Altersverteilung usw.), um Projekte effizient und erfolgreich durchzuführen.

Automatisierung von Vorgängen1

Mit Hilfe der Clusteranalyse können häufig durchgeführte Vorgänge identifiziert werden.

Diese oftmals wiederkehrenden Abläufe können anschließend ggf. automatisiert werden, um

Kosten zu sparen (z.B. werden nach der Anlage eines Neukunden weitere Prozesse auf Basis

der Kundendaten automatisiert durchgeführt).

Anpassung der Produkte an die Kundenwünsche

Mit Hilfe von Umfragen oder auf Grundlage des vorhandenen Datenmaterials (z.B.

Verbräuche, Umsätze etc.) können die vorhandenen Produkte und Tarife besser an die

Vorstellungen und Wünsche des Kunden angepasst werden. Dies erhöht die Kunden-

zufriedenheit und damit auch die Kundenbindung. Darüber hinaus erleichtert es die

Gewinnung von Neukunden.

Prognose des Verbrauchs2

Durch die Analyse von Zeitreihen des Verbrauchs (Wasserverbrauch, Energieverbrauch

usw.) ist es möglich, einzelne Abschnitte des Tages mit Hilfe der Clusteranalyse zu

kategorisieren. Durch zusätzliche Daten z.B. bezüglich der Temperatur, Regendauer,

Sonnenscheindauer können so, in Kombination mit der Wettervorhersage, Aussagen über

den Verbrauch der kommenden Tage prognostiziert werden. Indem weitere Attribute, die

den Verbrauch beeinflussen können, mit einbezogen werden, können die Aussagen weiter

verfeinert werden.

4.1.2 Mathematische Grundlagen

Um Data-Mining-Verfahren erfolgreich anwenden zu können, ist ein grundlegendes

Verständnis über die Funktionsweise und die bedeutenden Begrifflichkeiten zwingend

erforderlich. Nur so können die relevanten Parameter gezielt eingestellt und die daraus

resultierenden Ergebnisse interpretiert werden. Da die detaillierte mathematische

Betrachtung jedoch an dieser Stelle nicht zu leisten und für diese Arbeit auch nicht

1 [KiVa, 2007] S.151f

2 ebd.


- 40 -

entscheidend ist, werden im Folgenden (und auch in den entsprechenden Kapiteln der

anderen Verfahren) die Grundlagen1 so wenig wie möglich, jedoch so viel wie nötig

erläutert.

Ähnlichkeit

Wie aus den einführenden Beschreibungen deutlich wurde, ist es das Ziel der Clusteranalyse

ähnliche Daten anhand ihrer Eigenschaften zu gruppieren. Um die Ähnlichkeit von Daten zu

messen, gibt es verschiedene Möglichkeiten. An dieser Stelle wird die Vorgehensweise mit

Hilfe einer Distanzfunktion näher erläutert.

Als einfaches Beispiel dienen zunächst zwei Datenpunkte, die sich in einem

zweidimensionalen Raum befinden. Ähnlich wie z.B. bei einer Portfolioanalyse (siehe

Abbildung 18) kann hier die Ähnlichkeit von zwei Punkten (Daten) anhand ihrer Distanz

bestimmt werden. Je näher sich die Punkte mit ihren zwei Ausprägungen zueinander

befinden, desto größer ist ihre Ähnlichkeit. Für die Berechnung dieser Distanzen gibt es

verschiedene Methoden, so z.B. die Manhattan-Distanz und die euklidische Distanz.

Abbildung 19: Manhattan- und euklidische Distanz

2

Bei der Manhattan-Distanz wird davon ausgegangen, dass das Ziel nur durch

rechtwinkeliges „Abbiegen“ erreicht werden kann (wie im Straßenverkehr von Manhattan).

Daher berechnet sich die Distanz in der linken Abbildung wie folgt:

d d

d

dist(x, y) | a b |

(3 2,5) (3 2,5) (2,5 2)

0,5 0,5 0,5

1,5

Formel 1: Manhattan-Distanz

Bei der euklidischen Distanz wird die direkte Gerade als kürzester Weg zwischen zwei

Punkten betrachtet.




- 41 -

Daher berechnet sich in diesem Fall die Distanz wie folgt:

n

d d

d 1

dist(x, y) (x y )²

(3 2)² (3 2,5)²

1² 0,5²

1,118

Formel 2: euklidische Distanz

In der Regel wird die Lp-Metrik verwendet, um die Ähnlichkeit von Informationen zu

bestimmen. Sie entspricht dabei einer Verallgemeinerung der euklidischen Distanz:

npp

d d

d 1

dist(x, y) (x y ) , mit den Dimensionen d = {1, ..., n}.

Formel 3: Lp-Metrik

Da nicht nur zwei, sondern zumeist eine Vielzahl an Merkmalen die Daten charakterisieren,

befindet man sich nicht in einer Ebene mit zwei Dimensionen sondern in einem

n-dimensionalen Raum. Der zweite Aspekt, dem in der Lp-Metrik Rechnung getragen wird,

ist die Berücksichtigung vieler verschiedener Distanzfunktionen für die Berechnung der

Abstände. Daher werden nicht die ersten (Manhattan-Distanz) oder zweiten Potenzen

(euklidische Distanz) und dazu korrespondierend die erste oder zweite Wurzel verwendet,

sondern die p-te Potenz und die p-te Wurzel.

Kompaktheit

Der Begriff der Kompaktheit soll anhand eines Beispiels dargestellt werden, das im weiteren

Verlauf der Erläuterung immer wieder verwendet wird.

Abbildung 20: Kompaktheit von Cluster

1



- 42 -

In Abbildung 20 sind zwei verschiedene Cluster mit ihren Clusterzentren und jeweils sechs

Datenpunkten dargestellt. Je enger die Datenpunkte in ihrer Gesamtheit am Clusterzentrum

liegen, desto kompakter ist das Cluster.

Aufgabe der Clusteranalyse ist es, die Datenpunkte so auf die Cluster aufzuteilen, dass eine

bestmögliche Kompaktheit aller Cluster erzielt wird.

»Die Zielsetzung einer Clusteranalyse ist also die Minimierung der Summe der Kennzahlen

Kompaktheit aller Cluster, womit im Optimum automatisch die Clusterzerlegung gefunden

wird, bei der eine Verbesserung durch eine Umordnung von Elementen in ein anderes

Cluster nicht mehr möglich ist.«1

Die Kompaktheit eines Clusters lässt sich wie folgt definieren:

Komp(k) = k

nk k p

d d

d 1x

(x c )

mit dem Mittelwert k k

d d

kk

1c x

n

mit kn = Anzahl der Datenpunkte im Cluster k

Formel 4: Kompaktheit

Die Formel beschreibt die Summe aller Abstände der Datenpunkte zum Clusterzentrum.

Dabei wird die p-te Potenz verwendet, um große Distanzen überproportional und gewichtet

in das Gesamtergebnis einfließen zu lassen. Abbildung 20 verdeutlicht diesen Sachverhalt.

Das Cluster links in der Abbildung erreicht durch Summierung der Abstände der

Datenpunkte zum Clusterzentrum einen Gesamtwert von 6. Auch das Cluster rechts in der

Abbildung erreicht diesen Wert, obwohl es nicht so kompakt ist. Durch die Potenzierung

bekommen größere Distanzen zum Clustermittelpunkt eine entsprechend höhere

Gewichtung.

In bestimmten Situationen kann es auch sinnvoll sein die relative Kompaktheit zu berechnen.

Wenn man beispielsweise links in der Abbildung 20 weitere Datenpunkte mit der Distanz 1

einfügt, steigt der Wert der Kompaktheit und das Cluster gilt somit als weniger kompakt.

Indem der Wert der Kompaktheit durch die Anzahl der Datenpunkte eines Clusters dividiert

wird, erhält man die relative Kompaktheit und umgeht diese Problematik.

1 [KiVa, 2007] S.155


- 43 -

4.1.3 Umsetzung im SAP BI 7.0

k-means-Algorithmus

Die Implementierung der Clusteranalyse im SAP BI 7.0 basiert auf der sogenannten

k-means-Methode. Der Ablauf lässt sich wie folgt beschreiben:

■ Schritt 1: Initialisierung

Zufällige Zuordnung der Objekte (Informationen) zu k Cluster

■ Schritt 2: Berechnung

Berechnung des Clusterzentrums für jedes Cluster

■ Schritt 3: Zuordnung

Berechnung der Entfernungen der Objekte zu den Clusterzentren sowie Zuordnung aller

Objekte zu dem nächstgelegenen Zentrum.

■ Schritt 4: Wiederholung

Falls sich die Zuordnung von Objekten zu den Clustern geändert hat, weiter mit Schritt 2,

ansonsten endet der Vorgang

Anhand der folgenden Abbildung wird der Ablauf noch einmal verdeutlicht.

Abbildung 21: Ablauf der Clusteranalyse (k-means)

Im Schritt A (siehe Abbildung 21) werden einer definierten Anzahl an Clustern die

Informationen (Objekte) zufällig zugeordnet. Dies kann auch weitaus unstrukturierter

geschehen, als dies in der Abbildung dargestellt ist. Schritt B berechnet die Clusterzentren

für jedes Cluster. In Schritt C werden dann die Distanzen zwischen den einzelnen Objekten

und den Clusterzentren ermittelt. Zusätzlich werden die Objekte dem jeweils nächsten

Clusterzentrum und damit dem jeweiligen Cluster zugeordnet. In dem Beispiel wechseln

zwei Objekte dadurch ihre Zugehörigkeit zu einem Cluster. Anschließend werden erneut die


- 44 -

neuen Clusterzentren auf Grundlage der veränderten Situation berechnet. Die Vorgänge

werden solange wiederholt bis es zu keinen neuen Zuordnungen mehr kommt.

Konfiguration der Clusteranalyse

Wie Data-Mining-Modelle angelegt werden können und welche Möglichkeiten dem

Anwender in diesem Zusammenhang zur Verfügung stehen, wurde bereits in den

vorangegangenen Abschnitten behandelt.1 Im Folgenden werden die spezifischen

Einstellungen und Parameter zur Konfiguration der Clusteranalyse im SAP BI 7.0 erläutert.

Nachdem ein Modell zur Clusteranalyse angelegt wurde, stehen dem Anwender die

Registerkarten Felder und Parameter zur Konfiguration des Modells zur Verfügung.

Abbildung 22: Clusteranalyse - Feldkonfiguration

In der Feldkonfiguration werden die Datenfelder des Modells mit Name, Beschreibung und

dem zugrundeliegenden InfoObject2 definiert. Im Feld Wertetyp muss angegeben werden, ob

es sich dabei um stetige oder diskrete Daten handelt oder ob das Feld als Schlüsselfeld

definiert werden soll.3

Die Spalten Parameter (nicht zu verwechseln mit der Registerkarte Parameter) und Werte

erlauben eine individuelle Variation des Modells, was insbesondere bei der späteren

Verfeinerung und Optimierung des Modells interessant wird. Im Dialogfeld für die

Parameter eines Feldes kann zum Einen ein Gewichtungsfaktor angegeben werden. Dadurch

wirken sich die Daten dieses Feldes entsprechend dem Faktor höher auf die Bildung der

Cluster aus. »Dieser Effekt ist vergleichbar mit einer Kamera, bei der wir einstellen können,

welcher Bereich in einem Bildausschnitt besonders scharf und klar aufgenommen werden

1 Siehe Abschnitt 3.3 Anlegen eines DM-Modells

2 Weiterführende Informationen siehe [Projektarbeit, 2008] S.16ff

3 Siehe Abschnitt 3.3 Anlegen eines DM-Modells


- 45 -

soll.«1 Zum Anderen kann ein Vorschlagswert definiert werden, der dann verwendet wird,

wenn in der Spalte Werte, einzelne Werte und Bereiche als fehlend markiert werden.

Mit Hilfe des Dialogfensters aus der Spalte Werte ergeben sich, wie bereits angedeutet,

weitere Konfigurationsmöglichkeiten. So können dort Werte und Wertbereiche aussortiert

und diskretisiert werden, d.h. Bereiche aus einem stetigen Datenfeld werden wie bei einem

diskreten Feld an das Modell übergeben. Alternativ können auch einzelne Werte mit einer

individuellen Gewichtung versehen werden.

Abbildung 23: Clusteranalyse - Parameterkonfiguration

In der Registerkarte Parameter werden die Einstellungen vorgenommen, die sich nicht nur

auf einzelne Felder beziehen, sondern das Modell als Ganzes betreffen. So wird hier

beispielsweise die Anzahl der Cluster definiert. Diese Angabe ist für den k-means-

Algorithmus2 besonders wichtig und hat auch einen entscheidenden Einfluss auf die

Ergebnisse des Data-Minings. Darüber hinaus kann über die maximale Anzahl eindeutiger

Werte gesteuert werden, wie viele unterschiedliche Ausprägungen ein als diskret definiertes

Feld besitzen darf. Wird fälschlicherweise eine Vielzahl an unterschiedlichen Werten als

diskret übergeben, hat dies massive Auswirkungen auf die Gesamtperformance. Dieses

Abbruchkritierium schützt den Anwender vor dieser Problematik, indem bei der

Überschreitung der definierten Anzahl das Feld für die Berechnung nicht weiter

berücksichtigt wird. Zuletzt lässt sich über den Anteil der Segmentwechsel festlegen, wann

die Clusteranalyse vorzeitig beendet werden soll. Wenn beispielsweise 100 Datensätze

vorliegen und der Anteil der Segmentwechsel mit 0,150 angegeben wird, endet die

Wiederholung der Schritte des k-means-Verfahrens sobald weniger als 15% (also 15

Datensätze) einem anderen Cluster zugeordnet werden.

1 [KiVa, 2007] S.160f

2 Siehe Abschnitt 4.1.3 k-means-Algorithmus


- 46 -

Nachdem das Data-Mining-Modell in der DM-Workbench gespeichert und aktiviert wurde,

kann die Clusteranalyse durchgeführt werden. Dazu muss jedoch zunächst ein

Analyseprozess (siehe Abbildung 24) angelegt werden.1

Abbildung 24: Clusteranalyse - Analyseprozess

Hierzu wird neben der Datenquelle das Datenziel Clusteranalyse verwendet. Die

Clusteranalyse gibt es zusätzlich im Bereich der Transformationen. Diese wird jedoch

ausschließlich für die Vorhersage mit Hilfe des Clustering verwendet. Die Voraussetzung

dafür ist ein trainiertes Clustermodell, welches als Transformation zwischen einer

Datenquelle und einem Datenziel abgelegt wird. Alternativ kann die Vorhersage für

einzelne, manuell einzugebende Werte simuliert werden, ohne dass ein zusätzlicher

Analyseprozess notwendig ist.

Es wird deutlich, dass nicht nur die reine Segmentierung von Daten und deren

anschließender Analyse zu interessanten und bedeutsamen Erkenntnissen führen können,

sondern dass auch die Vorhersage ein wichtiges Instrument ist. Folgendes Beispiel

veranschaulicht noch einmal die Möglichkeiten der Vorhersage auf Basis der Clusteranalyse:

»Bei der Annahme eines Telefongesprächs wird automatisch die übermittelte Telefonnummer

eines Kunden an eine Suchfunktion übergeben, die Kundendaten werden gelesen und die

Zuordnung zu einem Marktsegment wird automatisch abgefragt. Dem Call-Center-

Mitarbeiter wird innerhalb von Sekundenbruchteilen angezeigt, ob es sich bei dem Anrufer

um einen „guten“ oder „schlechten“ Kunden handelt – und diese Information ist bereits

vorhanden, noch bevor das Gespräch durch den Call-Center-Mitarbeiter angenommen

worden ist.«2

1 Weiterführende Informationen zum Anlegen eines Analyseprozesses siehe [Projektarbeit, 2007]

2 [KiVa, 2007] S.176


- 47 -

Analyse der Modellergebnisse

Die Analyse der Modellergebnisse ist ein weiterer, umfangreicher Abschnitt des Data-

Mining-Prozesses, der an dieser Stelle nicht vollständig dargestellt werden kann.1 Daher

werden die Möglichkeiten der Ergebnisanalyse nur kurz erläutert.

Folgende Diagramme und Anzeigen in Bezug auf die Ergebnisse der Clusteranalyse sind im

SAP BI 7.0 möglich:

■ Einflussdiagramm

Grafische Darstellung über die Anzahl der Datensätze je Cluster und dem Einfluss der

einzelnen Felder auf die Bildung der Cluster.

Abbildung 25: Clusteranalyse – Einflussdiagramm

■ grafische Verteilung der Werte

Darstellung wie die Werte und damit die Eigenschaften der Cluster verteilt sind.

Abbildung 26: Clusteranalyse – grafische Verteilung der Werte

■ Verteilung der Attribute als Tabellen

Tabellarische Übersicht über die Anzahl der verschiedenen Merkmalsausprägungen in

dem jeweiligen Cluster.

Abbildung 27: Clusteranalyse – Verteilung der Werte als Tabelle

1 Weiterführende Informationen siehe [KiVa, 2007] S.169ff


- 48 -

■ grafische Verteilung der Attribute

Grafische Darstellung der oben genannten tabellarischen Übersicht.

Abbildung 28: Clusteranalyse – grafische Verteilung der Werte

■ Informationen zu den Entfernungen zwischen und innerhalb der Cluster

Grafische Darstellung bezüglich der Entfernungen und damit der Kompaktheit1 und

Homogenität zwischen und innerhalb der Cluster.

Abbildung 29: Clusteranalyse – grafische Darstellung der Entfernungen

Kommt es innerhalb von einzelnen Clustern zu vergleichsweise hohen Entfernungen,

sollte über eine veränderte Konfiguration der Modellparameter nachgedacht werden (z.B.

Erhöhung der Anzahl der Cluster), um so die Kompaktheit der Cluster weiter zu

optimieren.

■ Clustertexte anpassen

An dieser Stelle können individuelle Namen für die Cluster vergeben werden, um diese

für die Analyse und Auswertung verständlicher zu machen. Zumeist wird ein

„inhaltlicher“ Name vergeben, der das Cluster aufgrund seiner Eigenschaften und

Datensätze beschreibt.

■ Vorhersagesimulation

Durch die manuelle Eingabe von Werten kann auf Grundlage des Modells vorhergesagt

werden, welchem Cluster dieser Datensatz zugeordnet wird.

Abbildung 30: Clusteranalyse – Vorhersagesimulation

1 Siehe Abschnitt 4.1.2 Mathematische Grundlagen


- 49 -

4.1.4 Bewertung

Der im SAP BI 7.0 verwendete k-means-Algorithmus ist die am meisten verbreitete

Clustermethode, da sie nach einem einfachen Prinzip aufgebaut ist, effizient arbeitet und

gute Ergebnisse liefert. In der folgenden Tabelle sind die wesentlichen Vor- und Nachteile

gegenübergestellt:

Stärken Schwächen

einfaches Prinzip und daher populär ggf. unterschiedliche Ergebnisse in Abhängigkeit von den Startpositionen der Cluster

schnell und effizient (geringe Anzahl an Iterationen) Problematisch bei Rauschen und Ausreißern, da alle Datenpunkte zur Berechnung des Zentrums einfließen

„quick´n´dirty“ – liefert fast immer gute Ergebnisse liefert nicht zwangsläufig das globale Optimum

Anzahl der Cluster muss im Vorfeld definiert werden

Tabelle 1: Stärken und Schwächen des k-means-Algorithmus

Einige der Schwächen können allein dadurch umgangen werden, dass die Clusteranalyse

wiederholt gestartet und anschließend überprüft wird, ob der Algorithmus aufgrund der

zufälligen Initialisierung1 ein anderes Ergebnis liefert.

Zum Gebiet der Clusteranalyse wird eine Vielzahl von Verfahren gezählt, die in

verschiedene Kategorien und Unterkategorien (partitionierende Verfahren, hierarchische

Verfahren, neuronale Netze, Optimierungsverfahren usw.) eingeteilt sind. Detaillierte

Betrachtungen und Vergleiche zum (partitionierenden) k-means-Algorithmus sind an dieser

Stelle nicht zu leisten.2 Besonders interessant im Bereich der Clusteranalyse sind jedoch die

neuronalen Netze z.B. der Kategorie SOM (Self Organizing Maps) sowie die evolutionären

Algorithmen als Optimierungsverfahren zur Minimierung der Distanzen.3

Es bleibt abschließend festzuhalten, dass die Implementierung des k-means-Algorithmus zur

Berechnung der Clusteranalyse als bisher einzige Möglichkeit im SAP BI 7.0 richtig und

sinnvoll ist. Eine Erweiterung um zusätzliche Methoden der Clusterbildung ist jedoch in der

Zukunft wünschenswert.

1 Siehe Abschnitt 4.1.3 k-means-Algorithmus

2 Weiterführende Informationen siehe [Nakhaeizadeh, 1998] S.225ff, [Küppers, 1999] S.51ff,

[Pertersohn, 20005] S.73ff sowie die umfangreiche Literatur im Abschnitt 13 Quellenverzeichnis

3 Weiterführende Informationen siehe [AlNi, 2000] S.69ff, S.199ff, [KiVa, 2007] S.281ff,

[Pertersohn, 20005] S.73ff


- 50 -

4.2 ABC-Analyse

Die ABC-Analyse ist ein einfaches Verfahren, dessen Grundüberlegungen 1906 von

Vilfredo Pareto festgehalten wurden, als er eine Formel aufstellte, die das Ungleichgewicht

bei der Vermögensverteilung in seinem Land darstellte (20% der Bevölkerung besitzen 80%

des Vermögens). Neben den Begriffen ABC- oder Pareto-Analyse wird das Konzept vielfach

auch als Juran-Prinzip oder 80/20-Regel bezeichnet. Unabhängig von der Namensgebung

basiert das Prinzip immer auf dem gleichen Konzept. Es werden die »vital few« von den

»trivial many« getrennt und mit einem Schlüssel (z.B. A, B oder C) versehen.1

Dieses Verfahren kann in vielfacher Weise angewandt werden, sei es für die Segmentierung

von Kunden, Lieferanten, Märkten, Produkten usw. Das Ergebnis einer Kunden-

segmentierung könnte beispielsweise lauten:

■ Klasse A: 20% der Kunden generieren 50% des Erlöses

■ Klasse B: 30% der Kunden generieren 30% des Erlöses

■ Klasse C: 50% der Kunden generieren 20% des Erlöses

Somit werden die wichtigen von den unwichtigen Kunden (oder Produkten, Märkten,

Lieferanten etc.) getrennt und können entsprechend behandelt werden.

Der Unterschied zur Clusteranalyse liegt bei der ABC-Analyse in der Betrachtung von

univariat verteilten Variablen, d.h. es wird nur eine Variable isoliert betrachtet, ohne

Berücksichtigung von Abhängigkeiten zu anderen Variablen. Bei dem Clustering spricht

man von multivariat verteilten Variablen.2 Dadurch ist die ABC-Analyse wesentlich

einfacher und performanter durchzuführen, jedoch bezüglich der Klassifikationskriterien

deutlich eingeschränkt.

Es gibt verschiedene Ansätze der Erweiterung der ABC-Analyse. Beispielsweise können die

Informationen aus mehreren Variablen in einer Kennzahl gebündelt werden (z.B. Umsatz

und Kosten zu Deckungsbeitrag). Darüber hinaus können die Daten schon im Vorfeld

anhand bestimmter Kriterien (z.B. Land, Region, Kreis) gruppiert werden, um anschließend

für jede Gruppe eine separate ABC-Analyse durchzuführen.

Eine weitere Möglichkeit ist, die ABC-Analyse mehrfach durchzuführen, wie in Abbildung

31 dargestellt. Dort werden in einem ersten Schritt zunächst die Klassen A, B und C (z.B.

nach Umsatz) ermittelt und anschließend für jede dieser Klassen eine erneute ABC-Analyse

mit einer anderen Variablen (z.B. Erlös) durchgeführt. So können aus den 3 bereits

bestehenden Klassen insgesamt 9 detailliertere Klassen gebildet werden.

1 [Juran, 2008]

2 [KiVa, 2007] S.178


- 51 -

Abbildung 31: Zweifache ABC-Analyse

1


Die Einsatzgebiete der ABC-Analyse sind vielfältig. In einem ersten Überblick sind in der

Versorgerbranche folgende Beispiele denkbar:

Kundensegmentierung nach Ertrag

Hierbei werden dem Kunden einerseits die Erlöse aus Verbrauch, Grundgebühren und der

Nutzung anderer Dienste (ggf. auch für verschiedene Sparten), andererseits die durch ihn

anteilig entstandenen Kosten (Verbrauchskosten, Netzkosten, Wartungskosten, Ab-

rechnungskosten usw.) zugeordnet. Anschließend werden die Deckungsbeiträge aufsteigend

sortiert. Das Ergebnis ist zumeist eine Kurve, deren Steigung im Verlauf abnimmt. Die

Einteilung in die ABC-Klassen wird zu Beginn festgelegt, jedoch anschließend in einem

iterativen Prozess optimiert und angepasst. Als Ergebnis kann beispielsweise die

Kundenbetreuung hinsichtlich einer Ertragssteigerung verändert werden.

Produkt- und Tarifsegmentierung

Auch bei den Produkten und Tarifen kann anhand von definierten Kriterien eine ABC-

Analyse durchgeführt werden. So kann z.B. das Produkt- und Tarifportfolio optimiert,

gezielt erweitert oder bereinigt werden.

Häufigste Fehler

Welches sind die häufigsten Fehler sowohl im Unternehmen selbst, als auch z.B. bei der

Installation, Ablesung oder Abrechnung beim Kunden? Welche Kosten entstehen dadurch?

Welche Fehler verursachen die meisten Kosten? Diese und viele anderen Fragen können in

diesem Zusammenhang mit Hilfe der ABC-Analyse beantwortet werden. Die Betrachtung

der wirtschaftlich bedeutendsten Fehler kann so zu einer deutlichen Senkung der Kosten

führen.



- 52 -

Kundensegmentierung nach Forderungen

Ähnlich wie in den vorangegangenen Beispielen könnte eine ABC-Analyse der Kunden auf

Grundlage der Forderungen durchgeführt werden. So werden diejenigen Kunden

identifiziert, bei denen es sich lohnt gezielte Anreize zur Zahlung zu schaffen.

Kostenstellenanalyse

Auch im Bereich der Kostenstellen sind viele verschiedene ABC-Analysen, wie sie bereits

beschrieben wurden, denkbar.

Grundsätzlich ist es mit der ABC-Analyse möglich, nicht nur das „Wichtige“ vom

„Unwichtigen“ zu trennen und die Wirtschaftlichkeit zu steigern, sondern auch

Rationalisierungsschwerpunkte zu setzen und unnötige Anstrengungen zu vermeiden.


Als mathematische Grundlage für die ABC-Analyse dient die Verteilungsfunktion der

Pareto-Verteilung. Sie ist wie folgt definiert:

k

0xF(x) 1

x mit

0x , k > 0 und 0x > x

Formel 5: Pareto-Verteilung

Der typische Verlauf der Funktion ist in Abbildung 32 dargestellt.

Abbildung 32: Pareto-Verteilung

In diesem Beispiel erzeugt in der Klasse A ein Mengenanteil von 15% schon 70% des

Wertanteils. In der zweiten Klasse B ist dieses Verhältnis schon weniger ausgeprägt und in

der letzten Klasse erzeugen 65% nur ca. 10% des Wertes. Die Grenzen der Klassen werden

dabei im Idealfall in einem iterativen Prozess optimiert.


- 53 -


Ablauf der ABC-Analyse

Zunächst soll der grundsätzliche Ablauf der ABC-Analyse kurz erläutert werden. In

Abbildung 33 wird beispielhaft eine ABC-Analyse der Tarife, klassifiziert nach der

Kennzahl Umsatz, durchgeführt.

Abbildung 33: ABC-Analyse

1

Im ersten Schritt werden die Objekte (oder Datensätze) anhand des Kriteriums Umsatz

absteigend sortiert. Die Reihenfolge wird in der Spalte Rang festgehalten. Anschließend wird

die Anzahl der Objekte kumuliert und zusätzlich ihr prozentualer Anteil an der

Gesamtanzahl berechnet. Daraufhin werden auch die Umsätze kumuliert und ebenfalls als

prozentualer Anteil am Gesamtumsatz angegeben. Zuletzt erfolgt die Zuordnung der Klassen

in Abhängigkeit von dem kumulierten Kriterium in Prozent. In diesem Beispiel werden alle

Tarife die bis zu 65% des Gesamtumsatzes generieren der Klasse A zugeordnet. Alle Tarife

die weitere 25% des Umsatzes erzeugen, gehören zu Klasse B. Die restlichen 10% des

Gesamtumsatzes sind Tarife der Klasse C.

Im SAP BI 7.0 gibt es zu der beispielhaft genannten Variante (Bewertung anhand des

kumulierten Kriteriums in %) noch drei weitere Möglichkeiten, die Klassifizierung und

damit die Einteilung in die Klassen A, B und C vorzunehmen. Diese Alternativen werden im

weiteren Verlauf an gegebener Stelle näher erläutert.



- 54 -

Konfiguration der ABC-Analyse

Zuerst muss in der DM-Workbench das Data-Mining-Modell der Kategorie ABC-Analyse

erzeugt und konfiguriert werden. Dafür stehen nach Angabe des Namens und der

Bezeichnung des Modells die zwei Registerkarten Felder und Parameter zur Verfügung.

Abbildung 34: ABC-Analyse – Feldkonfiguration

Bei der Feldkonfiguration werden alle Felder mit den zugrunde liegenden InfoObjects

angegeben, die in die Berechnung der ABC-Analyse einbezogen werden sollen. Dabei muss

zu jedem Feld ein Wertetyp angegeben werden. Folgende Möglichkeiten stehen in diesem

Zusammenhang zur Auswahl:

■ Classification Criterium

Das Klassifikationskriterium ist das Feld, anhand dessen die Objekte den entsprechenden

Klassen zugeordnet werden. Dabei kann nur ein Feld als Klassifikationskriterium

definiert werden.

■ Classified Object

Gibt das Objekt an, das die Einstufung in die Klassen erhält. Dabei ist es irrelevant, ob

ein oder mehrere Felder diesen Wertetyp erhalten.

■ Grouping Attribute

Das Gruppierungsattribut erlaubt die Klassifizierung nach Untergruppen. Wird ein Feld

als Gruppierungsattribut angegeben, wird für jede Ausprägung des Feldes eine eigene

ABC-Analyse durchgeführt. So kann beispielsweise direkt für jede Region, jedes Produkt

oder jeden Tarif eine separate ABC-Analyse durchgeführt werden.


- 55 -

Die Konfiguration der Registerkarte Parameter ist in der folgenden Abbildung dargestellt:

Abbildung 35: ABC-Analyse – Parameterkonfiguration

In der Parameterkonfiguration werden zum Einen die Klassen definiert sowie deren

Wertintervall angegeben. Zusätzlich muss die Intervallart konfiguriert werden (offen, rechts

offen, links offen, geschlossen).

Wichtig für die ABC-Analyse ist die Festlegung, wie klassifiziert werden soll. Dazu stehen

insgesamt vier Möglichkeiten zur Verfügung. Entweder es werden absolute Werte verwendet

oder relative, kumulierte Prozentwerte. Beide Varianten lassen sich mit den Werten des

Klassifikationskriteriums (z.B. Umsatz) oder der Anzahl des zu klassifizierenden Objekts

(z.B. Kunden) kombinieren. So können beispielsweise der Klasse A alle Objekte mit den

kumulierten Werten zwischen 1000 und 2000 zugeordnet werden oder mit den absoluten

Werten 300 bis 400 oder auch die ersten 20% oder die ersten 50 Datensätze in der

berechneten Rangfolge.

Nachdem das DM-Modell gespeichert und aktiviert wurde, kann der dazugehörige APD-

Prozess erstellt werden. Hierbei sind keine besonderen Einstellungen nötig. Es müssen

lediglich die aus der Datenquelle zur Verfügung stehenden Felder denen des ABC-Modells

zugeordnet werden.

Abbildung 36: ABC-Analyse – Analyseprozess


- 56 -


Zur Anzeige der Ergebnisse stehen zwei Möglichkeiten zur Verfügung.

Abbildung 37: ABC-Analyse – Ergebnisdarstellung

Zum Einen werden Analysen in der bereits bekannten grafischen Form präsentiert.

Zusätzlich werden die wichtigsten statistischen Informationen angezeigt. Alternativ können

die Ergebnisse in Form einer Tabelle, wie auch bei der Speicherung im Datenziel, dargestellt

werden.

4.2.4 Bewertung

Die ABC-Analyse ist bereits seit vielen Jahren im R/3-System (z.B. im Logistik-

informationssystem) integriert. Im BI 7.0 im Zusammenhang mit den Data-Mining-

Verfahren wurde das Werkzeug jedoch bezüglich des Funktionsumfangs und der

Benutzerfreundlichkeit deutlich verbessert.

Ingesamt ist die ABC-Analyse ein sehr einfaches, aber sehr effektives und bekanntes

Verfahren, das in vielen Einsatzbereichen Anwendung findet.

Die Vor- und Nachteile der ABC-Analyse sind in der folgenden Tabelle festgehalten.

Stärken Schwächen

Eingrenzung der wesentlichen Faktoren und dadurch geringer Aufwand und performante Durchführung

Grobe Einteilung in definierte Klassen und keine Berücksichtigung von Abhängigkeiten

Einfaches und populäres Verfahren Fokussierung auf ein einzelnes (oder kombiniertes) Kriterium

Sehr gute Darstellung der Ergebnisse möglich

Erweiterbar durch nacheinander geschachtelte ABC-Analysen

Tabelle 2: Stärken und Schwächen der ABC-Analyse

In der betrieblichen Praxis kann die ABC-Analyse durch weitere Verfahren (wie z.B. die

XYZ- sowie die GMK-Analyse) erweitert werden. Dies ist im SAP BI 7.0 standardmäßig

nicht vorgesehen. In der Regel wird die ABC-Analyse jedoch ohnehin für vorbereitende

Zwecke oder schnelle Analysen verwendet.


- 57 -

4.3 Scoring-Verfahren

Das Scoring ist eines der bekanntesten Verfahren zur Bewertung von Datensätzen. Es wird

in vielfacher Weise im alltäglichen Leben eingesetzt und ist sehr populär, da es (zumindest

in der grundlegenden Anwendung) leicht verstanden werden kann.

Wie aus dem Namen des Verfahrens schon ersichtlich wird, sollen Daten mit Hilfe von

Punkten bewertet werden. Dabei werden verschiedene Daten mit unterschiedlicher

Gewichtung „bepunktet“ und anschließend zu einem Scorewert verrechnet. So lassen sich

beispielsweise Kunden mit einer Vielzahl an unterschiedlichen Kundenattributen in einem

Gesamtwert (z.B. Wert des Kunden für das Unternehmen) zusammenfassen und vergleichen.

Im Alltag wird dieses Prinzip in vielen Bereichen eingesetzt, z.B. bei der Vergabe von

Krediten. Ob ein Kunde kreditwürdig ist oder nicht, hängt von vielen verschiedenen

Faktoren ab, die eine unterschiedliche Gewichtung besitzen. Letztendlich ist aber der

Gesamtscorewert entscheidend, der aussagt, ob an den Kunden ein Kredit vergeben wird. Ein

weiteres, einfaches Beispiel ist die Berechnung der Durchschnittsnote des Studiums.

Während das Grundstudium in geringerem Maße in die Gesamtnote einfließt, haben das

Hauptstudium und die Diplomarbeit im Verhältnis eine höhere Gewichtung. Vielfach erfolgt

eine Bewertung auf Basis eines Scoring-Verfahrens auch unbewusst und intuitiv. Möchte

man beispielsweise ein Auto kaufen und dieses mit einem anderen vergleichen, werden die

Merkmale gewichtet. Einem bestimmten Ausstattungsmerkmal wird dabei eventuell eine

höhere Gewichtung zuteil, wohingegen andere Merkmale von geringerer Bedeutung sind.

Wenngleich in diesem Beispiel kein Scorewert im Sinne einer numerischen Größe berechnet

wird, ist das Prinzip dennoch dasselbe.


Das Scoring ist, wie bereits beschrieben, ein recht einfaches Verfahren, das ohne große

mathematische Kenntnisse zugänglich ist. Im Folgenden werden verschiedene Beispiele

erläutert, in denen das Scoring als Data-Mining-Verfahren sinnvoll eingesetzt werden kann.

Kundenbewertung

Eine mögliche Anwendung der Scoring-Analyse in der Versorgungsindustrie ist das

Erzeugen eines Kundenindex in Abhängigkeit von dem Wert des Kunden für das

Unternehmen. So können Kunden von einem Versorger beispielsweise sowohl Strom, als

auch Gas beziehen. Jedoch ist der Gewinn für das Unternehmen in der Sparte Gas ggf. höher

als in der Sparte Strom. Aus diesem Grund sind Kunden mit hohem Gasverbrauch (im

Verhältnis zum Stromverbrauch) besonders wichtig. Diesen Gedanken kann man mit einer

entsprechenden Gewichtung berücksichtigen. Zusätzlich können weitere Attribute, wie die

Umsätze der vergangenen Monate, die Inanspruchnahme von zusätzlichen Dienstleistungen

usw. mit einer individuellen Gewichtung einbezogen werden, um schließlich den

Gesamtwert eines Kunden zu ermitteln. Anhand dieses Wertes kann z.B. eine Intensivierung

der Beziehungen zu den wertvollen Kunden gezielt durchgeführt werden.


- 58 -

Werbescoring

Mit Hilfe der Scoring-Technik können auch Werbekampagnen gezielt durchgeführt werden,

indem beispielsweise die Kaufkraft oder das Ansprechverhalten auf entsprechende

Werbekampagnen berechnet wird. Die Ergebnisse erlauben dann Aussagen darüber, welche

Personen für welche Produkte auf welchem Weg beworben werden sollten.

Call-Center

Ein weiteres mögliches Szenario für eine Scoring-Analyse ist die Einstufung der Anrufer in

einem Call-Center, um so anhand verschiedener Kriterien die Anrufer in der Warteschlange

zu sortieren. Diejenigen Kunden die für das Unternehmen eine besondere Bedeutung haben,

können so direkt angesprochen werden, wohingegen „Nörgler“ und „Daueranrufer“ länger in

der Warteschlange verweilen.

Optimierung des Forderungsmanagement

Wie auch schon bei der Clusteranalyse ist es mit den Mitteln des Scoring-Verfahrens

möglich, die Zahlungsfähigkeit und Zahlungswilligkeit eines Kunden vorherzusagen. Dabei

fließen verschiedene Merkmale mit unterschiedlicher Gewichtung in einen Gesamtwert des

Kunden ein. So können Neukunden oder potentiell zahlungsunwillige Kunden zu einer

schnellen Zahlung bewegt oder auf ein anderes Zahlungsverfahren umgestellt werden.

Mitarbeiterranking

Nicht nur die Kunden, sondern auch die eigenen Mitarbeiter des Unternehmens können mit

Hilfe des Scoring bewertet werden. So können Mitarbeiter, die für den Erfolg des

Unternehmens von besonderer Bedeutung sind, identifiziert und anschließend ihre Bindung

zum Unternehmen intensiviert werden.


Im SAP BI 7.0 ist lediglich die additive Berechnung durch Summieren der Teilbewertungen

möglich. Daher lässt sich der mathematische Ansatz sehr einfach wie folgt darstellen:

1 n 1 1 1 n n nf (x ,..., x ) w f (x ) ... w f (x ) , mit

ix = zu bewertendes Merkmal i

iw = Gewicht des i-ten Merkmals

i if (x ) = Bewertungsfunktion des i-ten Merkmals

Formel 6: Additives Scoring-Verfahren1

1 [KiVa, 2007] S.196


- 59 -


Ablauf des Scoring

Der Ablauf des Scoring im SAP BI 7.0 ist in Abbildung 38 dargestellt und nachfolgend

beschrieben.

Abbildung 38: Ablauf Scoring-Verfahren

1

Wie aus der Abbildung deutlich wird, gibt es zwei Gewichtungsgrößen, die den

Gesamtscorewert beeinflussen. Die Gewichtung der ersten Ebene legt die Bedeutung eines

Merkmals innerhalb des gesamten Modells fest. In dem dargestellten Beispiel ergeben die

einzelnen Gewichtungen der ersten Ebene in Summe 1. Dies dient der Übersichtlichkeit, ist

jedoch nicht zwingend erforderlich. Die Gewichtung in der zweiten Ebene, die sogenannte

Partialgewichtung, erlaubt es die einzelnen Werte eines Merkmals mit individuellen

Gewichtungen zu versehen, wodurch ein detailliertes Score-Verfahren möglich wird. Oft ist

es nicht sinnvoll, für jeden Wert eine eigene Gewichtung zu vergeben. Daher ist es auch

möglich, eine Gewichtung linear zum entsprechenden Wert zu definieren.

Konfiguration des Scoring

Vor dem Anlegen und Konfigurieren des Scoring-Modells müssen zunächst ein paar

Begrifflichkeiten in der DM-Workbench korrigiert bzw. eingeordnet werden.

Oftmals werden die Data-Mining-Verfahren Regressionsanalyse und Weighted Scoring (hier

als Scoring bezeichnet) unter dem Begriff Approximation zusammengefasst. Wie in der

Abbildung 39 zu sehen ist, wurde diese Hierarchie auch in der DM-Workbench verwendet.



- 60 -

Abbildung 39: Fehlerhafte Bezeichnungen in der DM-Workbench

Nicht gelungen ist jedoch die Bezeichnung der einzelnen Approximationsverfahren. Die

Regressionsanalyse wird als Scoring bezeichnet, wohingegen das Weighted Scoring keine

Bezeichnung besitzt. Anhand des technischen Namens lassen sich beide Verfahren jedoch

eindeutig unterscheiden.

Im ersten Schritt der Scoring-Analyse muss ein entsprechendes Modell erzeugt und

konfiguriert werden. Anschließend stehen dem Anwender, wie bei den anderen Verfahren

auch, die Registerkarten Felder und Parameter zur Konfiguration des gesamten Modells

sowie die Spalte Parameter zur individuellen Konfiguration der einzelnen Felder zur

Verfügung.

In der Registerkarte Parameter kann lediglich der Standard-Scorewert festgelegt werden, der

bei fehlenden Daten oder bei der Behandlung von Ausreißern verwendet wird.

In der Registerkarte Felder werden, wie bereits bekannt, alle benötigten Meta-Informationen

angegeben. Zusätzlich wird festgelegt, ob es sich bei den Daten in dem jeweiligen Feld um

stetige oder diskrete Daten handelt oder ob dieses Feld als eindeutiges Schlüsselfeld definiert

werden soll. In Abhängigkeit von dem gewählten Wertetyp stehen zum Teil unterschiedliche

Konfigurationsmöglichkeiten durch die Spalte Parameter zur Verfügung. Im Folgenden

werden deshalb die einzelnen Parameter für stetige und für diskrete Datenfelder näher

erläutert. Schlüsselfelder können nicht weiter konfiguriert werden.

Abbildung 40: Konfiguration von stetigen Datenfeldern


- 61 -

In der Parameterkonfiguration für das jeweilige Feld kann auf der Registerkarte Werte

zunächst die Gewichtung des Feldes im Kontext des gesamten Modells (d.h. die Gewichtung

auf erster Ebene) definiert werden.

Anschließend können die Partialgewichte für spezifische Werte eingestellt werden. Bei

stetigen Datenfeldern geschieht dies im Normalfall stückweise linear, d.h. die Werte die

rechts und links von den gewählten Schwellenwerten liegen, werden durch lineare

Interpolation bestimmt. Alternativ werden durch Aktivieren der Option Funktion stückweise

konstant die Werte der linken oder rechten Schwellenwerte bis zum nächsten Schwellenwert

übernommen. Die genannten Möglichkeiten bezüglich der Partialgewichtungen sind in

Abbildung 41 noch einmal dargestellt:

Abbildung 41: Möglichkeiten der Partialgewichtung

1

Darüber hinaus kann zur Beschleunigung und Vereinfachung der Partialgewichtung über die

entsprechende Option das Partialgewicht so konfiguriert werden, dass es identisch zum

Schwellenwert ist.

Mit Hilfe der Registerkarte Behandlung von Ausreißern können Regeln für diejenigen Werte

konfiguriert werden, die (weit) außerhalb der normalen Intervalle liegen.

Folgende Möglichkeiten stehen in diesem Zusammenhang zur Verfügung:

■ Bearbeitung abbrechen

■ Datensatz ignorieren

■ Standard-Scorewert zuweisen

■ Konstante Extrapolation

■ Extrapolation

Die Begriffe sind bis auf die beiden zuletzt genannten weitestgehend selbsterklärend.

Konstante Extrapolation bedeutet, dass Werte außerhalb des Wertebereiches den

nächstgelegenen Grenzwert des Intervalls als Konstante zugeordnet bekommen. Bei der

Extrapolation wird der Wert auf Basis der Datenpunkte des Intervalls linear geschätzt.



- 62 -

Zuletzt kann mit Hilfe der Registerkarte Behandlung fehlender Werte festgelegt werden, wie

mit fehlenden Werten verfahren wird. Dazu wird zunächst definiert, was ein fehlender Wert

ist (z.B. 0 oder Initial). Anschließend stehen folgende Möglichkeiten zur Auswahl:

■ Bearbeitung abbrechen

■ Datensatz ignorieren

■ Standard-Scorewert zuweisen

■ Ersetzen durch

Für diskrete Datenfelder verhält sich die Konfiguration der Parameter bis auf wenige

Ausnahmen sehr ähnlich.

Abbildung 42: Scoring – erweiterte Feldkonfiguration

Auf der Registerkarte Werte kann wahlweise für jeden diskreten Wert oder jedes beliebige

Intervall ein Partialgewicht zugeordnet werden. Optionen wie bei den stetigen Datenfeldern

stehen bei diskreten Datenfeldern nicht zur Verfügung. Es kann jedoch für nicht

eingetragene Werte ein Standard-Partialgewicht vergeben werden.

Bei der Behandlung von Ausreißern fehlen die Möglichkeiten der Extrapolation. Die

Möglichkeiten auf der Registerkarte Behandlung fehlender Werte ist bei stetigen und

diskreten Feldern identisch.

Nachdem das Scoring-Modell gespeichert und aktiviert wurde, kann es in einem

Analyseprozess verwendet werden.1

Abbildung 43: Scoring – Analyseprozess

1 ggf. muss. der SAP-Hinweis 1139804 installiert werden (weiterführende Informationen siehe

Abschnitt 7.1 Erläuterungen zu den Hinweisen)


- 63 -


Die Ergebnisse des Scoring können wahlweise grafisch im APD oder tabellarisch in

Abhängigkeit vom gewählten Datenziel betrachtet werden.

Abbildung 44: Scoring – Tabellarische Darstellung der Ergebnisse

4.3.4 Bewertung

Die grundsätzlichen Vor- und Nachteile des Scoring sind in der folgenden Tabelle

festgehalten.

Stärken Schwächen

einfaches und performantes Verfahren subjektive Erfahrungen werden nicht berücksichtigt

ohne mathematischen Hintergrund zu verstehen Auswahl von Daten

intuitiv einsetzbar Verwendung eines Teils der vorhandenen Daten...

standardisierte Bewertung (objektiv nachvollziehbar) ... und daher beschränkte Aussagekraft

Tabelle 3: Stärken und Schwächen des Scoring

Grundsätzlich gibt es drei Schwierigkeiten bei der Verwendung von Scoring-Verfahren1:

■ Auswahl der Merkmale

Welche Merkmale sollen in die Berechnung des Scorewertes einfließen?

■ Gleichbleibende Qualität der ausgewählten Merkmale

Wie werden die Daten erfasst und ist deren Bedeutung, Relevanz und Erfassung auch

zukünftig immer gleich?

■ Gewichtung der Merkmale

Wie werden die Gewichtungen der ersten und zweiten Ebene festgelegt?

Zusammenfassend bleibt festzuhalten, dass das Scoring in verschiedenen Einsatzszenarien

sehr schnell und nachvollziehbar gute Ergebnisse liefert. Im SAP BI 7.0 ist ausschließlich

ein additives Scoring möglich, was jedoch als weitestgehend ausreichend betrachtet werden

kann. Alternativ kann das vorhandene Scoring durch eine ABAP-Transformation erweitert

werden.

1 [KiVa, 2007] S.194


- 64 -

4.4 Assoziationsanalyse

»Möchten Sie Schnitzel mit Sauerkraut oder einen Burger mit Pommes frites?«1

Um solche oder andere Abhängigkeiten der Form „Kunden die A gekauft haben, haben auch

B und C gekauft“ automatisch erkennen zu können, bedient man sich der Methoden der

Assoziationsanalyse. Im Ergebnis werden auf Grundlage häufig gemeinsam auftretender

Objekte in einem Datenbestand Regeln generiert, die diese Zusammenhänge beschreiben.

»Die Assoziationsanalyse ist eine Data-Mining-Methode, die verborgene Muster,

Korrelationen oder Kausalstrukturen in Positionen oder Objekten entdeckt«2

Die grundsätzlichen Überlegungen in Bezug auf die Assoziationsanalyse entstanden durch

die Einführung der Scanner-Technologie in Supermärkten.3 So werden seitdem alle während

eines Einkaufs erworbenen Produkte zusammen erfasst und können anschließend auf

Zusammenhänge hin analysiert werden. Aus diesem Grund wird die Assoziationsanalyse

oftmals auch als Warenkorb- oder Affinitätsanalyse bezeichnet. In dieser Arbeit werden

jedoch nicht diese durch das Marketing geprägten Begriffe verwendet, sondern die

allgemeine Bezeichnung Assoziationsanalyse.

Dennoch liegen die häufigsten Anwendungsgebiete auch heute noch im Bereich des

Marketing oder Vertrieb. So können auf Basis der geprüften Assoziationsregeln Maßnahmen

ergriffen werden, um beispielsweise Produkte die oft zusammen gekauft werden

nebeneinander zu platzieren oder gemeinsam zu bewerben. In diesem Zusammenhang wird

oft der Begriff Cross-Selling verwendet. Auch die Ladengestaltung, der Personaleinsatz oder

die Sortimentspolitik können mit Hilfe der Assoziationsanalyse verbessert werden.4 Dabei

müssen jedoch nicht zwangsläufig Abhängigkeiten zwischen Objekten an sich betrachtet

werden, sondern es können auch Analysen bezüglich anderer Merkmale wie Preise, Mengen,

Farben, Varianten usw. durchgeführt werden. Darüber hinaus können die Produkte auch in

Kategorien zusammengefasst werden, um so Zusammenhänge auf einer höheren

Abstraktionsebene entdecken zu können. Wenn beispielsweise Brot und Milch oft zusammen

gekauft werden, dann spielt es zunächst keine Rolle um welche Sorte Brot oder Milch

welchen Herstellers es sich handelt. Oftmals erschwert die zu detaillierte Betrachtung der

Daten auch das Auffinden von Assoziationsregeln.

Aber nicht nur im Marketing oder Vertrieb wird die Assoziationsanalyse häufig verwendet.

Auch in allen anderen Unternehmensbereichen kann der Einsatz dieser Data-Mining-Technik

sinnvoll sein. So können beispielsweise Beziehungen zwischen Fehlern oder Fehlerarten in

Produkten oder Systemen erkannt werden. Oder im Gesundheitswesen kann analysiert

1 [BW380, 2005] S.48

2 ebd. S.49

3 Ursprünglich wurde das Verfahren jedoch von Mathematikern mit wissenschaftlichem Hintergrund

entwickelt

4 [AlNi, 2000] S.101


- 65 -

werden, welche Nebenwirkungen bei der Einnahme von einem oder mehreren

Medikamenten entstehen.

Das grundsätzliche Prinzip der Assoziationsanalyse am Beispiel einer Warenkorbanalyse ist

in Abbildung 45 noch einmal dargestellt.

Abbildung 45: Grundsätzlicher Ablauf der Assoziationsanalyse


Um die bisherigen Erläuterungen zu ergänzen, werden nachfolgend einige Beispiele aus der

Versorgerindustrie genannt, in denen die Assoziationsanalyse sinnvoll eingesetzt werden

kann.

Cross-Selling

Das meistgenannte Beispiel für eine Assoziationsanalyse ist das Cross-Selling. Wenn

bekannt ist welche Produkte von Kunden zusammen gekauft werden, können diese bei

Werbekampagnen, Telefonaktionen oder auf Websites gemeinsam präsentiert und angeboten

werden. In der Versorgerbranche wäre es so möglich, diejenigen Kunden zu identifizieren

die sich neben der Stromversorgung auch für die Gasversorgung interessieren könnten. Auch

zusätzliche Dienstleistungen oder bestimmte Tarife könnten so gezielt angeboten werden.

Störungsanalyse

Bei der Analyse von Störungen oder anderen Problemen kann festgestellt werden, welche

Fehler sich aufeinander beziehen oder ob es eine Abhängigkeit zwischen bestimmten

persönlichen, örtlichen oder technischen Merkmalen und einer Störung oder Störungsart

gibt.


- 66 -

Kunden-Produkt-Analyse

Mit Hilfe der Assoziationsanalyse kann herausgefunden werden, welcher Kunde welches

Produkt am wahrscheinlichsten kaufen wird. Diese Informationen können für die Mitarbeiter

eines Call-Centers oder für die gezielte Durchführung von Kampagnen von Bedeutung sein.

Systemoptimierung

Auch in Bezug auf IT-Systeme (oder auch BI-Systeme) kann die Zuverlässigkeit und

Stabilität sowie die Performanz gesteigert werden, indem auf Grundlage von Protokolldaten

festgestellt wird, welche Ereignisse oder Zustände zu Engpässen oder Fehlern führen.

Clickstream-Analysen

Auf Websites kann das Verhalten von Benutzern analysiert und vorhergesagt werden, indem

mit der Assoziationsanalyse beispielsweise festgestellt wird, dass Kunden die sich den

Bereich Kontakt anschauen, vielfach auch den Bereich Kundencenter betrachten. So kann die

Gestaltung der Website mit Hilfe einer verbesserten Navigation, z.B. mit Links optimiert

werden. Zusätzlich können so gezielt Banner mit Produkten oder Dienstleistungen

präsentiert oder Fragebögen und Gewinnspiele angeboten werden.

Für die Analyse des Verhaltens von Anwendern im Internet hat sich mittlerweile ein

eigenständiger Bereich, das sogenannte Web-Mining, herausgebildet, in dem die Data-

Mining-Verfahren für die Anwendung im Internet optimiert und erweitert wurden.


Im SAP BI 7.0 ist der Apriori-Algorithmus für die Anwendung der Assoziationsanalyse

implementiert. Um den Ablauf verstehen zu können, müssen zunächst einige Begriffe zur

formalen Beschreibung des Algorithmus erläutert werden.1

Item

Als Item wird ein Objekt der Gesamtmenge bezeichnet, z.B. ein bestimmtes Produkt. Die

Menge aller Items ist dementsprechend wie folgt definiert:

1 2 mI i ,i ,...,i

Formel 7: Menge aller Items

1 In Anlehnung an [Petersohn, 2005] S.102ff, [AlNi, 2000] S.102ff


- 67 -

Transaktion

Als Transaktion wird ein Geschäftsvorfall bezeichnet, beispielsweise der Einkauf. Die

Menge aller Einkäufe ist dementsprechend wie folgt definiert:

1 2 nD T ,T ,...,T mit T I

Formel 8: Menge aller Transaktionen

Eine Transaktion ist dabei eine Teilmenge von Items.

Itemset

Als Itemset bezeichnet man eine Teilmenge der Objekte aus einem Geschäftsvorfall, z.B.

eine Teilmenge der Produkte aus einem Einkauf.

X ist eine Menge von Items mit X T

Formel 9: Itemset

Mit Hilfe des Itemsets kann im späteren Verlauf die Anzahl der Transaktionen gezählt

werden, in dem das Itemset enthalten ist, z.B. wie viele Einkäufe enthalten die Items

Mozzarella und Tomate.

Die Größe des Itemset wird über die Anzahl der darin enthaltenen Items definiert. Ein

Itemset der Größe k (d.h. mit k Elementen) wird als k-Itemset bezeichnet.

Assoziationsregel

Eine Assoziationsregel, in der Form „wenn A gekauft wird, wird auch B gekauft“ lässt sich

wie folgt als Implikation beschreiben:

X Y mit X,Y T und X Y

Formel 10: Assoziationsregel

X stellt dabei die führende Position (Prämisse) und Y die abhängige Position (Konklusion)

dar. Beide Positionen müssen verschieden sein und dürfen nicht die gleichen Objekte

enthalten, da eine Aussage der Form „wenn Mozzarella gekauft wird, wird auch Mozzarella

gekauft“ nicht sinnvoll ist.

Support

Als Support wird der Anteil der Transaktionen bezeichnet, die das Itemset also die Menge X

enthalten. Damit ist es ein Maß und Gütekritierium für die Beurteilung einer

Assoziationsregel.

support(X) = | T D | X T |

| D |

Formel 11: Support


- 68 -

Der oben definierte relative Support wird berechnet, indem die Anzahl der Transaktionen die

das Itemset enthalten, durch die Anzahl der Menge aller Transaktionen dividiert wird.

Der Support einer Assoziationsregel lässt sich entsprechend wie folgt darstellen:

support (X Y) = support (X Y) = | T D | X Y T |

| D |

Formel 12: Support einer Assoziationsregel

Der Support einer Assoziationsregel gibt an, wie wahrscheinlich es ist, dass die Regel in

Bezug auf alle Transaktionen eintritt.

Konfidenz

Neben dem Support ist die Konfidenz ein weiteres Gütekriterium für die Stärke der

Assoziationsregel. Die Konfidenz berechnet dabei die Wahrscheinlichkeit, dass nach der

Prämisse (führende Position) auch die Konklusion (abhängige Position) eintritt. Das

Ergebnis der Konfidenz könnte beispielsweise sein, dass in 75% aller Transaktionen, in

denen Mozzarella gekauft wird, auch Tomaten erworben werden. Die Konfidenz lässt sich

wie folgt definieren:

confidence (X Y) = | T D | X Y T |

| T D | X T | =

support(X Y)

support(X)

Formel 13: Konfidenz

Berechnet wird demnach der Anteil der Transaktionen die X und Y enthalten (Support von

X und Y), im Verhältnis zum Anteil der Transaktionen die nur X enthalten (Support von X).

Lift

Als drittes Bewertungskriterium für eine Assoziationsregel wird der Lift verwendet. Ein Lift

von 2 sagt beispielsweise aus, dass Produkt Y (Tomaten), in den Transaktionen mit Produkt

X (Mozzarella), doppelt so häufig vertreten ist, wie in den gesamten Transaktionen. Oder

anders ausgedrückt: Wenn ein Kunde Mozzarella kauft, ist die Wahrscheinlichkeit, dass auch

Tomaten gekauft werden, doppelt so hoch, als wenn er keinen Mozzarella kauft.

lift (X Y) = support(X Y)

support(X) support(Y) =

confidence(X Y)

support(Y)

Formel 14: Lift


- 69 -


Apriori-Algorithmus

Im SAP BI 7.0 wurde der Apriori-Algorithmus, entwickelt im IBM Almaden Forschungs-

zentrum, implementiert. Dabei handelt es sich um die klassische Variante und nicht um die

erweiterten Versionen.1

Der grundsätzliche Ablauf des Apriori-Algorithmus ist in zwei Schritte unterteilt:2

■ Schritt 1: Bestimmung der large Itemsets

Im ersten Prozess werden die häufigen, sogenannten large Itemsets ermittelt. Dafür

werden alle Itemsets gesucht, für deren Transaktionen der Support höher ist als eine

definierte (Mindest-)Schranke. Dieser minimale Support muss bei der Konfiguration des

Modells angegeben werden.

Der Aufwand und die Rechenzeit für die Berechnung aller möglichen Itemkombination

wären jedoch extrem hoch. Aus diesem Grund wird folgende Monotonie-Eigenschaft

genutzt: „Jede Teilmenge eines auftretenden Itemsets muss selbst auch häufig sein“. So

wird zunächst die Häufigkeit der Itemsets mit einem Element berechnet. Ist deren Support

geringer als der Mindestsupport werden sie aussortiert. Anschließend werden alle

Itemsets mit zwei Elementen berechnet. Da im Vorfeld ggf. schon einige Items aussortiert

wurden, müssen nicht mehr alle Kombinationen mit zwei Items berechnet werden. Dieser

Vorgang wird bis zur k-ten Iteration wiederholt. Die Anzahl der Iterationsschritte kann in

der Konfiguration des Modells über die Anzahl der führenden und abhängigen Positionen

angegeben werden.

In Abbildung 46 ist die iterative Berechnung der large Itemsets noch einmal dargestellt.

Abbildung 46: Iterative Berechnung der large Itemsets

1

1 Weiterführende Informationen siehe Abschnitt 4.4.4 Bewertung und [Petersohn, 2005] S.107ff

2 [KiVa, 2007] S.211


- 70 -

■ Schritt 2: Bestimmung der Assoziationsregeln

Auf Grundlage der Itemsets wird für jede Teilmenge eine Assoziationsregel erzeugt.

Besteht ein Itemset beispielsweise aus den Produkten A, B und C gibt es insgesamt zwölf

Assoziationsregeln (A→B / A→C / B→A / B→C / C→B / C→A / A→B,C usw.). Um

nur die stärksten Assoziationsregeln zu bestimmen muss in der Konfiguration des

Modells eine minimale Konfidenz definiert werden.

Zusätzlich kann auch der Liftfaktor zur Bestimmung der stärksten Assoziationsregeln

herangezogen werden

Wie die erläuterten Modellparameter (minimaler Support, minimale Konfidenz, minimaler

Liftfaktor, Anzahl führender Positionen, Anzahl abhängiger Positionen) in der Konfiguration

eingestellt werden können, wird im folgenden Abschnitt erläutert.

Konfiguration der Assoziationsanalyse

Die Vorgehensweise bei der Konfiguration der Assoziationsanalyse ist in den ersten

Schritten (bei der Anlage des Modells sowie beim Einfügen von Feldern) identisch zu den

bisher erläuterten Verfahren.

Abbildung 47: Assoziationsanalyse - Feldkonfiguration

Ebenfalls muss der Wertetyp für jedes Feld angegeben werden. Dabei stehen folgende Typen

zur Auswahl:

■ Position

Der Wertetyp Position kennzeichnet das Datenfeld, in dem die Items abgelegt sind. In

diesem Feld (z.B. Produkte) wird dementsprechend nach Abhängigkeiten und

Zusammenhängen innerhalb der Daten gesucht. Es darf nur ein Modellfeld mit dem

Wertetyp Position angegeben werden.

■ Transaktion

Das Feld, das als Transaktion gekennzeichnet ist, ermöglicht die Zuordnung der Items zu

einer Transaktion. Beispiele für eine Transaktionsnummer können Einkaufs-

wagennummer, Kundenauftragsnummer, Kundennummer, Sitzungsnummer oder andere

beliebig generierte Nummern sein. Es können auch mehrere Felder den Wertetyp

Transaktion zugewiesen bekommen.



- 71 -

■ Gewichtung der Transaktion

Mit Hilfe dieses Wertetyps kann die Gewichtung der Transaktion beeinflusst werden, um

so den Support von Items zu verändern. In Abbildung 48 ist der Einfluss der Gewichtung

auf den Support dargestellt und beschrieben.

Abbildung 48: Gewichtung der Transaktion

1

Mit Hilfe der Gewichtung ist es beispielsweise möglich, die umsatzstärkeren

Transaktionen höher zu gewichten, indem die Preise der Produkte mit dem Wertetyp

Gewichtung der Transaktion gekennzeichnet werden.

Auf der Registerkarte Parameter stehen folgende weitere Konfigurationsmöglichkeiten zur

Verfügung:

■ Minimaler Support

■ Minimale Konfidenz

■ Minimaler Liftfaktor

■ Maximale Anzahl führender Positionen

■ Maximale Anzahl abhängiger Positionen

Der Einfluss dieser Parameter wurde bereits in den vorangegangen Abschnitten ausführlich

dargestellt.



- 72 -

Nach der Aktivierung des konfigurierten Modells kann dieses in einem Analyseprozess

verwendet werden.

Abbildung 49: Assoziationsanalyse – Analyseprozess


Je nach Datenbestand und Konfiguration des Modells, können eine unüberschaubare Anzahl

an Assoziationsregeln generiert werden. Zur Unterstützung der Auswertung der Ergebnisse

wird ein Filter angeboten (siehe Abbildung 50), der die Menge der Regeln entsprechend den

vorgenommenen Einstellungen eingrenzt.

Abbildung 50: Assoziationsanalyse - Filtern der Ergebnisse

Für die Anzeige der Ergebnisse1 der Assoziationsanalyse stehen verschiedene Möglichkeiten

zur Auswahl. So werden die gefunden Assoziationsregeln zunächst alphabetisch sortiert

dargestellt (Gittersicht siehe Abbildung 51). Mit Hilfe der Angaben bezüglich Support,

Konfidenz und Lift können die Regeln beurteilt werden.

1 ggf. müssen die SAP Hinweise 1085264 und 999344 installiert werden (weiterführende

Informationen siehe Abschnitt 7.1 Erläuterungen zu den Hinweisen)


- 73 -

Abbildung 51: Assoziationsanalyse – Anzeige der Assoziationsregeln

In einer alternativen Ansicht werden die Regeln absteigend nach Support, Konfidenz und

Liftfaktor sortiert und dargestellt (Baumsicht siehe Abbildung 52).

Abbildung 52: Assoziationsanalyse – Alternative Anzeige der Regeln

Zusätzlich können die großen Positionskombinationen angezeigt werden (siehe Abbildung

53). In dieser Ansicht werden die Itemets aufsteigend nach ihrer Kardinalität sortiert.

Zusätzlich wird der Support angegeben. Wie zuvor, lässt sich auch hier zwischen der Gitter-

und der Baumsicht wechseln.

Abbildung 53: Assoziationsanalyse – Anzeige der Itemsets


- 74 -

4.4.4 Bewertung

Die grundlegenden Vor- und Nachteile der Assoziationsanalyse sind in der folgenden

Tabelle dargestellt:

Stärken Schwächen

Effizienz Es muss geprüft werden, ob die Ergebnisse korrekt und nicht trivial oder uninteressant sind

Laufzeit und Performanz Auswahl der interessanten und starken Regeln bei großen Regelmengen schwierig

Arbeitet auch mit sehr umfangreichen Datenmengen Wahl der richtigen Aggregationsebene ist wichtig

Leicht verständliche Ergebnisse

Tabelle 4: Stärken und Schwächen der Assoziationsanalyse

Der im SAP BI 7.0 verwendete Apriori-Algorithmus ist das klassische und am häufigsten

implementierte Verfahren. Auch heute noch ist die Leistungsfähigkeit des Algorithmus in

den meisten Anwendungsfällen ausreichend.

»In einem Praxisproblem mit ca. 1 Mio. Datensätzen hat die Assoziationsanalyse auf einem

aus Hardwaresicht klein dimensionierten SAP NetWeaver 2004s-System mit 4 GB

Hauptspeicher für das Einlesen der Daten ca. drei Minuten benötigt und für die sukzessive

Berechnung der Itemsets und Assoziationsregeln ca. fünf Sekunden. Diese kurze Laufzeit

zeigt sowohl die Effizienz des Verfahrens selbst als auch die Implementierung in SAP

NetWeaver 2004s.«1

Dennoch gibt es eine Vielzahl an weiterentwickelten Algorithmen, die zumeist jedoch auf

dem klassischen Apriori-Algorithmus basieren und versuchen, die Datenbankscans zu

minimieren (AprioriTid, AprioriHybrid, Parition, Dynamic Itemset Countin, Direct Hashing

and Pruning u.a.)2. Der aktuell wohl beste Algorithmus zur Berechnung von

Assoziationsregeln ist der FPGrowth-Algorihtmus3, der einen vollkommen anderen Ansatz

wählt und dadurch nochmals wesentlich schneller arbeitet.

Zusätzlich gibt es verschiedene Erweiterungen4 der normalen Assoziationsverfahren.

Beispielsweise können mit Hilfe von Sequenzanalysen Zeiträume, und nicht wie bisher

Zeitpunkte, betrachtet werden. Ein weiteres Beispiel sind quantitative Assoziationsregeln,

die Aussagen ermöglichen, wie z.B. „Kunden, die 4 Hosen kaufen, erwerben mit einer

Wahrscheinlichkeit von 70% auch 2 Gürtel“.

Insgesamt besitzt die Assoziationsanalyse im SAP BI 7.0 einen guten Reifegrad und kann

daher als stabil und zufriedenstellend bezeichnet werden. Wünschenswert sind jedoch die

zusätzliche Implementierung neuer Algorithmen sowie eine verbesserte Darstellung der

Ergebnisse, um die bedeutenden Regeln besser erkennen und bewerten zu können.

1 [KiVa, 2007] S.221

2 Weiterführende Informationen siehe [Petersohn, 2005] S.101ff

3 ebd. S.120ff

4 ebd. S.126ff


- 75 -

4.5 Entscheidungsbaum

Bereits in den 60er Jahren wurden die ersten Verfahren zur Generierung von

Entscheidungsbäumen entwickelt. Sie werden typischerweise zur Klassifikation von Daten

eingesetzt und lassen sich wie folgt beschreiben:

»[Entscheidungsbäume sind] ein Data-Mining-Werkzeug, das anhand von dazugehörigen

Faktoren zum Entscheidungsprozess, mögliche Ereignisse von vorangegangenen

Entscheidungen klassifiziert. Außerdem können Regeln entwickelt werden, um die

Wahrscheinlichkeit eines zukünftigen Ereignisses vorherzusagen. Diese Regeln werden zum

leichteren Verständnis in einer graphischen Baumstruktur dargestellt.«1

Anhand der Abbildung 54 lassen sich die grundsätzlichen Gedanken zum

Entscheidungsbaumverfahren, am Beispiel der Kreditvergabe, näher beschreiben.

Abbildung 54: Aufbau eines Entscheidungsbaumes

Der grundsätzliche Gedanke bei der Verwendung des Entscheidungsbaumes ist das

sukzessive Aufteilen (splitting) der Datenmenge zu homogeneren Gruppen bezüglich einer

Klassifikationsvariablen.2 Das Ergebnis ist ein umgedrehter Baum, der sehr leicht abgelesen

und interpretiert werden kann. Je tiefer man sich im dem Baum befindet, desto homogener

sind die Daten, die sich in der gemeinsamen Gruppe befinden. In dem Beispiel für die

Vergabe von Krediten lässt sich mit Hilfe eines solchen Baumes die Kreditwürdigkeit eines

neuen Kunden hervorsagen, z.B. „ein Student der über 21 Jahre alt ist und ein jährliches

Einkommen von mehr als 10.000 €, jedoch schlechte Noten im Studium hat, wird als nicht

kreditwürdig eingestuft.“ Auch alle anderen Fälle lassen sich sehr intuitiv ablesen.

1 [BW380, 2005] S.84

2 [ChaGlu, 2006] S.268


- 76 -

Ein Entscheidungsbaum besteht aus folgenden Elementen (siehe Abbildung 54):

■ Wurzel

Das oberste Element in dem umgedrehten Baum ist die Wurzel. Von dort aus verzweigen

alle weiteren Elemente des Baumes, d.h. alle Daten (oder Objekte) die klassifiziert

werden sollen, können der Wurzel zugeordnet werden.

■ Knoten

Die Knoten enthalten die „gesplitteten“ Teilmengen der Daten und dienen der weiteren

Aufteilung anhand eines Attributs.

■ Kanten

Die Kanten stellen die Ausprägungen des jeweiligen Attributs dar, anhand dessen die

Daten im weiteren Verlauf aufgeteilt werden.

■ Split

Der Begriff Split wird als Synonym für die Aufteilung der Daten in Abhängigkeit von den

gegebenen Attributen und Werten verwendet.

■ Blätter

Die Blätter stellen die unterste Ebene des Baumes dar und enthalten damit die kleinsten,

jedoch homogensten Teilmengen. Die Ausprägung der Blätter wird für die Vorhersage

verwendet.

Um einen Entscheidungsbaum für Vorhersagen verwenden zu können, muss dieser zunächst

generiert werden. Dies geschieht mit Hilfe von historischen Daten, die als Trainingsmenge

bezeichnet werden.1

Die Einsatzgebiete des Entscheidungsbaumes sind sehr vielfältig. Sie können zur Vorhersage

von Kunden- und Kaufverhalten verwendet oder für Kündigungsprävention, Markt-

segmentierung, Betrugsanalyse oder die Optimierung von Kampagnen eingesetzt werden.

4.5.1 Beispiele in der Versorgerbranche:

Zur weiterführenden Einleitung in die Möglichkeiten des Entscheidungsbaumes werden im

Folgenden mögliche Beispiele aus der Versorgerindustrie dargestellt.

Mitarbeiterfluktuation

Anhand der Daten von Mitarbeitern, die das Unternehmen verlassen haben, kann ein

Entscheidungsbaum generiert werden. Mit dessen Hilfe können Antworten auf die Fragen

gefunden werden, warum Mitarbeiter kündigen oder wie man die Einstellung,

Mitarbeiterbindung und Vergütung effektiv gestaltet, um erfolgreich zu sein.

1 Weiterführende Informationen siehe Abschnitt 4.5.3 Umsetzung im SAP BI 7.0


- 77 -

Gründe für Kaufentscheidung

Wenn der Versorger weiß, aus welchen Gründen sich seine Kunden für ihn entschieden

haben, kann er sein Produkt- und Tarifangebot weiter anpassen und sich besser von der

Konkurrenz absetzen.

Kundenprofil1

Anhand der örtlichen und persönlichen Merkmale von Kunden, lassen sich Gruppen bilden,

die ähnliches Verhalten und Interessen aufweisen, wodurch die Bedürfnisse der bestehenden

oder potentiell neuen Kunden besser angesprochen werden können.

Kundensegmentierung

Mit dem Entscheidungsbaumverfahren können die Kunden in zuvor unbekannte Gruppen

segmentiert werden. So könnten Gruppen beispielsweise „Umsatzstarker Strom-Kunde mit

sehr guter Zahlungsmoral“ oder „Langjähriger Gas-Kunde mit hohem Kündigungspotential“

genannt werden. Anschließend ist die gezielte Behandlung dieser Kundengruppen möglich,

sei es bei der Werbung, dem Service oder der Pflege der Geschäftsbeziehung.

Kündigungsprävention

Indem die Eigenschaften der Kunden, die gekündigt haben, analysiert werden, können mit

Hilfe eines Entscheidungsbaumes die Kunden herausgearbeitet werden, die ein hohes

Kündigungspotential haben. So können insbesondere die für das Unternehmen wichtigen

Kunden frühzeitig angesprochen und an das Unternehmen gebunden werden.

Kundenprofitabilität2

Anhand der Merkmale, dem Verhalten und dem Verbrauch von Kunden, kann deren

Profitabilität vorhergesagt werden. Dies ist auch schon möglich, bevor der Kunde den

Vertrag abschließt.

Optimierung von Marketingkampagnen3

Mit einem Entscheidungsbaum können die Ergebnisse von Marketingkampagnen in

bestimmten Segmenten vorhergesagt werden (Rücklaufquote). Mit diesen Erkenntnissen

können die Kampagnen in optimierter Form für bestimmte Zielgruppen durchgeführt

werden.

1 [BW380, 2005] S.91

2 ebd.

3 ebd.


- 78 -

Forderungsmanagement

Im Bereich des Forderungsmanagement können Auswertungen zu Zahlungsverhalten,

Zahlungswegen und die Kombination von beidem durchgeführt werden. Beispielsweise

können ähnlich wie bei den bereits genannten Beispielen, die Merkmale der Kunden mit

schlechter oder guter Zahlungsmoral analysiert und vorhergesagt werden. Anschließend wird

versucht, die Kunden mit schlechter Zahlungsmoral auf eine alternative Zahlart (z.B.

Lastschrift) umzustellen, um den Cash-Flow zu optimieren.

Störungsanalyse

Durch die Analyse von Störungen mit Hilfe eines Entscheidungsbaumes können diese schon

vor ihrem wahrscheinlichen Eintreten behoben werden.

Wie aus den Beispielen deutlich wird, sind die Möglichkeiten zum Einsatz eines

Entscheidungsbaumes sehr vielfältig und überschneiden sich auch häufig mit den möglichen

Einsatzgebieten anderer Data-Mining-Verfahren. Die Schwierigkeit, und damit die Kunst,

liegt in der Auswahl und der Konfiguration des richtigen Verfahrens, um optimale

Ergebnisse zu erzielen.


Die Berechnung des Entscheidungsbaumes erfolgt top-down. Bei dem umgedrehten Baum

bedeutet dies, dass die Generierung mit der Wurzel startet und dann sukzessive durch

Aufteilung der Daten (Split) erweitert wird.1 Um jedoch berechnen zu können, welcher Split

mit welchem Attribut die größtmögliche Zerlegung bietet, werden die Kennzahlen Entropie

und Informationsgewinn verwendet, die im Folgenden näher erläutert werden.2

Entropie

Mit Hilfe der Entropie kann die Reinheit der Zerlegung berechnet werden.

k

i 2 i

i 1

E(T) p log p , E(T) [0,1]

mit T = Menge der Trainingsdaten,

T1,T2,...,Tm = disjunkte Zerlegung von T in m Teilmengen

pi = relative Häufigkeit der Klasse i in Ti

Formel 15: Entropie

Der Wert der Entropie liegt im Intervall zwischen 0 und 1. Der Wert 0 ergibt sich bei pi = 1.

Man spricht dann von einer reinen Zerlegung, da sich alle Attribute mit dem gleichen

Attributwert, zu 100% einer Klasse zuordnen lassen. Dies ist beispielsweise der Fall, wenn

1 Weiterführende Informationen siehe Abschnitt 4.5.3 Umsetzung im SAP BI 7.0



- 79 -

bei der Zerlegung anhand des Attributs Studiumsnote alle Studenten mit guten Noten als

kreditwürdig und alle mit schlechten Noten als kreditunwürdig eingestuft werden.

Der Wert 1 ergibt sich bei pi = 0,5. Dies ist entsprechend dann der Fall, wenn sich ein

Attribut im Verhältnis 50:50 auf zwei Klassen aufteilt.

Informationsgewinn

Aufbauend auf die Entropie kann der Informationsgewinn berechnet werden, um mehrere

Splits miteinander zu vergleichen.

mi

i

i 1

| T |I(T,A) E(T) E(T )

| T |

mit T = Menge der Trainingsdaten,

T1,T2,...,Tm = disjunkte Zerlegung von T in m Teilmengen

A = Attribut, das für den Split verwendet wird

Formel 16: Informationsgewinn

Dabei wird zusätzlich das Verhältnis zwischen Teilmenge und Ausgangsmenge in die

Berechnung mit einbezogen. Je größer die Teilmenge ist, umso stärker ist der Einfluss der

Entropie auf die Kennzahl Informationsgewinn.

Ein Beispiel für den Vergleich von Splits zur Auswahl der Attribute wird im späteren

Verlauf des folgenden Abschnitts dargestellt.


Ablauf des Entscheidungsbaumes

Das Data-Mining mit Entscheidungsbäumen wird in drei, durch die sogenannte

Windowtechnik1 optimierte Phasen unterteilt.

2

■ Phase 1: Training

Zunächst wird eine Teilmenge (z.B. 15%) aus den vorhandenen Daten ausgewählt. Mit

Hilfe dieser Teilmenge, dem sogenannten Trainingsset, wird ein Baum generiert, der die

Muster in den historischen Daten möglichst gut abbildet.

■ Phase 2: Bewertung (optional)

Die übrigen Daten, die nicht in dem Trainingsset enthalten sind, werden als sogenanntes

Generalisierungsset für die Bewertung des erzeugten Baumes verwendet. So kann die

Genauigkeit des Baumes berechnet werden, da Daten verwendet werden, bei denen das

Ergebnis bekannt ist. Nur wenn alle Daten korrekt klassifiziert wurden, endet die

Bewertung und der Baum wird als endgültig angesehen. Andernfalls werden die als falsch

eingestuften Daten zusätzlich in das Trainingsset aufgenommen und daraus ein neuer,

1 [Jafar-Shaghaghi, 1994] S.111

2 [Petersohn, 2005] S.137, [BW380, 2005] S.87


- 80 -

verbesserter Baum generiert. Diese Schritte werden so oft wiederholt, bis der Baum

vollständig korrekt ist oder eine definierte Genauigkeit besitzt.

Diese zweite Phase der Bewertung wird vielfach auch als optional angesehen und muss

nicht zwingend durchgeführt werden, denn es kann je nach Datenbestand auch sinnvoll

sein diesen Schritt zu überspringen.1

■ Phase 3: Vorhersage

Nachdem der Baum generiert und als ausreichend bewertet wurde, können Vorhersagen

erzeugt werden. Aufgrund der Attribute des Datensatzes wird der Baum durchlaufen und

schließlich das vorherzusagende Feld befüllt.

In Abbildung 55 sind die beschriebenen Phasen noch einmal dargestellt:

Abbildung 55: Entscheidungsbaum-Phasen

Die Konstruktion des Entscheidungsbaumes erfolgt top-down, beginnend mit der Wurzel.

Dabei wird der Baum sukzessive anhand der Attribute aufgespannt, bis eine definierte

Blattebene erreicht ist. Welche Attribute in welcher Reihenfolge verwendet werden, und

welches Attribut die Wurzel bildet, wird mit Hilfe des Informationsgewinns2 berechnet.

In Abbildung 56 wird beispielhaft das erste Split, also die Wurzel eines

Entscheidungsbaumes, berechnet und bewertet.

1 Weiterführende Informationen siehe Abschnitt 4.5.3 Konfiguration des Entscheidungsbaumes

2 Siehe Formel 15: Entropie und Formel 16: Informationsgewinn


- 81 -

Abbildung 56: Berechnung des (ersten) Split im Entscheidungsbaum

1

Wie aus der Darstellung deutlich wird, werden zunächst die Entropiewerte berechnet, zum

Einen für den nächsthöheren Knoten (in diesem Fall die Wurzel), zum Anderen für alle

Ausprägungen der zur Verfügung stehenden Attribute. Mit Hilfe dieser Entropiewerte kann

anschließend der Informationsgewinn jedes Attributs errechnet werden. Der Vergleich zeigt,

dass das Attribut Alter bzw. dessen Split den höchsten Informationsgewinn besitzt, wodurch

Alter als Wurzel verwendet wird. Im Folgeschritt beginnt die oben dargestellte Berechnung

für die neuen Teilmengen von vorne, wodurch der Baum schrittweise erweitert wird.



- 82 -

Das Erzeugen von Entscheidungsbäumen ist jedoch nicht immer problemlos. Ein

Entscheidungsbaum kann auch übertrainiert (oder überspezialisiert) werden, man spricht

dann vom sogenannten Overfitting. Das bedeutet, dass der Baum zwar eine Genauigkeit von

100% bezüglich der Trainingsdaten, jedoch nicht bezüglich der gesamten Daten besitzt. Dies

kann dadurch entstehen, dass die Trainingsdaten nicht korrekt ausgewählt wurden, d.h. sie

sind in ihren Eigenschaften nicht repräsentativ für die Gesamtmenge oder enthalten ein

Rauschen1.

Durch das sogenannte Pruning kann das Overfitting des Entscheidungsbaumes verhindert

werden. Dabei gibt es drei Möglichkeiten2:

■ Pruning vor der Entwicklung des Baumes

Durch eine genaue Auswahl der Daten, die für das Training vorgesehen sind, können

diejenigen Daten aussortiert werden, die ggf. zu Overfitting führen können.

■ Pruning während der Entwicklung des Baumes

Indem die Generierung des Baumes nicht erst bei einer Genauigkeit von 100%

abgebrochen wird, sondern beispielsweise schon bei der Quote von 95%, kann das

Übertrainieren des Baumes vermieden werden.

■ Pruning nach der Entwicklung des Baumes

Nachdem der Baum vollständig erzeugt wurde, ist eine Beschneidung von Teilen des

Baumes möglich, indem einige Äste „zurückgeschnitten“ werden. Dadurch werden

unnötige Kanten, Knoten und Blätter entfernt und der Baum möglichst klein gehalten.

Konfiguration des Entscheidungsbaumes

Nachdem das Modell angelegt wurde, folgt die Konfiguration, die nach dem gleichem

Prinzip aufgebaut ist, wie bisher beschrieben.

Abbildung 57: Entscheidungsbaum – Feldkonfiguration

1 Das Rauschen beschreibt Fehler in Daten. Weiterführende Informationen siehe Abschnitt 14 Glossar

2 [Petersohn, 2005] S.138


- 83 -

Auf der Registerkarte Felder werden die Merkmale mit ihrem jeweiligen Wertetyp (stetig,

diskret oder Schlüsselfeld) angegeben. In der Spalte vorhersagbar wird das Feld

gekennzeichnet, das „gelernt“ werden soll und im Entscheidungsbaum die Blätter

repräsentiert.

Die Konfigurationsmöglichkeiten der Spalten Parameter und Werte sind in der folgenden

Abbildung dargestellt:

Abbildung 58: Entscheidungsbaum – erweiterte Konfiguration

Bei stetigen Datenfeldern ermöglicht es die Spalte Werte, mit Hilfe eines Dialogfensters

(links in der Abbildung), stetige Werte zu diskretisieren. So können nach dem bekannten

Prinzip Intervalle erzeugt werden, die die stetigen Werte bei der Modellverarbeitung ersetzen

(z.B. Zuordnung eines 18-jährigen zu dem Intervall 10-20).

Bei diskreten Datenfeldern können definierte Werte ignoriert oder als fehlend deklariert

werden (Abbildung rechts). Bei fehlenden Werten wird der Vorschlagswert verwendet. Ist

kein Vorschlagswert definiert, wird der Wert ignoriert.

Bei der Konfiguration der Datenfelder erlaubt es die Spalte Parameter Nullwerte für die

Verarbeitung zu berücksichtigen. Wird zusätzlich ein Vorschlagswert angegeben, wird dieser

an Stelle des Nullwertes verwendet.

Die Konfigurationsmöglichkeiten der Registerkarte Parameter sind in Abbildung 59

dargestellt. Im Bereich Trainingsprozess kann eine Stichprobe konfiguriert werden, um den

Baum lediglich mit einem Teil der Trainingsdaten zu trainieren.1 Anschließend wird ein

weiterer Teil der Trainingsdaten genutzt und auf den trainierten Baum angewendet. Die

Daten, die nicht korrekt klassifiziert sind, werden der Trainingsmenge beigefügt und der

Prozess beginnt von vorne. Es kann dabei die Größe der Stichprobe für den Einstieg und die

maximale Stichprobe prozentual angegeben werden. Zusätzlich wird über die Anzahl der

Versuche ein weiteres Abbruchkriterium geschaffen, das angibt, nach wie vielen Schritten

die Generierung des Baumes beendet werden soll.

1 Dieser Prozess entspricht Phase 2 in Abbildung 55


- 84 -

Abbildung 59: Entscheidungsbaum – Parameterkonfiguration

Im Bereich Abbruchbedingungen wird das Pruning während der Erstellung des Baumes

konfiguriert. So kann einerseits die Mindestanzahl an (Daten)Sätzen pro Blatt angegeben

werden, die benötigt wird, um diesen Knoten weiter aufzuteilen. Andererseits kann die

Genauigkeit definiert werden, bei der die Generierung des Entscheidungsbaumes endet.

Mit Hilfe des Bereichs erweiterte Einstellungen kann die Relevanz von Modellfeldern

geprüft werden, d.h. es werden alle unwichtigen Modellfelder, bezogen auf den

Informationsgewinn, entfernt. Dadurch kann die Trainingszeit deutlich reduziert werden. Bei

der Verwendung dieser Funktion können wahlweise ein Schwellenwert oder die besten n

Modellfelder (jeweils in Bezug auf den Informationsgewinn) definiert werden.

Zuletzt kann im Bereich Pruning die Beschneidung des Baumes nach seiner Generierung

(Post-Pruning) konfiguriert werden, um den Baum kleiner und genauer zu machen und das

Overfitting zu vermeiden. Beim erweiterten Pruning wird zusätzlich versucht, einen Knoten

durch seinen Nachfolgeknoten zu ersetzen, um so eine höhere Genauigkeit zu erhalten. Es

gilt jedoch zu berücksichtigen, dass insbesondere das erweiterte Pruning bei umfangreichen

Datenmengen sehr zeitintensiv ist und zu einer hohen Laufzeit führen kann.1

Nachdem das Modell konfiguriert und aktiviert wurde, kann es in einem Analyseprozess

verwendet werden (siehe Abbildung 60). Wie bei der Clusteranalyse muss auch der

Entscheidungsbaum zunächst trainiert werden, bevor er für die Prognose verwendet werden

kann. Aus diesem Grund gibt es auch hier den Entscheidungsbaum in der APD-Workbench

als Datenziel (für das Training) und als Transformation (für die Vorhersage).

1 Weiterführende Informationen siehe [BW380, 2005] S.102f


- 85 -

Abbildung 60: Entscheidungsbaum – Analyseprozess


Folgende Möglichkeiten stehen bei der Anzeige und Analyse der Modellergebnisse zur

Verfügung.1

■ Netzplansicht

Wie die folgende Abbildung verdeutlicht, wird der generierte Baum anschaulich

dargestellt. Zu jedem Knoten können zusätzliche Informationen wie die Anzahl der Sätze

oder die entsprechende Regel mit der dazugehörigen Wahrscheinlichkeit abgerufen

werden.

Abbildung 61: Entscheidungsbaum – Ergebnisse in der Netzplansicht

■ Baumsicht

In der Baumsicht werden die Ergebnisse strukturiert (ähnlich einem Verzeichnisbaum) in

Textform dargestellt.

Abbildung 62: Entscheidungsbaum – Ergebnisse in der Baumsicht

1 ggf. muss der Hinweis 862637 installiert werden (weiterführende Informationen siehe Abschnitt 7.1

Erläuterungen zu den Hinweisen)


- 86 -

■ Simulation Vorhersage

Wie bei der Clusteranalyse können mit Hilfe der Vorhersagesimulation Ergebnisse auf

Grundlage von manuell eingegeben Werten ermittelt werden.

Abbildung 63: Entscheidungsbaum – Vorhersagesimulation

4.5.4 Bewertung

In der folgenden Tabelle werden zunächst die grundlegenden Vor- und Nachteile des

Entscheidungsbaumes als Data-Mining-Verfahren betrachtet:

Stärken Schwächen

Leistungsfähigkeit Können groß, komplex und dadurch unübersichtlich werden (kann durch Pruning und andere Parametereinstellungen verhindert werden)

Intuitive visuelle Darstellung und dadurch sehr gut ablesbar und interpretierbar

Tabelle 5: Stärken und Schwächen des Entscheidungsbaumes

Zusammenfassend bleibt festzuhalten, dass der Entscheidungsbaum ein wichtiges und sehr

leistungsfähiges Instrument zur Klassifizierung von Daten ist und aufgrund seiner einfachen

und verständlichen Ergebnisdarstellung vielfach eingesetzt wird.

Im SAP BI 7.0 wurde der Entscheidungsbaum sinnvoll und stabil umgesetzt und kann durch

eine Vielzahl an Parametern konfiguriert und optimiert werden. Wünschenswert wären

weitere, zusätzliche Algorithmen zur Generierung des Baumes sowie zum Pruning.1

1 Weiterführende Informationen siehe [Petersohn, 2005] S.139ff, S.148ff


- 87 -

4.6 Regressionsanalyse

Bei der Regressionsanalyse wird davon ausgegangen, dass es Zusammenhänge und

Abhängigkeiten zwischen Daten gibt. Diese können linear oder nicht linear sein. Eine erste

Beschreibung liefert die folgende Definition:

»Ein Regressionsmodell ist ein Modell, mit dem eine abhängige, stetige Variable durch

mehrere unabhängige Variablen erklärt wird.«1

Wenn beispielsweise ein Händler einen kausalen Zusammenhang zwischen Umsatz und

Preis erkannt hat, kann er die vorhandenen Verkaufsdaten mit den jeweiligen Preisen mit

Hilfe einer Regressionsanalyse erfassen, um so vorhersagen zu können, wie sich eine

Preisänderung auf den Umsatz auswirkt.

Abbildung 64: lineare und nicht lineare Regressionsanalyse

Grundsätzlich kann zwischen einer linearen und einer nicht linearen Regressionsanalyse

unterschieden werden (siehe Abbildung 64). Die lineare Analyse ist sehr einfach und kann

schnell berechnet werden, jedoch geht dies ggf. zu Lasten der Ergebnisqualität, da immer

von einem linearen Verlauf ausgegangen wird. Die nicht lineare Regressionsanalyse ist

komplexer, liefert dafür allerdings genauere Ergebnisse.

Leider ist die nicht lineare Regression im SAP BI 7.0 derart instabil implementiert, dass sie

nicht sinnvoll eingesetzt werden kann, solange SAP keine Aktualisierung oder

Fehlerkorrektur anbietet. Aus diesem Grund wird die nicht lineare Regression im weiteren

Verlauf nicht näher betrachtet. Oftmals ist es jedoch möglich, eine nicht lineare

Regressionsanalyse mittels einfacher Transformationen in eine lineare Regressionsanalyse

zu überführen.2

Aus den bisherigen Ausführungen wird die Ähnlichkeit zwischen der Regressionsanalyse

und anderen Klassifikationsverfahren, wie z.B. dem Entscheidungsbaum, deutlich. Der

größte Unterschied liegt darin, dass die Regressionsanalyse (im Gegensatz zum

Entscheidungsbaum) die Vorhersage von stetigen Variablen zum Ziel hat.

1 [Fahrmeir et al., 1996] S.93ff

2 Weiterführende Informationen siehe [KiVa, 2007] S.244, S.251f


- 88 -

Bei der Regressionsanalyse gilt es immer zu berücksichtigen, dass die Ergebnisse statistische

und nicht kausale Zusammenhänge wiedergeben. Während man demnach davon ausgehen

kann, dass beispielsweise mit steigender Außentemperatur der Gasverbrauch sinkt, gibt es

keinen offensichtlichen kausalen Zusammenhang zwischen der Anzahl an Verkehrstoten und

dem Umsatz von Kaffeemaschinen, auch wenn sich dies mit Hilfe der Regressionsanalyse so

darstellen ließe. Die Auswahl der Variablen und Merkmale sowie die richtige Interpretation

sind demnach entscheidend für den erfolgreichen Einsatz dieser Technik.


Die Einsatzgebiete der Regressionsanalyse sind vielfältig. Im Folgenden werden einige

Beispiele für die Versorgerbranche genannt, in denen der Einsatz der Regressionsanalyse

sinnvoll erscheint.

Kennzahlenanalyse

Mit Hilfe der Regressionsanalyse kann der Einfluss verschiedener Merkmale auf den Umsatz

oder auf andere Kennzahlen (z.B. Gewinn oder Verbrauch) ermittelt werden. So kann

beispielsweise der Umsatz in Abhängigkeit von der Größe der Familie und dem

durchschnittlichen Alter analysiert und anschließend für neue Kunden vorhergesagt werden.

Umsatzänderung bei Preisänderung

Die Regressionsanalyse kann den Anwender ebenso bei der Preisfindung unterstützen, indem

berechnet wird, wie sich eine Preisänderung auf den Umsatz auswirkt.

Erfolg von Werbemaßnahmen

Bei der Analyse der Korrelation zwischen Werbemaßnahmen und Umsatz kann der Erfolg

bestimmter Kampagnen in definierten Segmenten und Regionen festgestellt und damit auch

vorhergesagt werden.

Viele weitere Beispiele sind auf Grundlage des beschriebenen Prinzips vorstellbar.

4.6.2 Mathematische Grundlagen1

Abhängige und unabhängige Variablen

Im Zusammenhang mit der Regressionsanalyse wird von sogenannten abhängigen und

unabhängigen Variablen gesprochen. Bei den unabhängigen Variablen handelt es sich um

Variablen, die jeden beliebigen Wert annehmen können. Die abhängige Variable ist eine

Variable, die von den Werten der unabhängigen Variablen abhängt. Wenn z.B. der Umsatz

in Abhängigkeit vom Preis betrachtet werden soll, handelt es bei dem Umsatz um die

abhängige Variable und bei dem Preis um die unabhängige Variable.



- 89 -

Regressionsgerade

Die abhängige Variable und damit die Regressionsgerade lässt sich in einem ersten Schritt

wie folgt als Funktion beschreiben:

y a bx , mit

y = Schätzung der abhängigen Variablen,

a = Schnittpunkt der Geraden mit der y-Achse,

b = Steigung,

x = unabhängige Variable

Formel 17: Funktion zur Schätzung der abhängigen Variablen

Um die ideale Regressionsgerade und a und b korrekt bestimmen zu können, sollte die

Summe aller y-Abstände der Messpunkte zur Geraden minimal sein (die Berechnung erfolgt

mit Hilfe der Methode der kleinsten Quadrate1).

n2

i i

i 1

(y (a bx )) min!, mit

iy = i-ter Wert der abhängigen Variablen,

ix = i-ter Wert der unabhängigen Variablen

Formel 18: Zielfunktion zur Bestimmung von a und b

Durch die Quadrierung bekommen größere Abstände zur Geraden eine höhere Gewichtung

und negative Abstände werden ausgeschlossen bzw. fließen als positiver Abstand in die

Berechnung ein.

Kennzahl R

Mit Hilfe der Kennzahl R (Bestimmtheitsmaß oder Determinationskoeffizient) kann im SAP

BI 7.0 die Güte einer Regressionsanalyse bestimmt werden.

2

i i2 i

2

i

i

ˆ(y y )

R 1(y y)

, mit

iy = Schätzung der abhängigen Variable,

y = arithmetisches Mittel aller abhängigen Variablen iy ,

i i

ˆ(y y ) = nicht erklärte Abweichung,

i(y y) = Gesamtabweichung

Formel 19: Bestimmtheitsmaß R

Zum besseren Verständnis der Zerlegung der Abweichungen, die als Grundlage für die

Berechnung der Kennzahl R verwendet wird, dient Abbildung 65.

1 Weiterführende Informationen siehe [Sachs, 1992] S.129, 502f, 560f


- 90 -

Abbildung 65: Zerlegung der Gesamtabweichung

1

Mit Hilfe der Kennzahl R wird demnach die Summe aller nicht erklärten Abweichungen ins

Verhältnis zu allen Gesamtabweichungen gebracht, um so mit Hilfe der Bezugsgröße des

arithmetischen Mittels aller abhängigen Variablen beurteilen zu können, ob die

Regressionsgerade eine hohe Aussagekraft besitzt.2

Kennzahl I

Im SAP BI 7.0 wurde eine zweite Kennzahl zur Bewertung der Güte der Regression

implementiert. Sie ist wie folgt definiert:

i i

i

i i

i

ˆ| y y |

I 1ˆ| y | | y |

, mit

iy = i-ter Wert der abhängigen Variablen,

iy = Schätzung der abhängigen Variable,

i iˆy y = nicht erklärte Abweichung

Formel 20: Kennzahl I

Es lässt sich jedoch nicht erkennen, was der Sinn dieser Kennzahl sein soll. Im Gegensatz

zum Bestimmtheitsmaß (Kennzahl R) ändert sich der Wert dieser Kennzahl in Abhängigkeit

von der Position der Geraden mit ihren Messpunkten im Achsensystem. Das bedeutet, dass

der Wert der Güte besser wird, wenn sich die Regressionsgerade im höheren Wertebereich


2 Weiterführende Informationen siehe [Sachs, 1992] S.497f


- 91 -

des Achsensystems befindet, selbst wenn die Abstände zu den Messpunkten sowie die

Steigung der Geraden gleich bleibt. Somit ist ein objektiver Vergleich und damit eine

Bewertung der Güte der Regression mit dieser Kennzahl nicht möglich. Aus diesem Grund

wird von der Verwendung dieser Kennzahl bei der Analyse der Ergebnisse und der

Optimierung des Modells abgeraten.


Ablauf der Regressionsanalyse

Ähnlich wie bei einigen der bereits vorgestellten Data-Mining-Techniken, muss das

Regressionsmodell zunächst trainiert werden, um Vorhersagen machen zu können. Dieses

Training erfolgt erneut mit ausgewählten historischen Daten.

In der Praxis wird zudem häufig mehr als eine unabhängige Variable verwendet, um die

Regressionsanalyse durchzuführen. Dabei handelt es sich vielfach um Variablen mit

diskreten Werten, z.B. Altersklassen, Bundesland, Stadt, Familienstand usw., anhand derer

die abhängige Variable (z.B. Umsatz) bestimmt werden soll. Man spricht in diesem

Zusammenhang von der sogenannten multiplen Regression.

Der Ablauf der Regressionsanalyse verändert sich dadurch jedoch nur dahingehend, dass für

jeden Wert der diskreten Variablen eine Regressionsanalyse mit den restlichen stetigen,

unabhängigen Variablen durchgeführt wird. Aus diesem Grund ist es im SAP BI 7.0 auch

zwingend notwendig, mindestens eine stetige unabhängige Variable zu definieren.1

Abbildung 66 veranschaulicht den Sachverhalt der multiplen Regression.

Abbildung 66: multiple Regression mit diskreten Variablen

2

In dem dargestellten Beispiel wird für jede Altersklasse eine Regressionsanalyse mit der

unabhängigen Variable Einkommen und der abhängigen Variable Umsatz durchgeführt.

1 [KiVa, 2007] S.251

2 ebd.


- 92 -

Konfiguration der Regressionsanalyse

Nachdem ein Modell für die Regressionsanalyse angelegt wurde, kann auf der Registerkarte

Felder die Struktur der Eingangsdaten festgelegt werden.

Abbildung 67: Regressionsanalyse – Feldkonfiguration

Zusätzlich wird, wie bereits bekannt, der Wertetyp angegeben (stetig, diskret, Schlüsselfeld).

Auch das Feld zur Vorhersage (also das Feld der unabhängigen Variablen) wird kenntlich

gemacht.

Die Konfiguration der einzelnen Felder über die Spalte Parameter ermöglicht das

Einschränken von Werten, die Behandlung von Ausreißern und die Behandlung von

fehlenden Werten. Die angebotenen Möglichkeiten zur Konfiguration entsprechen dabei

genau denen der Scoring-Analyse, die bereits ausführlich beschrieben wurde.1

Abbildung 68: Regressionsanalyse – erweiterte Feldkonfiguration

Mit Hilfe der Registerkarte Parameter werden die Einstellungen des gesamten Modells

vorgenommen.

1 Siehe Abschnitt 4.3.3 Umsetzung im SAP BI 7.0


- 93 -

Abbildung 69: Regressionsanalyse – Parameterkonfiguration

Zum Einen wird an dieser Stelle der Funktionstyp definiert (lineare oder nicht lineare

Regression). Zum Anderen kann eine Mindestanzahl an Datensätzen angegeben werden, die

erreicht werden muss, damit eine bestimmte Ausprägung einer diskreten Variablen

verwendet wird. Enthält diese Ausprägung (z.B. Familienstand – Single) weniger als die

angegebene Anzahl an Datensätzen, wird sie nicht weiter berücksichtigt.

Zusätzlich kann der Standard-Score festgelegt werden, der bei fehlenden Werten und

Ausreißern verwendet wird. Die Option Standard-Scorewert außerhalb trainierter Domäne

zuweisen arbeitet wie folgt: Wenn sie aktiviert ist, werden alle Datensätze, die nicht im

Bereich der trainierten Funktion liegen, während der Vorhersage mit dem Standard-

Scorewert ausgegeben. Andernfalls wird eine Regression unabhängig von den diskreten

Modellfeldern durchgeführt.1

Nach der Aktivierung des konfigurierten Modells, wird nach dem bekannten Prinzip ein

Analyseprozess erstellt. Dabei ist darauf zu achten, dass für das Training zunächst die

Regressionsanalyse aus dem Bereich der Datenziele verwendet wird (siehe Abbildung 70).

Um Vorhersagen zu machen, bedient man sich anschließend der Regressionsanalyse aus dem

Bereich der Transformationen.

1 Weiterführende Informationen siehe [BW380, 2005] S.193f


- 94 -

Abbildung 70: Regressionsanalyse – Analyseprozess


In der folgenden Abbildung sind die Darstellungen aus den verschiedenen Ansichten der

Ergebnisanzeige zusammengefasst:

Abbildung 71: Regressionsanalyse – Ergebnisse

Neben der allgemeinen Verteilung der Werte und einigen statistischen Zahlen, sind die

Kennzahlen zur Bewertung der Güte1 der Regressionsanalyse grafisch dargestellt. Anhand

dieser Ergebnisse kann beurteilt werden, ob die aktuelle Konfiguration der Regressions-

analyse ausreichend ist oder ob zur Optimierung weitere Einstellungen vorgenommen

werden müssen.

Zusätzlich ist für jeden Wert der diskreten Felder das Ergebnis der Regressionsgeraden

aufgelistet (Schnittpunkt mit der y-Achse und Steigung der Regressionsgeraden).

1 Siehe Abschnitt 4.6.2 Mathematische Grundlagen


- 95 -

4.6.4 Bewertung

Die folgende Übersicht stellt die generellen Vor- und Nachteile der (linearen) Regressions-

analyse kurz dar:

Stärken Schwächen

weit verbreitet Erfasst im Falle der linearen Regression nur lineare Abhängigkeiten

leicht verständliches Prinzip Großer Einfluss von schlechtem Datenmaterial oder fehlerhafter Konfiguration auf das Endergebnis

Korrelation zwischen tatsächlichem Ergebnis und Vorhersage messbar

Einfache, nachvollziehbare Ergebnisse

Tabelle 6: Stärken und Schwächen der Regressionsanalyse

Die Regressionsanalyse ist ein sehr bekanntes Verfahren, das insbesondere im

kaufmännischen Bereich bereits vielfach eingesetzt wird. Im Gegensatz zu den meisten

anderen im SAP BI 7.0 implementierten Verfahren, wurde die Regressionsanalyse bisher

nicht optimal umgesetzt. Sie arbeitet sehr instabil, so dass bei der nicht linearen Regression

nach aktuellem Stand sogar von der Anwendung abgeraten werden muss. Hier besteht

konkreter Nachholbedarf seitens SAP. Auch die Darstellung der Ergebnisse könnte weiter

optimiert werden, insbesondere in Bezug auf die Bewertung der Güte der Regression, um so

noch einfacher feststellen zu können, ob das trainierte Modell für die Vorhersage

ausreichend ist.

Trotz der vielen Mängel und Kinderkrankheiten lassen sich einfache, lineare Regressions-

analysen gut und performant durchführen.


- 96 -

4.7 Kombination verschiedener Verfahren

Wie die bisherigen Ausführungen zu den verschiedenen Data-Mining-Verfahren im SAP BI

7.0 gezeigt haben, gibt es eine Vielzahl an Beispielen und Einsatzgebieten, in denen die

jeweilige Data-Mining-Technik sinnvoll und effizient eingesetzt werden kann.

In der Praxis werden die verschiedenen Problemstellungen jedoch häufig durch die

Kombination der verschiedenen Verfahren gelöst. Oftmals werden deshalb bestimmte

Verfahren für die Vorbereitung der Daten oder für vorgelagerte Analysen verwendet, die

wiederum als Grundlage und Eingangsdaten für weiterführende Data-Mining-Modelle

eingesetzt werden. So sind nicht nur Ergebnisse und Analysen möglich, die wesentlich

spezifischer, detaillierter und genauer sind, sondern es werden in vielfacher Hinsicht

vollkommen neue Informationen geschaffen, die durch den Einsatz einer einzelnen Data-

Mining-Technik so allein nicht hervorgebracht werden können.


Im Folgenden werden Beispiele und Einsatzgebiete erläutert, die durch den sukzessiven

Einsatz verschiedener Data-Mining-Verfahren möglich sind. Wie auch schon bei den

Beispielen der jeweiligen Verfahren, soll dieser Überblick nur einen ersten Eindruck

verschaffen und hat aufgrund der vielen Möglichkeiten keinen Anspruch auf Vollständigkeit.

Forderungsmanagement

Für ein Versorgungsunternehmen könnten beispielsweise folgende Fragen aus dem Bereich

des Forderungsmanagement interessant sein:

■ Welche Kunden sind potentiell zahlungsunwillig?

■ Besteht ein Zusammenhang zwischen Zahlungsbereitschaft, Verbrauch, Zahlweise oder

anderen Faktoren?

■ Welche zahlungsunwilligen Kunden können auf eine sichere Zahlweise (z.B. Lastschrift)

umgestellt werden?

Abbildung 72 veranschaulicht die einzelnen Schritte, die zur Lösung der oben genannten

Problemstellung nötig sind:

Abbildung 72: Gesamtbeispiel – Forderungsmanagement


- 97 -

Zu Beginn werden die Daten einem zuvor trainierten Entscheidungsbaum über die

Zahlungsbereitschaft übergeben. Dieser ermöglicht nicht nur Aussagen über die

Zusammenhänge zwischen verschiedenen Faktoren, die zur mangelnden Zahlungs-

bereitschaft führen, sondern berechnet in diesem Beispiel auch die prozentuale

Wahrscheinlichkeit, ob die übergebenen Kunden zahlungswillig sind oder nicht. Die

zahlungsunwilligen Kunden werden an einen weiteren, zuvor trainierten Entscheidungsbaum

übergeben, der die Wahrscheinlichkeit berechnet, ob ein Kunde einer alternativen Zahlweise

offen gegenüber steht. So können die Kunden mit einer in der Zukunft potentiell schlechten

Zahlungsmoral gezielt auf eine für das Unternehmen sicherere Zahlweise umgestellt werden.

Erweiterung der Kundenbeziehungen

Ein weiteres Beispiel ist der Ausbau der Kundenbeziehungen. Folgende Fragen stehen dabei

im Vordergrund:

■ Welche Bestandskunden sind an einer zusätzlichen Versorgung (z.B. Gas- oder Wasser-

vertrag zum vorhanden Stromvertrag) potentiell interessiert?

■ Welche Umsatzsteigerungen lassen sich mit diesen potentiellen Interessenten erzielen?

Abbildung 73: Gesamtbeispiel – Erweiterung der Kundenbeziehungen

Im ersten Schritt wird auf Basis der Stamm- und Bewegungsdaten der Kunden eine

Clusteranalyse durchgeführt, die idealerweise im Ergebnis jeweils ein Cluster für jede

Spartenkombination darstellt. Mit Hilfe dieser trainierten Clusteranalyse können die

Wahrscheinlichkeiten berechnet werden, ob ein Kunde zusätzlich an weiteren

Versorgungsleistungen interessiert ist. Mit Hilfe von Regressionsanalysen, die die

Zusammenhänge zwischen den Umsätzen der verschiedenen Sparten darstellen, können die

potentiell zusätzlichen Umsätze bei erfolgreichem Vertragsabschluss berechnet werden.

Kündigungsanalyse der wichtigsten Kunden

Mit Hilfe der folgenden Anwendung könnten die unten aufgeführten Fragestellungen

schrittweise beantwortet werden:

■ Welche sind meine wichtigsten Kunden?

■ Wie hoch ist die Wahrscheinlichkeit bei meinen wichtigsten Kunden, dass sie in einem

definierten Zeitfenster kündigen?

■ Wie hoch sind die Umsatzeinbußen in der Zukunft, die durch die Kündigung (mit einer

Wahrscheinlichkeit von x%) der wichtigsten Kunden entstehen?


- 98 -

Abbildung 74: Gesamtbeispiel – Kündigungsanalyse

Zunächst werden die Umsatzzahlen (oder andere Kennzahlen) des Kunden aus den

verschiedenen Sparten (Strom, Gas, Wasser) in einem Gesamtscorewert des Kunden

verrechnet. Dies geschieht mit Hilfe des Scoring-Verfahrens und individuellen

Gewichtungen. Auf Grundlage des Gesamtwertes wird eine ABC-Analyse durchgeführt, die

die wichtigsten Kunden identifiziert. Anschließend werden alle A-Kunden an den zuvor

trainierten Entscheidungsbaum für die Kündigungswahrscheinlichkeit übergeben. Alle

Kunden mit einer Kündigungswahrscheinlichkeit von z.B. mindestens 75% werden an eine

zuvor trainierte Regressionsanalyse weitergereicht, die auf Grundlage von Vergangenheits-

werten den zukünftigen Umsatz der Kunden berechnet. Dieser Umsatz entspricht dann den

Einbußen, die das Unternehmen mit einer Wahrscheinlichkeit von mindestens 75% haben

wird, wenn nicht entsprechende Maßnahmen getroffen werden, um die abwanderungs-

willigen Kunden weiter an das Unternehmen zu binden.


- 99 -

4.8 Implementierung weiterer Verfahren

Neben den vorgestellten und im SAP BI 7.0 implementierten Verfahren gibt es in der

Theorie (aber auch in der Praxis) viele weitere Data-Mining-Methoden, die in gewissen

Konstellationen und für bestimmte Anforderungen bessere Ergebnisse bei kürzeren

Laufzeiten versprechen. Der faire Vergleich gestaltet sich zwar schwierig1, dennoch gibt es

Erfahrungswerte die zeigen, welche Data-Mining-Anwendungen für gewisse Problem-

stellungen bevorzugt verwendet werden sollten.

Durchaus interessante Ansätze, die bisher nicht im SAP BI 7.0 berücksichtigt wurden, bieten

die evolutionären Algorithmen mit ihren verschiedenen Varianten, z.B. den genetischen

Algorithmen oder den Mutations-Selektions-Verfahren (mit wiederum verschiedenen

Implementierungen wie Simulated Annealing, Threshold Accepting oder die Sintflut-

Methode) oder die Klasse der neuronalen Netze (z.B. Hopfield-Netz, Multi-Layer-

Perzeptron oder Self Organizing Maps). Eine detaillierte Betrachtung dieser Data-Mining-

Methoden kann an dieser Stelle nicht geleistet werden2, jedoch kann es sinnvoll sein, im

SAP BI 7.0 derartige oder andere Verfahren selbst umzusetzen, solange seitens SAP keine

Erweiterung stattfindet.

Je nach Verfahren ist der programmiertechnische Aufwand zur Umsetzung von neuen Data-

Mining-Techniken relativ gering. Lediglich die Implementierung einer geeigneten

Ergebnisdarstellung kann zu einem erhöhten Mehraufwand führen.

Leider ist der APD auf die Eigenprogrammierung von Data-Mining-Verfahren nicht ideal

vorbereitet. Die Integration ist aktuell lediglich über die ABAP-Transformation möglich. Mit

Hilfe dieser Transformation kann ein Funktionsbaustein (der den ABAP-Code des Data-

Mining-Verfahrens enthält) aufgerufen werden, um die Eingangsdaten in die berechneten

Ausgangsdaten zu transformieren und anschließend in einem Datenziel abzulegen. Der APD

kann jedoch ideal dafür genutzt werden, um das neu erstellte Verfahren mit mehreren

Personen intensiv zu testen.

Erste Ansätze zur Implementierung neuer Data-Mining-Verfahren im SAP BI 7.0 mit Hilfe

von ABAP wurden bereits geleistet.3 Dennoch sind nicht nur exaktes Wissen über die

Funktionsweise und den Ablauf des Verfahrens, sondern auch tiefergehende ABAP-

Kenntnisse und Überlegungen zu Laufzeit und Performanz notwendig, um ein Data-Mining-

Verfahren selbst zu entwickeln und so umzusetzen, dass es zu brauchbaren und korrekten

Ergebnissen führt, die in der Praxis verwendet werden können.

1 Weiterführende Informationen siehe [Nakhaeizadeh, 1998] S.225ff

2 Weiterführende Informationen siehe [Petersohn, 2005] passim, [KiVa, 2007] S.281ff,

[Nakhaeizadeh, 1998] passim sowie die umfangreiche Literatur im Abschnitt 13

3 Weiterführende Informationen siehe [KiVa, 2007] S.281ff, 343ff

5 Fallstudie „Kündigungsprävention“

- 100 -


Die bisherigen Ergebnisse bezüglich des Data Mining im SAP BI 7.0 sollen in der nun

folgenden Fallstudie möglichst praxisnah und anhand realer Daten beispielhaft umgesetzt

werden.

Die Realisierung erfolgt unter weitestgehender Berücksichtigung des CRISP-DM-

Prozessmodells1. Soweit in diesem Beispiel möglich, wird versucht, die einzelnen

Teilschritte des CRISP-Prozesses anzuwenden, ohne jedoch den Umfang dieser Arbeit aus

den Augen zu verlieren. Da es sich um eine praxisnahe Umsetzung, und nicht um ein echtes

Kundenprojekt handelt, werden einige Prozessschritte nicht so detailliert oder gar nicht

behandelt, da die in der Praxis vorkommenden Gegebenheiten an dieser Stelle nicht

vorzufinden sind und auch nicht erfunden werden sollen. So werden Teilschritte, wie z.B.

der Projektplan, die Aufgabenbeschreibung der beteiligten Personen, die Beschreibung

spezifischer Begriffe, die Risikoeinschätzung oder das „Deployment“ ausgelassen oder nur

oberflächlich beschrieben, ohne erneut die Gründe dafür zu nennen.

5.1 Business Understanding

5.1.1 Determine Business Objectives

Die Öffnung der Energiemärkte führte zu einer weitreichenden Veränderung des Marktes.

War früher der lokale Energieanbieter für die Versorgung zuständig, kann der Kunde heute

frei zwischen den Energieversorgungsunternehmen wählen. Kundenorientierung und

Kundenbindung, die zuvor wenig Beachtung fanden, sind stark in den Fokus gerückt. Durch

die steigenden Energiepreise reagieren Kunden zunehmend empfindlich auf Preis-

steigerungen sowie Preisunterschiede zwischen den verschiedenen Versorgern. Insgesamt ist

die Wechselbereitschaft in den letzten Jahren extrem angestiegen.

Da die Gewinnung von Neukunden in der Regel mit einem höheren Aufwand verbunden ist,

gewinnt die Bindung von bestehenden, jedoch potentiell abwanderungswilligen Kunden

zunehmend an Bedeutung.

Aus der Geschäftsperspektive ist daher die Bindung von (kündigungsgefährdeten) Kunden

als Hauptziel zu nennen, das mit dieser Data-Mining-Fallstudie erreicht werden soll.

Als Erfolgskriterien können die Reduzierung der Kündigungen auf einen definierten

Prozentsatz sowie die Ermittlung von Indikatoren für eine Kündigung genannt werden.

1 Siehe Abschnitt 2.6.1 CRISP-Prozess


- 101 -

5.1.2 Assess Situation

Alle benötigten Begrifflichkeiten aus dem Bereich des Data Mining sowie die verwendeten

Hard- und Softwaresysteme (Quellsysteme und BI-Systeme)1, wurden bereits ausführlich in

den vorangegangenen Abschnitten dieser Arbeit beschrieben.

Außer dem Autor dieser Arbeit sind lediglich die Mitarbeiter aus dem Center BI sowie CRM

und EDM beteiligt, jedoch nur in beratender Form bei IS-U spezifischen Fragestellungen.

Die Beschreibung besonderer Annahmen und Einschränkungen bezüglich der Datenqualität,

der Datengröße, dem Datenzugriff oder den Daten selbst, erfolgt bei Bedarf in den

entsprechenden Teilschritten.

Aus den bereits genannten Gründen wird außerdem auf die Darstellung und Problemlösung

möglicher Risiken oder anderer Eventualitäten verzichtet.

Beispielhaft soll im Folgenden unter Berücksichtigung verschiedener Annahmen der

monetäre Nutzen beschrieben werden:

■ Annahmen

□ Von den vorhandenen 200.000 Kunden werden 10.000 Kunden mit einer erhöhten

Abwanderungswahrscheinlichkeit identifiziert und gezielt mit Hilfe einer

Marketingkampagne angesprochen. Dabei entstehen Kosten in Höhe von 3 € pro

ausgewähltem Kunden.

□ Jeder fünfte dieser Kunden kann weiter an das Unternehmen gebunden werden.

□ Der durchschnittliche Umsatz eines Kunden beträgt 700 € pro Jahr.

■ Nutzen

□ Diese vereinfachten Annahmen führen zu einer

Umsatzsteigerung von 1,37 Mio € pro Jahr.

Auch aus dieser beispielhaften Berechnung wird schnell deutlich, welches (Umsatz-)

Potential in Kunden steckt, die durch einfache und gezielte Maßnahmen von ihrer

Kündigung abgehalten werden können. Die Kosten für die Data-Mining-Umsetzung sind im

Verhältnis zum Nutzen von geringer Bedeutung und auch die Anschaffungskosten entfallen,

da die Data-Mining-Lösung bereits im SAP BI 7.0 integriert ist.

5.1.3 Determine Data Mining Goals

Folgende Ziele dieser Fallstudie aus der Data-Mining-Sicht sind zu nennen:

■ Vorhersage der Kündigungswahrscheinlichkeit eines ausgewählten Kunden.

■ Identifizierung der Indikatoren und Einflüsse, die auf eine Kündigung hinweisen.

Ein mögliches Erfolgskriterium für die Data-Mining-Zielsetzungen ist die Vorhersage-

genauigkeit bzw. die prozentuale Angabe der Vorhersagefehler.

1 Siehe Abschnitt 1.4 Eingesetzte Software


- 102 -

5.2 Data Understanding

5.2.1 Collect Initial Data

Für die Datenbeschaffung werden zwei Systeme verwendet. Das erste System stellt eine

Spiegelung eines produktiven R/3-Systems mit IS-U Modul dar. In diesem System können

die vorhandenen Daten auf Tabellenebene betrachtet und mittels Dateiexport extrahiert

werden. Da die benötigten Daten sehr spezifisch sind und nicht mittels Business Content in

das BI 7.0 Testsystem geladen werden können und darüber hinaus das Anlegen eigener,

generischer DataSources im Rahmen der Diplomarbeit nicht zugelassen ist, durchlaufen die

Daten zunächst nicht den normalen ETL-Prozess des Business Warehouse, sondern werden

mittels CSV-Dateien eingebunden und im APD weiter vorbereitet.

Das zweite System ist ein produktives BW 3.5 System, da nur dieses eine vollständig

geladene Verkaufsstatistik enthält, aus der eine Vielzahl an Daten erhoben werden können.

Der Datenexport erfolgt per Query und anschließend erneut mittels CSV-Datei. Die weitere

Verarbeitung findet im APD statt.

Tabelle 7 gibt eine Übersicht über die für dieses Projekt benötigten und vorhandenen Daten.

5.2.2 Describe Data

Im Folgenden werden die nicht eindeutigen Felder aus Tabelle 7 kurz erläutert. Alle anderen

ausgewählten Attribute sind weitestgehend selbsterklärend und bedürfen daher keiner

weiteren Erläuterung.

■ Männlich (beinhaltet ein X wenn Geschäftspartner männlich ist)

■ Weiblich (beinhaltet ein X wenn Geschäftspartner weiblich ist)

■ Geschäftspartnertyp (unterscheidet zwischen Einzelpersonen, Wohngemeinschaften etc.)

■ Mahnzähler (Zählt die Mahnungen zu einem definierten Vorfall)

■ Anzahl Mahnungen (Enthält die Anzahl aller jemals aufgetretenen Mahnungen)

■ Durchschn. Betrag/Menge (Betrag/Menge pro Monat in Bezug auf die Vetragsmonate)

■ Kündigungskennzeichen (Enthält ein J bei Kündigern, und ein N bei aktiven Kunden)

Auf die detaillierte Darstellung der Datentypen, -längen und -formate wird an dieser Stelle

verzichtet. Durch die vielen vorhandenen Konvertierungsroutinen im SAP BI 7.0 sind der

Datentyp und die Formatierung der Daten nicht entscheidend. Lediglich die Länge der

angelegten InfoObjects muss ausreichend sein, um die Quelldaten korrekt aufnehmen zu

können.


- 103 -

Beschreibung Herkunft Selektionskriterien Feldauswahl

Kündiger (identifiziert über Wechselbelege)

Tabelle EIDESWTDOC

Wechseltyp = 01 (Lieferantenwechsel)

Wechselsicht = 03 (Alter Lieferant)

Alter Anbieter = 000092LIEF (spez. STW)

Status = 01 (ok)1

Geschäftspartner

Neuer Lieferant

Aktive Kunden (identifiziert über aktuelle Veträge)

Tabelle EVER

Kontenfindungsmerkmal = 01 (Tarifkunden)

Anbieter = 000092LIEF (spez. STW)

fakturierender Anbieter = 000092LIEF (spez. STW)

Auszugsdatum = 31.12.9999 (nur aktive Verträge)

2

Geschäftspartner

Stammdaten zum Geschäftspartner

Tabelle BUT000

Geschäftspartner

Geburtsdatum

Weiblich

Männlich

Nationalität

Stammdaten und Kennzahlen aus der Verkaufsstatistik

Query auf vollständige Verkaufsstatistik

3

Kalenderjahr = 2005 – 2008

Geschäftspartner = Mehrfachauswahl über Variable

Über die Variable werden alle zuvor ausgewählten aktiven Kunden und Kündiger übergeben. So werden die Merkmale und Kennzahlen direkt den Geschäftspartnern zugeorndet.

Geschäftspartner

Menge Arbeit

Betrag Gesamt

Abgerechnete Vertragsmonate

Geschäftspartnertyp

Vorname

Nachname

Region

Regionalstruktur

Ort

Ortsteil

Strasse

Tarif

Angelegt am

Mahnungen Tabelle FKKMAKO

Sparte = 01 (Strom) Geschäftspartner

Mahnzähler

Weitere berechnete Daten

Berechnung im APD

Alter

Anzahl Mahnungen

Geschlecht

Kunde seit

Durchschn. Betrag

Durchschn. Menge

Vergleich Betrag 2006/2007

Kündigungs-kennzeichen

Tabelle 7: Collect Initial Data Report

1 Siehe Anhang 7.3.1 - Abbildung 95, Abbildung 96, Abbildung 97 und Abbildung 98

2 Siehe Anhang 7.3.1 - Abbildung 99 und Abbildung 100

3 Siehe Anhang 7.3.1 - Abbildung 101


- 104 -

5.2.3 Explore Data

Bei einer ersten oberflächlichen Untersuchung der Daten wird deutlich, dass sowohl die

Mengen, als auch die Beträge der meisten Kunden von Jahr zu Jahr ansteigen. Dies ist zwar

bezüglich der Beträge aufgrund der Preisentwicklung in den letzten Jahren nicht weiter

verwunderlich, jedoch bezüglich der Mengen auffällig. Diese erste Besonderheit sollte bei

der Modellierung sowie Auswertung der Ergebnisse ggf. berücksichtigt werden.

Außerdem ist erkennbar, dass die meisten Kündiger zu einem bestimmten neuen Versorger

wechseln. Wie diesbezüglich die Verteilung auf welche Versorger erfolgt, könnte ein

weiteres Ziel sein, das mit Hilfe des Data Mining näher betrachtet werden kann.

Auf weiterführende, detaillierte statistische Auswertungen wird an dieser Stelle verzichtet.

5.2.4 Verify Data Quality

Die Datenqualität ist einer der entscheidenden Faktoren für die erfolgreiche Anwendung

einer Data-Mining-Lösung. In Tabelle 8 sind die wesentlichen Ergebnisse der Qualitäts-

überprüfung festgehalten. Felder in denen keinerlei Qualitätsprobleme zu finden sind werden

nicht aufgeführt.

5.3 Data Preparation

5.3.1 Select Data

Ein Großteil der Datenselektion fand, wie bereits beschrieben, in der „Inital Data Collection“

statt, indem bereits an dieser Stelle die zu extrahierenden Daten anhand verschiedener

Selektionskriterien eingeschränkt wurden.

Bei der Überprüfung der Datenqualität wurde festgestellt, dass die Felder Nationalität und

Region aufgrund ihrer Inhalte keine Relevanz und damit keinen Einfluss auf das spätere

Modell besitzen. Darüber hinaus werden die Felder Vorname, Nachname und Strasse nicht

an das Data-Mining-Modell übergeben. Sie dienen lediglich der genauen Identifikation der

Kunden.

Die Selektion der Kunden die gekündigt haben, wurde auf Grundlage der Wechselbelege

durchgeführt. Da die Möglichkeiten des Versorgerwechsels erst ab dem Jahre 2007 intensiv

genutzt wurden, ergibt sich in diesem Zeitraum eine Anzahl von ca. 3000 Wechselbelegen

(eingeschränkt auf die Sparte Strom). Diese werden vollständig für das Data-Mining-Modell

verwendet. Im Gegensatz dazu erfolgte die Auswahl der Kunden, die noch aktiv sind, auf

Basis der aktuellen Verträge. Da die Anzahl der aktiven Verträge deutlich höher liegt, fand

hier eine zufällige Selektion auf Basis von gleichmäßigen Intervallen statt, so dass vor der

Vorbereitung der Daten ähnlich viele aktive Kunden den inaktiven Kunden

gegenüberstanden.


- 105 -

Feld Problem Lösung

Tarif Aus der Verkaufsstatistik werden dem Geschäftspartner alle Tarife des gewählten Zeitraums zugeordnet. Im Hinblick auf die Data-Mining-Zielsetzung ist jedoch immer nur der letzte gewählte Tarif von Bedeutung.

Unnötige Datensätze der alten Tarife mit Hilfe der Transformation Filter im APD entfernen.

Betrag/Menge Nicht in allen der Jahre 2005-2008 sind Mengen und Beträge zu einem Geschäftspartner vorhanden (z.B. wenn Kunde erst seit 2006 beim Versorger ist)

Konfiguration des Data-Mining-Modells, so dass Nullwerte nicht berücksichtigt werden.

Betrag/Menge Beträge und Mengen beziehen sich auf die abgerechneten Vertragsmonate und sind so nicht vergleichbar

Berechnung der durchschnittlichen Monatswerte in Abhängigkeit von den abgerechneten Vertragsmonaten mit Hilfe der Transformation Formel

Betrag/Menge Negative Beträge und abgerechnete Vertragsmonate > 20 vorhanden

Aussortieren der kompletten Datensätze, die das entsprechende Problem beinhalten, mit Hilfe der Transformation Filter.

Geburtsdatum fehlende Einträge Bei fehlenden Geburtsdaten Einfügen von 0 im Feld Alter mit Hilfe der Transformation ABAP-Routine (die zur Berechnung des Alters verwendet wird).

Keine Berücksichtigung der 0 im Modell.

Geburtsdatum/Alter Wenn Geburtsdatum vorhanden, dann überproportional von älteren Kunden.

Bei Verwendung des Merkmals Alter im Modell, Berücksichtung dieser Problematik bei der Analyse der Ergebnisse.

Mahnungen Mehrere Einträge zu einem Geschäftspartner vorhanden.

Aggregation auf Geschäftspartnerebene durch Summation der Mahnzähler (Transformation Aggregation).

Angelegt am Keine Kundendaten älter als 4 Jahre (möglicherweise aufgrund einer Migration bzw. eines Datenimports)

Berücksichtigung bei der Auswertung der Ergebnisse.

Nationalität fehlende Einträge und 95% der vorhandenen Einträge = DE

Merkmal ist unbedeutend und wird entfernt.

Geschlecht Aufteilung in Männlich und Weiblich mit dem Kennzeichen X unvorteilhaft für das Modell.

Einfügen des Feldes Geschlecht mit den Ausprägungen W, M und U (für unbekannt) und Berechnung der Werte mit Hilfe der Transformation ABAP-Routine.

Dubletten Identische Datensätze vorhanden Entfernen von Dubletten mit Hilfe der Transformation Aggregation (ohne Aggregationsverhalten)

Kündigungs-kennzeichen

Nach Zusammenführung von aktiven Kunden und Kündigern keine Unterscheidung zwischen den beiden Gruppen mehr möglich.

Einfügen eines Kündigungskennzeichen (J oder N) vor der Vereinigung der beiden Gruppen mit Hilfe der Transformation Formel.

Region Da sich die vorhandenen Daten auf ein spezifisches Stadtwerk beziehen, lautet die Region immer NRW

Merkmal ist unbedeutend und wird entfernt.

Tabelle 8: Data Quality Report


- 106 -

Schon vor der Modellierung und Durchführung wird deutlich, dass die vorhandenen Daten

ggf. nicht ausreichend sein könnten, um sehr gute Ergebnisse zu erzielen. Die Einbindung

und der Zukauf von externen Daten könnten im weiteren Verlauf als notwendig betrachtet

werden. Durch diese zusätzlichen Daten wäre es zudem möglich, die Datenqualität weiter zu

erhöhen (z.B. in Bezug auf das Geburtsdatum oder die Nationalität). Im Rahmen dieser

Arbeit kann auf derartige Möglichkeiten jedoch nicht zurückgegriffen werden.

5.3.2 Clean, Construct, Integrate, Format Data

Diese eigentlich getrennt voneinander durchgeführten Schritte des CRISP-DM-Prozess

werden, aus Gründen der Übersichtlichkeit und um redundante Beschreibungen und

Erläuterungen zu den Vorgängen zu vermeiden, in einem Analyseprozess zusammen

durchgeführt.

Eine Übersicht über den Analyseprozess zur Bereinigung und Vorbereitung der Daten ist in

Abbildung 75 dargestellt.1 Die einzelnen, nummerierten Schritte werden im Folgenden kurz

erläutert.2

■ Schritt 01

Im ersten Schritt werden die Daten der Geschäftspartner, die gekündigt haben (inkl. aller

Attribute aus der Verkaufsstatistik), dem Analyseprozess zur Verfügung gestellt.

■ Schritt 02

In den Daten befinden sich zu diesem Zeitpunkt noch alle Tarife, die dem Kunden im

Zeitraum 2005-2008 zugeordnet waren. In das Modell soll nur der letzte Tarif (vor der

Kündigung) einbezogen werden. Daher werden in diesem Schritt mit Hilfe der

Transformation Filter die nicht benötigten Einträge entfernt.

■ Schritt 03

Um im späteren Verlauf die Kündiger weiterhin identifizieren und das Modell trainieren

zu können, wird mit Hilfe der Transformation Formel ein neues Feld gekündigt eingefügt,

das für die Kündiger den Wert J enthält.

■ Schritt 04

In diesem Schritt werden die Kennzahlen aus der Verkaufsstatistik (Mengen und Beträge

aus dem Jahr 2005) mit Hilfe der Transformation Verknüpfung durch einen Left-Outer-

Join den Geschäftspartnern zugeordnet. Durch den Left-Outer-Join bleiben die Felder

leer, wenn zu einem Geschäftspartner in dem gewählten Jahr keine Kennzahlen

vorhanden sind.

■ Schritt 05-07

Wie in Schritt 4 werden nun alle Kennzahlen aus den Jahren 2006-2008 den

Geschäftspartnern zugeordnet, soweit dies möglich ist.

1 Eine vergrößerte Darstellung befindet sich in Abschnitt 7.3.2 Anhang - Abbildung 102

2 Für detaillierte Informationen zu den einzelnen Transformationstypen und möglichen

Parametereinstellungen siehe [Projektarbeit, 2008] S.34ff, S54ff


- 107 -

Abbildung 75: Kündigungsprävention – Analyseprozess

■ Schritte 08-14

Die Schritte 8 bis 14 entsprechen den Schritten 1 bis 7, mit dem Unterschied, dass nun die

Daten der aktiven Kunden (und nicht der Kündiger) betrachtet und vorbereitet werden.

■ Schritt 15

In diesem Vorgang werden die Kündiger über die Transformation Union mit den aktiven

Kunden zusammengeführt. Dies vereinfacht die nachfolgenden Prozesse, da diese alle

Geschäftspartner betreffen und so zusammen durchgeführt werden können.

■ Schritt 16

Um die Datenqualität zu verbessern, werden in diesem Schritt alle Datensätze mit

negativen Beträgen sowie abgerechneten Vertragsmonaten größer als 20 aussortiert.

■ Schritt 17

Schritt 17 berechnet mit Hilfe der Transformation Formel die monatlichen Werte

bezüglich Betrag und Menge für jedes Jahr auf Grundlage der abgerechneten Vertrags-

monate.

■ Schritt 18

Anschließend werden nicht mehr benötigte Felder mit der Transformation Spalten

ausblenden entfernt.


- 108 -

■ Schritt 19

Schritt 19 entfernt die vorhandenen Dubletten. Dies geschieht unter Zuhilfenahme der

Transformation Aggregation. Diese „Zweckentfremdung“ wird möglich, indem kein

Aggregationsverhalten für die Felder ausgewählt wird.

■ Schritt 20

Mit Hilfe einer ABAP-Routine wird die Anzahl der Jahre berechnet, die der Kunde bei

dem Versorger unter Vertrag steht.1

■ Schritt 21

Daraufhin werden die Mahndaten dem Analyseprozess zur Verfügung gestellt und

anschließend die Mahnzähler (die Anzahl der Mahnungen) für jeden Geschäftspartner mit

Hilfe der Transformation Aggregation summiert.

■ Schritt 22

Schritt 22 verknüpft die Mahndaten mit den vorhandenen Geschäftspartnern. Dies

geschieht erneut mittels Left-Outer-Join.

■ Schritt 23

Da in Schritt 23 der Betragsanstieg zwischen den Jahren 2006 und 2007 berechnet

werden soll, werden alle Datensätze mit negativen Beträgen aus 2006 entfernt.

■ Schritt 24

Durch die Transformation Formel wird anschließend der bereits angesprochene

Betragsanstieg berechnet.

■ Schritt 25

Nun werden weitere Attribute der Geschäftspartner (männlich, weiblich) zur Verfügung

gestellt...

■ Schritt 26

... und anschließend mit den vorhandenen Daten verknüpft (Left-Outer-Join).

■ Schritt 27

Der vorletzte Schritt der Datenvorbereitung und -bereinigung ermittelt durch eine ABAP-

Routine auf Grundlage des Geburtsdatums das Alter, und auf Basis der Einträge aus den

Feldern männlich/weiblich das Geschlecht.2 Diese neuen Attribute werden in die

zusätzlichen Spalten Alter und Geschlecht aufgenommen.

■ Schritt 28

Abschließend werden die transformierten und bereinigten Daten in ein Datenziel (hier

Flatfile) abgelegt, um sie so, sehr einfach in den nachfolgenden Analyseprozessen

verwenden zu können.

Das Ergebnis dieses Analyseprozesses auf Tabellenebene ist in Abbildung 1033 zu sehen.

1 Siehe Anhang 7.3.2 - Listing 1

2 Siehe Anhang 7.3.2 - Listing 2

3 Siehe Anhang 7.3.2


- 109 -

5.4 Modeling

5.4.1 Select Modeling Technique

Aufgrund der Zielsetzungen dieser Fallstudie bietet sich für die Durchführung im SAP BI

7.0 zunächst der Entscheidungsbaum als Data-Mining-Technik an. Mit dieser Technik kann

vorhergesagt werden, mit welcher Wahrscheinlichkeit ein Geschäftspartner kündigen wird.

Zusätzlich wird die Clusteranalyse angewandt. So können gegebenenfalls zusätzliche

Informationen bezüglich der Indikatoren ermittelt oder die Ergebnisse aus dem

Entscheidungsbaum verifiziert werden.

5.4.2 Generate Test Design

Bei der Anwendung des Entscheidungsbaumes ist es zunächst sinnvoll, die vorhandene

Datenmenge in eine Trainingsmenge und eine Testmenge aufzuteilen. Die Trainingsmenge

wird automatisch mit Hilfe der Stichprobenfunktionalität innerhalb des Data-Mining-

Modells erzeugt. So wird eine definierte Anzahl an prozentualen Stichproben erzeugt (z.B.

40% der Datenmenge). Die beste Stichprobe wird anschließend für das Training des

Entscheidungsbaumes verwendet.

Um das Modell des Entscheidungsbaumes bewerten zu können, wird ein separater

Analyseprozess verwendet (siehe Abbildung 76). Innerhalb dieses Prozesses wird dann die

Testmenge (die alle vorbereiteten Daten umfasst) verwendet und durch den trainierten

Entscheidungsbaum geschickt. Im Analyseprozess wird dabei die Transformation

Entscheidungsbaum verwendet, jedoch im Bewertungsmodus.

Abbildung 76: Kündigungsprävention – Bewertung


- 110 -

Anschließend können anhand einer Bewertungsmatrix der Alpha- und Beta-Fehler sowie die

Gesamtgenauigkeit des Modells analysiert werden, um so eine Einschätzung der Güte des

erzeugten Modells vornehmen zu können. Ein Beispiel einer Bewertungsmatrix ist in

Abbildung 77 dargestellt.

Abbildung 77: Kündigungsprävention – Fehlermatrix

Für die Clusteranalyse werden zunächst alle vorhandenen Datensätze verwendet. Eine

spezifische Aufteilung wie beim Entscheidungsbaum erfolgt nicht.

5.4.3 Build Model

Für den Entscheidungsbaum werden zwei Konfigurationen erstellt, zwischen denen je nach

Zielsetzung und je nach Kontext der Kundenbindungsmaßnahmen gewechselt werden kann.

Bezüglich der Clusteranalyse gibt es eine finale Parameterkonfiguration.

Entscheidungsbaum (1)

In Abbildung 78 ist zunächst die Felddefinition dargestellt. In Bezug auf die Mengen und

Beträge werden nur die Daten aus 2007 verwendet, weil diese für nahezu alle

Geschäftspartner vorhanden sind, da der Großteil der Wechselbelege und damit der

Kündiger aus diesem Jahr stammen. Das Feld Geschäftspartner wird als Schlüsselfeld

konfiguriert. Die übrigen Felder werden in Abhängigkeit von ihren Inhalten als stetig oder

diskret definiert. Das Feld gekündigt stellt das Vorhersagefeld dar.


- 111 -

Abbildung 78: Kündigungsprävention – E-Baumkonfiguration (1)

In der Parameterkonfiguration der einzelnen Felder werden keine Einstellungen

vorgenommen (siehe Abbildung 79), da Nullwerte in allen Feldern nicht berücksichtigt

werden sollen.


Darüber hinaus findet keinerlei Diskretisierung statt. Wie sich bei der Analyse der

Ergebnisse gezeigt hat, verschlechtert eine manuelle Diskretisierung stetiger Werte

grundsätzlich die Qualität dieses Modells. Aus diesem Grund wird die Wertekonfiguration

der einzelnen Felder lediglich dazu verwendet, um einzelne Wertebereiche auszuschließen

oder Ausreißer zu entfernen.


Aufgrund der Berechnung des Alters bei der Vorbereitung der Daten, wurde bei fehlendem

Geburtsdatum eines Geschäftspartners eine 0 im Feld Alter eingetragen. Diese sollen jedoch

nicht in das Modell einfließen und werden durch die entsprechende Konfiguration (siehe

Abbildung 80) bei der Generierung des Entscheidungsbaums ignoriert.


- 112 -


Im Verlauf der Modellierung hat sich zudem gezeigt, dass Ausreißer im Feld Betrag negativ

auf die Qualität des Modells auswirken. Sie werden durch eine entsprechende Konfiguration

(siehe Abbildung 81) ignoriert.


Das Feld Geschlecht besitzt die drei möglichen Ausprägungen M (männlich), W (weiblich)

und U (unbekannt). Alle Werte des Typs U werden ignoriert (siehe Abbildung 82), da sie

keinen Mehrwert für das Modell darstellen.


Die Konfiguration der Gesamtmodellparameter ist in Abbildung 83 dargestellt.


- 113 -

Dabei wurden folgenden Einstellungen vorgenommen:

■ Stichprobe verwenden

Um eine Trainingsmenge automatisch zu erstellen, wird die Stichprobenfunktionalität

verwendet. Dabei wurden ein Mindestanteil von 50% sowie ein Maximalanteil von 60%

der Gesamtdaten definiert. Die Angaben erwiesen sich als zielführend, um bei der relativ

geringen Datenmenge dennoch einen möglichst qualitativ hochwertigen Entscheidungs-

baum generieren zu können, und gleichzeitig ein Overfitting1 zu vermeiden.

Die Anzahl der Stichprobenversuche wurde auf 5 festgelegt.

■ Abbruchbedingungen

Bezüglich der Abbruchbedingungen erwies es sich als vorteilhaft, die Mindestanzahl an

Datensätzen pro Blatt auf 10 sowie die Genauigkeit der jeweiligen Ebene auf 95%

festzulegen.

■ Erweiterte Einstellungen

Die Prüfung der Relevanz der Modellfelder wurde nicht verwendet, da die gleichen

Ergebnisse durch das Pruning erzielt wurden.

■ Pruning

In dieser ersten Konfiguration wird das Pruning nicht verwendet.2


Die zweite Konfiguration der Parameter des Entscheidungsbaumes unterscheidet sich von

der ersten ausschließlich in der Verwendung des Pruning (siehe Abbildung 84). Alle

weiteren Parameter und Feldkonfigurationen sind identisch mit der oben beschriebenen

ersten Konfiguration. Die Unterschiede in den Ergebnissen dieser beiden Modell-

konfigurationen werden in Abschnitt 5.4.4 näher erläutert.


1 Siehe Abschnitt 4.5.3 Entscheidungsbaum - Umsetzung im SAP BI 7.0

2 Die Auswirkungen werden in Abschnitt 5.4.4 erläutert.


- 114 -

Clusteranalyse

Die Felder in der Clusteranalyse unterscheiden sich zunächst nicht von denen des

Entscheidungsbaumes (siehe Abbildung 85)

Abbildung 85: Kündigungsprävention – Clusterkonfiguration (1)

In der Feldparameterkonfiguration werden keine Einstellungen vorgenommen (siehe

Abbildung 86), da Gruppierungen und Gewichtungen für dieses Fallbeispiel nicht sinnvoll

sind.


Um die Ergebnisse der Clusteranalyse im weiteren Verlauf besser analysieren und

interpretieren zu können, wird in der Wertekonfiguration aller stetigen Felder eine geeignete

Diskretisierung vorgenommen (siehe Abbildung 87). Nicht definierte Bereiche werden

ignoriert. Daher ist eine zusätzliche Konfiguration wie bei dem Entscheidungsbaum, für z.B.

Ausreißer, nicht nötig.


- 115 -


In der Konfiguration der Gesamtmodellparameter wird die Anzahl der Cluster auf 2 gesetzt.

Durch den großen Einfluss des Feldes gekündigt können so zwei Cluster gebildet werden,

die nahezu vollständig aus entweder aktiven Kunden oder Kündigern bestehen. Dies erlaubt

den einfachen Vergleich der Eigenschaften dieser beiden Gruppierungen und vereinfacht

damit die Analyse der Ergebnisse im Hinblick auf die Data-Mining-Zielsetzung.



- 116 -

Die maximale Anzahl an eindeutigen Werten wird auf 50 erhöht, da sonst z.B. die Tarife,

aufgrund der Anzahl an diskreten Ausprägungen, nicht verwendet werden.

Die Anzahl der Iterationen wird auf 10 gesetzt. Bei der kurzen Laufzeit und der nicht allzu

großen Datenmenge, führt dies nicht zu Performance-Einbußen.

Bei allen weiteren Parametern wird die Standardkonfiguration nicht verändert.

5.4.4 Assess Model

Die Qualität bzw. die Genauigkeit der Modelle wird im Falle des Entscheidungsbaumes mit

Hilfe der Fehlermatrix analysiert. Das Clustermodell wird mit Hilfe der Entfernungen und

der Kompaktheit beurteilt.

Im Folgenden werden die Unterschiede zwischen den beiden Konfigurationen des

Entscheidungsbaumes, sowie die generelle Güte und Qualität aller Modelle bewertet und

erläutert.


Die Vorhersagegenauigkeit des Modells für den Entscheidungsbaum liegt bei ca. 73% (siehe

Abbildung 89). Wünschenswert wäre eine Genauigkeit von über 90%, jedoch ist dieser

Wert in dem konkreten Beispiel der Kündigungsprävention, mit den vorhandenen Daten

nicht zu erreichen. Für diese spezielle Fallstudie bedarf es weiterer, insbesondere

„persönlicher“ Daten. Diese zusätzlichen Daten sind im IS-U so nicht zu finden oder nicht

gepflegt. Daher könnte es sinnvoll sein, die Vorhersagegenauigkeit des Modells mit Hilfe

externer (Markt)Daten zu verbessern. So könnten beispielsweise Daten über das

Wohlstandsniveau, Arbeitslosenzahlen, Bildungsniveau, Konsumverhalten usw. von einem

entsprechenden Anbieter erworben und eingebunden werden. Im Rahmen dieser

Diplomarbeit ist dies nicht möglich.

Abbildung 89: Kündigungsprävention – Fehlermatrix 1


- 117 -


Der einzige Unterschied zwischen den beiden Konfigurationen des Entscheidungsbaumes

liegt in der Anwendung des Pruning. Das Ergebnis ist ein vereinfachter Baum, der zwar eine

ähnliche Vorhersagegenauigkeit, jedoch unterschiedliche Alpha- und Beta-Fehler1 besitzt

(siehe Abbildung 90). So führt das Pruning dazu, dass der prozentuale Fehleranteil

bezüglich des Alpha-Fehlers sinkt. Im Gegenzug steigt dafür der Beta-Fehler.

Abbildung 90: Kündigungsprävention – Fehlermatrix 2

Je nach Ausgangslage und weiterem Vorgehen kann es durchaus sinnvoll sein, den Alpha-

Fehler auf Kosten des Beta-Fehlers zu senken. Denn insgesamt kann es in diesem Beispiel

als kritischer angesehen werden, wenn ein Kunde kündigt, obwohl das Gegenteil

prognostiziert wurde, als dass ein Kunde nicht kündigt, obwohl dies so vorausgesagt war.

Zwar führt der erhöhte Beta-Fehler damit zu „sinnlosen“ Ausgaben z.B. bei einer Kampagne

zur Kundenbindung, jedoch sind die Einbußen aufgrund verlorener Kunden deutlich höher

einzuschätzen.

Durch die Variation der Stichprobengrößen lässt sich auf Wunsch die Diskrepanz zwischen

den beiden Fehlerarten bei gleichbleibender Gesamtvorhersagegenauigkeit weiter erhöhen.

Clusteranalyse

Wie Abbildung 91 verdeutlicht, sind die durchschnittlichen Entfernungen innerhalb des

Clusters ausreichend gering. Trotz der maximalen Entfernungen tendiert der Durchschnitt in

Richtung der minimalen Entfernungen. Jedoch wird an dieser Stelle auch deutlich, dass das

Datenmaterial weiter verbessert werden kann (durch z.B. externe Daten), um die

Homogenität der Cluster zu optimieren.

1 Siehe Abschnitt 14 Glossar


- 118 -

Abbildung 91: Kündigungsprävention – Entfernungen

5.5 Evaluation

5.5.1 Evaluate Results

Da bei der ersten Konfiguration des Entscheidungsbaumes kein Pruning durchgeführt wird,

entsteht ein recht großer und unüberschaubarer Entscheidungsbaum. Das Pruning in der

zweiten Konfiguration beschneidet den Baum sinnvoll, so dass ein Modell entsteht, das

wesentlich einfacher analysiert und interpretiert werden kann (siehe Abbildung 92). Wie die

Ergebnisse zeigen, bleibt dabei die Vorhersagegenauigkeit nahezu gleich.

Abbildung 92: Kündigungsprävention – Ergebnisse (Pruning)

Ein Ausschnitt aus dem „geprunten“ Entscheidungsbaum ist in Abbildung 93 zu sehen. Der

Entscheidungsbaum kann bezüglich der Zielsetzungen in zweierlei Hinsicht verwendet

werden: Zum Einen kann für Kunden die Wahrscheinlichkeit für eine Abwanderung

vorhergesagt werden kann. Zum Anderen ermöglicht die Analyse der Splits, die Indikatoren

und Eigenschaften zu erkennen, die zu einer Kündigung führen können.


- 119 -

Abbildung 93: Kündigungsprävention – Ausschnitt Entscheidungsbaum

Um diese Eigenschaften und Frühindikatoren zu bestätigen und zu erweitern, wurde

zusätzlich die Clusteranalyse durchgeführt. Einen Ausschnitt aus den Ergebnissen zeigt

Abbildung 94.

Abbildung 94: Kündigungsprävention – Ausschnitt Clusteranalyse

Die wesentlichen Erkenntnisse und Ergebnisse der Modelle bezüglich der Eigenschaften der

Kunden, die eine höhere Kündigungswahrscheinlichkeit besitzen, werden in Tabelle 9

beschrieben.

Indikator Beschreibung

Alter Kunden zwischen 30 und 50 Jahren besitzen die größte Kündigungswahrscheinlichkeit.

Betrag Je höher der Betrag, desto höher die Kündigungswahrscheinlichkeit.

Geschlecht Männer kündigen deutlich häufiger als Frauen.

Mahnungen Je höher die Anzahl der Mahnungen, desto niedriger die Kündigungswahrscheinlichkeit.

Menge Je höher die verbrauchte Menge, desto höher die Kündigungswahrscheinlichkeit.

Tarif Die Tarife haben den größten Einfluss auf die Kündigungswahrscheinlichkeit. Lediglich beim Tarif Allg. Haushalt ist eine nähere Untersuchung notwendig.

Tabelle 9: Ergebnisse Kündigungsprävention


- 120 -

Die anderen, nicht genannten Modellfelder besitzen keinen eindeutigen Einfluss auf die

Kündigungswahrscheinlichkeit eines Geschäftspartners, bzw. lassen sich auf Basis des

vorhandenen Datenmaterials nicht endgültig bewerten.

5.5.2 Determine Next Steps

An dieser Stelle gilt es, das weitere Vorgehen zu planen. Die möglichen Folgeschritte sind in

Tabelle 10 beschrieben und im Rahmen der aktuellen Situation (Diplomarbeit) bewertet.

Tätigkeit Durchführung Begründung

Externe Daten einbinden und wiederholen der Prozesse

nein Einkauf von externen Daten im Rahmen der Diplomarbeit nicht möglich.

Auf Grundlage der vorhandenen Kennzahlen und Merkmale können weitere Daten berechnet und konstruiert werden, z.B. Preisanstiege zwischen den verschiedenen Jahren, Inkassoverfahren, Bonität usw.

nein Die wichtigsten Kennzahlen und Merkmale wurden bereits erzeugt und verwendet.

Weitere Fachabteilungen bezüglich geeigneter Daten befragen und Wiederholung der Prozesse

nein Umfang der Diplomarbeit berücksichtigen.

Fallstudie beenden und zum Deployment übergehen

ja Ergebnisse im Rahmen der Diplomarbeit zufriedenstellend und ausreichend, wenngleich für die Praxis weiter verbesserungswürdig.

Tabelle 10: Kündigungsprävention – Nächste Schritte

5.6 Deployment

5.6.1 Plan Deployment

Die Verwendung der Ergebnisse des Data Mining durch den Endbenutzer kann auf

verschiedene Arten erfolgen. Während die Analyse der Eigenschaften der Kündiger ein

Prozess ist, der nur durch Betrachten und Auswerten der Ergebnisse im SAP BI 7.0 möglich

ist, kann die Auswertung der Kündigungswahrscheinlichkeit eines spezifischen Kunden auch

durch Anwender erfolgen, die keine BW- oder BI-Experten sind und auch keinen Zugriff

zum System oder zum APD besitzen.

Eine mögliche Variante ist dabei die Realisierung eines Web Templates. Mit Hilfe des BEx

Web Application Designers kann ohne Programmierkenntnisse eine Web-Oberfläche

geschaffen werden, die eine Auswertung der Kündigungswahrscheinlichkeit eines Kunden

ermöglicht. Durch das Web Item Simulation Vohersage werden Vorhersageergebnisse (aus

einer Clusteranalyse oder einem Entscheidungsbaum) integriert. Mit weiteren Daten und

Diagrammen angereichert, kann das Web Template zu einem Web Cockpit erweitert

werden. So kann der Anwender nicht nur die Kündigungswahrscheinlichkeit selbst


- 121 -

berechnen, sondern auch weiterführende Informationen integriert und übersichtlich angezeigt

bekommen.1

Eine weitere Möglichkeit ist die Integration der Ergebnisse in die Verkaufsstatistik. Im

Business Content und damit auch in allen produktiven Verkaufsstatistiken ist bereits ein Feld

mit dem Namen Vorhersagefeld vorhanden. Durch einen entsprechenden Upload der

Ergebnisse aller Kunden in die Verkaufsstatistik, können mit Hilfe einer angepassten Query

die entsprechenden Ergebnisse der Kündigungswahrscheinlichkeit ausgegeben werden. Im

Unterschied zur ersten Variante sind die Ergebnisse dann jedoch statisch abgespeichert und

werden nicht dynamisch ermittelt.

In beiden Fällen können mittels Prozessketten und Delta-Verfahren die Aktualität und

Genauigkeit des Modells gewährleistet werden, indem in regelmäßigen Abständen die neuen

oder veränderten Daten aus dem Quellsystem geladen und die Modelle auf dieser Grundlage

neu generiert werden. Bei der Verwendung der Verkaufsstatistik erfolgt dann eine erneute

Bewertung aller Kunden mit anschließendem Upload in die Statistik. Werden Web

Templates verwendet, ist dieser Schritt, wie bereits beschrieben, nicht notwendig, da die

Ergebnisse dynamisch mit Hilfe des trainierten Modells berechnet werden.

Es gibt noch eine Vielzahl weitere Optionen, wie z.B. die Verwendung von Flatfiles oder die

Funktion Simulation Vorhersage in der DM-Workbench. Die naheliegenden Verwendungs-

möglichkeiten wurden jedoch bereits beschrieben, weshalb auf weiterführende Erläuterungen

verzichtet wird.

Die Verwendung der Ergebnisse, beispielsweise im Rahmen einer Marketing- oder

Kundenbindungskampagne, wird an dieser Stelle nicht näher behandelt.

5.6.2 Review Project

Insgesamt kommt dieses Fallbeispiel zu einem befriedigenden Ergebnis. Einige interessante

Kündigungsindikatoren konnten erfasst werden und die Berechnung der Kündigungswahr-

scheinlichkeit wurde realisiert. Dennoch erreicht der Entscheidungsbaum insgesamt bisher

nur eine Genauigkeit von 73%. Wünschenswert wären Werte im Bereich von 90%. Darüber

hinaus wären weitere Erkenntnisse bezüglich der Indikatoren und Einflüsse auf das

Kündigungsverhalten interessant.

Es wurde jedoch schon sehr früh in dem Projekt deutlich, dass das vorhandene Datenmaterial

für diese sehr spezifische und „persönliche“ Data-Mining-Anwendung der Kündigungs-

analyse nicht ausreicht, um sehr gute und sehr genaue Ergebnisse erzielen zu können. Um

dieses Fallbeispiel weiter zu entwickeln, bedarf es zusätzlicher Daten, die aus der aktuellen

Einschätzung nur durch Zukauf externer Daten zu beschaffen sind. Durch die Analyse des

vorhandenen Datenmaterials im IS-U während dieses Projekts wurde jedoch auch deutlich,

dass für andere Data-Mining-Anwendungen die Daten durchaus als ausreichend anzusehen

sind.

1 Weiterführende Informationen siehe [BW380, 2005] S.272ff


- 122 -

Für die nächsten Projekte im Bereich des Data Mining sollten außerdem folgende

Erfahrungen aus diesem Projekt berücksichtigt werden:

■ Die Data-Mining-Technik Entscheidungsbaum ist für diese Art der Vorhersagen ideal

geeignet. Die Alternative mittels Clusteranalyse ist jedoch gut, um Ergebnisse zu

verifizieren oder tiefergehende Analyse (z.B. bezüglich Indikatoren und Einflüsse)

durchzuführen.

■ Wenn möglich, sollte das Datenmaterial sehr genau auf Eignung geprüft und ggf. schon

im Vorfeld zusätzliche interne oder externe Daten beschafft werden.

■ Personen aus verschiedenen Fachabteilungen einbinden, da so ggf. Hinweise oder

zusätzliche Daten verwendet werden können, um die Modelle zu optimieren.

■ Veränderungen der Parameter sollten grundsätzlich und in jedem Schritt dokumentiert

werden, da ansonsten schnell der Überblick über die Veränderungen verloren werden

kann.

6 Abschluss

- 123 -

6 Abschluss

6.1 Zusammenfassung

Im Rahmen der Projektarbeit1 wurden im Vorfeld bereits die wichtigen Grundlagen für diese

Diplomarbeit geschaffen. Dabei wurden die Funktionen und Einsatzgebiete des Analyse-

Prozess-Designers detailliert dargestellt. Aufbauend auf der Projektarbeit stand in dieser

Diplomarbeit das Data-Mining im SAP BI 7.0 unter Zuhilfenahme des APD im Fokus.

In einer kurzen Einführung wurden die wesentlichen Begriffe des Data Mining und

Knowledge Discovery in Databases erläutert sowie eine Einordnung in den Gesamtkomplex

des Business Intelligence vorgenommen. Zusätzlich wurde eine Übersicht über die Data-

Mining-Verfahren erarbeitet und versucht, diese in geeignete Kategorien einzuordnen.

Weiterhin fand eine generelle Abgrenzung zwischen OLAP und Data-Mining statt und es

wurden die Voraussetzungen genannt, die für ein erfolgreiches Data-Mining von

entscheidender Bedeutung sind. Die Einführung wurde anschließend mit einer Darstellung

und Bewertung von verschiedenen Data-Mining-Prozessmodellen abgeschlossen.

Im darauffolgenden Kapitel wurde der Aufbau und die Funktionsweise der Data-Mining-

Workbench im SAP BI 7.0 erläutert. Dabei wurden die Unterschiede zwischen der DM- und

der APD-Workbench deutlich, indem nicht nur die grundlegenden Funktionen zum Anlegen

eines Data-Mining-Modells dargestellt, sondern auch alle weiteren Funktionalitäten sowie

die Möglichkeiten der Automatisierung erörtert wurden.

Im Fokus dieser Arbeit standen jedoch die verschiedenen Data-Mining-Verfahren, die im

SAP BI 7.0 implementiert worden sind. So wurden Clusteranalyse, ABC-Analyse, Scoring-

Verfahren, Assoziationsanalyse, Entscheidungsbaum und Regressionsanalyse im Rahmen

ihrer Implementierung im SAP BI 7.0 ausführlich beschrieben. Dabei wurden zu jedem

Verfahren Anwendungsbeispiele in der Versorgungsindustrie, die wichtigsten

mathematischen Grundlagen sowie die Umsetzung und der Ablauf im SAP BI 7.0

dargestellt. Abschließend wurde jedes Verfahren mit seinen Vor- und Nachteilen bewertet

und mögliche Verbesserungspotentiale aufgezeigt. Zum Ende dieses Kapitels wurden noch

die Kombination von verschiedenen Data-Mining-Techniken sowie die mögliche

Implementierung eigener Verfahren beschrieben.

Abschließend wurde anhand einer Fallstudie mit realen Daten beispielhaft die praktische

Umsetzung unter Berücksichtigung des CRISP-DM-Prozessmodells dargestellt.


6 Abschluss

- 124 -

6.2 Fazit

Insgesamt fällt das Fazit über das Data Mining im SAP BI 7.0 positiv aus, wenngleich

weiteres Verbesserungspotential vorhanden ist. So stehen bei einer abschließenden

Gesamtbewertung die stabilen und sinnvollen Implementierungen sowie die (kostenlose)

Integration im Business Warehouse, einigen Kinderkrankheiten und wünschenswerten

Erweiterungen gegenüber.

Einen detaillierten Gesamtüberblick über das Data-Mining im SAP BI 7.0 liefert die

folgende tabellarische Übersicht:

Stärken Schwächen

Alle wichtigen Data-Mining Techniken vorhanden einige Kinderkrankheiten (fehlerhafte Darstellung, Programmabbrüche), die mit Hilfe von Hinweisen korrigiert werden müssen (je nach Patchlevel des eingesetzten Systems)

Sinnvolle Implementierung von ausgereiften Data-Mining-Techniken

Weitere Verfahren, wie evolutionäre Algorithmen oder neuronale Netze, und die Auswahl von alternativen Algorithmen nicht implementiert

Stabiles Arbeiten möglich Automatisierung erschwert durch fehlende automatische Rücksetzungsfunktion der Modelle und schlechte Anbindung an die Prozessketten

Data-Mining als kostenloser Zusatz zum Business Warehouse

Nicht lineare Regressionsanalyse instabil

Sofort einsatzbereit In Teilbereichen Ergebnisdarstellung erweiterbar

Kombination von verschiedenen Data-Mining-Techniken innerhalb eines Prozesses möglich

Anbindung an das SAP Business Warehouse

Verwendung des einheitlichen Metadata-Repository

Einfache Bedienung

Transparente Darstellung

Tabelle 11: Stärken und Schwächen des Data-Mining im SAP BI 7.0

Es bleibt festzuhalten, dass die wichtigsten Verfahren implementiert wurden, so dass mit

Hilfe des Data Mining im SAP BI 7.0 nahezu alle Aufgaben aus den verschiedenen

Anforderungsbereichen gut und effizient gelöst werden können. Vielfach stellt sich nicht die

Frage, ob im SAP BI 7.0 ein geeignetes Verfahren zur Verfügung steht, sondern welches der

implementierten Verfahren für die Lösung verwendet werden sollte. Die Wahl der richtigen

Data-Mining-Technik und die zielführende Konfiguration ist daher mitentscheidend für den

erfolgreichen Einsatz, da viele Problemstellungen auf unterschiedliche Weise gelöst werden

können. Daher ist Data Mining auch keine Anwendung, die „out of the box“ genutzt werden

kann. Vielmehr sind Know-How über die Data-Mining-Verfahren und Domänen-Wissen ein

absolutes Muss. Denn irgendwelche Ergebnisse werden immer generiert. Die Beurteilung, ob

die richtigen Daten ausgewählt wurden, ob die Datenqualität ausreichend ist und

insbesondere, ob die Ergebnisse korrekt, anforderungsbezogen, neu und interessant sind,

kann nur von Personen erfolgen, die sich mit der Thematik des Data Mining auseinander

gesetzt haben. Sind die Modelle jedoch aufgebaut und bewertet, kann das Data Mining in die

verschiedensten Geschäftsprozesse integriert werden, ohne das spezielles Wissen notwendig

ist.

6 Abschluss

- 125 -

Generell empfiehlt sich die Verwendung von Prozessmodellen bei der Durchführung von

Data-Mining-Anwendungen. Auch wenn in der Praxis derartige Vorgehensmodelle generell

eher skeptisch betrachtet werden, sind sie insbesondere bei erstmaliger Durchführung eines

Data-Mining-Projekts sehr hilfreich für den schrittweisen und kontrollierten Ablauf. Der

anfängliche Mehraufwand mündet sehr schnell in einer deutlichen Zeit- und Kostenersparnis,

da die wichtigsten Aspekte bei der Modellierung und Durchführung immer Berücksichtigung

finden. Fehler, deren Beseitigungsaufwand sich im Verlaufe eines Projektes multipliziert,

werden damit von vornherein minimiert.

Das Data Mining im SAP BI 7.0 ist sicher noch nicht so umfangreich und komplex wie bei

anderen auf dem Markt erhältlichen Spezialprogrammen. Dafür besitzen die Unternehmen,

die SAP BI 7.0 einsetzen schon jetzt ein stabiles Tool, das effizientes und gutes Data Mining

ermöglicht, ohne dass zusätzliche Anschaffungskosten entstehen. Die intuitive Bedienung,

die transparente Darstellung von komplexeren Analyseprozessen mit mehreren Data-Mining-

Verfahren sowie die nahtlose Anbindung an das Business Warehouse, mit allen daraus

resultierenden Funktionen, sind deutliche Vorteile.

Insgesamt sind mit dem Data-Mining im SAP BI 7.0 die ersten Schritte in die richtige

Richtung gemacht worden. Es gibt jedoch auch noch weiteres Verbesserungspotential, so

dass in naher Zukunft mit entsprechenden Erweiterungen zu rechnen ist.

6.3 Ausblick

Diese Diplomarbeit bildet, genau wie die vorausgehende Projektarbeit, in vielfacher Hinsicht

die Grundlage für weiterführende oder ergänzende Arbeiten und Projekte sowie für eine

mögliche Erweiterung des Angebotsportfolios der evu.it GmbH im Bereich Business

Intelligence.

Folgende, auf diese Arbeit aufbauende Themengebiete, die im Rahmen zukünftiger Projekt-

und Diplomarbeiten realisiert werden könnten, sind vorstellbar:

■ Implementierung von Data-Mining-Verfahren

Wie bereits beschrieben, ist die Implementierung anderer Verfahren im SAP BI 7.0 mit

Hilfe von ABAP (Objects) möglich. So könnte eine Eigenprogrammierung spezieller

Data-Mining-Verfahren und -Algorithmen für bestimmte Anforderungen sinnvoll sein,

solange diese seitens SAP noch nicht in das Data Mining integriert worden sind.

■ Programmentwicklung zur Automatisierung von Data-Mining-Vorgängen

Die Automatisierung von wiederkehrenden Aufgaben ist im Bereich des Data Mining

bisher nur unzureichend gelöst. Um die beschriebene Problematik1 im Bereich der

Hintergrundverarbeitung sowie bei den Prozessketten zu entschärfen, wäre eine

Implementierung von z.B. Rahmenprogrammen für APD-Prozesse oder das Zurücksetzen

von Data-Mining-Modellen denkbar.

1 Siehe Abschnitt 3.5 Automatisierungen

6 Abschluss

- 126 -

■ Web Applications für Data Mining

Mit Hilfe der SAP BW Web Templates1 können Vorhersagesimulationen und die

Ergebnisdarstellung verschiedener Data-Mining-Verfahren interaktiv im Browser

durchgeführt werden. So ist die Gestaltung sowie die Einbindung des Data Mining in die

Web-Templates ein weiteres mögliches Themenfeld für anknüpfende Arbeiten.

■ Anwendung des Data Mining im CRM

Mit Hilfe des CRM Intelligence Connector2 kann das Data Mining in das CRM integriert

werden. So könnte beispielsweise ein Call-Center-Mitarbeiter im CRM-System innerhalb

von Sekunden kundenspezifische Ergebnisse auf Basis des Data Mining erhalten, indem

das Data Mining als integraler Bestandteil der Geschäftsprozesse verstanden wird.

■ Anbindung externer Systeme und Modelle

In der APD-Workbench existiert bereits eine Schnittstelle zur Anbindung von Data-

Mining-Lösung von Drittanbietern. Die Softwareauswahl, Modellrealisierung sowie der

Import von (trainierten) Data-Mining-Modellen sind mögliche, interessante Aufgaben in

diesem Themenbereich.

Um die aus dieser Diplomarbeit gewonnen Ergebnisse für die evu.it GmbH aus

unternehmerischer Sicht einsetzen zu können, wird in naher Zukunft ein Workshop für

Kunden und Interessenten aus der Versorgerbranche vorbereitet und durchgeführt. So sollen

die Versorger von den neuen Analysetechniken mit Hilfe des APD (Projektarbeit) und den

zukunftsweisenden Technologien des Data Mining (Diplomarbeit) überzeugt werden.

Da das Data Mining ein (erneut) stark aufstrebender Markt ist, wird es interessant sein zu

beobachten, wie sich das Data Mining im SAP BI 7.0 und den Nachfolgeversionen auf allen

Ebenen des Business Warehouse und anderen SAP-Systemen weiterentwickelt. Frei nach

dem Motto:

»Data is a burden – information is an asset«3



3 [Küppers, 1999] S.8

7 Anhang

- 127 -

7 Anhang

7.1 Erläuterungen zu den Hinweisen

Hinweise werden in den SAP-Systemen verwendet um Informationen und Tipps für den

korrekten Umgang mit den Systemen zu vermitteln oder um kleinere Programmfehler mit

Hilfe von Support Packages zu beheben.

Auch im Bereich des Data Mining gibt es je nach Releasestand des Systems noch kleinere

Probleme, die zu Programmabbrüchen, fehlerhaften Berechnungen oder unvollständigen

Ergebnisdarstellungen führen können. Bei der Suche nach Hinweisen, die ein spezifisches

Problem betreffen, muss jedoch darauf geachtet werden, dass der Support-Level des

Support-Packages höher ist als der Support-Level des Systems, da andernfalls die

vorgenommenen Korrekturen bereits im System enthalten sind.

Im Folgenden werden nur die für diese Arbeit notwendigen Hinweise kurz erläutert (System-

Releasestand 70015):

■ SAP Hinweis 1139804 – APD Laufzeitfehler ASSERTION_FAILED

Der Fehler, der durch diesen Hinweis behoben wird, tritt im Zusammenhang mit der

Verwendung der ABC-Analyse innerhalb eines Analyseprozesses auf. So kann es unter

gewissen Umständen zu einem Laufzeitfehler kommen, der zu einem Programmabbruch

führt.

■ SAP Hinweis 862637 – Ergebnisdarstellung Entscheidungsbaum

Beim erstmaligen Aufruf der Visualisierung des Entscheidungsbaumes kommt es zu

einem Problem mit der Initialisierung der Netzwerkformatierungstabellen. Dies führt zu

der Fehlermeldung „Standardtyp 0 in Kantengruppe INST nicht vorhanden“, wodurch der

Entscheidungsbaum grafisch nicht dargestellt werden kann. Dieser Hinweis erläutert den

Lösungsweg zur Korrektur des Fehlers.

■ SAP Hinweis 1085264 – Assoziationsregeln werden nicht angezeigt

Wenn in der Ergebnisdarstellung der Assoziationsanalyse die erzeugten Assoziations-

regeln nicht angezeigt werden, sollte dieser Hinweis eingespielt werden.

■ SAP Hinweis 999344 – APD Laufzeitfehler CONVT_OVERFLOW

Durch einen Überlauf bei der Konvertierung von Gleit- und Dezimaldatentypen kann es

zu einem Laufzeitfehler kommen, der zusätzlich zu fehlerhaften Berechnungen bezüglich

der Konfidenz und dem Support der einzelnen Assoziationsregeln führt.

Wie erwähnt, kann es je nach Releasestand notwendig sein, weitere Hinweise einzuspielen.

Über das SAP-Support-Portal können die benötigen Hinweise komfortabel gesucht werden.

7 Anhang

- 128 -

7.2 A selection of useful ISU-Tables

Vgl. [Lapa, 2008]

7 Anhang

- 129 -

7.3 Abbildungen und Listings zur Fallstudie

7.3.1 Collect Initial Data

Abbildung 95: Collect Initial Data – Wechselbelegselektion

Abbildung 96: Collect Initial Data – Wechselsicht

Abbildung 97: Collect Initial Data – Wechseltyp

7 Anhang

- 130 -

Abbildung 98: Collect Initial Data – Wechselstatus

Abbildung 99: Collect Initial Data – Vertrag

Abbildung 100: Collect Initial Data – Kontenfindungsmerkmal

Abbildung 101: Collect Initial Data – Query Verkaufsstatistik

7 Anhang

- 131 -

7.3.2 Clean, Construct, Integrate, Format Data

Abbildung 102: Datenvorbereitung - Analyseprozess

7 Anhang

- 132 -

REPORT RSAN_WB_ROUTINE_TEMP_REPORT .

TYPES: BEGIN OF y_group_fields ,

BPARTNER TYPE /BI0/OIBPARTNER ,

/BIC/Z_BPTYP TYPE /BIC/OIZ_BPTYP ,

/BIC/Z_BPVNAME TYPE /BIC/OIZ_BPVNAME ,

/BIC/Z_BPNNAME TYPE /BIC/OIZ_BPNNAME ,

/BIC/Z_REGSTRU TYPE /BIC/OIZ_REGSTRU ,

/BIC/Z_ORT TYPE /BIC/OIZ_ORT ,

/BIC/Z_ORTTEIL TYPE /BIC/OIZ_ORTTEIL ,

/BIC/Z_TARIF TYPE /BIC/OIZ_TARIF ,

KUENDIGUNG TYPE /BIC/OIZ_KUENDIG ,

MENGE08 TYPE /BIC/OIZ_MENGE8 ,




BETRAG08 TYPE /BIC/OIZ_BETRAG8 ,




END OF y_group_fields .

TYPES: BEGIN OF y_source_fields ,

/BIC/Z_CREATE TYPE /BIC/OIZ_CREATE ,

END OF y_source_fields .

TYPES: yt_source_fields TYPE STANDARD TABLE OF y_source_fields .

TYPES: BEGIN OF y_target_fields ,

KUNDESEIT TYPE /BIC/OIZ_KSEIT ,

END OF y_target_fields .

TYPES: yt_target_fields TYPE STANDARD TABLE OF y_target_fields .

FORM compute_data_transformation

USING is_group TYPE y_group_fields

it_source TYPE yt_source_fields

ir_context TYPE REF TO if_rsan_rt_routine_context

EXPORTING et_target TYPE yt_target_fields .

*--------- Begin of transformation code -----------------------------

DATA: ls_source TYPE y_source_fields,

ls_target TYPE y_target_fields.

LOOP AT it_source INTO ls_source.

ls_target-KUNDESEIT = 2009 - ls_source-/BIC/Z_CREATE+6(4).

MOVE-CORRESPONDING ls_source TO ls_target.

APPEND ls_target TO et_target.

ENDLOOP.

*---------- End of transformation code ------------------------------

ENDFORM.

Listing 1: ABAP Routine – Berechnung Kunde seit

7 Anhang

- 133 -

REPORT RSAN_WB_ROUTINE_TEMP_REPORT .

TYPES: BEGIN OF y_group_fields ,

BPARTNER TYPE /BI0/OIBPARTNER ,

/BIC/Z_BPTYP TYPE /BIC/OIZ_BPTYP ,

/BIC/Z_BPVNAME TYPE /BIC/OIZ_BPVNAME ,

/BIC/Z_BPNNAME TYPE /BIC/OIZ_BPNNAME ,

/BIC/Z_REGSTRU TYPE /BIC/OIZ_REGSTRU ,

/BIC/Z_ORT TYPE /BIC/OIZ_ORT ,

/BIC/Z_ORTTEIL TYPE /BIC/OIZ_ORTTEIL ,

/BIC/Z_TARIF TYPE /BIC/OIZ_TARIF ,

KUENDIGUNG TYPE /BIC/OIZ_KUENDIG ,









KUNDESEIT TYPE /BIC/OIZ_KSEIT ,

/BIC/Z_MAZAE TYPE /BIC/OIZ_MAZAE ,

VGL0607 TYPE /BIC/OIZ_VGL67 ,

END OF y_group_fields .

TYPES: BEGIN OF y_source_fields ,

Z_BIRTHDT TYPE /BIC/OIZ_BIRTHDT ,

Z_BPFRAU TYPE /BIC/OIZ_BPFRAU ,

Z_BPMANN TYPE /BIC/OIZ_BPMANN ,

END OF y_source_fields .

TYPES: yt_source_fields TYPE STANDARD TABLE OF y_source_fields .

TYPES: BEGIN OF y_target_fields ,

GESCHLECHT TYPE /BIC/OIZ_GESCH ,

ALTER TYPE /BIC/OIZ_BPALTER ,

END OF y_target_fields .

TYPES: yt_target_fields TYPE STANDARD TABLE OF y_target_fields .

*---------- Begin of type definitions -------------------------------

*TYPES: ...

*----------- End of type definitions --------------------------------

FORM compute_data_transformation

USING is_group TYPE y_group_fields

it_source TYPE yt_source_fields

7 Anhang

- 134 -

ir_context TYPE REF TO if_rsan_rt_routine_context

EXPORTING et_target TYPE yt_target_fields .

*--------- Begin of transformation code -----------------------------

DATA: ls_source TYPE y_source_fields,

ls_target TYPE y_target_fields.

LOOP AT it_source INTO ls_source.

IF ls_source-Z_BIRTHDT+6(4) EQ '0000'.

ls_target-ALTER = 0.

ELSE.

ls_target-ALTER = 2008 - ls_source-Z_BIRTHDT+6(4).

ENDIF.

IF ls_source-Z_BPMANN EQ 'X' AND ls_source-Z_BPFRAU EQ SPACE.

ls_target-GESCHLECHT = 'M'.

ELSEIF ls_source-Z_BPMANN EQ SPACE AND ls_source-Z_BPFRAU EQ 'X'.

ls_target-GESCHLECHT = 'F'.

ELSE.

ls_target-GESCHLECHT = 'U'.

ENDIF.

MOVE-CORRESPONDING ls_source TO ls_target.

APPEND ls_target TO et_target.

ENDLOOP.

*---------- End of transformation code ------------------------------

ENDFORM.

Listing 2: ABAP Routine – Berechnung Alter und Geschlecht

7 Anhang

- 135 -

Abbildung 103: Datenvorbereitung - Ergebnismenge

8 Abkürzungsverzeichnis

- 136 -

8 Abkürzungsverzeichnis

ABAP Advanced Business Application Programming

APD Analyse-Prozess-Designer

ASCII American Standard Code for Information Interchange

DM Data Mining

DTP Datentransferprozess

BI Business Intelligence

BW Business Warehouse

CRISP-DM Cross Industry Process for Data Mining

CRM Customer Relationship Management

CSV Comma Seperated Value

DSO Data Store Object

EDM Energy Data Management

EnWG Energiewirtschaftsgesetz

ERP Enterprise Resource Planning

ETL Extraktion, Transformation und Laden

GUI Graphical User Interface

IS-U Industry Solution for Utilities

IT Informationstechnologie

KDD Knowledge Discovery in Databases

ODS Operational Data Store

OLAP Online Analytical Processing

PMML Predictive Model Markup Language

SAP Software Anwendungen und Programme

STW Stadtwerke

SOM Self Organizing Maps

XML Extensible Markup Language

9 Abbildungsverzeichnis

- 137 -


Abbildung 1: Entwicklungsgeschichte Data Mining .................................. 13

Abbildung 2: Einordnung BI, KDD und DM ............................................. 14

Abbildung 3: Einordnung der Data-Mining-Methoden .............................. 18

Abbildung 4: OLAP vs. Data Mining ......................................................... 19

Abbildung 5: Hierarchie des CRISP-Prozesses .......................................... 22

Abbildung 6: CRISP-DM-Prozessmodell................................................... 23

Abbildung 7: Fayyad et al. Prozessmodell ................................................. 24

Abbildung 8: Allgemeiner KDD-Prozess von Säuberlich .......................... 25

Abbildung 9: Allgemeiner KDD-Prozess von Säuberlich .......................... 26

Abbildung 10: APD- und DM-Workbench-Funktionen im KDD-Prozess 28

Abbildung 11: Aufbau DM-Workbench ..................................................... 28

Abbildung 12: Modell in der DM-Workbench anlegen ............................. 29

Abbildung 13: DM-Workbench - Definition Datenfelder .......................... 30

Abbildung 14: Weitere Funktion in der DM-Workbench .......................... 31

Abbildung 15: Hintergrundverarbeitung .................................................... 33

Abbildung 16: Beispiel einer Prozesskette ................................................. 35

Abbildung 17: einfaches Beispiel einer Clusteranalyse ............................. 36

Abbildung 18: Beispiel Clusteranalyse – Portfolio-Analyse ...................... 37

Abbildung 19: Manhattan- und euklidische Distanz .................................. 40

Abbildung 20: Kompaktheit von Cluster .................................................... 41

Abbildung 21: Ablauf der Clusteranalyse (k-means) ................................. 43

Abbildung 22: Clusteranalyse - Feldkonfiguration .................................... 44

Abbildung 23: Clusteranalyse - Parameterkonfiguration ........................... 45

Abbildung 24: Clusteranalyse - Analyseprozess ........................................ 46

Abbildung 25: Clusteranalyse – Einflussdiagramm ................................... 47

Abbildung 26: Clusteranalyse – grafische Verteilung der Werte ............... 47


- 138 -

Abbildung 27: Clusteranalyse – Verteilung der Werte als Tabelle ............ 47

Abbildung 28: Clusteranalyse – grafische Verteilung der Werte ............... 48

Abbildung 29: Clusteranalyse – grafische Darstellung der Entfernungen . 48

Abbildung 30: Clusteranalyse – Vorhersagesimulation ............................. 48

Abbildung 31: Zweifache ABC-Analyse .................................................... 51

Abbildung 32: Pareto-Verteilung ............................................................... 52

Abbildung 33: ABC-Analyse ..................................................................... 53

Abbildung 34: ABC-Analyse – Feldkonfiguration ..................................... 54

Abbildung 35: ABC-Analyse – Parameterkonfiguration ........................... 55

Abbildung 36: ABC-Analyse – Analyseprozess ........................................ 55

Abbildung 37: ABC-Analyse – Ergebnisdarstellung ................................. 56

Abbildung 38: Ablauf Scoring-Verfahren .................................................. 59

Abbildung 39: Fehlerhafte Bezeichnungen in der DM-Workbench ........... 60

Abbildung 40: Konfiguration von stetigen Datenfeldern ........................... 60

Abbildung 41: Möglichkeiten der Partialgewichtung ................................. 61

Abbildung 42: Scoring – erweiterte Feldkonfiguration .............................. 62

Abbildung 43: Scoring – Analyseprozess ................................................... 62

Abbildung 44: Scoring – Tabellarische Darstellung der Ergebnisse .......... 63

Abbildung 45: Grundsätzlicher Ablauf der Assoziationsanalyse ............... 65

Abbildung 46: Iterative Berechnung der large Itemsets ............................. 69

Abbildung 47: Assoziationsanalyse - Feldkonfiguration ........................... 70

Abbildung 48: Gewichtung der Transaktion .............................................. 71

Abbildung 49: Assoziationsanalyse – Analyseprozess ............................... 72

Abbildung 50: Assoziationsanalyse - Filtern der Ergebnisse ..................... 72

Abbildung 51: Assoziationsanalyse – Anzeige der Assoziationsregeln ..... 73

Abbildung 52: Assoziationsanalyse – Alternative Anzeige der Regeln ..... 73

Abbildung 53: Assoziationsanalyse – Anzeige der Itemsets ...................... 73

Abbildung 54: Aufbau eines Entscheidungsbaumes .................................. 75

Abbildung 55: Entscheidungsbaum-Phasen ............................................... 80

Abbildung 56: Berechnung des (ersten) Split im Entscheidungsbaum ...... 81

Abbildung 57: Entscheidungsbaum – Feldkonfiguration ........................... 82

Abbildung 58: Entscheidungsbaum – erweiterte Konfiguration ................ 83


- 139 -

Abbildung 59: Entscheidungsbaum – Parameterkonfiguration .................. 84

Abbildung 60: Entscheidungsbaum – Analyseprozess ............................... 85

Abbildung 61: Entscheidungsbaum – Ergebnisse in der Netzplansicht ..... 85

Abbildung 62: Entscheidungsbaum – Ergebnisse in der Baumsicht .......... 85

Abbildung 63: Entscheidungsbaum – Vorhersagesimulation ..................... 86

Abbildung 64: lineare und nicht lineare Regressionsanalyse ..................... 87

Abbildung 65: Zerlegung der Gesamtabweichung ..................................... 90

Abbildung 66: multiple Regression mit diskreten Variablen ..................... 91

Abbildung 67: Regressionsanalyse – Feldkonfiguration ............................ 92

Abbildung 68: Regressionsanalyse – erweiterte Feldkonfiguration ........... 92

Abbildung 69: Regressionsanalyse – Parameterkonfiguration ................... 93

Abbildung 70: Regressionsanalyse – Analyseprozess ................................ 94

Abbildung 71: Regressionsanalyse – Ergebnisse ....................................... 94

Abbildung 72: Gesamtbeispiel – Forderungsmanagement ......................... 96

Abbildung 73: Gesamtbeispiel – Erweiterung der Kundenbeziehungen .... 97

Abbildung 74: Gesamtbeispiel – Kündigungsanalyse ................................ 98

Abbildung 75: Kündigungsprävention – Analyseprozess ........................ 107

Abbildung 76: Kündigungsprävention – Bewertung ................................ 109

Abbildung 77: Kündigungsprävention – Fehlermatrix ............................. 110

Abbildung 78: Kündigungsprävention – E-Baumkonfiguration (1) ......... 111




Abbildung 82: Kündigungsprävention – E-Baumkonfiguration (5) ........ 112



Abbildung 85: Kündigungsprävention – Clusterkonfiguration (1) .......... 114




Abbildung 89: Kündigungsprävention – Fehlermatrix 1 .......................... 116

Abbildung 90: Kündigungsprävention – Fehlermatrix 2 .......................... 117


- 140 -

Abbildung 91: Kündigungsprävention – Entfernungen ............................ 118

Abbildung 92: Kündigungsprävention – Ergebnisse (Pruning) ................ 118

Abbildung 93: Kündigungsprävention – Ausschnitt Entscheidungsbaum 119

Abbildung 94: Kündigungsprävention – Ausschnitt Clusteranalyse ........ 119

Abbildung 95: Collect Initial Data – Wechselbelegselektion ................... 129

Abbildung 96: Collect Initial Data – Wechselsicht .................................. 129

Abbildung 97: Collect Initial Data – Wechseltyp ..................................... 129

Abbildung 98: Collect Initial Data – Wechselstatus ................................. 130

Abbildung 99: Collect Initial Data – Vertrag ........................................... 130

Abbildung 100: Collect Initial Data – Kontenfindungsmerkmal ............. 130

Abbildung 101: Collect Initial Data – Query Verkaufsstatistik ............... 130

Abbildung 102: Datenvorbereitung - Analyseprozess .............................. 131

Abbildung 103: Datenvorbereitung - Ergebnismenge .............................. 135

10 Tabellenverzeichnis

- 141 -

10 Tabellenverzeichnis

Tabelle 1: Stärken und Schwächen des k-means-Algorithmus ................... 49

Tabelle 2: Stärken und Schwächen der ABC-Analyse ............................... 56

Tabelle 3: Stärken und Schwächen des Scoring ......................................... 63

Tabelle 4: Stärken und Schwächen der Assoziationsanalyse ...................... 74

Tabelle 5: Stärken und Schwächen des Entscheidungsbaumes .................. 86

Tabelle 6: Stärken und Schwächen der Regressionsanalyse ....................... 95

Tabelle 7: Collect Initial Data Report ....................................................... 103

Tabelle 8: Data Quality Report ................................................................. 105

Tabelle 9: Ergebnisse Kündigungsprävention .......................................... 119

Tabelle 10: Kündigungsprävention – Nächste Schritte ............................. 120

Tabelle 11: Stärken und Schwächen des Data-Mining im SAP BI 7.0 ..... 124

11 Formelverzeichnis

- 142 -

11 Formelverzeichnis

Formel 1: Manhattan-Distanz ..................................................................... 40

Formel 2: euklidische Distanz .................................................................... 41

Formel 3: Lp-Metrik .................................................................................... 41

Formel 4: Kompaktheit ............................................................................... 42

Formel 5: Pareto-Verteilung ....................................................................... 52

Formel 6: Additives Scoring-Verfahren ..................................................... 58

Formel 7: Menge aller Items ....................................................................... 66

Formel 8: Menge aller Transaktionen ......................................................... 67

Formel 9: Itemset ........................................................................................ 67

Formel 10: Assoziationsregel ..................................................................... 67

Formel 11: Support ..................................................................................... 67

Formel 12: Support einer Assoziationsregel ............................................... 68

Formel 13: Konfidenz ................................................................................. 68

Formel 14: Lift ............................................................................................ 68

Formel 15: Entropie .................................................................................... 78

Formel 16: Informationsgewinn ................................................................. 79

Formel 17: Funktion zur Schätzung der abhängigen Variablen ................. 89

Formel 18: Zielfunktion zur Bestimmung von a und b ............................... 89

Formel 19: Bestimmtheitsmaß R ................................................................ 89

Formel 20: Kennzahl I ................................................................................ 90

12 Listingverzeichnis

- 143 -

12 Listingverzeichnis

Listing 1: ABAP Routine – Berechnung Kunde seit ................................ 132

Listing 2: ABAP Routine – Berechnung Alter und Geschlecht ................ 134

13 Quellenverzeichnis

- 144 -


Literatur

[AlNi, 2000]

P. Alpar, J. Niedereichholz

Data Mining im praktischen Einsatz – Verfahren und Anwendungsfälle für Marketing,

Vertrieb, Controlling und Kundenunterstützung;

Vieweg Verlag, Braunschweig/Wiesbaden 2000; 1. Auflage; ISBN 3-528-05748-3

[ChaGlu, 1998]

P. Chamoni; P. Gluchowski

Analytische Informationssysteme

Springer Verlag, Berlin u.a. 1998; ISBN 978-3540658436

[ChaGlu, 2006]

P. Chamoni; P. Gluchowski

Analytische Informationssysteme – Business Intelligence-Technologien und

-Anwendungen

Springer Verlag, Berlin 2006; 3. Auflage; ISBN 3-540-29286-1

[Fahrmeir et al., 1996]

L. Fahrmeir, H. Kaufmann, C. Kredler

Regressionsanalyse;

In: L. Fahrmeir, A. Hamerle, G. Tutz

Multivariante statistische Verfahren

2. Auflage, Berlin, New York, 1996

[Fayyad et al., 1996]

U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy;

Advances in Knowledge Discovery and Data Mining

Menlo Park 1996

[GaSäu, 1999]

W. Gaul, F. Säuberlich;

Classification and Positioning of Data Mining Tools

in: Gaul, W. / Locarek-Junge, H. (Hrsg.)

Classification in the Information Age;

Springer-Verlag, Berlin,Heidelberg 1999; ISBN 3-5406-5855-6

[Jafar-Shaghaghi, 1994]

F. Jafar-Shaghaghi

Maschinelles Lernen, Neuronale Netze und Statistische Lernverfahren

zur Klassifikation und Prognose

Shaker-Verlag, 1994; ISBN 3-8265-1111-5


- 145 -

[Kandel et al., 2001]

Dr. A. Kandel, Dr. M. Last, Dr. H. Bunke;

Data Mining and Computational Intelligence

Physica-Verlag, Heidelberg/New York 2001; ISBN 3-7908-1371-0

[KeJa, 2002]

H. Keller, J. Jacobitz;

ABAP Objects Referenz;

Galileo Press; Bonn 2002; 1 .Auflage; ISBN 3-934358-61-6

[KeKr, 2001]

H. Keller, S. Krüger;

ABAP Objects – Einführung in die SAP-Programmierung;

Galileo Press; Bonn 2001; 2. Auflage; ISBN 3-89842-147-3

[KiVa, 2007]

Dr. M. Kießwetter, D. Vahlkamp;

Data Mining in SAP Netweaver BI;

Galileo Press; Bonn 2007; 1. Auflage; ISBN 978-3-89842-850-7

[Küppers, 1999]

B. Küppers;

Data Mining in der Praxis – Ein Ansatz zur Nutzung der Potentiale von Data Mining im

betrieblichen Umfeld;

Peter Lang GmbH; Frankfurt am Main 1999; ISBN 3-631-34106-7

Europäische Hochschulschriften, Reihe 5, Volks- und Betriebswirtschaft, Bd. 2373;

Zugl: Graz, Univ., Diss., 1998

[Mehrwald, 2007]

C. Mehrwald;

Datawarehousing mit SPA BW 7 – BI in SAP Netweaver 2004s;

dpunkt.verlag GmbH; Heidelberg 2007; 4. Auflage; ISBN 978-3-89864-460-0

[Nakhaeizdaeh, 1998]

Prof. Dr. G. Nakhaeizdaeh;

Data Mining – Theoretische Aspekte und Anwendungen

Physica-Verlag, Heidelberg 1998; ISBN 3-7908-1053-3

[Petersohn, 2005]

H. Petersohn;

Data Mining – Verfahren, Prozesse, Anwendungsarchitektur

Oldenbourg Verlag, München 2005; ISBN 3-486-57715-8

[Sachs, 1992]

L. Sachs;

Angewandte Statistik – Anwendung statistischer Methoden;

Springer-Verlag, Berlin/Heidelberg 1992; 7. Auflage; ISBN 3-540-52085-6

[Säuberlich, 2000]

F. Säuberlich

KDD und Data Mining als Hilfsmittel zur Entscheidungsunterstützung

Peter Lang GmbH, Frankfurt 2000; ISBN 9-783-63136735-3

[Schinzer, 1999]

H. Schinzer

Data Warehouse und Data Mining – Marktführende Produkte im Vergleich

2. Auflage, Vahlen 1999


- 146 -

SAP-Unterlagen

[BW310, 2005]

BW310; Data Warehousing; SAP Schulungsunterlagen Teilnehmerhandbuch

Version 2005/Q1; Materialnummer: 50071081; SAP AG

[BW380, 2005]

BW380 – SAP Business Intelligence – Analyseprozesse und Data Mining;

Schulungsunterlagen Teilnehmerhandbuch; 2005/Q1; Materialnummer 50072606

Online-Quellen

[AsSi, 2002]

C. Ashby, J. Simms;

Data Mining-Research Brief;

in L. Schmidt-Thieme: Data Mining and Web Mining;

http://www.informatik.uni-freiburg.de/cgnm/lehre/wm-02w/webmining-1.pdf (03.06.2008;

19:45)

[Computerwoche, 2007]

S. Alexander;

Zweiter Frühling für Data Mining;

http://www.computerwoche.de/index.cfm?pid=746&pk=590688 (02.06.2008, 16:15)

[CRISP, 1999]

P. Chapman, J. Clinton, T. Khabaza, T. Reinartz, R. Wirth

The CRISP-DM Process Model

Discussion Paper; 03/1999

http://www.spss.it/download/pub-paper.pdf (16.06.2008; 11.45)

[Cubeserv, 2008]

Data Mining mit dem SAP Business Information Warehouse - Knowledge Discovery in

Databases (KDD)

http://www.cubeserv.com/fachartikel/data_mining_kdd.html (02.06.2008, 16:10)

[Doug, 2008]

A. Dough

Data Mining

http://www.eco.utexas.edu/~norman/BUS.FOR/course.mat/Alex (15.06.2008; 10:37)

[EVU-IT, 2008]

evu.it Website: Unternehmen

http://www.evu-it.de/front_content.php?idcat=31 (01.06.2008, 10:35)

[Juran, 2008]

Juran Institute, Inc., Southbury, CT, U.S.A

http://juran.com/ (28.05.2008, 14:00)

[Lapa, 2008]

Marcin Lapa; Utility and SAP Consultant;

http://marcinlapa.com (06.06.2008, 13:19)

[SAPBibHV, 2008]

SAP-Online-Dokumentation

Hintergrundverarbeitung

http://help.sap.com/saphelp_nw70/helpdata/DE/74/08703713bf277ee10000009b38f8cf/

frameset.htm (20.06.2008, 10:00)


- 147 -

[SAPBibPK, 2008]

SAP-Online-Dokumentation

Prozessketten

http://help.sap.com/saphelp_nw70/helpdata/DE/8f/c08b3baaa59649e10000000a11402f/

frameset.htm (20.06.2008, 10:30)

Weitere Quellen

[Projektarbeit, 2008]

Analyse-Prozess-Designer – Funktionen und Einsatzgebiete im SAP Business

Warehouse

D. Halboth, vorausgehende Projektarbeit an der Fachhochschule Dortmund

14 Glossar

- 148 -

14 Glossar

Hier finden Sie kurze Erläuterungen zu den wichtigsten Fachbegriffen. Die Begriffe sind

alphabetisch aufsteigend geordnet. Das Zeichen weist auf einen ebenfalls im Glossar

aufgeführten Begriff hin.

ABAP

Die Advanced Business Application Programming (ABAP) ist eine von SAP

entwickelte Programmiersprache für die Entwicklung im SAP Umfeld.

ABAP Objects

ABAP Objects ist eine Erweiterung von ABAP um die Elemente der objektorientierten

Programmierung (außer Mehrfachvererbung und Überladen von Methoden).

Abhängigkeitsanalyse

Die Abhängigkeitsanalyse versucht Beziehungen zwischen verschiedenen Merkmalen

von Objekten aufzudecken (z.B. „Kunden die A kaufen, kaufen auch B“).

Abweichungsanalyse

Die Abweichungsanalyse bildet das Gegenstück zur Abhängigkeitsanalyse. Es werden

dabei die Objekte identifiziert, die nicht mit den Regelmäßigkeiten der meisten anderen

Objekte übereinstimmen und sich so nicht in ein vorhandenes Muster einordnen lassen.

Administrator Workbench

Die Administrator Workbench ist das zentrale Element innerhalb des SAP Business

Warehouse zur Modellierung von Data-Warehousing-Prozessen. Mit ihr können alle

Prozesse der Datenbeschaffung, -haltung und –verarbeitung gesteuert, überwacht und

gepflegt werden.

Alpha- und Beta-Fehler

Alpha- und Beta-Fehler beschreiben die unterschiedlichen möglichen Fehlerarten eines

Vorhersagemodells mit zwei Ausprägungen. Wird beispielsweise Nein vorhergesagt

obwohl das richtige Ergebnis Ja ist, spricht man vom Alpha-Fehler. Wird Ja vorhergesagt

obwohl das richtige Ergebnis Nein ist, spricht man vom Beta-Fehler.

APD

Der Analyse-Prozess-Designer ist das Werkzeug im SAP BW zur Erzeugung und

Verwaltung von Analyseprozessen sowie das vorbereitende Tool für das Data Mining.

APD-Workbench

Die APD-Workbench ist die grafische Benutzeroberfläche des Analyse-Prozess-

Designers und stellt dem Anwender die Funktionalitäten zur Modellierung und

Durchführung analytischer Prozesse zur Verfügung.

14 Glossar

- 149 -

Bestimmtheitsmaß (Kennzahl R)

Mit Hilfe der Kennzahl R wird die Summe aller nicht erklärten Abweichungen ins

Verhältnis zu allen Gesamtabweichungen gebracht, um so mit Hilfe der Bezugsgröße des

arithmetischen Mittels aller abhängigen Variablen beurteilen zu können, ob die

Regressionsgerade eine hohe Aussagekraft besitzt.

Business Intelligence

Business Intelligence ist der Sammelbegriff für alle Systeme und Prozesse, die Daten

sammeln, auswerten und als nützliche Informationen für die Entscheidungsträger zur

Verfügung stellen.

Business (Information) Warehouse

Das Business Warehouse ist die Data Warehouse-Lösung von SAP.

CRISP-DM

Das CRISP-DM-Modell ist das Ergebnis eines Projektes, das im Jahr 1998 von den

Unternehmen Teradata, SPSS, DaimlerChrysler und OHRA gestartetet wurde. Ziel war

es, ein generisches, branchen- und softwareunabhängiges Verfahren für die Durchführung

von Data-Mining-Projekten zu schaffen.

CRM

Das Customer Relationship Management bezeichnet die Dokumentation, Verwaltung und

Pflege von Kundenbeziehungen, die für den Vertrieb und das Marketing von besonderer

Bedeutung sind.

Data Mining

Mit Hilfe des Data Mining sollen neue, nicht triviale Informationen mit Hilfe von

mathematisch-statistischen Verfahren ermittelt werden. D.h., es wird automatisiert nach

Mustern in den vorhandenen Daten gesucht, um so die operativen, taktischen oder

strategischen Entscheidungen in einem Unternehmen unterstützen zu können.

Data-Mining-Workbench

Die Data-Mining-Workbench ist eine Benutzeroberfläche zur Erstellung und Verwaltung

von Data-Mining-Modellen.

Data Warehouse

Ein Data Warehouse ist das konsolidierte Datenlager eines Unternehmens, das sich aus

vielen verschiedenen Quellen zusammensetzen kann. Die Daten im Data Warehouse

werden in erster Linie für analytische Auswertungen genutzt.

Diskrete Werte

Als diskret werden Daten bezeichnet, die nur eine bestimmte Anzahl an Ausprägungen

und Werten annehmen, z.B. Kundentyp (guter Kunde/schlechter Kunde), Altersklassen

oder Tariftypen etc.

Drag&Drop

Durch Betätigen der linken Maustaste lassen sich grafische Objekte „Ziehen und

Fallenlassen“. Das Drag&Drop-Verfahren stellt somit eine Art der Bedienung von

grafischen Benutzeroberflächen dar.

14 Glossar

- 150 -

Entropie

Mit Hilfe der Entropie kann die Reinheit der Zerlegung bei der Generierung von

Entscheidungsbäumen berechnet werden.

ERP-System

Enterprise Resource Planning Systeme unterstützen das Unternehmen mit Hilfe

komplexer Anwendungssoftware bei der Ressourcenplanung und –verteilung.

ETL

ETL ist die Abkürzung für Extraktion, Transformation und Laden. Sie bezeichnet den

Datenkonsolidierungs- und Datenladeprozess bei der Datenbeschaffung.

Extrapolation

Bei der Extrapolation wird ein Wert auf Basis der Datenpunkte des Intervalls linear

geschätzt. Konstante Extrapolation bedeutet, dass Werte außerhalb des Wertebereiches

den nächstgelegenen Grenzwert des Intervalls als Konstante zugeordnet bekommen.

Hintergrundverarbeitung

Die Hintergrundverarbeitung ermöglicht das Automatisieren von Routineaufgaben sowie

die Optimierung der Systemleistung durch geeignete Ressourcenverteilung.

InfoProvider

Ein InfoProvider ist ein Sammelbegriff für diejenigen Datenziele, auf deren Datenbestand

Analysen und Queries durchgeführt werden können und die als Quelle für weitere

Prozesse zur Verfügung stehen.

Informationsgewinn

Aufbauend auf die Entropie kann der Informationsgewinn berechnet werden, um

mehrere Splits beim Erzeugen von Entscheidungsbäumen miteinander zu vergleichen.

IS-U

Die Branchenkomponente Versorgungsindustrie dient innerhalb von SAP Utilities der

Verwaltung und Abrechnung von Kunden.

Item

Als Item wird ein Objekt der Gesamtmenge bezeichnet, z.B. ein bestimmtes Produkt aus

einem Supermarkt.

Itemset

Als Itemset bezeichnet man eine Teilmenge der Objekte aus einem Geschäftsvorfall, z.B.

eine Teilmenge der Produkte aus einem Einkauf.

k-means-Algorithmus

Die Implementierung der Clusteranalyse im SAP BI 7.0 basiert auf der sogenannten

k-means-Methode, die sich in vier Schritte unterteilen lässt:

Schritt 1: Initialisierung

Schritt 2: Berechnung

Schritt 3: Zuordnung

Schritt 4: Wiederholung

14 Glossar

- 151 -

KDD

Knowledge Discovery in Databases wird oftmals als Synonym für Data Mining

verwendet. Bei einer genaueren Präzisierung ist das Data Mining jedoch nur ein

Teilschritt im KDD-Prozess, der zusätzlich alle Schritte der Datenvorbereitung sowie der

Datenauswertung und Beurteilung enthält.

Klassifikation

Die Klassifikation dient der Zuordnung von Objekten zu Klassen, die im Vorfeld definiert

worden sind.

Konfidenz

Neben dem Support ist die Konfidenz ein weiteres Gütekriterium für die Stärke der

Assoziationsregel. Die Konfidenz berechnet dabei die Wahrscheinlichkeit, dass nach der

Prämisse auch die Konklusion eintritt.

Lift

Als weiteres Bewertungskriterium für eine Assoziationsregel (neben Support und

Konfidenz) wird der Lift verwendet. Ein Lift von 2 sagt beispielsweise aus, dass

Produkt Y, in den Transaktionen mit Produkt X, doppelt so häufig vertreten ist, wie in

den gesamten Transaktionen.

Metadata Repository

Das Metadata Repository verwaltet und bietet den zentralen Zugriff auf alle

Metadaten (Eigenschaften und Verknüpfungen von Objekten) im SAP Business

Warehouse.

Metadaten

Als Metadaten werden Daten bezeichnet, die Informationen über Daten beinhalten und so

z.B. die Eigenschaften von Daten beschreiben.

Multivariat verteilte Variablen

Wenn die Abhängigkeiten zwischen Variablen in die Berechnung einfließen, spricht man

von multivariat verteilten Variablen (im Gegensatz zu univariat verteilten Variablen).

Netweaver

Netweaver ist die serviceorientierte Anwendungsplattform von SAP.

OLAP

Das Online Analytical Processing gehört im Bereich des Business Intelligence zu den

hypothesengestützten Analysemethoden. Dabei können die zugrundeliegenden Daten

multidimensional betrachtet und analysiert werden, um zu entscheidungsunterstützenden

Ergebnissen zu gelangen.

Overfitting

Ein Entscheidungsbaum kann auch übertrainiert (oder überspezialisiert) werden, man

spricht dann vom sogenannten Overfitting. Das bedeutet, dass der Baum zwar eine

Genauigkeit von 100% bezüglich der Trainingsdaten, jedoch nicht bezüglich der

gesamten Daten besitzt.

14 Glossar

- 152 -

Partialgewichtung

Die sogenannte Partialgewichtung erlaubt es, die einzelnen Werte eines Merkmals mit

individuellen Gewichtungen zu versehen, wodurch ein detailliertes Score-Verfahren

möglich wird.

PMML

PMML (Predictive Model Markup Language) ist ein XML-ähnliches Format zur

Abspeicherung von Clustering- oder Entscheidungsbaummodellen.

Prognose

Die Prognose (oder Vorhersage) ist in ihrer Zielsetzung sehr eng mit der Klassifikation

verknüpft. Auch die Klassifikation erlaubt die Vorhersage unbekannter

Merkmalswerte. Dabei werden jedoch eher symbolische Werte vorhergesagt (z.B. „guter

Kunde“), während in der Prognose stetige Werte erzeugt werden (z.B. Umsatz im

nächsten Monat).

Prozessketten

Mit Hilfe von Prozessketten können Abläufe automatisiert werden. So wird die

Prozesskette nach Eintreten eines definierten Ergebnisses gestartet und löst verschiedene

aufeinander folgende Prozesse aus, die im Business Warehouse durchgeführt werden

sollen.

Pruning

Durch das sogenannte Pruning kann das Overfitting des Entscheidungsbaumes

verhindert werden.

Query

Als Query bezeichnet man eine Abfrage, die auf einem InfoProvider durchgeführt

wird, um Analysen durchzuführen oder Berichte zu erzeugen.

Rauschen

Beschreibt Fehler in Daten.

SAP

Die SAP AG ist einer der weltweit größten Softwarehersteller. Ihre Produkte decken alle

Geschäftsprozesse eines Unternehmens ab und richten sich in erste Linie an mittel-

ständische oder große Kunden.

Segmentierung

Bei der Segmentierung werden Objekte in sinnvolle und interessante Gruppen und

Klassen aufgeteilt. Die Gruppen sind dabei im Vorfeld nicht bekannt. Anhand der

gemeinsamen Eigenschaften der Objekte werden sie in die neu entstandenen Gruppen

eingeordnet.

Split

Als Split wird das Aufspalten der Daten bei der Generierung von Entscheidungsbäumen

bezeichnet.

Stetige Werte

Der Wertetyp stetig wird dann gewählt, wenn es sich bei den Daten um kontinuierliche,

nicht abzählbare Werte handelt, z.B. Einkommen oder Umsatz.

14 Glossar

- 153 -

Support

Als Support wird der Anteil der Transaktionen bezeichnet, die das Itemset

enthalten. Der Support ist somit ein Maß und Gütekritierium für die Beurteilung einer

Assoziationsregel.

Transaktion

Als Transaktion wird ein Geschäftsvorfall bezeichnet, beispielsweise der Einkauf.

Transportanschluss

Mit Hilfe des Transportanschlusses können komplette Strukturen von einem System in

ein anderes übertragen werden (z.B. von einem Test- in Produktivsystem).

Univariat verteilte Variablen

Bei univariat verteilten Variablen wird nur eine Variable isoliert betrachtet, ohne

Berücksichtigung von Abhängigkeiten zu anderen Variablen (im Gegensatz zu

multivariat verteilten Variablen).

Versionierung

Das Versionierungssystem von SAP erlaubt die Unterscheidung u.a. zwischen aktiven,

modifizierten und inaktiven Versionen von Objekten und Bestandteilen des SAP-

Systems. Dadurch ist es zum Beispiel möglich, Objekte zu verändern und zu speichern,

ohne dass das System durch die Änderungen beeinflusst wird.

Vorhersage

Siehe Prognose.

Vorhersagesimulation

Die Vorhersagesimulation ermöglicht das Testen von bereits trainierten Modellen. So

kann manuell geprüft werden, ob die Ergebnisse (mit neuen Daten) mit den erwarteten

Ergebnissen übereinstimmen.

15 Eidesstattliche Erklärung

- 154 -

15 Eidesstattliche Erklärung

Gemäß § 26 (1) der DPO erkläre ich an Eides statt, dass ich die vorliegende Arbeit

selbständig angefertigt habe. Ich habe mich keiner fremden Hilfe bedient und keine anderen,

als die angegebenen Quellen und Hilfsmittel benutzt. Alle Stellen, die wörtlich oder

sinngemäß veröffentlichten oder nicht veröffentlichten Schriften und anderen Quellen

entnommen sind, habe ich als solche kenntlich gemacht. Diese Arbeit hat in gleicher oder

ähnlicher Form noch keiner Prüfungsbehörde vorgelegen.

Dortmund, den 15.03.2009 ______________________________

(Dennis Halboth)

16 Erklärung

- 155 -

16 Erklärung

Mir ist bekannt, dass nach § 156 StGB bzw. § 163 StGB eine falsche Versicherung an Eides

Statt bzw. eine fahrlässige falsche Versicherung an Eides Statt mit Freiheitsstrafe bis zu drei

Jahren bzw. bis zu einem Jahr oder mit Geldstrafe bestraft werden kann.

Dortmund, den 15.03.2009 ______________________________

(Dennis Halboth)

17 Stichwortverzeichnis

- 156 -


- A -

A selection of useful ISU-Tables 138

Abbildungsverzeichnis 148

ABC-Analyse Bewertung 61 Konfiguration 59 Modellergebnisse 61

ABC-Analyse 55 Ablauf 58 Beispiele in der Versorgerbranche 56 Mathematische Grundlagen 57 mehrfach 55 Umsetzung im SAP BI 7.0 58

Abgrenzung 12

Abhängige und unabhängige Variablen 96

Abhängigkeitsanalyse 19

Abkürzungsverzeichnis 147

Abschluss 133

Abstract 5

Abweichungen 97

Abweichungsanalyse 19

Ähnlichkeit 44

Anhang 137

Apriori-Algorithmus 75

Assess Model 126

Assess Situation 109

Assoziationsanalyse Bewertung 81 Konfiguration 76 Mathematische Grundlagen 72 Modellergebnisse 79 Umsetzung im SAP BI 7.0 75

Assoziationsanalyse 70 Beispiele in der Versorgerbranche 71

Assoziationsregel 73

Ausblick 135

Automatisierungen 36

- B -

Baumsicht 80, 92

Bestimmtheitsmaß 97

Blätter 83

Build Model 119

Business Understanding 26, 108

- C -

Classification Criterium 59

Classified Object 59

Clean Data 115, 141

Clusteranalyse 40 Beispiele in der Versorgerbranche 42 Bewertung 54 Konfiguration 49 Mathematische Grundlagen 44 Modellergebnisse 52 Umsetzung im SAP BI 7.0 48

Collect Initial Data 110, 139

Construct Data 115, 141

CRISP-Prozess 25, 108

- D -

Data Mining 14 Einführung 14 Entwicklungsgeschichte 15 Übersicht der Verfahren 18 Voraussetzungen 23

Data Preparation 26, 113

Data Understanding 26, 110

Data-Mining-Verfahren 34, 40

Data-Mining-Workbench 30 Anlegen eines DM-Modells 32 Aufbau 31 Unterschiede APD-Workbench 30 Weitere Funktionen 35

Datenqualität 23

Deployment 27, 130

Describe Data 110

Determinationskoeffizient 97

Determine Business Objectives 108

Determine Data Mining Goals 110

Determine Next Steps 130

Distanzfunktion 44


- 157 -

- E -

Einflussdiagramm 52

Eingesetzte Software 12

Einleitung 9

Entropie 85

Entscheidungsbaum Ablauf 86 Bewertung 93 Konfiguration 89 Modellergebnisse 92 Umsetzung im SAP BI 7.0 86

Entscheidungsbaum 82 Beispiele in der Versorgerbranche 83 Mathematische Grundlagen 85

euklidischen Distanz 45

Evaluate Results 128

Evaluation 27, 128

evu.it GmbH Geschäftsbereiche 11

evu.it GmbH 10

Explore Data 113

- F -

Fallstudie 108

Fayyad-Prozess 27

Fazit 134

Format Data 115, 141

- G -

Generate Test Design 118

Gittersicht 79

Glossar 159

Grouping Attribute 59

- H -

Hintergrundverarbeitung 36

Hinweise 137

- I -

Implementierung weiterer Verfahren 107

Informationsgewinn 86

Inhaltsverzeichnis 6

Integrate Data 115, 141

Item 72

Itemset 73

- K -

Kanten 83

KDD 17

Kennzahl I 98

Kennzahl R 97

Klassifikation 18

k-means-Algorithmus 48

Knoten 83

Knowledge Discovery in Databases 16

Kombination verschiedener Verfahren 104

Kompaktheit 45

Konfidenz 74

Kündigungsprävention 108 Analyseprozess 116

Kurzfassung 4

- L -

Lift 74

Lp-Metrik 45

- M -

Manhattan-Distanz 45

Markenrechtlicher Hinweis 3

Modeling 27, 118

multiple Regression 99

- N -

Netzplansicht 92

- O -

OLAP 21

Overfitting 89

- P -

Pareto-Verteilung 57

Plan Deployment 130

Prognose 19

Prozessketten 38

Prozessmodelle 24

Pruning 89

- Q -

Quellenverzeichnis 155

- R -

Regressionsanalyse Ablauf 98 Beispiele in der Versorgerbranche 95 Bewertung 102 Konfiguration 99 Mathematische Grundlagen 96, 102 Modellergebnisse 101 nicht linear 94 Umsetzung im SAP BI 7.0 98

Regressionsanalyse 94 linear 94

Regressionsgerade 96


- 158 -

Review Project 131

rku.it 11

- S -

Säuberlich-Prozess 28

Scoring Ablauf 64 Bewertung 68 Gewichtungen 64 Konfiguration 64 Mathematische Grundlagen 63 Modellergebnisse 68 Umsetzung im SAP BI 7.0 64

Scoring Beispiele in der Versorgerbranche 62

Scoring-Verfahren 62

Segmentierung 18

Select Data 113

Select Modeling Technique 118

Sperrvermerk 2

Split 83

Support 73

Systeme 13

- T -

Thematik 9

Transaktion 73

- U -

überwachtes Lernen 21

unüberwachtes Lernen 21

- V -

Verify Data Quality 113

Vorhersage 19

Vorhersagesimulation 53, 93

- W -

Wurzel 83

- Z -

Zielsetzung der Arbeit 11

Zusammenfassung 133

Documents

Data Mining im SAP Business Intelligence 7business-intelligence-institute.org/download/Halboth DataMining im... · ABAP sind Marken oder eingetragene Marken der SAP AG, Deutschland