50
Martin Kießwetter, Dirk Vahlkamp Data Mining in SAP NetWeaver ® BI Bonn Boston

Martin Kießwetter, Dirk Vahlkamp

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Martin Kießwetter, Dirk Vahlkamp

Martin Kießwetter, Dirk Vahlkamp

Data Mining in SAP NetWeaver® BI

Bonn � Boston

Page 2: Martin Kießwetter, Dirk Vahlkamp

Auf einen Blick

1 Einleitung ............................................................. 11

2 Aufgaben und Ziele des Data Mining ............ 17

3 Werkzeuge des Data Mining in SAP NetWeaver BI ............................................. 39

4 Unüberwachtes Lernen ...................................... 149

5 Überwachtes Lernen .......................................... 225

6 Neue Data-Mining-Verfahren für SAP NetWeaver BI ............................................. 281

7 Ausblick ................................................................ 333

A Daten für das Fallbeispiel ................................. 339

B Literaturverzeichnis ............................................ 365

C Die Autoren .......................................................... 369

Page 3: Martin Kießwetter, Dirk Vahlkamp

7

Inhalt

1 Einleitung ................................................................. 11

2 Aufgaben und Ziele des Data Mining ...................... 17

2.1 Was ist Data Mining? ................................................. 172.2 Data Mining, KDD und Business Intelligence .............. 202.3 KDD-Prozessmodelle .................................................. 222.4 Übersicht Data-Mining-Verfahren ............................... 272.5 Erfolgreiche Anwendung von Data Mining .................. 302.6 Datenanalyse in SAP NetWeaver BI ............................ 322.7 Zusammenfassung ...................................................... 37

3 Werkzeuge des Data Mining in SAP NetWeaver BI 39

3.1 Die APD Workbench .................................................. 403.1.1 Aufbau der APD Workbench .......................... 413.1.2 Eingangsdaten für eine Analyse:

Datenquellen ................................................. 463.1.3 Durchführung einer Analyse:

Transformationen ........................................... 593.1.4 Ergebnisdaten einer Analyse: Datenziele ........ 723.1.5 Ein einfaches Beispiel für einen

Analyseprozess ............................................... 773.1.6 Standardfunktionen zur Datenanalyse ............ 107

3.2 Sonderfunktionalitäten in der APD Workbench .......... 1133.2.1 Individuelle Anwendungshierarchien .............. 1143.2.2 Versteckte Funktionen ................................... 1173.2.3 Verwaltung neuer Anwendungen ................... 120

3.3 Data Mining Workbench ............................................ 1233.3.1 Aufbau der DM Workbench ........................... 1233.3.2 Verwaltung der Data-Mining-Modelle ........... 1253.3.3 Anlegen eines Data-Mining-Modells .............. 1273.3.4 Modellergebnisse eines Data-Mining-

Modells ......................................................... 1303.4 Integration in die Datenbewirtschaftung ..................... 130

3.4.1 Einsatz von Jobs (Hintergrundverarbeitung) .... 1333.4.2 Analyseprozess ausführen mit ABAP ............... 137

Page 4: Martin Kießwetter, Dirk Vahlkamp

Inhalt

8

3.4.3 Aufruf aus einer Prozesskette ......................... 1433.4.4 Empfehlungen ............................................... 146

3.5 Zusammenfassung ...................................................... 147

4 Unüberwachtes Lernen ............................................ 149

4.1 Die Clusteranalyse ...................................................... 1494.1.1 Anwendungsbeispiele für eine

Clusteranalyse ............................................... 1504.1.2 Ähnlichkeit und Kompaktheit ........................ 1524.1.3 Ablauf einer Clusteranalyse ............................ 1564.1.4 Verfahrensvarianten einer Clusteranalyse ....... 1584.1.5 Konfiguration einer Clusteranalyse in

SAP NetWeaver BI ........................................ 1594.1.6 Durchführung einer Clusteranalyse in

SAP NetWeaver BI ........................................ 1634.1.7 Neue Zuordnungen einer trainierten

Clusteranalyse ............................................... 1724.2 Die ABC-Analyse ........................................................ 176

4.2.1 Anwendungsbeispiele für eine ABC-Analyse ................................................. 177

4.2.2 Ablauf einer ABC-Analyse .............................. 1804.2.3 Konfiguration einer ABC-Analyse in

SAP NetWeaver BI ........................................ 1824.2.4 Durchführung einer ABC-Analyse in

SAP NetWeaver BI ........................................ 1854.3 Das Scoring-Verfahren ............................................... 193

4.3.1 Anwendungsbeispiele für ein Scoring-Verfahren ...................................................... 194

4.3.2 Ablauf eines Scoring-Verfahrens .................... 1954.3.3 Konfiguration eines Scoring-Verfahrens

in SAP NetWeaver BI ..................................... 1974.3.4 Durchführung eines Scoring-Verfahrens

in SAP NetWeaver BI ..................................... 2024.4 Die Assoziationsanalyse ............................................. 207

4.4.1 Anwendungsbeispiele für eine Assoziationsanalyse ....................................... 208

4.4.2 Ablauf einer Assoziationsanalyse ................... 2094.4.3 Konfiguration einer Assoziationsanalyse

in SAP NetWeaver BI ..................................... 213

Page 5: Martin Kießwetter, Dirk Vahlkamp

Inhalt

9

4.4.4 Durchführung einer Assoziationsanalyse in SAP NetWeaver BI ..................................... 215

4.5 Zusammenfassung ...................................................... 221

5 Überwachtes Lernen ................................................. 225

5.1 Der Entscheidungsbaum ............................................. 2255.1.1 Anwendungsbeispiele für einen

Entscheidungsbaum ....................................... 2265.1.2 Aufbau eines Entscheidungsbaums ................. 2275.1.3 Konfiguration eines Entscheidungsbaums

in SAP NetWeaver BI ..................................... 2335.1.4 Analyse mit einem Entscheidungsbaum

in SAP NetWeaver BI ..................................... 2375.2 Die Regressionsanalyse ............................................... 243

5.2.1 Anwendungsbeispiele für eine Regressionsanalyse ......................................... 245

5.2.2 Berechnung einer einfachen Regressionsanalyse ......................................... 246

5.2.3 Güte einer Regressionsanalyse ........................ 2485.2.4 Modellierung einer Regressionsanalyse .......... 2505.2.5 Konfiguration einer Regressionsanalyse

in SAP NetWeaver BI ..................................... 2535.2.6 Durchführung einer Regressionsanalyse

in SAP NetWeaver BI ..................................... 2575.3 Integriertes Gesamtbeispiel ......................................... 262

5.3.1 Ausgangssituation und Zielsetzung ................. 2625.3.2 Training des Entscheidungsbaums –

Analyseschritt 1a ............................................ 2675.3.3 Training des Regressionsmodells –

Analyseschritt 1b ........................................... 2735.3.4 Anwendung der trainierten Modelle –

Analyseschritt 2 ............................................. 2755.4 Zusammenfassung ...................................................... 278

6 Neue Data-Mining-Verfahren für SAP NetWeaver BI ................................................... 281

6.1 Evolutionäre Algorithmen ........................................... 2816.1.1 Das Vorbild der Evolution .............................. 2826.1.2 Wie funktioniert ein evolutionärer

Algorithmus? ................................................. 285

Page 6: Martin Kießwetter, Dirk Vahlkamp

Inhalt

10

6.1.3 Erfolgreiche Anwendung und Modellierung ... 2896.1.4 Varianten evolutionärer Algorithmen ............. 292

6.2 Clusteranalyse mit Mutations-Selektionsverfahren ...... 2936.2.1 Modellierung des Mutations-

Selektionsverfahrens ...................................... 2936.2.2 Implementierung in SAP NetWeaver ............. 2956.2.3 Integration in den APD ................................. 3016.2.4 Ergebnisse des Clustering – Problem 6A ........ 304

6.3 Clusteranalyse mit Threshold Accepting ..................... 3076.3.1 Modellierung des Threshold-Accepting-

Verfahrens ..................................................... 3086.3.2 Implementierung in SAP NetWeaver ............. 3086.3.3 Ergebnisse des Clustering – Problem 6A ........ 309

6.4 Neuronale Netze ........................................................ 3106.4.1 Wie funktioniert ein neuronales Netz? ........... 3116.4.2 Erfolgreiche Anwendungen ........................... 312

6.5 Clusteranalyse mit einer selbstorganisierenden Karte (SOM) .............................................................. 3136.5.1 Wie funktioniert eine SOM? .......................... 3156.5.2 Implementierung in SAP NetWeaver ............. 3196.5.3 Ergebnisse des Clustering – Problem 6B ......... 3216.5.4 Ergebnisse des Clustering – Problem 6C ......... 3256.5.5 Ergebnisse des Clustering – Problem 6D ........ 328

6.6 Zusammenfassung ...................................................... 330

7 Ausblick .................................................................... 333

Anhang ........................................................................... 337

A Daten für das Fallbeispiel ..................................................... 339A.1 Daten des Integrationsbeispiels für das Problem 5C ... 339A.2 Funktionsbaustein Clustering Mutations-

Selektionsverfahren .................................................... 343A.3 Funktionsbaustein Clustering SOM ........................... 354

B Literaturverzeichnis .............................................................. 365B.1 Literaturempfehlungen ............................................... 365B.2 Quellen ..................................................................... 366

C Die Autoren ......................................................................... 369

Index ........................................................................................... 371

Page 7: Martin Kießwetter, Dirk Vahlkamp

11

Die rasante Entwicklung des SAP Business Warehouse zu einem zentralen Baustein in SAP NetWeaver 2004s ermög-licht eine komfortable Nutzung von Data-Mining-Verfahren in SAP NetWeaver BI. Gleichzeitig erfordern zunehmende Flexibilität und Geschwindigkeit in der Gestaltung von Geschäftsprozessen eine analytische Unterstützung durch Data-Mining-Verfahren.

1 Einleitung

Computergestützte Planung und Entscheidungsunterstützung rückendurch die zunehmende Globalisierung der Märkte und die enormansteigenden Mengen zu verarbeitender Daten immer stärker in dasZentrum des Handelns der Unternehmen. Innerhalb weniger Jahrehat die SAP AG auf diese Entwicklung reagiert. Das SAP BusinessInformation Warehouse (SAP BW) hat sich rasant von einer schlich-ten Berichtslösung für die ERP-Software der SAP zu einer umfassen-den und komplexen Suite für Business Intelligence entwickelt.

SAP NetWeaver 2004s

Mit der Technologieplattform SAP NetWeaver positioniert sich SAPzusätzlich nicht mehr nur als reiner Lösungsanbieter, sondern auchals Technologieanbieter. Besonders die Thematik Enterprise ServiceOriented Architecture (Enterprise SOA) – d. h. die betriebswirtschaftli-che Umsetzung einer serviceorientierten IT-Architektur – wird vonSAP mit allen inhaltlichen und technologischen Konsequenzen ent-schlossen verfolgt.

Von besonderer Bedeutung für die Themenstellung dieses Buches istjedoch der Umstand, dass SAP mit SAP NetWeaver 2004s einendeutlichen Entwicklungsschritt in der Bereitstellung von analyti-schen Businesswerkzeugen im Rahmen von Business Intelligencegemacht hat. Neben einer Erweiterung der Funktionalitäten desReporting-Werkzeugs Business Explorer (kurz BEx) kann SAP in Net-Weaver 2004s jetzt ein breites Spektrum an Entwicklungswerkzeu-gen anbieten, die eine effiziente Bereitstellung der durch BusinessIntelligence analysierten und aufbereiteten Informationen ermögli-

Page 8: Martin Kießwetter, Dirk Vahlkamp

12

Einleitung1

chen. Gleichzeitig haben auch die in SAP NetWeaver 2004s imple-mentierten Data-Mining-Verfahren einen hohen Reifegrad erreicht.

Geschichte desData Miningin SAP Net-

Weaver BI

Die ersten Data-Mining-Verfahren, die auf die Daten der SAP-Sys-teme zugreifen konnten, waren externe Verfahren von Drittanbie-tern. Über eine Third-Party-Schnittstelle konnten Data-Mining-Pro-dukte wie z. B. der Intelligent Miner von IBM an SAP BWangeschlossen werden. Sukzessiv wurden in SAP BW in den letztenJahren immer neue Data-Mining-Verfahren von SAP implementiert.Das Spektrum an Verfahren, die Möglichkeiten zum modulübergrei-fenden Einsatz und die Integration in grafische Entwicklungswerk-zeuge haben in SAP NetWeaver 2004s einen vorläufigen Höhepunkterreicht.

EinsatzgebieteData Mining

Die Einsatzgebiete von Data Mining erstrecken sich im geschäftli-chen Umfeld inzwischen auf viele Bereiche und Branchen. Eine häu-fige Anwendung findet Data Mining im Customer RelationshipManagement (CRM) und im Marketing. Mit den Verfahren des DataMining werden Kundenbeziehungen effizienter organisiert undeffektiv auf- und ausgebaut. Besonders in den Branchen Banken, Ver-sicherungen und Handel wird Data Mining bereits intensiv zurBewertung der finanziellen Situation eines Kunden, zur Ermittlungneuer Produkte und zur Analyse und Prognose des Kaufverhaltenseines Kunden verwendet.

Data Mining wird aber auch in vielen anderen Gebieten eingesetzt,z. B. zur Untersuchung von Krankheitsverläufen, zur Verbesserungder diagnostischen Früherkennung oder zur Auswertung von Satelli-tenaufnahmen, um die im jeweiligen Kontext wichtigen Inhalte auto-matisiert entdecken zu können.

Data Mining fürdas Internet

Ein stark wachsender weiterer Anwendungsbereich für Data Miningist das Internet. Wenn Sie im Internet schon einmal etwas gekaufthaben, z. B. ein Buch, wird Ihnen sicherlich aufgefallen sein, dassIhnen während und nach dem Kauf weitere Produkte angebotenwerden. Dieses Angebot wird Ihnen mit dem Titel Produkte, dieandere Kunden gekauft haben, die auch dieses Buch gekauft haben prä-sentiert. Hinter dieser Analyse steckt ein Data-Mining-Verfahren, dasaus allen Käufen die für Sie »interessantesten« Produkte zusammen-stellt, um Sie zu einem weiteren Kauf zu verführen.

Page 9: Martin Kießwetter, Dirk Vahlkamp

13

Einleitung 1

Text Mining in Spam-Filtern

Wenn Sie einen Spam-Filter zum Filtern unerwünschter E-Mailsinstalliert haben, haben Sie in dieser Software ein Data-Mining-Ver-fahren implementiert, das eine linguistische Analyse der an Siegeschickten E-Mails durchführt. Die Lösung dieser Aufgabenstellungerfolgt durch spezialisierte Verfahren des inzwischen eigenständigenForschungsgebiets des Text Mining.

Die Aufgaben, die mit Data Mining gelöst werden können, sind viel-fältig und facettenreich. In diesem Buch werden wir uns mit derAnwendung von Data-Mining-Verfahren zur Lösung von Aufgaben-stellungen in geschäftlichen Vorgängen befassen. Dazu werden wirdie in SAP NetWeaver BI implementierten Verfahren detailliert dar-stellen und anwenden.

Zielgruppe und Ziel des Buches

Das Buch ist sowohl für Anfänger als auch für Fortgeschrittene imBereich SAP NetWeaver BI geeignet. Die Beschreibungen und Erklä-rungen der Werkzeuge in SAP NetWeaver BI sind nicht nur fürAnwender von Data-Mining-Verfahren interessant, sondern könnenauch bei der Lösung anderer Analyseaufgaben sinnvoll eingesetztwerden. Da zur Anwendung der teilweise durchaus anspruchsvollenAlgorithmen in den Data-Mining-Verfahren auch ein entsprechendesHintergrundwissen benötigt wird, haben wir uns bemüht, bei derMotivation und Herleitung dieser Verfahren diese »so unkompliziertwie möglich und so mathematisch wie nötig« darzustellen. DiesesBuch soll kein Fachbuch nur für Data-Mining-Verfahren sein, son-dern soll Ihnen als Anwender die einfache und unkomplizierte Nut-zung von Data Mining und die nahtlose Integration in SAP NetWea-ver BI näher bringen. Dazu haben wir zusätzlich viele Beispieleaufgeführt, die Sie problemlos selbstständig durchführen können.

Aufbau des BuchesDieses Buch ist in fünf Hauptkapitel gegliedert:

In Kapitel 2, Aufgaben und Ziele des Data Mining, werden die Grund-lagen für alle weiteren Kapitel erläutert. Wir stellen Ihnen verschie-dene Prozesse zur Anwendung von Data Mining vor und gebenIhnen einen Überblick über die Verfahren, die in diesem Buchbeschrieben und angewandt werden. Zusätzlich haben wir in einemkleinen Exkurs die für eine Datenanalyse benötigten statistischenKennzahlen zusammengefasst und erklärt.

Kapitel 3, Werkzeuge des Data Mining in SAP NetWeaver BI, be-schreibt detailliert die Anwendung der für den Einsatz von Data

Page 10: Martin Kießwetter, Dirk Vahlkamp

14

Einleitung1

Mining benötigten Werkzeuge in SAP Net Weaver BI. Es handelt sicheinerseits um die Data Mining Workbench – ein Werkzeug zur Defi-nition Ihrer Data-Mining-Modelle – und andererseits um die Analy-seprozessdesigner-Workbench. Mit letzterem Werkzeug können Siekomfortabel in einer grafischen Benutzeroberfläche (ähnlich einemWorkflow) die Datenversorgung, die Berechnung eines Data-Mining-Modells und die Ergebnisaufbereitung steuern.

In Kapitel 4, Unüberwachtes Lernen, und Kapitel 5, Überwachtes Ler-nen, erläutern wir detailliert die Data-Mining-Verfahren von SAPNetWeaver BI. Diese Verfahren unterscheiden wir anhand der Cha-rakteristik des unüberwachten bzw. überwachten Lernens. Unüber-wachtes Lernen bedeutet für ein Verfahren die schwere Aufgabe,einen Sachverhalt zu analysieren, ohne dass vorab Zielwerte bekanntsind. Beim überwachten Lernen sind dagegen diese Zielwerte vorabbekannt. Dies kann z. B. bei Datensätzen einer Befragung die Infor-mation sein, ob ein Kunde ein Produkt gekauft hat oder nicht.

Kapitel 6, Neue Data-Mining-Verfahren für SAP NetWeaver BI,beschließt dieses Buch mit der Implementierung von zwei neuenData-Mining-Verfahren. Diese Verfahren wurden von uns prototy-pisch entwickelt, um Ihnen die Möglichkeiten zu zeigen, wie Sieindividuell eigene Verfahren in SAP NetWeaver BI entwickeln undwie Sie ein neues Verfahren in die bestehenden Werkzeuge in SAPNetWeaver BI integrieren können.

Den Abschluss des Buches bildet ein Ausblick auf die zukünftige Ent-wicklung des zunehmend analytisch geprägten Business Intelligence.Im Anhang finden Sie Anmerkungen, Listings zu den prototypischimplementierten Data-Mining-Verfahren sowie Literaturempfehlun-gen zu ausgewählten Themenstellungen.

Download vonwww.sap-press.de

Alle Beispiele, die wir in diesem Buch darstellen, können Sie bei SAPPRESS (www.sap-press.de) herunterladen.

Wir hoffen, dass dieses Buch eine anregende Lektüre für Sie seinwird und wir Ihnen neue Impulse und Sichtweisen zur Lösung vonProblemen aus dem geschäftlichen Umfeld vermitteln können.

Page 11: Martin Kießwetter, Dirk Vahlkamp

15

Einleitung 1

Danksagung

Wir möchten uns an dieser Stelle für die Unterstützung des bi2b-Teams bedanken, das uns bei der Bewältigung verschiedener Aufga-ben geholfen hat.

Ein besonderer Dank gilt Prof. Dr. Karl Kießwetter für das unermüd-liche Korrekturlesen und die hartnäckigen Diskussionen bei heiklenFragestellungen.

Das größte Dankeschön gebührt natürlich unseren Familien für dasVerständnis und die Unterstützung während der – parallel zum nor-malen Berufsalltag – immer bis tief in die Nacht dauernden Analyse-,Test- und Schreibphasen.

Vielen Dank, Leon und Luna, Elke und Jasmin!

Page 12: Martin Kießwetter, Dirk Vahlkamp

39

In diesem Kapitel geht es um die praktische Arbeit mit SAP NetWeaver BI. Zunächst stellen wir Ihnen die Werkzeuge vor, die uns SAP in SAP NetWeaver BI für den Einsatz von Data-Mining-Verfahren zur Verfügung stellt. Anschließend erfahren Sie, wie Sie ein Data-Mining-Verfahren anwenden können.

3 Werkzeuge des Data Mining in SAP NetWeaver BI

Die Güte eines Data-Mining-Verfahrens hängt maßgeblich von derQualität der Eingangsdaten ab. Aus diesem Grund gehören die Auf-bereitung, Zusammenfassung und Bereitstellung der Eingangsdatenzu den wichtigsten und schwierigsten Aufgaben im Data-Mining-Prozess.

Mithilfe der Analyseprozessdesigner-Workbench (APD Workbench)werden in SAP NetWeaver BI analytische Prozesse modelliert. DieAPD Workbench stellt hierfür einen Werkzeugkasten für die Bereit-stellung, Transformation und Analyse von Eingangsdaten sowie dieSpeicherung des Analyseergebnisses zur Verfügung. Zusätzlich wer-den mithilfe der APD Workbench die erstellten analytischen Pro-zesse verwaltet, ausgeführt und überwacht. Hierbei gilt es zu beach-ten, dass ein Analyseprozess nicht zwingend eine Data-Mining-Methode beinhalten muss, aber jede Data-Mining-Methode nur ineinem Analyseprozess ausgeführt werden kann.

Konfiguration und Verwaltung der einzelnen Data-Mining-Modelleerfolgen in SAP NetWeaver BI in der Data Mining Workbench (DMWorkbench). Die DM Workbench stellt einen speziellen Werkzeug-kasten mit unterschiedlichen Data-Mining-Methoden zur Verfügung,die entsprechend der individuellen Anforderungen angewandt wer-den können. Der Schwerpunkt der DM Workbench liegt im Bereichder Modellierung von Data-Mining-Verfahren, die in einem Analyse-prozess in der APD Workbench ausgeführt werden können.

Page 13: Martin Kießwetter, Dirk Vahlkamp

40

Werkzeuge des Data Mining in SAP NetWeaver BI3

In den folgenden Abschnitten werden die Funktionen der APDWorkbench und der DM Workbench dargestellt. Die APD Work-bench wird anhand eines einfachen Beispiels erläutert. Zusätzlichwerden Ihnen Möglichkeiten aufgezeigt, wie Sie Analyseprozesseder APD Workbench in die automatisierte Datenbewirtschaftungund Ablaufsteuerung integrieren können.

3.1 Die APD Workbench

Eigenschaften derAPD Workbench

Die APD Workbench dient zum Erforschen und Identifizieren vonversteckten und/oder komplexen Beziehungen in Datenstrukturen.Hierfür werden in der APD Workbench unterschiedliche Transfor-mationsmethoden und die Ansteuerung von Data-Mining-Verfahrenangeboten. Darüber hinaus zeichnet sich die APD Workbench durcheine einfache und intuitive Bedienbarkeit aus: Die zur Auswahl ange-botenen Funktionen können sehr einfach per Drag & Drop zu einemAnalyseprozess zusammengesetzt werden.

Eingangsdaten,Verarbeitungs-vorschrift und

Zielstruktur

Mit der APD Workbench können Sie jeden denkbaren Prozessablaufgestalten und eine oder mehrere Transformationen durchführen.Dabei geht es um die Verarbeitung von strukturierten Eingangsdaten(Datenquelle) mit einer definierten Verarbeitungsvorschrift (Transfor-mation) in eine Zielstruktur (Datenziel). Eine Verarbeitung kann nichtnur ein komplexes Data-Mining-Verfahren sein, sondern auch eineselbst programmierte ABAP-Routine, eine einfache Aggregation odereine Filterung von Daten.

Ein Analyseprozess verläuft in drei Prozessphasen, die in denAbschnitten 3.1.2 bis 3.1.4 genauer beschrieben werden:

1. DatenquelleIn diesem Schritt werden die Quellen, aus denen die zu analysie-renden Daten extrahiert werden, festgelegt.

2. TransformationIn diesem Schritt werden die Verarbeitungsvorschriften für dieAufbereitung und Analyse der Daten festgelegt.

3. DatenzielIn diesem Schritt wird definiert, wie und wo die Ergebnisdaten fürdie Präsentation und Analyse gespeichert werden.

Page 14: Martin Kießwetter, Dirk Vahlkamp

41

Die APD Workbench 3.1

Bevor wir auf diese Prozessschritte genauer eingehen, werden wiruns zuerst mit dem Aufbau und der Bedienung der APD Workbenchbeschäftigen.

3.1.1 Aufbau der APD Workbench

Erstellung per Drag & Drop

Die APD Workbench besteht aus einer intuitiven, grafischen Benut-zeroberfläche, die zur Erstellung, Ausführung und Überwachung dereinzelnen Analyseprozesse dient (Erstellung u. a. mit Drag & Drop).Die APD Workbench können Sie über die Transaktion RSANWBoder den Menüpfad Spezielle Analyseverfahren � Analyseprozessmodellieren aufrufen.

Aufbau der APD Workbench

Abbildung 3.1 gibt Ihnen einen Überblick über die APD Workbench.Sie ist in verschiedene Bereiche unterteilt:

� Menüleiste �

In der Menüleiste werden alle Standardfunktionen der APDWorkbench angeboten, um einen Analyseprozess zu bearbeiten:Anlegen, Ändern, Prüfen, Aktivieren, Löschen und Einplanen.

� Drucktastenleiste �

In der Drucktastenleiste finden Sie die wichtigsten Funktionen inForm von Icons, die Sie direkt ausführen können.

� Navigationsbereich �

Der Navigationsbereich besteht ebenfalls aus einer Drucktasten-

Abbildung 3.1 Die Analyseprozessdesigner-Workbench (APD Workbench)

1

2 3

5

6

4

Page 15: Martin Kießwetter, Dirk Vahlkamp

42

Werkzeuge des Data Mining in SAP NetWeaver BI3

leiste und einer hierarchischen Baumstruktur. In der Baumstruk-tur werden die einzelnen Analyseprozesse einer Anwendung(Kategorie) angezeigt. Mithilfe der Drucktastenleiste oder derrechten Maustaste können Sie Analyseprozesse innerhalb einerexistierenden Anwendung anlegen. Sie können in diesem Bereichauch nach einem bereits angelegten Analyseprozess suchen. Mit-hilfe der Funktionstaste Vollbild ein/aus können Sie den Navigati-onsbereich ein- und ausblenden.

� Modellierungsbereich �

Im Modellierungsbereich erstellen Sie per Drag & Drop den benö-tigten Analyseprozess.

� Kopfdaten �

Die Informationen zum aktuell ausgewählten Analyseprozess wer-den in den Kopfdaten angezeigt.

� Statuszeile �

In der Statuszeile werden Warnungen und Fehlermeldungenangezeigt, die bei der Aktivierung, Ausführung oder Änderungdes Analyseprozesses auftreten.

Nicht erweiterbar Eine Besonderheit im Navigationsbereich ist der Sachverhalt, dassdie bestehenden fünf Anwendungen von SAP fest vorgegeben wer-den und im Standard nicht veränderbar oder erweiterbar sind.

Anwendungen(Kategorien)

Derzeit liefert SAP folgende Anwendungen aus:

� CRM-Attribute füllen [CRM_ATTRIBUTES]

� Zielgruppen für BW-Umfragen anlegen [STATISFACTION_TGT]

� Berechnung der Wichtigkeiten [STATISFACTION_SVY]

� Prognose Modelltraining [RT_MDL_TRAIN]

� Allgemein [GENERIC]

Unterhalb der einzelnen Anwendungen können Sie einen beliebigenAnalyseprozess anlegen. Je nachdem, in welcher Anwendung Sie dastun, werden in Abhängigkeit von der Anwendung unterschiedlicheFunktionen für die Prozessgestaltung angeboten.

Sonderfunktionen In Abschnitt 3.2 zeigen wir Ihnen, wie Sie dennoch die Analysepro-zesse nach Ihren individuellen Vorstellungen strukturieren undgestalten können.

Page 16: Martin Kießwetter, Dirk Vahlkamp

43

Die APD Workbench 3.1

Nachfolgend werden wichtige Aspekte für die Verwaltung und Ein-stellung auf der Ebene des einzelnen Analyseprozesses erläutert.

Versionierungs-konzept

Das Versionierungskonzept (Objektversion) ermöglicht eine paral-lele Verwaltung von unterschiedlichen Einstellungen zu einem Ana-lyseprozess. Es können die folgenden Versionen existieren:

� Eine aktive Version liegt vor, wenn der Analyseprozess gespeichertund aktiviert wurde. Ein Analyseprozess kann nur mit dem Versi-onsstatus ausgeführt werden.

� Eine Content-Version liegt vor, wenn der Analyseprozess von SAPim Standard ausgeliefert wurde. Diese Version existiert parallelzur aktiven Version und dient nur zu einem Versionsvergleich.

� Eine überarbeitete Version liegt vor, wenn eine Veränderung aneinem bestehenden Analyseprozess vorgenommen und nurgespeichert wurde. Diese Änderung kann mit der aktiven oderContent-Version verglichen werden.

In den Kopfdaten zum aktuell ausgewählten Analyseprozess � (sieheAbbildung 3.1) werden der technische Name, die Bezeichnung, dieZuordnung zur Anwendung und die Version, d. h. der aktuelle Ver-sionsstatus, angezeigt.

TransportwesenIn der Menüleiste � sind die Funktionen Analyseprozess, Bearbei-ten, Springen, Hilfsmittel, Umfeld, System und Hilfe verfügbar.Über den Menübereich Umfeld können Sie direkte Absprünge zurData Mining Workbench, zur Data Warehousing Workbench etc.nutzen. Im Menübereich Hilfsmittel können Sie die Funktion XML-Analyseprozess-Export und -Import nutzen. Das Verfahren SAPChange and Transport System (CTS) steht ebenso zur Verfügung.

Performance-Einstellungen

Die Performance-Einstellungen für die Verarbeitung großer Daten-mengen im Analyseprozess finden Sie im Menü Springen � Perfor-mance Einstellungen (siehe Abbildung 3.2).

Abbildung 3.2 Performance-Einstellungen

Page 17: Martin Kießwetter, Dirk Vahlkamp

44

Werkzeuge des Data Mining in SAP NetWeaver BI3

Default-Einstellung

Als Default-Einstellung für die Performance wird bei der Neuanlageeines Analyseprozesses die Verarbeitung der kompletten Daten imHauptspeicher aktiviert. Diese Verarbeitungsart wird nur für kleineDatenmengen empfohlen. Bei größeren Datenmengen führt dieseEinstellung zu einem Speicherüberlauf, der unweigerlich einen Pro-grammabbruch1 verursacht. In diesem Fall deaktivieren Sie im Nach-hinein diese Einstellung.

TemporäreTabellen

Wenn die Performance-Einstellung deaktiviert ist, werden für dieVerarbeitung der Daten vom System Tabellen generiert, in denendiese Daten während der Verarbeitung nur temporär gespeichertwerden. Diese temporären Tabellen beginnen mit dem technischenNamen /BIC/000AP×. Im Menü Umfeld finden Sie die Funktion Tem-poräre Tabellen bereinigen, mit der Sie diese temporären Tabelleninklusive Inhalt löschen können (siehe Abbildung 3.3).

Mithilfe der Funktionstaste Eigenschaften � (siehe Abbildung 3.4)erhalten Sie Informationen zum Analyseprozess � in Bezug auf Ver-antwortlichen, Kennung, letzte Änderung etc.

AnwendbareFunktionen je

Anwendung

Im Bereich Funktionsauswahl werden alle zur Verfügung stehendenFunktionen für die Modellierung eines Analyseprozesses in Formvon Icons angeboten. Die Art und die Anzahl der zur Verfügung ste-henden Funktionen variieren von Anwendung zu Anwendung. InAbhängigkeit von der ausgewählten Anwendung werden nur diedieser Anwendung zugeordneten Funktionen angeboten.

1 Programmabbruch STORAGE_PARAMETERS_WRONG_SET mit Warning: EM-Memory exhausted: Workprocesses gets PRIV

Abbildung 3.3 Löschen temporärer Tabellen von Analyseprozessen

Page 18: Martin Kießwetter, Dirk Vahlkamp

45

Die APD Workbench 3.1

Legende der Funktionen

Die Funktionen sind entsprechend der drei AnalyseprozessphasenDatenquellen, Transformation und Datenziele in Gruppen unterteilt.Einen Überblick über die zur Verfügung stehenden Funktionenbekommen Sie durch die Anzeige der Legende im System oder inAbbildung 3.5. Die Data-Mining-Funktionen werden ausführlich inden Kapiteln 4, Unüberwachtes Lernen, und 5, Überwachtes Lernen,beschrieben. An dieser Stelle verzichten wir deshalb auf eineBeschreibung.

Besonderheiten/Einschränkungen

In der APD Workbench wird die sprachenabhängige Pflege der Textefür die Anwendungen nicht unterstützt. Hier müssen Sie sich im Vor-

Abbildung 3.4 Kopfdaten eines Analyseprozesses

1

2

Abbildung 3.5 Legende Datenquellen, Transformationen und Datenziele (ohne Data-Mining-Methoden)

Datenquellen

Attribute eines Merkmals lesen

Daten aus Datenbanktabelle lesen Daten aus Datei lesen

Daten ü ber Query lesen

Daten aus InfoProvider lesen

Transformationen

Datenmenge einschr ä nken

Daten sortieren

Spalten ausblenden (Projektion)

Daten aus mehreren Datenquellen zusammenf ü hren ( Join )

Daten aggregieren

Data-Mining-VerfahrenABAP Routine

Datensatz in Liste transformieren

Liste in Datensatz transformieren

Datenziele

Attribute eines Merkmals ä ndern

Data-Mining-Modelle trainieren

CRM-Attribute aktualisieren

Daten direkt in DataStore-Objekt schreiben

Page 19: Martin Kießwetter, Dirk Vahlkamp

46

Werkzeuge des Data Mining in SAP NetWeaver BI3

hinein überlegen, in welcher Sprache die Texte hinterlegt werden,da diese für jede Anmeldesprache angezeigt werden.

Im Bereich der automatischen Datenbewirtschaftung existiert zurzeitkein Prozesstyp für die Integration eines Analyseprozesses in eineProzesskette. Es besteht jedoch die Möglichkeit, einzelne Analyse-prozesse mit dem Prozesstyp ABAP-Programm in eine Prozesskettezu integrieren. Hierfür benutzten Sie den ABAP-Report RSAN_PROCESS_EXECUTE. Eine detaillierte Erläuterung der Anwendun-gen des ABAP-Reports RSAN_PROCESS_EXECUTE im Zusammen-hang mit Prozessketten erhalten Sie in Abschnitt 3.4.

Darüber hinaus sollten Sie beachten, dass Analyseprozesse nicht inder Datenflussanzeige aufgeführt werden und der Verwendungs-nachweis nur aus der Richtung APD Workbench zu anderen Objek-ten funktioniert.

In den folgenden Abschnitten erläutern wir Ihnen die einzelnenFunktionalitäten, die Sie für die Modellierung der Analyseprozess-phasen Datenquellen, Transformationen und Datenziele anwendenkönnen.

3.1.2 Eingangsdaten für eine Analyse: Datenquellen

In der ersten Analyseprozessphase definieren Sie die Datenbereit-stellung von strukturierten Eingangsdaten, die Sie im Analyseprozessverarbeiten wollen. Die Eingangsdaten können aus einer oder meh-reren Datenquellen bereitgestellt werden. Die zentrale Fragestellunglautet: Wie können Eingangsdaten aus verschiedenen Datenquelleneinem Analyseprozess zugeführt werden?

AnwendungAllgemein

Zuerst müssen Sie die Ihren Anforderungen entsprechende Anwen-dungskategorie identifizieren, da jede Anwendung in der APDWorkbench unterschiedliche Funktionen zur Modellierung einesAnalyseprozesses bereitstellt. In der Regel benutzen Sie die Anwen-dung Allgemein. Die anderen in der APD Workbench zur Verfügungstehenden Anwendungen verwenden Sie z. B. bei spezifischen Ana-lyseprozessen zur Füllung der CRM-Attribute, bei der Anlage vonZielgruppen für BW-Umfragen etc. Bei den nachfolgenden Erläute-rungen wird davon ausgegangen, dass Sie die Anwendung Allgemeinausgewählt haben.

Page 20: Martin Kießwetter, Dirk Vahlkamp

47

Die APD Workbench 3.1

Derzeit werden von SAP folgende Datenquellentypen angeboten:

� Attribute eines Merkmals lesen

� Daten aus InfoProvider lesen

� Daten über Query lesen

� Daten aus einer Datei lesen

� Daten aus Datenbanktabelle lesen

Zuordnung zu einer Anwendung

Die Anlage eines neuen Analyseprozesses kann aus der hierarchi-schen Baumstruktur heraus erfolgen oder über eine der Funktions-tasten. Im ersten Schritt werden Sie vom System aufgefordert, denanzulegenden Analyseprozess einer Anwendung zuzuordnen.Anschließend werden im Funktionsbereich die der Anwendungzugeordneten Funktionen für die Modellierung angeboten. Sie kön-nen per Drag & Drop einen einzelnen Datenquellentyp in denModellierungsbereich ziehen. Anschließend werden Sie vom Systemaufgefordert, die notwendigen Eigenschaften des ausgewähltenDatenquellentyps zu pflegen.

Mehr als eine Datenquelle

Jedem Analyseprozess muss mindestens eine Datenquelle zugeord-net werden. Sie können aber einem Analyseprozess problemlosmehr als eine Datenquelle zuordnen. Die Datenquellen werden imAnalyseprozess mit einem Quadrat gekennzeichnet, das sich auf demIcon des jeweiligen Datenquellentyps oben links befindet. Nachfol-gend machen wir Sie mit den Eigenschaften der einzelnen Daten-quellentypen vertraut.

Datenquellentyp Attribute eines Merkmals lesen

Der Datenquellentyp Attribute eines Merkmals lesen wird für dieDatenbereitstellung von Eingangsdaten aus einem Merkmal mitStammdaten benutzt. Sie können alle aktiven Stammdaten und diezugeordneten zeitabhängigen und zeitunabhängigen Attribute alsstrukturierte Eingangsdaten von einem ausgewählten Merkmallesen. Die Datenselektion erfolgt auf Basis der Stammdatentabellen/BI0/P bei BI-Content-Objekten oder /BIC/P bei individuellen Kun-denobjekten.

Registerkarte »Datenquelle«

Alle notwendigen Einstellungen werden auf der Registerkarte Daten-quelle vorgenommen (siehe Abbildung 3.6). Sie müssen eine Be-schreibung eingeben und das auszulesende Merkmal hinterlegen.

Page 21: Martin Kießwetter, Dirk Vahlkamp

48

Werkzeuge des Data Mining in SAP NetWeaver BI3

Stichtag Es werden die zum jeweiligen Ausführungszeitpunkt, d. h. die zumStichtag gültigen zeitabhängigen Attribute, gelesen. Die Bereitstel-lung der Eingangsdaten wird technisch über eine Tabellenverknüp-fung mit der Datenbankfunktion Left Outer Join realisiert. Als Ein-gangsdaten werden alle Datensätze der als »links« spezifiziertenStammdatentabelle /BI0/P oder /BIC/P gelesen. Hierbei sollten Sieberücksichtigen, dass auch der im Standard erzeugte Initialdatensatzder Stammdatentabelle /BI0/P oder /BIC/P gelesen wird.

Datenquellentyp Daten aus InfoProvider lesen

Der Datenquellentyp Daten aus InfoProvider lesen wird für dieDatenbereitstellung von Eingangsdaten aus einem InfoProviderbenutzt. Entsprechend der SAP BW-Kategorisierung von InfoProvi-dern können Sie die Eingangsdaten aus folgenden physischen odervirtuellen InfoProvidern lesen:

Physische InfoProvider

1. InfoCube

2. DataStore-Objekt (DSO)

3. InfoObject (Merkmal) als InfoProvider

Virtuelle InfoProvider

1. MultiProvider

2. InfoSet

Abbildung 3.6 Attribute eines Merkmals lesen – Datenquelle

Page 22: Martin Kießwetter, Dirk Vahlkamp

49

Die APD Workbench 3.1

Die Unterscheidung in physische und virtuelle InfoProvider basiertdarauf, ob der InfoProvider die Daten speichert oder nicht. Die phy-sischen InfoProvider besitzen eine oder mehrere Tabellen, in denenDaten gespeichert werden. Die virtuellen InfoProvider hingegenbesitzen keine Daten, sondern beziehen diese aus physischen Info-Providern zur Laufzeit.

Alle notwendigen Einstellungen werden auf den RegisterkartenDatenquelle und Feldauswahl vorgenommen.

Registerkarte »Datenquelle«

Auf der Registerkarte Datenquelle hinterlegen Sie eine Beschreibungund den auszulesenden InfoProvider (siehe Abbildung 3.7).

Registerkarte »Feldauswahl«

Auf der Registerkarte Feldauswahl werden in Abhängigkeit vom aus-gewählten InfoProvider alle verfügbaren Merkmale � (siehe Abbil-dung 3.8) und Kennzahlen angezeigt. Als Nächstes wählen Sie dienotwendigen Merkmale und Kennzahlen � aus und ordnen dieseden entsprechenden Gruppierungen zu. Die Eingangsdaten werdenauf Basis der ausgewählten Merkmale und Kennzahlen aus dem Info-Provider gelesen und in Form einer einfachen Tabelle bereitgestellt.

Keine Berücksich-tigung von Abhän-gigkeiten

Bei der Datenübertragung vom InfoProvider werden die Merkmaleund Kennzahlen als einzelne und unabhängige Felder verarbeitet.Das hat zur Folge, dass Abhängigkeiten der Merkmale oder Kennzah-len nicht berücksichtigt werden. Beispiele sind eine Klammerungoder die Zuordnung der Währungseinheit.

Abbildung 3.7 Daten aus InfoProvider lesen – Datenquelle

Page 23: Martin Kießwetter, Dirk Vahlkamp

50

Werkzeuge des Data Mining in SAP NetWeaver BI3

Aggregations-verhalten von

Kennzahlen

Die Aggregation (Verdichtung) der Kennzahlen über die ausgewähl-ten Merkmale erfolgt nach dem Standardaggregationsverhalten derKennzahl. Eine zugeordnete Ausnahmeaggregation wird nichtberücksichtigt. Um diese abbilden zu können, müssen Sie die benö-tigten Bezugsmerkmale bei der Auswahl berücksichtigen und ineinem nachfolgenden Analyseprozessschritt die Ausnahmeaggrega-tion nachbilden. Hierfür stehen die Transformationstypen Datenaggregieren oder ABAP-Routine zur Verfügung.

Weitere Aspekte, die Sie bei der Verwendung des DatenquellentypsDaten aus InfoProvider lesen berücksichtigen müssen, sind:

InfoCube Aus einem InfoCube werden nur diejenigen aktiven Daten selektiert,die einen verbuchten Request mit dem Status Request ist für dasReporting verfügbar besitzen. Für den Fall, dass der InfoCube einoder mehrere Aggregate einsetzt, wird vom System geprüft, ob dieAbfrage kongruent ist. Wenn ja, werden die Eingangsdaten aus demAggregat gelesen.

Merkmal alsInfo-Provider

Im Fall Merkmal als InfoProvider werden alle aktiven Daten aus derStammdatentabelle selektiert. Es muss darauf geachtet werden, dassder Attributsänderungslauf durchgeführt und beendet wurde, daansonsten nicht die aktuellen Daten selektiert werden.

Abbildung 3.8 Daten aus InfoProvider lesen – Feldauswahl

1

2

3

4

Page 24: Martin Kießwetter, Dirk Vahlkamp

51

Die APD Workbench 3.1

DataStore-ObjektBeim DataStore-Objekt (DSO) vom Typ Standard werden alle Datenaus der aktiven Tabelle selektiert. Beim DSO-Typ direktes Schreibenwerden alle gespeicherten Daten aus der aktiven Tabelle selektiert.

InfoObject-Typ »ausschließlich Attribut«

InfoObjects vom Typ ausschließlich Attribut werden nicht als Aus-wahlfeld vom InfoProvider dargestellt.

Bestands-kennzahlen

Beim Umgang mit Bestandskennzahlen muss berücksichtigt werden,dass das Bezugsmerkmal der zeitlichen Aggregation (Zeitbezugs-merkmal) immer mit als Merkmal ausgewählt wird. Wenn in derBestandsparameterpflege weitere gültigkeitsbestimmende Merkmaleausgewählt wurden, müssen diese ebenfalls zu den ausgewähltenMerkmalen hinzugefügt werden. Außerdem ist in diesem Zusam-menhang zu beachten, dass die Bestände für alle Perioden im ausge-wählten Zeitraum zurückgeliefert werden. In einem nachgelagertenFilter muss eine Einschränkung für das Zeitbezugsmerkmal hinter-legt werden. Dabei wird nur genau ein Intervall oder eine Liste vonEinzelwerten unterstützt. Andere Einschränkungen für das Zeitbe-zugsmerkmal führen beim Ausführen zu einem Fehler.

Datenquellentyp Daten über Query lesen

Der Datenquellentyp Daten über Query lesen wird für die Datenbe-reitstellung von Eingangsdaten aus einer BW Query benutzt. DasQuery-Ergebnis einer OLE DB for OLAP-fähigen BW Query wird alsEingangsdaten bereitgestellt. Bei der Verwendung dieses Datenquel-lentyps können Sie aufgrund der hohen Flexibilität bezüglich derQuery-Erstellung verschiedene Fehlermeldungen in der APD Work-bench erhalten. Im OSS finden Sie eine Reihe von Hinweisen, diesich auf die richtige Verwendung2 oder auf auftretende Performance-Probleme beziehen. Aus diesem Grund führen wir die wichtigstenHinweise für den Umgang mit dem Datenquellentyp auf.

OLE DB for OLAP

Die Query, die im Datenquellentyp verwendet werden kann, mussdie Query-Eigenschaft externen Zugriff auf die Query zulassen besit-zen. Diese Einstellung können Sie im Query Designer durch die Akti-vierung im Menü Queryeigenschaften � Erweitert � Freigabe für OLEDB for OLAP (ODBO) vornehmen.

2 Hinweise 794257; 751577; 919614

Page 25: Martin Kießwetter, Dirk Vahlkamp

52

Werkzeuge des Data Mining in SAP NetWeaver BI3

Alle notwendigen Einstellungen werden auf den RegisterkartenDatenquelle und Erweiterte Einstellungen vorgenommen.

Registerkarte»Datenquelle«

Auf der Registerkarte Datenquelle vergeben Sie eine Beschreibung.Im zweiten Schritt erfolgt die Auswahl der Query, die das Query-Ergebnis als Eingangsdaten bereitstellt (siehe Abbildung 3.9).

Query-Variante Denken Sie daran, dass Sie nur ODBO-fähige Queries verwendenkönnen. In der Praxis hat sich die Anlage einer separaten Rollebewährt, in der nur ODBO-fähige Queries gespeichert werden. Que-ries mit Variablen benötigen eine Variante. Die Variante wird imQuery-Monitor angelegt, den Sie mit der Transaktion RSRT aufrufen.Bevor Sie die Varianten anwenden können, müssen Sie mindestenszwei Hinweise beachten.3

Performance Wenn Sie mit dem Datenquellentyp große Eingangsdatenmengenverarbeiten wollen, raten wir Ihnen, sich vorher intensiv mit demUmgang sowie dem Performance-Verhalten zu beschäftigen. Von derBereitstellung des Query-Ergebnisses bis zur Datenselektion auseinem InfoProvider sind folgende Schnittstellen betroffen:

� Analyseprozess

� OLAP BAPI

� OLE DB for OLAP

� OLAP Prozessor

Abbildung 3.9 Daten über Query lesen – Datenquelle

3 Hinweise 999694; 973844; 605208

Page 26: Martin Kießwetter, Dirk Vahlkamp

53

Die APD Workbench 3.1

Zu diesem Thema finden Sie im OSS eine Reihe von nützlichen Hin-weisen, die Sie unbedingt beachten sollten.

Registerkarte »Erweiterte Einstellungen«

Im nächsten Schritt werden wir die Einstellungen erläutern, die Sieauf der Registerkarte Erweiterte Einstellungen vornehmen können.Hierbei handelt es sich ausschließlich um spezifische Performance-Einstellungen (siehe Abbildung 3.10).

Partitionierungs-merkmal

Durch die Aktivierung der Eigenschaft Datenbeschaffung in Paketeaufteilen können Sie über die weiteren Eigenschaften Partitionie-rungsmerkmal und Paketgröße die zu verarbeitenden Datenmengenaufteilen. Entsprechend der angegebenen Paketgröße werden ein-zelne Teilmengen mit Merkmalswerten des Partitionierungsmerk-mals erzeugt. Die Query wird für jedes der Pakete ausgeführt. Bei derWahl des Partitionierungsmerkmals und der Paketgröße müssen Sieabwägen zwischen einer geringen Anzahl von Paketen, also einergrößeren Belastung des Hauptspeichers, oder einer hohen Anzahlvon Paketen, also einem deutlich höheren Verwaltungsaufwand.

ParallelisierungZusätzlich zur eben genannten Möglichkeit können Sie die Datenbe-schaffung technisch parallelisieren durch die Einbindung mehrererzur Verfügung stehender Server. Die Last der Verarbeitung kannüber mehrere Server optimiert werden.

Datenquellentyp Daten aus einer Datei lesen

Der Datenquellentyp Daten aus einer Datei lesen wird für dieDatenbereitstellung von Eingangsdaten aus einer flachen Dateibenutzt. Das Verfahren unterstützt das Einlesen von Dateien imASCII-Format (American Standard Code for Information Interchange)oder Excel-CSV-Format (Comma Separated Value). Die Dateiablage

Abbildung 3.10 Daten über Query lesen – Erweiterte Einstellungen

Page 27: Martin Kießwetter, Dirk Vahlkamp

54

Werkzeuge des Data Mining in SAP NetWeaver BI3

kann entweder auf dem Applikationsserver oder dem lokalen Rech-ner (Client Workstation) erfolgen.

Alle notwendigen Einstellungen werden auf den RegisterkartenDatenquelle und CSV Datei Eigenschaften vorgenommen.

Registerkarte»Datenquelle«

Auf der Registerkarte Datenquelle müssen Sie eine Beschreibungeingeben und zwischen Client Workstation oder Applikationsserverwählen (siehe Abbildung 3.11).

Client Workstation Die Methode Daten lesen von Client Workstation können Sie fürdas Einlesen von Dateien anwenden, die sich auf Ihrem lokalenRechner befinden. Bei der Eingabe von Verzeichnispfad und Datei-name können Sie die F4-Taste nutzen, um zur einzulesenden Dateinavigieren zu können. Nach Abschluss der Auswahl wird automa-tisch der vollständige Pfad übertragen.

Nur in Testphaseanwenden

Die Methode Daten lesen von Client Workstation wird in der Regelnur in der Testphase benutzt. Der Grund hierfür ist der anwenderab-hängige Verweis auf das Verzeichnis inklusive Datei. Nehmen wiran, Sie hätten einen Analyseprozess erstellt und würden dafür eineDatei von Ihrem lokalen Rechner aus dem Verzeichnis C:\Temp\test01.txt einlesen. Würde Ihr Analyseprozess vom Arbeitsplatzeines Kollegen ausgeführt, versuchte dieser Analyseprozess, die ein-zulesende Datei vom Verzeichnis C:\Temp\test01.txt auf dem Rech-ner Ihres Kollegen einzulesen. Der Analyseprozess funktioniertsomit nur auf Ihrem Rechner bzw. auch auf dem Rechner des Kolle-gen, wenn das gleiche Verzeichnis und die gleiche Datei vorhandensind. Aus diesem Grund ist die Methode auch für die Hintergrund-verarbeitung unbrauchbar.

Abbildung 3.11 Daten aus einer Datei lesen – Client Workstation

Page 28: Martin Kießwetter, Dirk Vahlkamp

55

Die APD Workbench 3.1

ApplikationsserverFür die Hintergrundverarbeitung können Sie ausschließlich dieMethode Daten lesen vom Applikationsserver verwenden. Bei derMethode können Sie zwischen zwei Varianten auswählen, der Datei-ablage im AL11-Verzeichnis und der Verwendung von logischenNamen (siehe Abbildung 3.12).

Zuerst aktivieren Sie die Methode Daten lesen vom Applikationsser-ver. Anschließend müssen Sie die einzulesende Datei eingeben. Hierwerden Sie über die F4-Taste vom System unterstützt. Als Nächsteswerden Sie durch ein Pop-up aufgefordert, zwischen den VariantenAL11-Files oder Log. Filenamen zu wählen.

Variante AL11-Files

Mit der Variante AL11-Files können Sie eine Datei, die auf demApplikationsserver abgelegt ist, einlesen. Sie werden zum Einstiegs-bildschirm des AL11-Verzeichnisses geführt. Von dort können Sie indas Verzeichnis navigieren, in dem die einzulesende Datei abgelegtist. Durch einen Doppelklick auf die einzulesende Datei erfolgt dieAuswahl. Anschließend wählen Sie in einem Pop-up die FunktionFilename übernehmen aus, und der komplette Verweis wird in dasEingabefeld Datei übertragen.

Platzhalter (Variablen)

Die zweite Variante Log. Filenamen ist eine Erweiterung der erstenVariante mit der Verwendung von so genannten Platzhaltern (Vari-ablen) für die Verzeichnisangabe und den Dateinamen. Durch dieVerwendung von Platzhaltern können Sie wesentlich flexibler in

Abbildung 3.12 Daten aus einer Datei lesen – Applikationsserver

Page 29: Martin Kießwetter, Dirk Vahlkamp

56

Werkzeuge des Data Mining in SAP NetWeaver BI3

Bezug auf die Gestaltung von täglich einzulesenden Dateien agieren.Die Voraussetzung dafür ist die Existenz eines logischen Pfads undDateinamens im System, da der logische Pfad dem logischen Datei-namen zugeordnet wird. Nachfolgend ein Beispiel aus der Praxis:Täglich werden Vertriebskennzahlen in Form einer ASCII-Datei demAnalyseprozess zur Verarbeitung auf dem Applikationsserver bereit-gestellt. Damit die Verarbeitung automatisiert werden kann, werdenein logischer Pfad und ein logischer Dateiname verwendet.4

Logischer Pfad Für den logischen Pfad sind die in Tabelle 3.1 aufgeführten Parame-terwerte hinterlegt.

Auf dem Applikationsserver im Laufwerk C existiert ein Verzeichnismit dem Namen der R/3-Anwendung laut SY-SYSID und dem Unter-verzeichnis Updown, in dem Dateien abgelegt sind.

LogischerDateiname

Für den logischen Dateinamen sind die in Tabelle 3.2 genanntenParameterwerte hinterlegt.

4 Transaktion FILE

Parameter Parameterwerte

Logischer Pfad LOCAL_UPLOAD_SD

Bezeichnung Lokales Verzeichnis für Download und Upload

Syntax-Gruppe DOS (alle MS-DOS-gleichen Dateisysteme)

Physischer Pfad C:\<SYSID>\UPDOWN\<FILENAME>

Tabelle 3.1 Definition logischer Pfad

Parameter Parameterwerte

Logische Datei TAEGLICHE_VERTRIEBS_WERTE

Bezeichnung Tägliche Verkaufszahlen

Physische Datei SALEDY<DAY>

Datenformat ASC (ASCII-Format)

Arbeitsgebiet SD (Vertrieb)

Logischer Pfad LOCAL_UPLOAD_SD

Tabelle 3.2 Definition logischer Dateiname

Page 30: Martin Kießwetter, Dirk Vahlkamp

57

Die APD Workbench 3.1

Aus dem oben genannten logischen Verzeichnis kann regelmäßigeine Datei im ACSII-Format für den Analyseprozess des Vertriebseingelesen werden, die den Dateinamen, bestehend aus SALEDY unddem aktuellen Tagesdatum, besitzt.

Registerkarte »CSV Datei Eigen-schaften«

Mit den Einstellungen auf der Registerkarte CSV Datei Eigenschaftenkönnen Sie die Trennzeichen für den Datensatzseparator und dieTrennung Feldname/InfoObject verändern. Der Default-Wert fürden Datensatzseparator ist das Semikolon (;) und für die TrennungFeldname/InfoObject der Doppelpunkt (:) (siehe Abbildung 3.13).

DateiaufbauDie einzulesende Datei muss entsprechend den Systemanforderun-gen in der ersten Zeile eine Beschreibung der einzulesenden Strukturbesitzen. Die Strukturbeschreibung basiert auf den technischenNamen von InfoObjects, die jeweils durch den Datensatzseparator (;)voneinander getrennt aufgeführt werden.

DatenformateDie Verarbeitung der Datei erfolgt im System entsprechend derABAP-MOVE-Logik. Die einzulesenden Daten werden in typenge-rechte Felder übertragen und im internen Dateiformat als Eingangs-daten bereitgestellt. Bei der Zuweisung zwischen den Feldern derDatei und dem InfoObject findet eine automatische Typenkonvertie-rung statt. Beachten Sie, dass als internes Dateiformat zur Datums-darstellung YYMMDD geliefert werden muss und numerische Wertevon links mit Nullen bis zum Erreichen der Feldlänge automatischaufgefüllt werden. Als Beispiel:

11. November 2006 = 20061111achtstelliges numerisches Feld 5555 = 00005555

Gleichartige Feldtypen

Bei der Verarbeitung einer Datei, die aus mehreren gleichartigenFeldtypen besteht, können Sie problemlos mit der angebotenenTrennung Feldname/InfoObject arbeiten. In der Umsetzung folgtdaraus, dass Sie durch die Verwendung des Doppelpunkts innerhalb

Abbildung 3.13 Daten aus einer Datei lesen – CSV-Datei-Eigenschaften

Page 31: Martin Kießwetter, Dirk Vahlkamp

58

Werkzeuge des Data Mining in SAP NetWeaver BI3

der Strukturbeschreibung mit demselben InfoObject unterschiedli-che Feldnamen zuordnen können. Bei der Verwendung führen Siezuerst den Feldnamen an, dann den Doppelpunkt und anschließenddas InfoObject <Feldname>:<InfoObject>. In der Praxis ist dieseFunktion sehr hilfreich, wenn Sie beispielsweise eine Liste mit n glei-chen Textfeldern einlesen möchten.

0NUMBER;NAME:TEXT30;NACHNAME:TEXT30

Datenquellentyp Daten aus Datenbanktabelle lesen

Der Datenquellentyp Daten aus Datenbanktabelle lesen wird für dieDatenbereitstellung von Eingangsdaten aus einer transparentenTabelle oder über einen Datenbank-View benutzt. Bei diesem Ver-fahren können Sie alle im Data Dictionary aktivierten transparentenTabellen und Datenbank-Views lesen.

Registerkarte»Datenquelle«

Alle notwendigen Einstellungen werden auf der Registerkarte Daten-quelle vorgenommen. Zuerst geben Sie eine Beschreibung ein undanschließend den Namen der einzulesenden Tabelle oder des View(siehe Abbildung 3.14).

Data Dictionary Über die F4-Taste können Sie zur Auswahl der Tabellen oder derViews navigieren. Hierbei müssen Sie im Pop-up-Fenster den Tabel-lentyp auswählen, bevor die im Data Dictionary aktiven Tabellenoder Views zur Auswahl gelistet werden.

Abbildung 3.14 Daten aus Datenbanktabelle einlesen

Page 32: Martin Kießwetter, Dirk Vahlkamp

59

Die APD Workbench 3.1

Im nächsten Abschnitt beschreiben wir Ihnen die in der APD Work-bench angebotenen Transformationen für die Verarbeitung der Ein-gangsdaten.

3.1.3 Durchführung einer Analyse: Transformationen

In der zweiten Analyseprozessphase definieren Sie die Transformati-onen (Verarbeitungsvorschriften) für die Aufbereitung und die Ana-lyse der strukturierten Eingangsdaten, die Sie in der ersten Analyse-prozessphase eingelesen haben. Die zentrale Fragestellung lautet:Welche Transformationen sind in welcher Reihenfolge für die Aufberei-tung und die Analyse notwendig?

Derzeit werden die nachfolgenden Transformationstypen von SAPbereitgestellt:

� Datenmenge einschränken

� Daten aggregieren

� Daten aus mehreren Quellen zusammenführen (Join)

� Spalten ausblenden

� Daten sortieren

� Liste in Datensatz transformieren

� Datensatz in Liste transformieren

� ABAP-Routinen

Der Vollständigkeit wegen werden auch die dem Data-Mining-Bereich zugeordneten Transformationstypen aufgeführt:

� ABC-Klassifikation

� Weighted Table Scoring

� Regressionsanalyse

� Vorhersage mit Entscheidungsbaum

� Vorhersage mit Clustermodell

� Vorhersage mit Data-Mining-Methoden von Drittanbietern

Modellierung der Transformations-typen

Nachdem Sie Datenquellen in Ihren Analyseprozess integriert haben,ziehen Sie den einzubindenden Transformationstyp in den Modellie-rungsbereich. Zunächst verbinden Sie die zu verarbeitenden Ein-gangsdaten vom Datenquellentyp mit der einzubindenden Transfor-mation. Anschließend können Sie die Eigenschaften pflegen, indem

Page 33: Martin Kießwetter, Dirk Vahlkamp

60

Werkzeuge des Data Mining in SAP NetWeaver BI3

Sie einen Doppelklick auf das Icon ausführen oder mit der rechtenMaustaste das Kontextmenü öffnen und Eigenschaften auswählen.

Reihenfolgen vonTransformationen

Innerhalb eines Analyseprozesses können Sie Transformationen inbeliebiger Reihenfolge einbinden. Hierbei liefert jeweils die voran-gegangene Transformation die Eingangsdaten für die nachfolgendeTransformation. Die Transformationen werden im Analyseprozessmit einem Dreieck gekennzeichnet, das sich oben links auf dem Iconder Transformation befindet.

Nachfolgend machen wir Sie mit den einzelnen Eigenschaften derTransformationstypen vertraut.

Transformationstyp Datenmenge einschränken

Der Transformationstyp Datenmenge einschränken wird für dieErmittlung von Teilmengen benutzt. Die Transformation entsprichtder Definition von Selektionsbedingungen im SAP-System. InAbhängigkeit von der benötigten Teilmenge definieren Sie die not-wendigen Selektionseinschränkungen. Basierend auf den Eingangs-daten, wird die entsprechende Teilmenge ermittelt und dem nächs-ten Verarbeitungsschritt bereitgestellt.

Alle notwendigen Einstellungen werden auf den Registerkarten Feld-auswahl und Filterbedingungen vorgenommen.

Registerkarte»Feldauswahl«

Auf der Registerkarte Feldauswahl wählen Sie aus den verfügbarenFeldern � (siehe Abbildung 3.15) der Eingangsdaten die für die Defi-nition der Selektionsbedingung notwendigen Felder aus. Diese wer-den als zu filternde Felder � gekennzeichnet.

Abbildung 3.15 Datenmenge einschränken – Feldauswahl

12

Page 34: Martin Kießwetter, Dirk Vahlkamp

61

Die APD Workbench 3.1

Registerkarte »Filterbedingun-gen«

Anschließend hinterlegen Sie auf der Registerkarte Filterbedingun-gen für die einzelnen Selektionsfelder (Feldbezeichner) die entspre-chenden Abgrenzungswerte, so dass die benötigte Teilmenge ermit-telt werden kann (siehe Abbildung 3.16).

Bei der Anwendung des APD-Elements Filter können Sie nur die ein-fachen Selektionsbedingungen wie Einzelwert und Intervall anwen-den. Die Berücksichtigung der Selektionsbedingung Ausschließen(Exclude) wird als Selektionsbedingung nicht unterstützt. Es existiertjedoch ein Hinweis, mit dem Sie eine Selektionserweiterung vorneh-men können.5 Danach stehen Ihnen alle Selektionsoptionen zur Ver-fügung.

Transformationstyp Daten aggregieren

Der Transformationstyp Daten aggregieren wird für die Aggregation(Verdichtung) von Eingangsdaten benutzt. Mit der Methode6 kön-nen Sie Eingangsdaten über ausgewählte Felder verdichten. Inner-halb der Aggregationsebene können Sie den numerischen Feldernein jeweils unterschiedliches Aggregationsverhalten zuordnen. Der-zeit werden die folgenden Aggregationsverhalten unterstützt:

Aggregations-verhalten

� SUM: Alle Werte einer Gruppe mit identischen Werten in allenGruppierfeldern werden addiert, und die Summe wird an nachfol-gende Knoten weitergegeben.

� MIN: Nur das Minimum der Werte in der Gruppe wird weiterge-geben.

� MAX: Nur das Maximum der Werte in der Gruppe wird weiterge-geben.

Abbildung 3.16 Datenmenge einschränken – Filterbedingungen

5 Hinweis 9172156 Entspricht ungefähr der Datenbankfunktion GROUP-BY.

Page 35: Martin Kießwetter, Dirk Vahlkamp

62

Werkzeuge des Data Mining in SAP NetWeaver BI3

� AVG: Der Durchschnitt aller Werte einer Gruppe wird weitergege-ben.

� AV0: Der Durchschnitt aller Werte einer Gruppe wird weitergege-ben, allerdings bleiben Nullwerte in den Feldern bei dieser Aggre-gation unberücksichtigt.

� NOP: Keine Aggregation

Sonderaggrega-tionsverfahren

Zusätzlich bietet diese Transformation zwei Sonderaggregationsver-fahren an. Diese Sonderaggregationsverfahren können Sie für dieAnalyse oder den Ausweis der Anzahl der verdichteten Datensätze jeAggregationsebene verwenden:

� CNT: Anzahl der aggregierten Sätze

� CN0: Anzahl der aggregierten Sätze (nur Werte ungleich null)

Bei der Verwendung der oben aufgeführten verschiedenen Möglich-keiten zur Aggregation sollten Sie berücksichtigen, dass diese nichtbei jedem Feldtyp angewandt werden können. Beim Feldtyp Charac-ter kann z. B. nur das Aggregationsverhalten MIN und MAX verwen-det werden.

Registerkarte»Aggregation«

Alle notwendigen Einstellungen werden auf der Registerkarte Aggre-gation vorgenommen. Aus den verfügbaren Feldern � (siehe Abbil-dung 3.17) wählen Sie die benötigten Felder für die Definition desAggregats aus und ordnen diese Felder als Aggregationsfelder inklu-sive Aggregationsverhalten oder als Gruppierungsfelder zu.

Abbildung 3.17 Daten aggregieren – Aggregation

1

2

3

Page 36: Martin Kießwetter, Dirk Vahlkamp

63

Die APD Workbench 3.1

Aggregation ohne Aggregationsfelder

Bei den Aggregationsverfahren können Sie auch eine Aggregationohne Zuordnung eines Aggregationsfeldes definieren. Die Aggrega-tion oder Gruppierung wird dann nur über die Gruppierungsfelderdurchgeführt. Bei der Anwendung sollten Sie berücksichtigen, dassnur die ausgewählten Gruppierungs- oder Aggregationsfelder demnachfolgenden Verarbeitungsschritt zur Verfügung gestellt werden.

Transformationstyp Daten aus mehreren Quellen zusammenführen

Der Transformationstyp Daten aus mehreren Quellen zusammen-führen (Join) wird zur Verknüpfung von zwei Eingangsdatenmengenbenutzt. Die Verknüpfung erfolgt auf Basis der DatenbankfunktionJoin.

Registerkarte »Verknüpfung«

Alle notwendigen Einstellungen werden auf der Registerkarte Ver-knüpfung vorgenommen (siehe Abbildung 3.18). Die Bearbeitungerfolgt mit einer grafischen Benutzeroberfläche, in der die beidenEingangsdatensätze als Tabellen angezeigt werden. Sie müssen dieDatenfelder, die dem nächsten Verarbeitungsschritt zur Verfügunggestellt werden sollen, markieren. Danach definieren Sie die Ver-knüpfung der Datenbestände, indem Sie per Drag & Drop die Feldermiteinander verbinden.

Als Default-Verbindungsart wird immer ein Inner Join angewandt.Diese Verbindungsart können Sie durch Positionierung auf der Ver-bindungslinie im Kontextmenü ändern. Als Alternative wird die Ver-bindungsart Outer Join angeboten.

Join-FunktionDie Join-Funktion wird in ABAP mit der Sort-Merge-Join-Logik ver-arbeitet. Das bedeutet, dass zuerst die Datenmenge der ersten Daten-

Abbildung 3.18 Daten aus mehreren Quellen zusammenführen (Join) – Verknüpfung

Page 37: Martin Kießwetter, Dirk Vahlkamp

64

Werkzeuge des Data Mining in SAP NetWeaver BI3

quelle gelesen und gemäß den Feldern der Join-Bedingung sortiertwird. Als Nächstes wird die zweite Datenquelle nach dem gleichenVerfahren verarbeitet, und dann erst erfolgt die Zusammenführung(Merge) beider Mengen als Inner oder Outer Join.

Inner Join Der Inner Join, auch als Equivalent Join bekannt, liefert diejenigenDatenfelder als Ergebnismenge zurück, deren Verbindung zwischenden beiden Tabellen eineindeutig ist. In dem Beispiel aus Abbildung3.18 werden somit nur die Datenfelder aus den beiden Tabellen wei-tergereicht, zu denen es in beiden Tabellen einen Datensatz mit demgleichen Kalenderjahr gibt.

Left Outer Join Bei der Anwendung des Left Outer Join werden entsprechend derInklusionsverknüpfung alle Datensätze der linken (ersten) Tabelle alsErgebnismenge ausgegeben, und zwar auch dann, wenn keine Ver-knüpfung zur zweiten Tabelle identifiziert wird. Bei dem Datensatzohne Verknüpfung werden die Datenfelder der zweiten Tabelle mitdem Wert Initial gefüllt.

Transformationstyp Spalten ausblenden

Der Transformationstyp Spalten ausblenden wird für das Ausblen-den von Feldern und die Umbenennung von Feldnamen sowie Tex-ten benutzt.

Alle notwendigen Einstellungen werden auf den Registerkarten Feld-auswahl und Felder umbenennen vorgenommen.

Abbildung 3.19 Schematische Darstellung des Inner und Outer Join

Page 38: Martin Kießwetter, Dirk Vahlkamp

65

Die APD Workbench 3.1

Registerkarte »Feldauswahl«

Auf der Registerkarte Feldauswahl können Sie die Zuordnung dereinzelnen Felder in zu übernehmende Felder � (siehe Abbildung3.20) und nicht zu übernehmende Felder vornehmen.

Registerkarte »Felder umbe-nennen«

Anschließend können Sie auf der Registerkarte Felder umbenennen(siehe Abbildung 3.21) die Umbenennung der ausgewählten Feldervornehmen.

Transformationstyp Daten sortieren

Der Transformationstyp Daten sortieren wird für die Strukturierungsowie Sortierung der Eingangsdaten benutzt. Dies ist z. B. dann hilf-reich, wenn Sie eine Struktur inklusive Sortierung definieren möch-ten, um ein Zwischenergebnis im Analyseprozess besser auswertenzu können.

Registerkarte »Sort«

Alle notwendigen Einstellungen werden auf der Registerkarte Sortvorgenommen. Aus den verfügbaren Feldern � (siehe Abbildung

Abbildung 3.20 Spalten ausblenden – Feldauswahl

1 2

Abbildung 3.21 Spalten ausblenden – Felder umbenennen

Page 39: Martin Kießwetter, Dirk Vahlkamp

66

Werkzeuge des Data Mining in SAP NetWeaver BI3

3.22) definieren Sie die Sortierung, indem Sie alle notwendigen Sor-tierfelder auswählen �. Je Sortierfeld können Sie die Sortierung derWerte als absteigend oder aufsteigend festlegen.

Transformationstyp Liste in Datensatz transformieren

Der Transformationstyp Liste in Datensatz transformieren wird fürdie Transformation einer Liste in einen flachen Datensatz benutzt.Entsprechend einer definierten Transformationslogik werden dieZeilen in Spalten transponiert.

Registerkarte»Definition«

Alle notwendigen Einstellungen werden auf den Registerkarten Defi-nition, Details und Erweiterte Einstellungen vorgenommen. Auf derRegisterkarte Definition können Sie aus den verfügbaren Feldern �

(siehe Abbildung 3.23) alle für die Transponierung relevanten Felderauswählen und entsprechend der Verwendung als Transformations-felder � oder Transponierfelder � den Gruppen zuordnen.

Transformations-felder und Trans-

ponierfelder

In Abhängigkeit von den Merkmalswerten der Transformationsfel-der werden die Daten der Transponierfelder in die Ausgabestrukturtransponiert. Jede Kombination eines Merkmalswertes mit einemTransformationsfeld zum Transponierfeld wird in ein neues Feld inder Ausgabestruktur übertragen. Das neue Feld hat die gleiche tech-nische Definition wie das Transponierfeld. Die Werte aller nicht aus-gewählten Felder werden ohne Änderung übertragen.

Abbildung 3.22 Daten sortieren – Sort

2 1

Page 40: Martin Kießwetter, Dirk Vahlkamp

67

Die APD Workbench 3.1

Registerkarte »Details«

Anschließend definieren Sie den eben beschriebenen Sachverhalt aufder Registerkarte Details (siehe Abbildung 3.24). Hier wird für jedegewünschte Kombination aus einem Merkmalswert des Transforma-tionsfeldes und einem Transponierfeld die Transformation in einneues Feld einer flachen Datensatzstruktur durchgeführt.

Registerkarte »Erweiterte Ein-stellungen«

Auf der Registerkarte Erweiterte Einstellungen (siehe Abbildung3.25) pflegen Sie die Fehlerbehandlung für den Fall, dass Merkmals-werte eines Transformationsfeldes fehlen sollten. Hier können Siezwischen den Optionen wählen, ob der gesamte Zieldatensatz igno-riert oder in das Transponierfeld ein Initialwert eingestellt wird.

Abbildung 3.23 Liste in Datensatz transformieren – Definition

3 1

2

Abbildung 3.24 Liste in Datensatz transformieren – Details

Page 41: Martin Kießwetter, Dirk Vahlkamp

68

Werkzeuge des Data Mining in SAP NetWeaver BI3

Transformationstyp Datensatz in Liste transformieren

Als Pendant zum eben beschriebenen Transformationstyp Liste inDatensatz transformieren erzeugt der Transformationstyp Daten-satz in Liste transformieren aus einem flachen Datensatz eine Liste.Entsprechend der definierten Transformationslogik werden sichwiederholende Spalten einer Tabelle in mehrere Zeilen transponiert.

Registerkarte»Definition«

Alle notwendigen Einstellungen werden auf drei Registerkarten(siehe Abbildung 3.26) vorgenommen. Auf der Registerkarte Defini-tion können Sie aus den Gruppierungsfeldern � alle relevanten Fel-der auswählen, die für die Definition der Transformationsregel �

benötigt werden.

Registerkarte»Transformation«

Als Nächstes können Sie auf der Registerkarte Transformation (sieheAbbildung 3.27) das Transformationsfeld und die zu füllendenTransponierfelder definieren.

Registerkarte»Details«

Als letzte Information können Sie auf der Registerkarte Details (sieheAbbildung 3.28) die Ausprägungen und die entsprechenden Zuord-nungen der zu transformierenden Felder zu den Transformationsfel-dern sowie dem zugehörigen Transponierfeld definieren.

Abbildung 3.25 Liste in Datensatz transformieren – Erweiterte Einstellungen

Abbildung 3.26 Datensatz in Liste transformieren – Definition

1 2

Page 42: Martin Kießwetter, Dirk Vahlkamp

69

Die APD Workbench 3.1

Bei der Definition der Transformationsregeln müssen Sie bedenken,dass der Typ des Quellfeldes mit dem Typ des Transponierfeldesübereinstimmen oder dass eine gängige ABAP-Konvertierungsregelberücksichtigt werden muss.

Transformationstyp ABAP-Routine

Der Transformationstyp ABAP-Routine wird für die Definition einerindividuellen Transformationsmethode benutzt. Dieser Transforma-tionstyp ist die flexibelste Art, eine Transformation innerhalb desAnalyseprozesses zu definieren. Mit diesem Transformationstypkönnen Sie die Eingangsdaten in die für Sie geeignete Ausgangs-struktur transformieren, indem Sie die Transformation in ABAP pro-grammieren.

Registerkarte »Allgemein«

Die notwendigen Einstellungen können Sie auf den RegisterkartenAllgemein, Quellfelder, Zielfelder und Routine (siehe Abbildung3.29) vornehmen. Auf der Registerkarte Allgemein hinterlegen Sie

Abbildung 3.27 Datensatz in Liste transformieren – Transformation

Abbildung 3.28 Datensatz in Liste transformieren – Details

Page 43: Martin Kießwetter, Dirk Vahlkamp

70

Werkzeuge des Data Mining in SAP NetWeaver BI3

eine Beschreibung. Auf der Registerkarte Quellfelder können Sie ausdem Feldvorrat � alle Felder zuordnen, die Sie entweder als Grup-pierungs- � oder Quellfelder � benötigen.

Gruppierungs- undQuellfelder

Die Gruppierungsfelder werden so unverändert an die Ausgangs-struktur übertragen. Mithilfe der Gruppierungsfelder können Sieeine Gruppe von Datensätzen mit gleichen Werten zusammenfassen.Die Quellfelder können Sie innerhalb der ABAP-Routine transfor-mieren. Diese können anschließend als Zielfelder definiert werdenund stehen somit der Ausgangsstruktur zur Verfügung.

Registerkarte»Zielfelder«

Auf der Registerkarte Zielfelder (siehe Abbildung 3.30) können Siezusätzliche Felder definieren, die innerhalb der ABAP-Routine mitWerten versorgt werden. Die Zielfelder sind zusätzliche Felder, dieeine Erweiterung der Ausgangsstruktur bedeuten.

Abbildung 3.29 ABAP-Routine – Quellfelder

1 2

3

Abbildung 3.30 ABAP-Routine – Zielfelder

Page 44: Martin Kießwetter, Dirk Vahlkamp

71

Die APD Workbench 3.1

Registerkarte »Routine«

Auf der Registerkarte Routine (siehe Abbildung 3.31) können Sieschließlich Ihre individuelle Transformation auf Basis von ABAP pro-grammieren.

Zur Verfügung stehende Strukturen

Innerhalb der ABAP-Routine können Sie auf folgende Strukturenzugreifen:

� IS_GROUP enthält die Struktur mit den Gruppierungsfeldern.

� IT_SOURCE enthält die Eingangstabelle ohne die Gruppierungs-felder.

� ET_TRAGET entspricht der Ausgabetabelle der Routine. DieseTabelle muss in der Routine gefüllt werden. Sie wird nach Beendi-gung der Routine wieder um die Spalten mit den Gruppierungsfel-dern erweitert.

Das ABAP-Coding fügen Sie innerhalb des LOOP-Statements ein, dasauf der internen Tabelle ausgeführt wird. Bei der Programmierungmüssen Sie beachten, dass die Reihenfolge der Datenpakete, der Fel-der und der Datensätze in den Datenpaketen nicht garantiert werdenkann. Zusätzlich dürfen Sie keine Daten über globale Variablen zwi-schen verschiedenen Aufrufen von Routinen austauschen.

Abbildung 3.31 ABAP-Routine – Routine

Page 45: Martin Kießwetter, Dirk Vahlkamp

72

Werkzeuge des Data Mining in SAP NetWeaver BI3

Beim Einsatz des APD-Elements ABAP-Routine sollten Sie auf jedenFall berücksichtigen, dass nicht alle ABAP-Anweisungen unterstütztwerden, beispielsweise LIKE. Zusätzlich gibt es keine Möglichkeit,für die Kontrolle im Fehlerfall eine Meldung auszugeben. Die feh-lende Funktion kann jedoch durch die Implementierung von Hin-weis 826591 eingefügt werden.

3.1.4 Ergebnisdaten einer Analyse: Datenziele

In der letzten Analyseprozessphase definieren Sie das Datenziel (Ziel-struktur), in dem die transformierten und aufbereiteten Daten ausder zweiten Analyseprozessphase gespeichert werden. Die zentraleFragestellung lautet: Wie werden die Ergebnisdaten in einem Datenzielfür die Präsentation oder Analyse gespeichert?

Derzeit sind folgenden Basis-Datenzieltypen verfügbar:

� Attribute eines Merkmals ändern

� DataStore-Objekt schreiben (DSO)

� CRM-Attribute aktualisieren

Die Datenzieltypen aus dem Data-Mining-Bereich sind:

� Entscheidungsbaum trainieren

� Clustermodell trainieren

� Assoziationsanalysemodell anlegen

� Scoring-Modell trainieren

� Data-Mining-Methoden von Drittanbietern trainieren

Modellierung derDatenzieltypen

Nachdem Sie die zweite Modellierungsphase Transformationenerfolgreich durchgeführt haben, werden die Ergebnisdaten vom letz-ten Transformationsprozesselement im Datenziel gespeichert. Inner-halb eines Analyseprozesses darf nur ein Datenziel verwendet wer-den. Dies bedeutet, dass alle Datenquellen innerhalb des Analyse-prozesses konsolidiert werden müssen.

Reihenfolgen Dem Analyseprozess ordnen Sie ein Datenziel zu und pflegen dessenEigenschaften. Anschließend verbinden Sie per Drag & Drop dasDatenziel mit der letzten Transformation. Danach können Sie perDoppelklick auf die Verbindungslinie oder über das Kontextmenüdie Fortschreibungsregel (Mapping: Ergebnisdaten -> Datenziel)

Page 46: Martin Kießwetter, Dirk Vahlkamp

371

Index

A

ABAP-Report 331Abbruchbedingung

Mindestanzahl Sätze pro Blatt 236Mindestgenauigkeit auf Blattebene 236

ABC-Analyse 29, 176, 264, 268ABC-Ausgabefelder 189ABC-Klassifikationsmodell 189Ablauf 180absoluter Wert 180Anwendungsbeispiele 177Anzahl des klassifizierenden Datenobjekts

181Berechnungszusammenfassung 191Durchführung 185Felder 182Grundüberlegungen 176Konfiguration 182kumuliert Kriterium 181kumuliert Objekt 181Parameter 183Pareto 176relativer Wert 180univariat 178Werte des Klassifikationskriteriums 181Zuordnung Eingabefelder 189Zweifache Durchführung 178

Abhängigkeitsentdeckung 27Ablaufschema 320Analyseaufgabe 27, 38Analyseprozessdesigner-Workbench

(ADP Workbench) 26, 38, 39, 40, 147, 335Monitoring 132Performance-Einstellungen 43Prozessphasen 40Transportwesen 43

Analytische Services 336Anpassungsfähigkeit der Prozess-

gestaltung 333Anwendungen (Kategorien) 42

Anwendungshierarchien 114, 120Applikationstypen 116SAP-Standardanwendungen 113

APD Workbench � Analyseprozess-designer-Workbench

Assoziationsanalyse 28, 207Abhängigkeiten 207Ablauf 209Anwendungsbeispiele 208Apriori-Algorithmus 211Assoziationsregel 210Beispiel-Berechnung 212Durchführung 215Felder 214Große Positionskombinationen 220Item 209Konfidenz 210Konfiguration 213Lift 211Modellergebnisse 218Monotonie-Eigenschaft 211Parameter 215Support 210Transaktion 210

Aufbau des Buches 13

B

Business Intelligence 20Business Performance Management 333Business Process Platform (BPP) 334,

335Business-Intelligence-Phasenmodell 21

C

Chromosomen 283Clusteranalyse 30, 149, 293, 305, 343

Ähnlichkeit 152Auswahl Felder für Vorhersage 174Clustering-Modell trainieren 168dichte-basierend 159Distanzfunktion 152Eingabefelder zuordnen 174Euklidische Distanz 152Felder 160Hierarchische Verfahren 158k-means 157

Page 47: Martin Kießwetter, Dirk Vahlkamp

372

Index

Kompaktheit 152, 155Konfiguration 159Lp-Metrik 153Manhattan-Distanz 152Modellergebnisse anzeigen 169Neuronale Netze 159Parameter 160Partitionierendes Verfahren 156, 158Qualität der Cluster 170Report EA 343Report SOM 354Vorhersage mit Clustermodell 168, 173

Clusterverfahren 326Computergestützte Planung und

Entscheidungsunterstützung 11CRISP-DM-Prozessmodell 22, 24Customer Relationship Management 12

D

Data Dredging 18Data Mining 12, 17, 26Data Mining Workbench (DM Work-

bench) 26, 39, 123, 147Data-Mining-Modelle 125, 127Modellergebnisse 130Wertetypen 128

Data Warehouse 22Database Exploration 18Data-Mining-Prozess 21Data-Mining-Verfahren 12Datenanalyse 17, 32, 38Datenbewirtschaftung 130Datengetriebenes BI 334Datenquellen 46

Attribute eines Merkmals lesen 47Daten aus Datenbanktabelle lesen 58Daten aus einer Datei lesen 53Daten aus InfoProvider lesen 48Daten über Query lesen 51

Datenziele 72Attribute eines Merkmals ändern 73CRM-Attribute aktualisieren 76DataStore-Objekt schreiben 75

Dichtefunktion 35Diskrete Merkmale 33DM Workbench � Data Mining

Workbench

Download 14Durchschnitt 33

E

Enterprise Performance Management (EPM) 333, 334

Enterprise SOA 11, 333, 335Entscheidungsbaum 29, 225, 265, 268,

272, 278Anwendungsbeispiel 226Aufbau 227Bewertungsmodus 242Blätter 227Diskretisieren 234Durchführung 237Entropie 229, 230Entscheidungsbaum trainieren 240Erweiterte Einstellungen 236Felder 233Güte 229Informationsgewinn 229, 230Kanten 227Klassifikation 225Knoten 227Konfiguration 233Overfitting 232Parameter 233Pruning 232, 236Sampling 235Split 228, 231Training 229Trainingsprozess 235Vorhersagbar 233

Erwartungswert 33Evolution 282, 284Evolution von SAP NetWeaver BI 333Evolutionäre Algorithmen 30, 281, 331Evolutionsstrategien 285Evolutionstheorie 283Evolutionsverfahren 292Extraktion, Transformation

und Loading 26

F

Fitness 285, 295, 300, 309

Page 48: Martin Kießwetter, Dirk Vahlkamp

373

Index

G

Generation von Lösungen 282genetische Variationen 284genetischer Algorithmus 292genetischer Vektor 288Genotyp 283Gestaltung von Geschäftsprozessen 11Gewinnerneuron 316, 318Grundlagen 13

H

Hintergrundverarbeitung 133

I

Information Discovery 18Integrierte Analytik 333Integriertes Gesamtbeispiel 262, 279Inversion 287, 288, 295, 299, 307

K

KDD-Prozess 19KDD-Prozessmodell 22, 24, 25, 38Klassifikationsverfahren 27Knowledge Discovery in Databases 17,

18kombinatorischer Raum 285

L

Lagemaße 33Lernvorgang 311, 315Lineare Regression 264, 273, 274Literaturempfehlungen 14lokales Suboptimum 289, 307

M

Median 33Modellergebnisse anzeigen 240Mustererkennung 311Mutation 284, 287, 295, 298, 307Mutations-Selektionsverfahren 292,

305, 307, 343

N

Nachbarneuron 316Nachbarschaft 315Nachkommenvektor 288Neuron 311neuronales Netz 281, 311Normalverteilung 35

O

OLAP 21Online Analytical Processing 21

P

Phänotyp 283Plausibilitätsbetrachtungen 282Postprocessing 26Preprocessing 26, 38Problem 4A 163Problem 4B 185, 187, 188, 189, 191Problem 4C 202Problem 4D 216Problem 5A 237Problem 5B 257Problem 5C 262, 339

Ausgangsdaten 342Trainingsdaten 339, 341

Problem 6A 293, 304, 309Problem 6B 321, 323Problem 6C 325Problem 6D 328, 329Prozesskette 143, 148

Prozesstyp ABAP-Routine 143Prozessmodell 17, 19

von Fayyad et al 24

Q

Quantile 35Quartile 33

R

Regressionsanalyse 29, 243, 278Abhängigkeit 243Anwendungsbeispiel 245Berechnung 246

Page 49: Martin Kießwetter, Dirk Vahlkamp

374

Index

Bestimmtheitsmaß 249Felder 254Güte 248Gütekennzahl I 249Kausalität 244, 245Konfiguration 253Korrelation 243linear 244Methode der kleinsten Quadrate 247Modellierung 250Multiple Regression 250nicht linear 244, 252Parameter 254Regressionsgerade 246, 247, 275Scoring-Modell trainieren 258Spline 252Transformation 251

Rekombination 284, 287Reproduktion 287

S

SAP NetWeaver 2004s 11, 12SAP xApps Analytics 333, 335Schiefheit einer Verteilung 37Scoring-Verfahren 29, 193, 266, 267,

276Ablauf 195Anwendungsbeispiele 194Behandlung fehlender Werte 198Behandlung von Ausreißern 198Durchführung 202Extrapolation 201Felder 197Gewichtung des Modellfelds 199Konfiguration 197Konstante Extrapolation 200Parameter 198Partial Score 195Partialgewicht 198RFMR-Scoring 194Schwellenwert 198Scorewert 195stückweise konstant 198Weighted Table Scoring 206

Segmentierung 28Selbstorganisationsprozess 282Selektion 284

Selektionsbedingung 308Selektionsvorschrift 289, 307Self Organizing Map (SOM) 30, 281,

313, 314, 326, 330, 354Simulated Annealing 292Sinnessignal 313Sintflut-Methode 292SOM � Self Organizing Map (SOM)Spektrum der Data-Mining-Verfahren

27Standardabweichung 36Stetige Merkmale 33Steuerungsprozesse 333stimulierten Regionen 313Streuungsmaße 36strukturbildend 291Survival of the Fittest 281

T

TA � Threshold-Accepting-Verfahren (TA-Verfahren)

Technologieplattform 11Text Mining 13Threshold-Accepting-Verfahren (TA-Ver-

fahren) 292, 307Toleranzschwelle 307topologische Eigenschaften 314, 324Transformationen 59

ABAP-Routine 69Daten aggregieren 61Daten aus mehreren Quellen zusammen-

führen 63Daten sortieren 65Datenmenge einschränken 60Datensatz in Liste transformieren 68Liste in Datensatz transformieren 66Spalten ausblenden 64

Traveling-Salesman-Problem (TSP) 286TSP � Traveling-Salesman-Problem (TSP)

U

überwachtes Lernen 28Unternehmensplanung und -steuerung

333unüberwachtes Lernen 28, 315

Page 50: Martin Kießwetter, Dirk Vahlkamp

375

Index

V

Varianz 37Verarbeitungsart 161Verteilungsfunktion 35Visual Composer 335

W

Werkzeuge in SAP NetWeaver BI 14Wertebereich 161

Hoch 161Wert 161

WertetypClassification Criterion 182Classified Object 183diskret 198, 233Gewichtung der Transaktion 214Grouping-Attribute 183Position 214Schlüsselfeld 198, 233stetig 198, 233Transaktion 214