119
Datenanalyse mit SAS ®

Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenanalyse mit SAS®

Page 2: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Autoren: Stefan Ahrens Anette Almer

Tamara Fischer Hartmut Kömme Dirk Petzoldt Ulrich Reincke Martin Schütz

Dr. Reinhard Strüby

SAS und alle anderen Produkte oder Servicebezeichnungen von SAS Institute sind eingetragene Marken oder Marken von SAS Institute Inc. in den USA und anderen Ländern.

Andere Marken- und Produktnamen sind eingetragene Marken oder Marken der jeweiligen Firmen.

Diese Informationen sind Eigentum von SAS Institute. Es kann Vorge-hensweisen, Techniken und andere Informationen enthalten, die Eigen-tum von SAS Institute sind, und ohne vorheriges schriftliches Einver-ständnis von SAS weder im Ganzen noch in Teilen an Dritte weitergege-ben werden dürfen.

Copyright 2011 SAS Institute Inc. Alle Rechte vorbehalten.

Page 3: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Vorwort Die Datenanalyse mit Hilfe leistungsfähiger mathematisch-statistischer Verfahren gehört seit je her zu den besonderen Stärken von SAS. Diese Tatsache wird nicht nur von der großen Menge analyti-scher SAS Anwender auf der ganzen Welt sehr geschätzt, sie findet ihren Niederschlag auch in den Urteilen vieler unabhängiger Experten sowie in zahlreichen Auszeichnungen. Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich in erster Linie an Personen, die in ihrer praktischen beruflichen Tätigkeit als Business-Analysten, Statistiker, analytische Consultants oder technisch-wissenschaftlich orientierte Fachanwender (z.B. Ingenieure, Chemiker, Physiker oder Biologen) auf den Einsatz von Software zur Lösung analytischer Probleme angewiesen sind. Darüber hinaus liefert sie auch solchen Personen, die sich allgemein für das Thema Datenanalyse interessieren, eine zusammenfassende Darstellung der entsprechenden Möglichkeiten in SAS. Die Einführung setzt dabei ein gewisses Grundverständnis analytischer Verfahren voraus und kann Fachliteratur zu den einzelnen Themenge-bieten nicht ersetzen. Dennoch sind die Erläuterungen eher praxisorientiert gehalten und verzichten zugunsten größerer Anschaulichkeit auf mathematische Darstellungen und Detailinformationen. Technologische Aspekte der Architektur des SAS Systems werden nur erwähnt, soweit sie für analyti-sche Anwender in ihrer praktischen Tätigkeit unmittelbar relevant sind. Ganz gleich, ob Sie auf dem Gebiet der Datenanalyse bereits versiert sind oder es erst kennen lernen möchten: Hier finden Sie kompakte Zusammenfassungen der verschiedenen Analysewerkzeuge von SAS und relevante Beispiele für deren erfolgreichen Einsatz in der Praxis. Sie sehen damit auf den ersten Blick, welche Antworten SAS für Ihre konkreten Fragestellungen bereithält und welche der Produkte aus dem SAS Portfolio für Sie die richtigen sind. Sie erhalten zudem Hinweise auf weiterfüh-rende Informationen zu den einzelnen Spezialthemen. Darüber hinaus können Sie sich einen Ge-samtüberblick über die wichtigsten Einsatzgebiete und Techniken der modernen Datenanalyse ver-schaffen. Die Einführung stellt das Resultat einer Zusammenarbeit mehrerer Mitarbeiter von SAS Deutschland dar. Wir möchten an dieser Stelle zahlreichen Kolleginnen und Kollegen von SAS Deutschland sowie externen SAS Anwendern für ihr Lob und ihre Kritik danken. Sie haben durch ihre hilfreichen Anre-gungen entscheidend zum Gelingen dieser Einführung beigetragen. Stellvertretend für das Autorenteam Stefan Ahrens

Page 4: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Inhaltsverzeichnis 1 Allgemeine Konzepte ............................................................................................................... 7

1.1 Zum Inhalt ................................................................................................................................ 7 1.2 Das SAS Business Analytics Framework ................................................................................... 9 1.3 Integration von Analysefähigkeiten in Fach- und Branchenlösungen ................................... 10 1.4 High-Performance Analytics .................................................................................................. 11

1.4.1 High-Performance Analytics und Big Data ................................................................ 11 1.4.2 GRID Computing ........................................................................................................ 12 1.4.3 In-Database Computing ............................................................................................ 13 1.4.4 In-Memory Analytics ................................................................................................. 14 1.4.5 SAS® Visual Analytics: Visuelle Analyse im Hauptspeicher ........................................ 15 1.4.6 SAS® High-Performance Analytics (Produkt) ............................................................. 17

1.5 Anwenderzugriff auf analytische Funktionalität in SAS ......................................................... 18 1.6 Weiterführende Information ................................................................................................. 23

2 Data Mining .......................................................................................................................... 24 2.1 Problemstellung im Überblick ................................................................................................ 24 2.2 Die SAS Lösung: SAS Enterprise Miner ................................................................................... 25 2.3 Einsatz in der Praxis ............................................................................................................... 28

2.3.1 Beispiel: Vorhersage-Modellierung........................................................................... 28 2.3.2 Segmentierung und Segmentprofile ......................................................................... 35 2.3.3 Weitere Einsatzgebiete ............................................................................................. 36

2.4 SAS Rapid Predictive Modeler ............................................................................................... 41 2.5 Management des Modell-Lebenszyklus ................................................................................ 44 2.6 Weiterführende Informationen ............................................................................................. 47

3 Text Mining ........................................................................................................................... 48 3.1 Problemstellung im Überblick ................................................................................................ 48 3.2 Die SAS Lösung ....................................................................................................................... 49

3.2.1 Text einlesen ............................................................................................................. 49 3.2.2 Text filtern ................................................................................................................. 51 3.2.3 Themen Identifizieren ............................................................................................... 52 3.2.4 Weiterführende Analysen ......................................................................................... 53 3.2.5 Weitere Verfeinerung durch computerlinguistische Ansätze ................................... 55

3.3 Einsatz in der Praxis ............................................................................................................... 57 3.3.1 Beispiel ...................................................................................................................... 57 3.3.2 Weitere Einsatzgebiete ............................................................................................. 57

3.4 Weiterführende Informationen ............................................................................................. 58

Page 5: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

4 Statistische Analyse ............................................................................................................... 59 4.1 Problemstellung im Überblick ................................................................................................ 59 4.2 Die SAS Lösung ....................................................................................................................... 59

4.2.1 SAS/STAT ................................................................................................................... 59 4.2.2 Interaktive Matrizensprache (IML) ........................................................................... 65

4.3 Einsatz in der Praxis ............................................................................................................... 68 4.3.1 SAS/STAT - Beispiel ................................................................................................... 68 4.3.2 SAS/STAT - Weitere Einsatzgebiete .......................................................................... 68 4.3.3 SAS/IML - Beispiel ..................................................................................................... 68 4.3.4 SAS/IML - Weitere Einsatzgebiete ............................................................................ 69

4.4 Weiterführende Informationen ............................................................................................. 69 4.4.1 SAS/STAT ................................................................................................................... 69 4.4.2 SAS/IML ..................................................................................................................... 70

5 Zeitreihenanalyse und Ökonometrie ...................................................................................... 71 5.1 Problemstellung im Überblick ................................................................................................ 71 5.2 Die SAS Lösung ....................................................................................................................... 73 5.3 Einsatz in der Praxis ............................................................................................................... 77

5.3.1 Beispiel ...................................................................................................................... 77 5.3.2 Weitere Einsatzgebiete ............................................................................................. 78

5.4 Weiterführende Information ................................................................................................. 79 6 Qualitätssicherung ................................................................................................................. 80

6.1 Problemstellung im Überblick ................................................................................................ 80 6.2 Die SAS Lösung ....................................................................................................................... 81 6.3 Einsatz in der Praxis ............................................................................................................... 86

6.3.1 Beispiel ...................................................................................................................... 86 6.3.2 Weitere Einsatzgebiete ............................................................................................. 86

6.4 Weiterführende Information ................................................................................................. 87 7 Optimierung und Projektplanung ........................................................................................... 88

7.1 Problemstellung im Überblick ................................................................................................ 88 7.2 Die SAS Lösung ....................................................................................................................... 89

7.2.1 Lineare und nichtlineare Programmierung mit klassischen Prozeduren .................. 90 7.2.2 Die neue Modellierungsumgebung OPTMODEL ....................................................... 92 7.2.3 Beispiel Transportoptimierung mit OPTMODEL ....................................................... 93 7.2.4 Beispiel Ressourcenplanung ..................................................................................... 95

7.3 Einsatz in der Praxis ............................................................................................................... 96 7.3.1 Beispiel ...................................................................................................................... 96 7.3.2 Weitere Einsatzgebiete ............................................................................................. 97

7.4 Weiterführende Information ................................................................................................. 98 8 Datenvisualisierung ............................................................................................................... 99

8.1 Problemstellung im Überblick ................................................................................................ 99 8.2 Die SAS Lösung ..................................................................................................................... 102 8.3 Einsatz in der Praxis ............................................................................................................. 110

8.3.1 Beispiel .................................................................................................................... 110 8.3.2 Weitere Einsatzgebiete ........................................................................................... 110

8.4 Weiterführende Informationen ........................................................................................... 111

Page 6: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

9 Risikoberechnungen und Simulationen ................................................................................. 112 9.1 Problemstellung im Überblick .............................................................................................. 112 9.2 Die SAS Lösung ..................................................................................................................... 112

9.2.1 Analysemöglichkeiten ............................................................................................. 113 9.2.2 Risikofaktoren ......................................................................................................... 113 9.2.3 Daten und Modelle ................................................................................................. 114 9.2.4 Portfoliobewertung ................................................................................................. 114 9.2.5 Transformations- und Inputmethoden ................................................................... 115 9.2.6 Projektverwaltung ................................................................................................... 116 9.2.7 Generierung von Code für Batch Jobs..................................................................... 117 9.2.8 Ergebnisse ............................................................................................................... 118

9.3 Einsatz in der Praxis ............................................................................................................. 119 9.3.1 Beispiel .................................................................................................................... 119 9.3.2 Weitere Einsatzgebiete ........................................................................................... 119

9.4 Weiterführende Informationen ........................................................................................... 119

Page 7: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 7

1 Allgemeine Konzepte 1.1 Zum Inhalt Die in SAS verfügbaren mathematisch-statistischen Verfahren finden heute in der Praxis auf nahezu allen Gebieten ihren Einsatz: Von der wissenschaftlichen Forschung an Hochschulen über die Analyse von Daten in der öffentlichen Verwaltung bis hin zu betriebswirtschaftlichen Anwendungen in Unter-nehmen. Die Untersuchung von Daten mit Hilfe beschreibender Kennziffern und die Visualisierung von Daten-strukturen durch Grafiken gehören ebenso dazu, wie das Überprüfen von Hypothesen über Wir-kungszusammenhänge und die Vorhersage oder Simulation zukünftigen Verhaltens mit Hilfe quanti-tativer Modelle. Selbst die Auswertung extrem großer Datenmengen mit modernsten Data Mining-Techniken oder die Bearbeitung komplexer numerischer Optimierungsprobleme mit leistungsfähigen mathematischen Algorithmen und Heuristiken wird tagtäglich weltweit mit Lösungen von SAS bewäl-tigt. Um Ihnen das Kennenlernen der vielfältigen Möglichkeiten zur Datenanalyse mit SAS zu erleichtern, sind die verfügbaren Verfahren und Produkte nach Themen in einzelnen Kapiteln zusammengefasst. Zur besseren Orientierung sind diese Kapitel nach einem möglichst einheitlichen Schema strukturiert. Nach einer allgemeinen Einführung der jeweiligen Problemstellung werden die von SAS bereitgestell-ten Lösungsangebote vorgestellt. Es schließen sich Anwendungsbeispiele für den erfolgreichen Ein-satz dieser Produkte in der Praxis an. Weiterführende Informationen mit Verweisen auf internationa-le Referenzen, Produktbeschreibungen und Online-Dokumentationen im World Wide Web ermögli-chen es Ihnen, sich einen detaillierten Einblick in diejenigen Themen zu verschaffen, die Sie am meis-ten interessieren. Dieses erste Kapitel enthält eine allgemeine Einführung in das Thema, einschließlich einer Einord-nung in das SAS Business Analytics Framework, die Integration von Business Analytics in SAS Lösun-gen, technologischer Innovationen rund um das Thema High Performance Analytics sowie wichtige Hinweise zum Anwenderzugriff auf analytische Funktionalität. Im Mittelpunkt des Kapitels 2 steht der SAS® Enterprise Miner™ als Lösung von SAS für die Heraus-forderungen des Data Mining, d.h. des Auffindens von Mustern in großen Datenmengen. Vorgestellt wird dabei neben zahlreichen Anwendungsbeispielen insbesondere auch der methodische Data Mi-ning-Ansatz von SAS sowie dessen Unterstützung durch die grafische Benutzeroberfläche. Auf die Fähigkeiten zur Vorhersagemodellierung (Predictive Modeling oder auch Predictive Analytics), einer wichtigen und in der Praxis am weitesten verbreiteten Teildisziplin des Data Minings wird dabei ein besonderer Schwerpunkt gelegt. Die Möglichkeiten von SAS zur Analyse von unstrukturierten Textdaten werden im Kapitel 3 vorge-stellt. SAS Text Analytics mit dem SAS® Text Miner als wichtigem Bestandteil ermöglicht bei umfang-reichen Sammlungen von Dokumenten insbesondere die automatische Einteilung von Dokumenten in homogene Gruppen (Cluster). Auch die die Zuordnung von Dokumenten zu vordefinierten Katego-rien, etwa zu bestimmten vordefinierten oder im Rahmen der Analyse herausgefundenen Themen-Konstrukten oder Tonalitätskategorien (z.B. positive vs. neutrale vs. negative Meinungsbilder in Web-Foren), ist damit umsetzbar. Die Beurteilung der Ähnlichkeit von Textdokumenten findet darüber hinaus Anwendung bei der Gestaltung von Suchabfragen für Dokumentenarchive (Information Ret-rieval als Teildisziplin des Text Minings).

Page 8: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 8

Kapitel 4 enthält einen Überblick über die Möglichkeiten für beschreibende und schließende Statistik, Modellierung und Entwicklung eigener statistischer Algorithmen in SAS. SAS/STAT enthält dabei eine Vielzahl von Prozeduren zur Anpassung linearer und nichtlinearer Modelle sowie zur Durchführung explorativer multivariater Verfahren wie etwa Cluster-, Faktoren- oder Korrespondenzanalyse. Diese Prozeduren sind für sich genommen bereits sehr leistungsfähig und enthalten viele Optionen zur Parametrisierung. Mit der in SAS/IML enthaltenen Interactive Matrix Language (IML) steht darüber hinaus eine mächtige und flexible Programmiersprache zur Verfügung. IML operiert auf Matrizen als Datenobjekten und ermöglicht damit nicht nur die Entwicklung eigener Algorithmen und kompletter analytischer Anwendungen, sondern auch die Einbindung statistischer Verfahren aus externen Um-gebungen wie beispielsweise Aufrufe entsprechender mathematisch-statistischer Routinen oder Funktionen aus externen Bibliotheken oder aus dem Open Source Paket R. Das Kapitel 5 widmet sich statistischen Verfahren, die speziell für die Anwendung auf Zeitreihen-daten konzipiert wurden und in den Produkten SAS/ETS und SAS® Forecast Server verfügbar sind. Hierunter fallen Methoden zur Transformation und zur Diagnose von Zeitreiheneigenschaften, ver-schiedene Methoden zur Prognose und zur ökonometrischen Modellbildung sowie Verfahren zur finanzmathematischen Analyse von Zeitreihen. Gegenstand des Kapitels 6 sind statistische Verfahren im Umfeld der Qualitätssicherung industrieller Fertigungsprozesse, die aber mittlerweile auch in anderen Anwendungsgebieten Verwendung finden. Die im Modul SAS/QC und in der grafischen Benutzeroberfläche JMP verfügbaren Werkzeuge zur Analyse und Überwachung von fortlaufenden Prozessen mit Hilfe von Regelkarten gehören ebenso dazu wie zahlreiche Verfahren zum Qualitätsmanagement und Methoden der Versuchsplanung. Möglichkeiten zur Lösung von Optimierungsproblemen mit Methoden des Operations Research wer-den in Kapitel 7 vorgestellt. Das Produkt SAS/OR bietet hierzu verschiedene leistungsfähige mathe-matische Algorithmen und Heuristiken, mit denen sich bei komplex strukturierten betriebswirtschaft-lichen Entscheidungsproblemen optimale Werte für Zielgrößen unter Einhaltung von Nebenbedin-gungen finden lassen. Es enthält auch Simulationsverfahren für Warteschlangen-Probleme und Ver-fahren zur optimalen zeitlichen Planung von Ressourcen im Rahmen eines Projektmanagements. Die Visualisierung von Zusammenhängen und Strukturen in den Daten spielt nicht nur eine wichtige Rolle als Hilfsmittel im Rahmen der Anpassung von Modellen an die Daten. Sie ist auch als eigenstän-diges Anwendungsgebiet im Rahmen der explorativen Datenanalyse von Bedeutung. Die dafür in SAS vorhandenen Möglichkeiten werden im Kapitel 8 vorgestellt. Analytische Verfahren, die im Rahmen der Bewertung von Risiken in Unternehmen eine Rolle spielen, sind Gegenstand des Kapitels 9. SAS® Risk Dimensions® als spezielle SAS Lösung für ein modernes und umfassendes Risikomanagement-System verfügt über flexible Definitionsmöglichkeiten hinsichtlich unterschiedlicher Risikofragestellungen (z.B. für Kapitalanlagerisiken oder versicherungstechnische Risiken).

Page 9: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 9

1.2 Das SAS Business Analytics Framework Seit der Einführung von Version 9 bietet SAS als führender Marktanbieter von Lösungen für Business Analytics noch umfassendere Fähigkeiten, seine Werkzeuge zur Datenanalyse in die vorhandene Pro-zess- und Technologielandschaft von Organisationen einzubinden. Obwohl eine exakte und einheitli-che Definition des Begriffes Business Analytics im Markt naturgemäß schwierig bis unmöglich ist, wird doch allgemein anerkannt, dass darunter mehr zu verstehen ist, als das Unterhalten eines Data Warehouse, die Durchführung interaktiver Abfragen auf relationale oder multidimensionale Daten oder das Erstellen von Berichtsystemen mit "Zahlenfriedhöfen". Business Analytics grenzt sich hierbei insoweit vom etablierten Begriff Business Intelligence ab, als es durch den Einsatz mathematisch-statistischer Verfahren eine pro-aktive Perspektive bei der IT-seitigen Entscheidungsunterstützung einzelner Fachbereiche in Organisationen ermöglicht. Andererseits besteht das Wesen von Business Analytics auch nicht darin, durch Bereitstellung von umfangreichen Werkzeug-Sammlungen mit sol-chen mathematisch-statistischen Verfahren eine isolierte und vom Rest der Organisation losgelöste Laborumgebung für Analyse-Experten zu schaffen. Zentral ist vielmehr die Erkenntnis, dass für den erfolgreichen Einsatz analytischer Methoden in der Praxis heute der gesamte Prozess von der Gewin-nung und Aufbereitung der analyserelevanten Daten über die Modellierung bis hin zur bedarfsge-rechten Verteilung der Ergebnisse an die Entscheidungsträger in der Organisation berücksichtigt werden muss. SAS unterstützt genau diese integrierte Prozess-Sicht und strukturiert sein Lösungsangebot daher im Business Analytics Framework (siehe Abb. 1.1), das neben Analytics, dem Hauptgegenstand dieses Dokuments, nicht nur die Aspekte des Datenmanagements (Data Integration) und der Berichterstel-lung (Reporting) abdeckt, sondern darüber hinaus auch Fachlösungen (Business Solutions) mit fach- und/oder branchenspezifischem Bezug enthält.

Abb. 1.1: Das Business Analytics Framework von SAS.

Der Vorteil eines solchen Framework-Ansatzes besteht zum einen darin, dass beim Verfolgen einer Business Analytics basierten IT-Strategie nicht notwendigerweise sofort eine umfassende und mono-lithische Software-Lösung in der Organisation eingeführt werden muss. Vielmehr besteht die Mög-lichkeit, je nach Bedarfslage einzelne Komponenten früher oder später zu implementieren, ohne bei der mittel- bis langfristigen Planung des Aus- und Umbaus der Komponenten durch technologische Inkompatibilitäten zukünftiger Software-Versionen oder fehlende Schnittstellen zur Anbindung iso-lierter Systeme verschiedener Hersteller in einer "Sackgasse" zu landen.

Page 10: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 10

Die Verwendung einer durchgängigen technologischen Plattform und die damit verbundene Elimina-tion von Schnittstellen zwischen einzelnen Elementen, wie etwa einer Unternehmensdatenquelle und einem Analysewerkzeug, bedeutet aus IT-Sicht zudem eine Einsparung von Aufwänden für die Unterhaltung heterogener Systemlandschaften sowie zum Aufbau der notwendigen Software-Skills in der IT und den Fachbereichen. Sie bildet die Voraussetzung dafür, den Prozess vom Erkennen des Handlungsbedarfs bis zur Umsetzung der aus der Analyse gewonnenen Handlungsmaßnahmen zu verkürzen (Time-to-Market) und die Organisation in die Lage zu versetzen, auf ein sich änderndes Marktumfeld schneller zu reagieren. 1.3 Integration von Analysefähigkeiten in Fach- und Branchenlösungen Das SAS Business Analytics Framework bietet die Möglichkeit, für bestimmte fach- und branchen-spezifische Fragestellungen auf fertige Lösungspakete (Business Solutions) zurückzugreifen. Solche Lösungspakete beinhalten häufig neben vordefinierten Datenmodellen, zielgruppengerechten Benut-zerschnittstellen und Berichtsvorlagen auch integrierte Analysefunktionalität. Im Gegensatz zur Ver-wendung der Analyseverfahren in einem isolierten Umfeld ist hier häufig schon die Anbindung an die notwendigen Daten sowie die Aufbereitung der Ergebnisse vorkonzipiert bzw. kann mit minimalem Aufwand an die eigenen Bedürfnisse angepasst werden. Diese Integration kann bei Bedarf weitge-hend so erfolgen, dass die aus der Anwendung eines statistisch-mathematischen Verfahrens gewon-nenen Informationen in der Benutzerschnittstelle des Anwenders für seine Bedürfnisse automatisch adäquat aufbereitet werden. Ausgewählte Beispiele für Lösungspakete, in denen mathematisch-statistische Verfahren als Analyse-Engine eingesetzt werden sind etwa: • Erstellen und Anwenden von Vorhersagemodellen zur Unterstützung der Zielgruppenselektion

bei Direktmarketing-Kampagnenmanagement (SAS® Marketing Automation) • Einsatz von Verfahren des Operations Research zur Optimierung der Budgetallokation bei der

Kundenansprache im Rahmen von Direktmarketing-Kampagnen (SAS® Marketing Optimization) • Erstellen und Anwenden von Vorhersagemodellen zur Kreditwürdigkeitsprüfung bei Kundenan-

trägen für Konsumentenkrediten, Girokonten oder Hypotheken (SAS® Credit Scoring for Banking) • Erstellen und Verwenden von Zeitreihenmodellen für die Prognose der Nachfrageentwicklung im

Rahmen der Absatzplanung für Konsumgüter oder Ersatzteile von Investitionsgütern (SAS® De-mand-Driven Forecasting, SAS® Service Parts Optimization)

• Modellierung von Preis-Elastizitäten und Verwenden von Operations Research Verfahren zur Optimierung der Preisstrategien für Sortimente von Einzelhandelsunternehmen (SAS® Revenue Optimization Suite)

• Anwendung statistisch-biometrischer Verfahren zur Begleitung klinischer Studien im Rahmen einer Medikamentenentwicklung (SAS® Drug Development)

• Einsatz von Text Analytics zum Erkennen und fortlaufenden Überwachen von Meinungsbildern zum Unternehmens- oder Produktimage in Web-Foren oder sonstigen Internet-Medien (SAS® Social Media Analytics)

• Modellierung und Simulation der Verteilung relevanter Kenngrößen zu Marktrisiken im Rahmen des Risiko-Managements (SAS® Risk Management for Banking, SAS® Risk Management for Insu-rance)

Diese Auflistung von Lösungen für verschiedene Branchen und Fragestellungen kann naturgemäß nur einen Ausschnitt des ständig wachsenden Lösungsportfolios von SAS zum Zeitpunkt der Erstellung dieses Dokuments abbilden.

Page 11: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 11

1.4 High-Performance Analytics

1.4.1 High-Performance Analytics und Big Data Nach aktuellen Berechnungen verdoppelt sich die weltweit (elektronisch) verfügbare Datenmenge jährlich. Dieser Trend wird durch die zunehmend maschinelle Erzeugung von Daten in unterschied-lichsten Geschäftsfeldern verstärkt. Eine feste Definition für „Big Data“ gibt es jedoch nicht. Vielmehr spricht man in Abhängigkeit vom Industriesektor und der dort verwendeten Technologie von Big Data, wenn die Menge der zur Steuerung des jeweiligen Geschäftsprozesses gesammelten Daten mit Hilfe von Standard-Datenbanken und Daten-Management-Tools nicht oder nur unzureichend verar-beitet werden kann. Legt man heutige, parallele Datenbank-Technologie zu Grunde, so starten große Datenmengen aktuell im Tera- oder Petabyte-Bereich. Wollte man bisher alle verfügbaren unternehmensweiten Daten analysieren, stießen mitunter die existierenden analytischen Methoden an ihre Grenzen, in akzeptabler Zeit die gewünschten Ergeb-nisse zu generieren. Daher hat man häufig auf Methoden wie Sampling oder einer vereinfachten analytischen Modellierung zurückgegriffen. Solche Vereinfachungen führten dazu, dass das extrahier-te Wissen den betrachteten Prozess suboptimal abbildete und somit nicht eine bestmögliche Steue-rung erlaubte. Möchte man also aus den fein gemessenen Daten eines Geschäftsprozesses möglichst feingranulare Informationen extrahieren, so bedarf es neben neuer Technologie auch neuer Methoden der Visuali-sierung und komplexen Analytik, die überdies mit der Tatsache umgehen können, dass die schnell anfallenden Daten nicht nach qualitativen Gesichtspunkten erhoben wurden, so wie es für die klassi-sche, schließende Statistik notwendig ist.

Abb. 1.2: Die Fähigkeit, riesige Datenbestände mit anspruchsvollen analytischen Verfahren mit enormer Geschwindigkeit verarbeiten zu können, ist ein Alleinstellungsmerkmal des neuen Produktportfolios SAS® High-Performance Analytics, beste-hend aus den Produktlinien SAS® GRID Computing, SAS® In-Database und SAS® In-Memory Analytics. Das neue Produktportfolio integriert verschiedene Verfahren der parallelen Datenverarbeitung und Analytik mit dem Ziel, unterschiedlichste Geschäftsprozesse zu beschleunigen oder gar neue Ge-schäftsmodelle zu ermöglichen.

Page 12: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 12

1.4.2 GRID Computing IT-Abteilungen beobachten häufig nicht vollständig und / oder gleichmäßig genutzte Ressourcen. Sie benötigen die Unterstützung inkrementellen Wachstums ihrer Infrastruktur (Skalierbarkeit), erwar-ten hoch verfügbare Systemlandschaften, schnellere Antwortzeiten bei steigendem Datenvolumen und steigender Anzahl von Benutzern und Anwendern, und all dies bei reduzierten Kosten. Abb. 1.3: Grobe Architektur des SAS© GRID Manager, welcher mittels übergeordnetem Lastverteilungsprozess einen Rech-nerverbund mit gemeinsamem Dateisystem optimal auslastet. SAS© GRID Manager ist die SAS Lösung, welche die IT-Anforderungen erfüllt und somit der Hebel zur Skalierung „jeder“ SAS Business Analytics-Umgebung. Die Lösung gewährleistet Ausfallsicherheit und Hochverfügbarkeit einer SAS Business Analytics Umgebung. Fällt ein Server aus, so werden seine Aufgaben auf andere, zur Verfügung stehende Server lastoptimal verteilt. Dies gilt auch für die Kom-ponenten des SAS© GRID Manager selbst. Die Lösung optimiert und unterstützt den Betrieb einer SAS Business Analytics-Umgebung durch Last-Verteilungs-, -Management und -Monitoring-Optionen. Dies ermöglicht die höhere Systemauslastung gemeinsam genutzter Ressourcen und hilft damit den Anwendern, wachsenden Anforderungen zu begegnen und Kosten zu sparen. Sollten die existierenden Ressourcen nicht mehr den gestiegenen Verarbeitungsanforderungen ge-nügen, so kann unter Verwendung des SAS© GRID Manager ein einfacher Scale-Out Ansatz zur Sys-temerweiterung gewählt werden. Anstatt, wie beim klassischen Scale-Up, den „zu kleinen“ Server durch einen Hochleistungs-Server zu ersetzten, werden einfach einige, kostengünstige Standard-Rechner in den GRID-Verbund eingefügt. Dies spart bis zu 90% Hardwarekosten und erlaubt eine inkrementelle Erweiterung der Infrastruktur über die Zeit.

Page 13: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 13

1.4.3 In-Database Computing Gerade bei der Anwendung von Vorhersagemodellen auf großen Datenbeständen, etwa zur regel-mäßigen Durchführung von Kundenbewertungen mittels Scoring-Funktion, stellt sich zunehmend die Frage, wie man diesen Prozess effizienter und zeitsparender gestalten kann. Die heute noch gängige Praxis besteht darin, die für die Modellanwendung notwendigen Daten aus Quellsystemen wie einem unternehmensweiten Data Warehouse zu extrahieren und in einer Tabelle für das Scoring aufzube-reiten, die Scoring-Funktion auf diese Tabelle anzuwenden und die dabei generierte Information (Scores) in das Data Warehouse zurückzuschreiben; Anders ausgedrückt: Die Daten gelangen von ihrer operativen Umgebung in eine Analyse-Umgebung, werden dort verarbeitet (durch Berechnung der Scores angereichert) und kehren danach wieder zurück in die operative Umgebung. Dieses Vorgehen kann sowohl unter dem Aspekt der System-Performance (Laufzeit des Scoring-Vorgangs bei sehr großen Datenmengen) als auch aus Gründen der IT Governance problematisch sein, da beim Scoring häufig hochsensible Kundendaten regelmäßig die dedizierte Datenhaltungs-plattform verlassen und redundant in verschiedenen Systemen vorgehalten werden - mit allen dar-aus entstehenden Risiken. Einen Ausweg aus dieser Problematik besteht in der In-Database-Verarbeitung. Bildlich gesprochen wandern dabei nicht die Daten zu den in einem SAS System ver-fügbaren Analyse-Fähigkeiten, sondern vielmehr wandern die Analyse-Fähigkeiten von SAS in das jeweilige Datenhaltungssystem. Sie stehen dort direkt zur Ausführung zur Verfügung, etwa als vorde-finierte Funktion eines Fremdsystems (Vendor-Defined Function) in einer Datenbank, die in ein SQL-Skript eingebettet werden kann. Neben dem Nutzen aus der Vermeidung redundanter Datenhaltung und damit besserer Erfüllung von Anforderungen der IT Governance ermöglicht In-Database-Verarbeitung auch Vorteile bei der Sys-tem-Performance durch die in einigen Datenbankmanagementsystemen enthaltenen Technologien für massiv-parallele Verarbeitung (MPP = Massive Parallel Processing). Solche Systeme sind häufig so ausgelegt, dass sie bei wachsendem Datenvolumen bezüglich der Laufzeit des Scoring-Vorgangs in nahezu linearer Weise skalieren, weil die Verarbeitungslast auf verschiedene Komponenten (Knoten) des Systems aufgeteilt werden kann.

Abb. 1.4: Beispiel für Datenfluss beim In-Database Scoring mit dem Scoring Accelerator for Teradata. Während die eigentli-che Modellierung im SAS Enterprise Miner durchgeführt wird (EM Modeling), wird der Scoring-Vorgang innerhalb der Da-tenbank ausgeführt.

Page 14: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 14

SAS bietet mit dem SAS® Scoring Accelerator und dem SAS® Analytics Accelerator zwei Lösungsansät-ze, mit denen für ausgewählte SAS Funktionen und Prozeduren solche In-Database-Fähigkeiten für Datenhaltungssysteme wie etwa von IBM, Teradata, EMC Greenplum und Oracle ausgenutzt werden können. Während der SAS Scoring Accelerator spezifisch für die Bereitstellung der Scoring-Funktion aus einem mit dem SAS Enterprise Miner entwickelten Prognosemodell in einer Datenbank zuständig ist, bietet der SAS Analytics Accelerator (für Teradata) die Möglichkeit, bestimmte statistische Proze-duren für die Modellierung von SAS/STAT innerhalb der Datenbank auszuführen und dabei automa-tisch in einen für das jeweilige Datenbankmanagementsystem optimierten SQL Code zu übersetzen. Grundsätzlich eignen sich natürlich nur solche Prozeduren für die In-Database-Verarbeitung, bei de-nen Teile der Berechnung im Rahmen der Modellanpassung an eine Datenbank übertragen werden können, um aus deren Parallelverarbeitungsfähigkeit Performance-Gewinne zu ziehen. Dies gilt z.B. für den Berechnungsaufwand zur Erstellung der sogenannten Sums of Squares and Cross Products (SSCP) Matrix als Ausgangsbasis für die Berechnung von Hauptkomponenten, Faktoren und Korrelati-onen, die Bestimmung von Variable-Clustern sowie die Parameterschätzung eines linearen Regressi-onsmodells. 1.4.4 In-Memory Analytics Permanent wachsende Datenvolumina und der Wunsch der Fachbereiche auf diesen Daten immer detailliertere Analysen auszuführen, führen auf aktuellen Architekturen zu immer längeren Analyse-zeiten. Dies behindert das stark iterative, analytische Arbeiten, limitiert Analysemöglichkeiten und reduziert somit die Produktivität der Analytiker. Die Konsequenzen sind weniger performante Model-le und letztendlich ein reduzierter Geschäftsnutzen von Analytics. Im schlechtesten Fall dauern die Analysen so lange, dass das durch die Analysen gewonnene Wissen für eine aktive Geschäftssteue-rung nicht zeitgerecht vorliegt. So ist es beispielsweise im Bereich des Investmentbankings von ext-remer Bedeutung für Neuanlagen, die Risikoauswirkungen auf das Portfolio innerhalb weniger Minu-ten anstatt von Stunden zu kennen.

Abb. 1.5: Die neue SAS® In-Memory Analytics Technologie, welche durch In-Memory Datenverarbeitung und fein granulare Parallelisierung der SAS® Prozeduren extreme Leistungssteigerungen garantiert, wurde in verschiedenste SAS® Lösungen integriert. Hierzu zählen, neben SAS® Visual Analytics zur interaktiven Exploration und SAS® High-Performance Analytics (Produkt) zur komplexen Analyse auf großen Datenmengen, auch branchenspezifische Lösungen wie HP Risk, HP Markdown Optimization, HP Marketing Optimization und andere.

Page 15: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 15

Als jüngstes Mitglied der Produktsuite SAS® High-Performance Analytics adressiert SAS® In-Memory Analytics unter anderem die Anforderungen der Fachbereiche durch eine gewaltige Performance-Steigerung. Diese wird dadurch erreicht, dass die Daten während der Verarbeitung im Hauptspeicher gehalten und gleichzeitig von einer Vielzahl zusammengeschalteter Prozessoren verarbeitet werden. Das revolutionär Neue hierbei ist, dass die beliebig vielen Prozessoren über verschiedene Server in-nerhalb eines massiv parallelen Systems, wie beispielsweise eines Blade-Centers oder eines massiv parallelen Datenbank-Systems, verteilt sein können. Im Unterschied zum GRID Computing erfolgt die Verteilung der Rechenlast hier innerhalb einer einzelnen Prozedur, sprich, die beteiligten SAS Proze-duren wurden so umprogrammiert, dass sie mit im Hauptspeicher (In-Memory) verteilten Daten und Prozessoren umgehen können. Sie wurden somit fein granular parallelisiert. Anstatt wie üblich eine Analyse auf einem monolithischen Datensatz auszuführen, analysiert nun jeder Teil der parallelisierten Prozedur einen Teil der im Hauptspeicher vorliegenden Analysetabelle. Am Ende werden die Teilergebnisse im Sinne von „Divide-and-Conquer“ zu einem Gesamtergebnis zusammengesetzt, was letztendlich die extreme Beschleunigung ausmacht. SAS In-Memory-Analytics ist selbst kein Produkt, sondern eine Technologie, welche in verschiedens-ten SAS Lösungen eingebettet ist. Hierzu zählen, neben SAS® Visual Analytics zur interaktiven Explo-ration und SAS® High-Performance Analytics (Produkt) zur komplexen Analyse auf großen Daten-mengen, auch branchenspezifische Lösungen wie SAS® HP Risk, SAS® HP Markdown Optimization, SAS® HP Marketing Optimization, welche jeweils durch die neue Technologie eine extreme Beschleu-nigung erfahren. Weitere, auf der In-Memory Technologie basierende branchenspezifische Lösungen, werden aktuell entwickelt. 1.4.5 SAS® Visual Analytics: Visuelle Analyse im Hauptspeicher Wesentliche Grundbausteine für die Erstellung und operative Nutzung komplexer statistischer Mo-delle sind die interaktive, explorative Datenanalyse und das Reporting von Kennzahlen, welche auf der Ausführung (Scoring) der Modelle basieren. SAS® Visual Analytics adressiert genau diese Aufga-benstellungen auf extrem großen Datenmengen und nutzt dazu die neue In-Memory Technologie.

Abb. 1.6: SAS® Visual Analytics Architektur, bestehend aus dem SAS® LASR Analytic In-Memory Server und der Benutzerober-fläche SAS® Visual Analytics Explorer.Letztere dient der Erstellung explorativer Datenanalysen und Berichten für mobile Endgeräte.

Page 16: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 16

Die neue SAS Lösung besteht aus mehreren Komponenten, u.a dem SAS® LASR Analytic Server und der Web-Oberfläche SAS® Visual Analytics Explorer. Beim LASR Analytic Server handelt es sich um einen auf Lesezugriffe optimierten, „zustandslosen“, verteilten In-Memory Server, welcher gesicher-te, konkurrierende Zugriffe mehrerer Benutzer auf großen, im Hauptspeicher verteilt liegenden Ana-lysetabellen erlaubt. Als unterliegende Hardware-Plattform kommen sogenannte Blade-Center mit einer frei konfigurierbaren Anzahl von Prozessoren und Mengen an Hauptspeicher zum Einsatz. Der Server stellt somit einerseits eine hoch performante und skalierbare Plattform für diverse analytische Fragestellungen dar, erlaubt auf der anderen Seite aber auch den gleichzeitigen Zugriff mehrerer Hundert „Report-Konsumenten“. Zur dauerhaften Datensicherung des Servers wird die freie Soft-ware Hadoop genutzt, die neben vielen anderen Datenquellen auch als dauerhafter Datenspeicher der zur Laufzeit in den Hauptspeicher des Servers geladenen, immensen Analysetabellen, genutzt werden kann. Als User Interface an den LASR Analytic Server dient die Web-Oberfläche SAS® Visual Analytics Explo-rer, welche die vier Funktionalitäten Datenvorverarbeitung, Datenexploration, Reportdesign und Report Test für mobile Endgeräte (z.B. IPad) bereitstellt. Neben dem Lesen der Analysetabellen aus unterschiedlichsten Datenhaltungssystemen ermöglicht es die Datenvorverarbeitung die Erstellung der finalen Analysetabellen durch Standardoperationen wie der Verknüpfung von Tabellen, dem Aneinanderhängen von Tabellen, der Erzeugung berechneter Spalten etc. Zur explorativen Datenana-lyse stehen zahlreiche Verfahren, wie beispielsweise Box Plots, Zeitreihen, Berechnungen von Korre-lationsmatrizen sowie lineare Regressionen genauso zur Verfügung, wie Methoden der geokodierten Visualisierung von Kennziffern. Wie alle anderen funktionalen Bausteine des Visual Analytics Explo-rers beinhaltet auch der Reportdesigner eine „auto charting“ Funktionalität und eine Report-Library, welche die Erstellung von Berichten extrem beschleunigt. Einmal erstellte Berichte können sogleich in der Web-Oberfläche hinsichtlich ihrer optischen Wirkung und ihrer Funktionalität auf mobilen Endgeräten getestet werden.

Page 17: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 17

1.4.6 SAS® High-Performance Analytics (Produkt) SAS® High-Performance Analytics (Produkt) basiert ebenfalls auf der neuen In-Memory Technologie und dient dazu, den Prozess der Erstellung oder des Trainings komplexer prädiktiver Modelle (z.B. Neuronale Netze, Support Vector Machines) extrem zu beschleunigen. Als notwendige, unterliegen-de Hardware und Schicht zur Datenhaltung kommen massiv parallele Datenbank-Appliances von EMC Greenplum und Teradata mit einigen hundert Cores und mehreren Terabyte Hauptspeicher zum Einsatz. Durch die Übernahme der Kontrolle der massiv parallelen Hardware durch die SAS Proze-duren sind diese in der Lage, ihren hohen Parallelisierungsgrad maximal auszuspielen. Die Vorteile eines solchen Produktes liegen auf der Hand: • Modelle können auf analytischen Basistabellen bisher ungeahnter Größe, z.B. im Terabyte-

Bereich, erstellt werden. Sampling, wie es heute oftmals als „work around“ für fehlende Rechen-ressourcen genutzt wird, ist nicht mehr nötig. Stattdessen kann auf dem kompletten Datenbe-stand gearbeitet werden.

• Generell kann mit einer höheren „Modellauflösung“ gearbeitet werden, sprich Analysen müssen nicht mehr auf einer hohen Aggregationsebene basieren, sondern können bis auf die Ebene von einzelnen Transaktionen herunterreichen. Des Weiteren ist es möglich, die Anzahl der modellier-ten Ziele drastisch zu erhöhen, was beispielsweise eine deutlich feinere Kunden-Segmentierung erlaubt.

• Analytische Fragestellungen, deren Lösung für den Geschäftsprozess bisher zu lange dauert, kön-nen nun so schnell gelöst werden, dass das resultierende Wissen zur optimalen Geschäftssteue-rung eingesetzt werden kann. Noch höher zu bewerten ist die Tatsache, dass mit der neuen Technologie nun völlig neue Fragestellungen gelöst werden können, die aufgrund von Laufzeit-beschränkungen in der Vergangenheit nicht möglich waren.

• Die extrem geringen analytischen Laufzeiten erlauben es dem Analytiker, Modelle mit iterativen Schätzalgorithmen (etwa neuronale Netze) längeren Iterationszyklen zu unterwerfen und damit für bessere Konvergenz zu sorgen, sowie eine Vielzahl unterschiedlicher Modellformulierungen und Modellierungsverfahren miteinander zu vergleichen, was eine höchstmögliche Modellper-formance garantiert. Diese führt widerum zu einem maximalen Geschäftsnutzen.

• Des Weiteren erlaubt die extrem hohe Performance, dass man eine Vielzahl von analytischen Modellen im Sinne einer Model Factory erstellen und regelmäßig an neue Geschäftsdaten anpas-sen kann. Dies erlaubt beispielsweise eine „360°Grad“ Sicht des Kunden zur optimalen Kunden-ansprache und -Steuerung.

SAS® High-Performance Analytics (Produkt) besteht aus einer Menge von Prozeduren aus den Soft-ware Modulen BASE SAS®, SAS®/STAT, SAS®/ETS sowie dem SAS® Enterprise Miner. Die Prozeduren, welche auf die neue In-Memory Technologie adaptiert wurden, decken die wesentlichen Bereiche Datenvorbereitung, Exploration und Analyse des analytischen Lifecyle ab.

Page 18: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 18

1.5 Anwenderzugriff auf analytische Funktionalität in SAS Ebenso heterogen, wie die analytischen Aufgabenstellungen in der Praxis, ist die Zusammensetzung der Zielgruppe analytischer Anwender hinsichtlich ihrer Präferenzprofile. Das Spektrum reicht dabei von Anwendern, die nahezu täglich intensiv analytische Fragestellungen bearbeiten und SAS als leis-tungsfähige Programmiersprache bevorzugen, bis hin zu solchen, die eher gelegentlich an der Lösung bestimmter analytischer Probleme interessiert sind, wenig SAS Kenntnisse besitzen und auf eine ihnen vertraute grafische Benutzeroberfläche nicht verzichten möchten. Erfahrene Datenanalysespezialisten, die den Umgang mit statistischen Programmiersprachen ge-wohnt sind, greifen auf die analytische Funktionalität von SAS üblicherweise mit Hilfe des Pro-grammeditors in der Benutzeroberfläche des SAS Display Managers zu. Die in SAS verfügbaren analy-tischen Verfahren sind dabei in weit mehr als 100 verschiedenen Prozeduren implementiert und können gemeinsam mit anderen Bestandteilen der Programmiersprache von SAS für die Erstellung leistungsfähiger Programme im Rahmen komplexer Analyseprojekte eingesetzt werden.

Abb. 1.7: Im Programmeditor dargestellter SAS Code zur Durchführung einer einfachen Varianzanalyse (Prozedur ANOVA) für einen Datensatz Clover, bei dem die abhängige Variable Nitrogen durch den Faktor Strain erklärt werden soll. Diese Art des Benutzerzugriffs erleichtert bei der Lösung komplexer Probleme ein iteratives Vorge-hen durch schrittweise und gezielte Veränderung einzelner Anweisungen und Optionen im Pro-grammcode. Eine solche Arbeitsweise bietet sich zudem an, wenn bestimmte unternehmensinterne oder behördliche Anforderungen bezüglich Dokumentation und Replizierbarkeit durchgeführter Da-tenanalyseprojekte bestehen oder einmal erstellte SAS Programme für die regelmäßige Ausführung über Batch Jobs automatisiert werden sollen.

Page 19: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 19

Viele analytische SAS Produkte enthalten darüber hinaus integrierte grafische Benutzeroberflächen, so dass auch analytische Anwender ohne Programmierkenntnisse die verschiedenen statistisch-mathematischen Verfahren von SAS einsetzen können. Obwohl auch dabei der Einblick in den Pro-grammcode der im Hintergrund ablaufenden Analyseprozeduren jederzeit möglich ist, steht hier ein anderes Ziel im Vordergrund, nämlich der möglichst einfache Zugang zu den analytischen Prozeduren von SAS über eine durch Menüs und Dialogfelder gesteuerte Anwendungsumgebung. Die grafischen Oberflächen sind dabei in der Regel über Schnittstellen erweiterbar, so dass solche Analyseverfahren, die in der Standardoberfläche nicht enthalten sind, bei Bedarf eingebunden werden können. Neben dem SAS Enterprise Miner (vgl. dazu speziell das Kapitel 2 zum Data Mining) enthält insbeson-dere auch der SAS® Enterprise Guide als grafische Benutzeroberfläche eine sehr große Auswahl statis-tischer Verfahren aus verschiedenen Produkten wie Base SAS, SAS/STAT, SAS/GRAPH, SAS/ETS, SAS/QC etc. Im Zusammenspiel mit den Möglichkeiten für den Zugriff auf verschiedene Daten-quellen, Datenmanagement und Erzeugung anspruchsvoller Grafiken und Berichte ist so für den An-wender die Durchführung kompletter Analyseprojekte innerhalb einer einzigen grafischen Benutzer-oberfläche möglich.

Abb. 1.8: Verteilungsanpassung für den Ankunftsprozess an einem Bankschalter (Arrival) und Zugriff auf analytische Funkti-onalität für multivariate Verfahren von SAS über das Menü Anwendungsroutinen im SAS Enterprise Guide.

Page 20: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 20

Der SAS Enterprise Guide ermöglicht aber nicht nur den Menü- und Dialog-geführten Zugriff auf aus-gewählte Analyse-Prozeduren. Er bietet auch leistungsfähige Funktionalität für Datenzugriff und Da-tenmanagement sowie das Erstellen von Berichten in verschiedenen Ausgabeformaten. Durch die Fähigkeit, eigene benutzerdefinierte Anwendungsroutinen zu schreiben und diese über den Add-In-Manager in die Menü- und Dialogstruktur einzubinden, bietet der SAS Enterprise Guide zudem Mög-lichkeiten für den grafischen Zugriff auf solche Analyse-Prozeduren, die in der Standardkonfiguration nicht über das Menü zur Verfügung stehen. Schließlich enthält der SAS Enterprise Guide auch einen Programmeditor, der mit einer intelligenten Autovervollständigungsfunktion und Syntaxhilfe per Pop-Up-Fenster für die Programmanweisungen versehen ist und damit den Einstieg in die SAS Pro-grammierung erleichtert.

Abb. 1.9: Programmierumgebung im SAS Enterprise Guide. Das Pop-Up-Fenster für die Syntaxhilfe zur Prozedur COUNTREG öffnet sich automatisch, sobald man den Cursor mit der Maus über die Programmanweisung mit dem Prozedurnamen be-wegt.

Page 21: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 21

Während sich der SAS Enterprise Guide als grafische Benutzeroberfläche für Anwender eignet, die mehr oder weniger regelmäßig Analysen durchführen und dabei die Leistungsmerkmale von SAS voll ausschöpfen möchten, existiert mit dem SAS® Add-In für Microsoft Office eine Alternative, die gerade Anwendern mit geringen SAS Kenntnissen und nur gelegentlichem Analysebedarf den Zugriff auf analytische Funktionalität in SAS erleichtert. Sie können ihre Datenanalyseprojekte in einer ihnen vertrauten Umgebung realisieren. Die für die Auswertung notwendigen Daten können dabei als SAS Tabellen sowohl lokal als auch innerhalb eines Netzwerks verfügbar gemacht werden. Dieses Vor-gehen ermöglicht einen ebenso komfortablen Zugang zu analytischer SAS Funktionalität wie der SAS Enterprise Guide.

Abb. 1.10: Beispiel für Zugriff auf ein zuvor erstelltes Zeitreihenprognoseprojekt und Auswahl der Analysefähigkeiten von SAS in Microsoft Excel (über Aufruf des SAS Add-Ins für Microsoft Office). Allerdings muss der Anwender bei der Analyse von Daten mit dem SAS Add-In für Microsoft Office die systembedingten Einschränkungen der „Wirtsanwendung“ Microsoft Office beachten. So existieren etwa für die Anzahl der darstellbaren Spalten und Zeilen von Datensätzen in Microsoft Excel be-stimmte Obergrenzen, selbst wenn diese Limitierungen für die zugrunde liegenden SAS Tabellen nicht gelten.

Page 22: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 22

Für solche Fälle, in denen Anwender nur für eine ganz spezielle analytische Fragestellung Zugriff auf entsprechende SAS Prozeduren benötigen und ein Analysewerkzeug mit umfassendem Methoden-spektrum wie der SAS Enterprise Guide oder das SAS Microsoft Office Add-In nicht benötigt wird, bietet sich die Integration der entsprechenden analytischen Verfahren in einen Stored Process an. Ein Stored Process ist im Wesentlichen ein SAS Programm, das in einem Netzwerk auf einem SAS Server abgelegt ist, an zentraler Stelle registriert wird und bei Bedarf aus einer Vielzahl von Client-Umge-bungen heraus aufgerufen werden kann. Das Spektrum reicht dabei von Web-basierten Anwen-dungen mit Zugriff durch einen Browser bis hin zu lokalen Programmen auf dem Client-Rechner.

Abb. 1.11: Im SAS Add-In for Microsoft Office verfügbarer Zugriff auf einen Stored Process für eine einfache mit der in SAS/ETS enthaltenen Prozedur MODEL erstellte und zur Laufzeit mit verschiedenen Einstellungen parametrisierbare Simula-tionsanwendung zur Verteilungsanalyse von Hotline-Wartezeiten (Release Simulator). Die Tatsache, dass vor Ausführung durch den Anwender bestimmte Eingabeparameter übergeben werden können, ermöglicht die Einbettung analytischer Prozeduren als Stored Process für die gezielte Benutzung durch einen speziellen Anwenderkreis.

Page 23: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Allgemeine Konzepte 23

1.6 Weiterführende Information Bitte beachten Sie bei der Verwendung der nachfolgenden Navigationshinweise, dass Web-site-Inhalte von Zeit zu Zeit aktualisiert werden. Die Website Business Analytics Framework (zu finden unter www.sas.com - Worldwide Sites - Ger-many - Produkte & Lösungen - Business Analytics Framework) enthält zahlreiche Hinweise auf weiter-führende Informationen zu den verschiedenen Themen rund um die Möglichkeiten zur Datenanalyse. Umfangreiche Informationen zum Thema High-Perfomance Analytics in den unterschiedlichen Aus-prägungen finden Sie auf www.sas.com – By Solution - High-Performance Analytics. Einen Überblick über die Auszeichnungen (Awards) und Urteile über SAS im Spiegel der Analysten erhalten Sie im Abschnitt Success Stories auf der Website www.sas.com. Das Schulungsprogramm von SAS Training beinhaltet eine Vielzahl an Kursen zu allen Themenberei-chen der Datenanalyse. Die detaillierten Beschreibungen und aktuellen Termine finden Sie auf der Website www.sas.de/training.

Page 24: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 24

2 Data Mining 2.1 Problemstellung im Überblick Der Begriff Data Mining wird häufig als der Prozess des Auffindens von Mustern in großen Daten-mengen definiert. Diese Definition enthält viele Implikationen, u.a. diejenige, dass die Daten nicht notwendigerweise explizit für diesen Zweck angefallen sind. Daher bilden die Schritte der Beschaf-fung, Bereinigung, Aggregation und Transformation von Daten einen nicht unerheblichen Bestandteil dieses Prozesses. Nicht selten enthalten die Daten auch eine große Anzahl von Merkmalen, die hin-sichtlich ihrer Relevanz für die Fragestellung erst vorselektiert werden müssen. Zudem existieren oftmals mehrere alternative Modellansätze für die quantitative Abbildung der Zusammenhänge in den Daten, aus denen nach sorgfältiger Bewertung das für eine Fragestellung jeweils am besten ge-eignete Modell ausgewählt werden muss. Darüber hinaus ist es in vielen Fällen notwendig, die aus den Modellen gewonnenen Berechnungsfunktionen für die Bewertung einzelner Datensätze (Sco-ring-Code) in gänzlich andere Systemumgebungen zu transferieren. Der Prozess des Data Mining beginnt allgemein zunächst mit der Problemformulierung, wie z.B. „Für welche Bestandskunden ist die Wahrscheinlichkeit, mit der Rückzahlung eines Kredits in Verzug zu geraten, am höchsten?“ Eine solche Problemstellung erfordert Daten, die mindestens sechs Monate in die Vergangenheit zurückreichen und einen hinreichend großen Anteil tatsächlich eingetretener Fälle von Rückzahlungsverzug beinhalten. Falls das Kundenverhalten saisonalen Schwankungen un-terliegt, müssen diese historischen Daten einem Zeitraum entstammen, der bezüglich der Saison mit dem Zeitraum für die Anwendung des Vorhersagemodells vergleichbar ist. In vielen Fällen weisen die verfügbaren Daten viele Dimensionen, Ausprägungen und Zeitperioden auf, die bezüglich ihrer Eignung für die Vorhersage der Zielgröße unterschiedliche Bedeutung haben können. Anwender von Methoden des Data Mining müssen daher im Vorfeld bereits wissen, zu wel-chen Zeitpunkten ein Modell eingesetzt wird, in welcher operativen Systemumgebung es verwendet wird, mit welchem Datendurchsatz zu rechnen ist und welche Daten überhaupt zur Verfügung stehen werden. Sobald die historischen Daten verfügbar sind, kann mit dem Modellbildungsprozess begonnen wer-den. Hierbei können zunächst verschiedene Modelltypen als Kandidaten in Frage kommen, wobei sich die Erkenntnis, welches Modell konkret am besten für die jeweilige Aufgabe geeignet ist, übli-cherweise erst nach Testen vieler alternativer Modelle herausstellt. Darüber hinaus muss beim Mo-dellbildungsprozess sichergestellt werden, dass das jeweils gefundene Modell sich nicht nur zur Be-schreibung der bestehenden Daten eignet, sondern auch für den Einsatz von Vorhersagen bei zu-künftigen Daten verallgemeinerbar ist.

Page 25: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 25

2.2 Die SAS Lösung: SAS Enterprise Miner SAS ermöglicht den Zugriff auf eine Vielzahl von Datenquellen, insbesondere auch auf jede Form von relationalen Datenbanken. Die für den Data Minig Prozess erforderlichen Analysetabellen (Analytical Base Tables, ABT) können mit SAS Base als Kernprodukt, dem SAS Enterprise Guide oder auch SAS Data Integration Studio bereitgestellt werden. Aus technologischer Sicht handelt es sich bei dem SAS Enterprise Miner um einen Java-Client, der eine mehrschichtige Architektur nutzt. Eine Installation von SAS auf dem Client-Rechner ist dabei nicht notwendig. Der Middleware-Server verbindet als Analytics Platform den SAS Server mit einem oder mehreren analytischen Clients. Eine im analytischen Frontend gestartete aufwändige Rechnung kann von der Analytics Platform gesteuert werden, auch wenn sich der Client abmeldet. Eine Neu-verbindung mit dem Analyseprozess ist jederzeit möglich. Auch das gleichzeitige Arbeiten mehrerer Personen an einem Projekt wird über die Analytics Platform ermöglicht. Der SAS Enterprise Miner bietet die Möglichkeit, Modelle im SAS Model Repository zu registrieren. Das SAS Model Repository ist die zentrale Sammelstelle der Modellmetadaten im SAS System. Über das Model Repository können Modelle und Modellergebnisse zwischen Anwendern und SAS Anwen-dungen wie beispielsweise dem SAS Enterprise Guide oder auch SAS Data Integration Studio auf Knopfdruck ausgetauscht und eingebunden werden. Zu Grunde liegend ist dabei auch wieder das Berechtigungskonzept, das den Zugriff auf Modelle und Metadaten steuert. Alle registrierten Modelle können so mit Hilfe eines Web-Servers im Intranet anderen Anwendern über Web Clients zur Verfügung gestellt werden. Darüber hinaus können sie mit SAS Data Integration Server in Prozesse für das Extrahieren, Transformieren und Laden (ETL) von Daten eingebunden wer-den. Damit ist es möglich, den Vorgang der regelmäßigen Modellanwendung auf vorhandene Daten-bestände zu automatisieren. Der SAS Enterprise Miner unterstützt den gesamten Data Mining-Prozess vom Datenzugriff, über die Datenaufbereitung aus analytischer Sicht, die Modellentwicklung und -bewertung, bis hin zur Bereit-stellung des gesamten Analyseprozesses als Score-Code zur Modellanwendung. Die im SAS Enterprise Miner verfügbare Auswahl an Modelltypen versetzt den Anwender zudem in die Lage, allen Anfor-derungen an die Modellbildung in der Praxis gerecht zu werden.

Page 26: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 26

Der SAS Enterprise Miner zeichnet sich besonders durch folgende Merkmale aus: • Klar strukturierte und benutzerfreundlich gestaltete Oberfläche (siehe Abb. 2.1), die Transparenz

und Nachvollziehbarkeit in den Analyseprozess bringt. • Strukturiertes Vorgehen durch die „SEMMA“-Methodologie. „SEMMA“ steht für Sample, Explore,

Modify, Model und Assessment. • Flexible Architektur mit vielfältigen Konfigurationsoptionen, vom einfachen System für den ein-

zelnen Anwender bis hin zu unternehmensweiten Lösungen mit der Möglichkeit standortüber-greifender Zusammenarbeit durch mehrere Anwender.

• Große Auswahl analytischer Verfahren und Modelle wie Regressionsverfahren, Clusteranalyse, Entscheidungsbäume, Neuronale Netze, Kohonen-Netzwerke (Self-Organizing Maps), Memory-Based Reasoning, Assoziationsanalysen etc.

• Umfassende Palette von Werkzeugen zur Aufbereitung, Verdichtung und Exploration von Daten, einschließlich interaktiver statistischer Grafiken

• Integrierte Funktionalität für die Durchführung von Modellvergleichen auf Basis von statistischen Kennzahlen sowie entscheidungsunterstützenden grafischen Darstellungsformen

• Generierung von Score-Code zur Anwendung von Modellen auf neue Datensätze und automa-tische Bereitstellung dieses Score-Codes in verschiedenen Entwicklungsplattformen wie SAS, C, Java oder Predictive Modelling Markup Language (PMML) für die Einbindung in externe Anwen-dungen

• Erweiterbares Design mit offenem Standard eXtended Markup Language (XML) als Schnittstelle für die Integration benutzerdefinierter Analyseprozeduren in die Oberfläche des SAS Enterprise Miner

Page 27: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 27

Der SAS Enterprise Miner unterstützt darüber hinaus das Metadaten-Konzept der SAS 9 Architektur und ermöglicht damit eine konsistente Integration mit anderen SAS Produkten wie etwa SAS Data Integration Studio, SAS Marketing Automation oder SAS Text Miner. Dies gilt insbesondere auch für die Aufbereitung der Ergebnisse eines Data Mining-Projekts über verschiedene Plattformen. So kön-nen etwa die Resultate der Anwendung eines Scoring-Vorgangs in einem SAS Information Delivery Portal für die jeweiligen Informationsadressaten im Unternehmen bereitgestellt werden.

Abb. 2.1: Die Oberfläche des Java Client ist in vier Bereiche aufgeteilt. Der linke obere Bereich Projects zeigt alle Informatio-nen zu einem Projekt in einer Ordner-Struktur. Diese Struktur besteht aus den Ordnern Data Sources, Diagrams, Model Packages und Users. Im Ordner Data Sources werden die Quelldaten und deren Eigenschaften (z.B. physischer Dateipfad, Funktionen im Rahmen der Modellbildung und Messniveau) definiert. Im Ordner Diagrams befinden sich alle zu einem Pro-jekt zugehörigen Prozessflussdiagramme. Der Ordner Model Packages enthält als Zusammenfassungen sogenannte Model Packages, die in diesem Projekt angelegt wurden. Solche Model Packages enthalten sämtliche Modellinformationen und können über einen Web-Server im Intranet publiziert werden. Der Ordner Users gibt dem Benutzer einen Überblick, welche weiteren Benutzer derzeit an dem Projekt arbeiten. Im Bereich Diagram auf der rechten Seite werden die Prozessflussdiagramme aufgebaut. Die als Symbole (Knoten) dargestellten verschiedenen Verarbeitungsschritte lassen sich per Drag and Drop aus der oberen Werkzeugleiste in das Diagramm ziehen. Im Bereich Properties (mittlerer Abschnitt auf der linken Seite) werden die Eigenschaften zu den Objekten der Benutzeroberfläche (Daten-quellen, Diagramme, Knoten, Verbindungen etc.) angezeigt und festgelegt. Der Bereich im unteren Abschnitt auf der linken Seite zeigt einen Hilfetext zu den ausgewählten Objekten an.

Page 28: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 28

2.3 Einsatz in der Praxis 2.3.1 Beispiel: Vorhersage-Modellierung Die folgende Beispielanwendung soll einen Überblick über den SAS Enterprise Miner geben. Die Marketingabteilung eines Unternehmens möchte mit Hilfe eines empirisch abgeleiteten und sta-tistisch fundierten Modells zur Response-Optimierung den Entscheidungsprozess im Rahmen der Zielgruppenselektion für die nächste Marketingaktion unterstützen. Das Modell basiert auf Daten von Kunden, die aus Businessgesichtspunkten für die Kampagne geeignet sind. Die Variable REA-GIERT stellt dabei die Zielgröße des Modells dar. Sie sagt aus, ob ein Kunde bei der letzten Aktion reagiert hat oder nicht. Das auf Basis dieser Daten zu entwickelnde Modell soll eine Vorhersage be-züglich der Responsewahrscheinlichkeit der Kunden ermöglichen (Predictive Modelling). In den nachfolgenden Abschnitten wird erläutert, wie nach und nach der Prozessfluss für das in Ab-bildung 2.2 dargestellte Diagramm entwickelt wird.

Abb. 2.2: Prozessflussdiagramm für ein Modell zur Response-Optimierung. Nach Festlegung der Datenquelle KAEUFER (über Knoten Data Input Source) werden die Daten mit Hilfe explorativer Verfahren (Knoten: StatExplore und SAS Code) unter-sucht, um einen ersten Eindruck bzgl. der darin enthaltenen Strukturen zu gewinnen. Vor der eigentlichen Modellierung wird in das Diagramm der Knoten Data Partition zur Validierung der Modellierungsergebnisse eingefügt. Für bestimmte Modell-typen ist es notwendig, mit Hilfe des Knotens Impute fehlende Werte durch geeignete Alternativen zu ersetzen. Datensätze, die solche fehlenden Werte enthalten, können sonst nicht berücksichtigt werden. Die Vorschaltung von Impute ist für Ent-scheidungsbaummodelle nicht erforderlich, da die im Knoten Decision Tree verwendeten Modelle Daten mit fehlenden Wer-ten explizit berücksichtigen. Über den Modellvergleich im Knoten Model Comparison wird automatisch das beste Modell ausgewählt, wobei verschiedene Kriterien für die Auswahl herangezogen werden können. Dieses Modell kann schließlich über den Knoten Score auf neue Datensätze (Knoten KAEUFER_SCOREDATA) angewendet werden. Das Ergebnis sind die Vorhersagen zum Responseverhalten neuer Kunden . Die im abschließend eingefügten Knoten SAS Code verwendeten Proze-duren ermöglichen eine zusätzliche Auswertung der Werte aus dem Scoring-Prozess. In diesem Fall wird eine sortierte Liste der 50 Datensätze mit den höchsten Scores, dargestellt.

Page 29: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 29

SEMMA-Schritt Sample Im ersten Schritt werden mit Hilfe des Data Source Wizard die Daten der Umgebung des SAS Enter-prise Miner bekannt gemacht. Neben Angaben über den physischen Speicherort der Daten kann hier festgelegt werden, welche Rollen die einzelnen Variablen bei der Modellierung spielen und welche Skalierung (Messniveau) sie besitzen. Zusätzlich erhält man an dieser Stelle mit Hilfe der Option Ex-plore vorab einen ersten Überblick über die Daten (siehe Abb. 2.3). Diese Funktionalität ist jedoch grundsätzlich an jeder Stelle des Prozessflussdiagramms verfügbar.

Abb. 2.3: Funktionalität der Option Explore. Die einzelnen Tabellen- und Grafikobjekte sind miteinander verbunden. Klickt man beispielsweise einen Balken in einem Diagramm an, so wird eine Teilmenge aus den Daten markiert. Diese Teilmenge wird in allen anderen Tabellen und Grafiken farblich hervorgehoben.

Page 30: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 30

Zusätzlich lassen sich von diesem Fenster aus über den Java Graphics Wizard eigene Grafiken erstel-len.

Abb. 2.4: Es gibt eine Vielzahl von Grafiken, die im Java Graphics Wizard erstellt werden können. Hier sind beispielhaft ein Streuungsdiagramm und ein Boxplot abgebildet. Die selektierten Beobachtungen werden automatisch hervorgehoben. SEMMA-Schritt Explore In diesem Schritt werden die Daten mit Hilfe des Knotens StatExplore weitergehend untersucht.

Abb. 2.5: Ergebnisse des Knotens StatExplore: In diesen Abbildungen wird gezeigt, welche Bedeutung die Einflussgrößen auf die Vorhersage der Zielgröße haben. Einen sehr bedeutenden Einfluss hat hier die Variable Alter. Darüber hinaus werden verschiedene Statistiken wie Zentralitätsmaße, Prozentsatz fehlender Werte, zusammenfassende Statistiken für Klassen-variablen usw. bereitgestellt.

Page 31: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 31

Abb. 2.6: Der Knoten SAS Code mit der Syntax der Prozedur CAPABILITY.

Noch flexiblere Möglichkeiten zur Untersuchung der Daten ergeben sich durch Erweiterungen der analytischen Funktionalität mit Hilfe des Knotens SAS Code. So kann leicht auf das sehr umfangreiche Spektrum analytischer Prozeduren von SAS zugegriffen werden. Ist etwa ein Verteilungsvergleich der intervallskalierten Variablen in Abhängigkeit von der Zielgröße Reagiert von Interesse, kann dies bei-spielsweise durch Schreiben von Anweisungen für die Prozedur CAPABILITY erfolgen.

Abb. 2.7: Ergebnisse des Knotens SAS Code mit der Prozedur CAPABILITY. Wie man sieht, unterscheiden sich die Verteilungen der Reagierer (Zielvariable = 1) bzw. Nicht-Reagierer (Zielvariable=0) bezüglich der Variablen Einkaufswert letzte 18 Monate.

Page 32: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 32

Abb. 2.8: Ergebnisse des Knotens Decision Tree.

SEMMA-Schritt Modify In diesem Schritt besteht die Möglichkeit, die Daten in Vorbereitung auf die Modellbildung zu modifi-zieren. Zunächst wird im dargestellten Prozessflussdiagramm (s. Abb. 2.2) der Knoten Data Partition einge-fügt, um eine Aufteilung der gesamten Datenmenge in Teilmengen von Trainings-, Validierungs- und/oder Testdaten vorzunehmen. (Er hätte übrigens auch schon im ersten SEMMA-Schritt Sample im Rahmen der Datenbereitstellung eingefügt werden können.) Eine solche Aufteilung ermöglicht eine bessere Beurteilung der Anpassungsgüte von Modellen. Die aus den Stichprobendaten geschätz-ten Modelle sollen verallgemeinerbar sein, d.h. sich auch für die Anwendung auf neue Daten eignen und nicht nur die Strukturen der jeweiligen Stichprobe abbilden. Zusätzlich ist die Ersetzung fehlender Werte in den Daten durch geeignete Schätzwerte (Missing Va-lue Imputation) möglich. Zu diesem Zweck wird der Knoten Impute eingefügt und mit dem Data Par-tition Knoten verbunden. Die im Abschnitt Properties festgelegten Voreinstellungen (Count für nomi-nalskalierte Variablen und Median für intervallskalierte Variablen) können je nach Bedarf für die ein-zelnen Variablen angepasst werden. Der SAS Enterprise Miner bietet darüber hinaus eine Vielzahl weiterer Funktionalitäten, die dem Ana-lytiker eine Datenaufbereitung aus statistischer Sicht ermöglichen. SEMMA-Schritt Model In diesem Schritt erfolgt die eigentliche Modellbildung. Dabei können alternative Modelle spezifiziert werden. Als erstes Modell soll ein Entscheidungsbaum verwendet werden. Hierzu wird der Knoten Decision Tree in das Prozessflussdiagramm eingefügt und mit dem Knoten Data Partition verbunden. Die Er-gebnisse der Modellierung sind nach Ausführung des Knotens sofort auf einen Blick sichtbar.

Page 33: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 33

Bei Vergrößerung des Fensters Tree wird der nachfolgend abgebildete Entscheidungsbaum angezeigt.

Abb. 2.9: Fenster Tree: Durch die schrittweise Zerlegung des gesamten Datenbestandes in einen hierarchischen Baum von Teilmengen wird versucht, diejenigen Gruppen von Personen zu isolieren, bei denen der Anteil mit der Ausprägung 1 für die Zielgröße besonders hoch bzw. besonders niedrig ist. Wie erwartet wurde die erste Aufteilung (Split) bei der Einflussgröße Alter vorgenommen. Jetzt können in das Diagramm per Drag and Drop Knoten für weitere alternative Modelle (Au-toneural, Dmine Regression und Rule Induction) eingefügt werden. Die Voreinstellungen werden hier weitestgehend übernommen. Im Gegensatz zu Decision Tree werden diese Knoten jedoch mit dem Knoten Impute verbunden, da bei ihnen die Ersetzung fehlender Werte notwendig ist.

Page 34: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 34

SEMMA-Schritt Assessment An die Ausführung der Modelle schließt sich in diesem Schritt deren Bewertung und die Generierung von Score-Code für die Anwendung der Modelle auf neue Daten an. Dazu wird der Knoten Model Comparison in das Prozessflussdiagramm eingefügt und mit den Knoten für die einzelnen Modelle verbunden. Er ermöglicht den Vergleich der einzelnen Modelle. Man erhält dort u.a. für alle Modelle die Score Rankings der Variablen Reagiert.

Abb. 2.10: Ergebnisse des Knotens Model Comparison: Die Kurve, die den Entscheidungsbaum repräsentiert, dominiert be-züglich des Kriteriums kumulierter Lift auf den Top5% die Kurven der anderen Modelle auf den Datensatz-Teilmengen Trai-ning und Validate. Der Entscheidungsbaum wird daher später für das Scoring, d.h. für die Vorhersage der Responsewahr-scheinlichkeit der Kunden, verwendet. Für die Festlegung des Kriteriums, nach dem ein Modell beim Vergleich automatisch als „bestes Mo-dell“ im SAS Enterprise Miner ausgewählt wird, gibt es insgesamt fünfzehn verschiedene Möglich-keiten. Als Auswahlkriterium könnte beispielsweise die Rate von Fehlzuordnungen (Missclassification Rate) oder der höchste Durchschnittswert für die Größe Profit (als Möglichkeit zur monetären Bewer-tung von Klassifikationszuordnungen) dienen. Um die aus dem gewählten Modell resultierende Bewertungsfunktion auf neue Datensätze anzu-wenden, wird der Knoten Score eingefügt und sowohl mit dem Knoten Model Comparison als auch mit einem Knoten für eine Datenquelle KAEUFER_SCOREDATA verbunden. Auf der Basis der generier-ten Werte (Responsewahrscheinlichkeiten) sind zusätzliche Auswertungen möglich. Beispielsweise wird hier ein weiterer Knoten SAS Code für eine zusätzliche Ergebnisausgabe eingefügt. Der benut-zerdefinierte SAS Code verwendet dabei die in Base SAS verfügbaren Prozeduren SORT und PRINT zur Erstellung einer sortierten Liste der 50 höchsten Responsewahrscheinlichkeiten, d.h. der 50 höchsten Werte aus dem Scoring-Vorgang.

Page 35: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 35

2.3.2 Segmentierung und Segmentprofile Für den Fall des unüberwachten Lernens, wie bei der Durchführung von Clusteranalysen, existiert keine Zielgröße, so dass die bisher geschilderten Bewertungskriterien nicht angewendet werden können. Der Knoten Segment Profiler ermöglicht jedoch die inhaltliche Interpretation verschiedener Gruppen von Beobachtungen (Cluster, Segmente) und damit die Bewertung solcher Clusterlösungen. Pro Segment existiert dabei eine Diagrammzeile. Innerhalb der Diagrammzeile erfolgt die Anordnung der einzelnen Merkmale nach dem Kriterium des Definitionsgehalts (gemessen über den sog. Log-Worth-Value) in Bezug auf die Segmentzugehörigkeit. Je weiter links ein Merkmal dabei steht, desto höher ist sein Definitionsgehalt, d.h. desto stärker weicht das Profil der Werteverteilung dieses Merkmals von den Profilen der anderen Segmente ab. Zum direkten Vergleich wird neben der Werte-verteilung des jeweiligen Segments auch die Werteverteilung der Gesamtheit aller Beobachtungen angezeigt. Für stetige Merkmale wird dabei auf Histogrammdarstellungen zurückgegriffen, für kate-goriale Merkmale dagegen auf Kreisdiagramme.

Abb. 2.11: Visualisierung der Ergebnisse einer Clusterlösung, die mit Hilfe des Knotens Cluster durchgeführt wurde. Pro Seg-ment (Diagrammzeile) werden die Profile der einzelnen Merkmale im Vergleich zur Gesamtheit dargestellt. Merkmale, die für das jeweilige Segment eine größere Bedeutung haben stehen weiter links.

Page 36: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 36

2.3.3 Weitere Einsatzgebiete Neben dem gezeigten Fallbeispiel zur Response-Optimierung existieren zahlreiche andere praktische Anwendungsmöglichkeiten. Stornovorhersage Die Stornovorhersage gilt als eine der Herausforderungen in den Branchen Telekommunikation und Versicherungen. Hierbei geht es darum, diejenigen Kunden zu identifizieren, die mit hoher Wahr-scheinlichkeit ihren laufenden Vertrag kündigen werden. Auf der Basis sämtlicher verfügbarer Infor-mationen aus der Verhaltenshistorie des Kunden (gewählte Produkte, Tariftyp etc.) können mit Ver-fahren des Data Mining Modelle zur Stornovorhersage entwickelt werden. Mit diesen Vorhersagen können dann gezielt Präventivmaßnahmen eingeleitet werden, um die Abwanderungsraten (Churn) zu senken. Ein großes deutsches Telekommunikationsunternehmen nutzt etwa den SAS Enterprise Miner, um Kündigungen seiner Kunden vorherzusagen und bei Abwanderungsgefahr rechtzeitig durch Kam-pagnen zu reagieren. Warenkorbanalyse Ein weiteres typisches Einsatzgebiet von Methoden des Data Mining stellt die Identifikation von zu-sätzlichen Umsatzpotenzialen in den Branchen Einzelhandel und Konsumgüterproduktion dar. Mit-tels zielgerichteter Warenkorbanalyse (Analyse von Bon-Daten) werden auf der Basis der bei jedem Produktkauf anfallenden Transaktionsdaten gemeinsam auftretende Transaktionsmuster (Verbund-käufe) sowie Reihenfolgemuster von Transaktionen analysiert. Kennzahlen wie Lift, Support und Con-fidence ermöglichen bei der Analyse von Warengruppenstrukturen Rückschlüsse auf das Kaufverhal-ten, wie z.B. Häufigkeiten für bestimmte Produktkombinationen oder Transaktionsreihenfolgen. Zu-sätzlich lässt sich etwa überprüfen, wie sich das Kaufverhalten in verschiedenen Einkaufsstätten un-terscheidet und ob homogene Käufergruppen identifiziert werden können. Das eigentliche Ziel der Warenkorbanalyse ist dabei eine effizientere Sortimentsgestaltung, um dem richtigen Kunden zum richtigen Zeitpunkt das richtige Produkt anbieten zu können. Ermittlung von Cross und Up Selling Potenzialen Dem Ziel, zusätzlichen Umsatz pro Kunde zu generieren, dienen neben der Warenkorbanalyse insbe-sondere auch Data Mining Verfahren für die Ermittlung von Cross Selling und Up Selling Potenzialen. Cross Selling beschreibt den Verkauf zusätzlicher Produkte an bestehende Kunden, Up-Selling stellt dagegen den Verkauf eines höherwertigen Produktes dar, etwa der Verkauf einer goldenen Kredit-karte (mit besonderen Zusatzleistungen) an Kunden, die bisher nur eine normale Karte besitzen. Um Potenziale für Cross und Up Selling heben zu können, müssen Antworten auf verschiedene Fragen gefunden werden, wie z.B.: • Welche zusätzlichen Produkte und Leistungen sollten einem Kunden auf Basis seines Produkt-

portfolios konkret angeboten werden, so dass es sowohl für das Unternehmen als auch den Kun-den einen Zusatznutzen stiftet?

• Wie hoch ist die Wahrscheinlichkeit, dass ein Kunde das zusätzlich offerierte Produkt auch tat-sächlich erwerben wird?

Neben der bereits erwähnten Warenkorbanalyse werden zur Beantwortung dieser Fragestellungen auch häufig Verfahren des Predictive Modelling, wie schon in Kapitel 2.2 und Kapitel 2.3 beschrieben, eingesetzt.

Page 37: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 37

Credit Scoring / Bonitätsprüfung Ein spezielles Einsatzgebiet für Data Mining stellt das Credit Scoring dar. Hier müssen Antworten auf die Frage gefunden werden, ob Kunden die in Anspruch genommenen Leistungen auch tatsächlich bezahlen werden. Leistungen können dabei beispielsweise Bankkredite, Telekommunikationsdienst-leistungen oder auch im Versandhandel auf Rechnung oder Ratenkauf bestellte Waren sein. Ziel ist es, das Risiko eines (Kredit-)Ausfalls adäquat beurteilen zu können. Scorecards können gewinnbrin-gend bei der Beantwortung der Fragen eingesetzt werden, ob ein Neu- oder auch Bestandkunde sei-nen Zahlungsverpflichtungen nachkommt und falls nicht wie hoch die zu erwartende Verlustquote sein wird. Dabei sammelt ein Kunde auf Basis seiner Eigenschaften Punkte; je höher die gesammelte Punktzahl desto besser wird die Kreditwürdigkeit oder Bonität des Kunden/ Antragstellers einge-schätzt. Das typische Vorgehen sieht dabei vor, dass die einzelnen Merkmale zunächst anhand der zugrunde liegenden Risikostruktur klassiert werden. Der Interactive Grouping Knoten im Enterprise Miner er-möglicht neben einer vollständig automatisierten Gruppierung auch die individuelle Gruppierung des jeweiligen Merkmals, so dass sich Geschäftsregeln dabei komfortabel berücksichtigen lassen. Dabei ist darauf zu achten, dass das Ausfallrisiko monoton über die Gruppen hinweg ansteigt. Dies führt nachfolgend dazu, dass Kunden mit hohem Ausfallrisiko auch nur wenige Punkte über die Scorecard erhalten. Darüber hinaus erfolgt hier eine Merkmalsauswahl anhand der Trennschärfe der neu grup-pierten Variable auf Basis statistischer Kennzahlen wie der Gini Statistik oder dem Informationswert, d.h. wie sehr hilft die Gruppierung die schlechten von den guten Kunden zu separieren. Zusätzlich werden sogenannte Evidenzgewichte (Weights of Evidence) berechnet, die im nachfolgenden Schritt der Schätzung der Ausfallwahrscheinlichkeiten mittels logistischer Regression Verwendung finden. Abschließend erfolgt auf Basis des Regressionsmodells die Erstellung der eigentlichen Scorecard mit-tels Punktevergabe auf die einzelnen Merkmalsklassen. Dies erfolgt wahlweise automatisch oder durch manuelles Überschreiben im eigens dafür entwickelten Scorecard Knoten.

Abb. 2.12: Visualisierung einer Scorecard als eines der Ergebnisse des Scorecard Knotens. Mehrere deutsche Banken können mit Hilfe des Enterprise Miner und der Lösung SAS Credit Scoring for Banking das Risiko ihrer Kunden individuell und treffsicher einschätzen. Im Gesamtkontext der Eigenkapitalberechnung im Rahmen der Anforderungen von Basel II fließen die Ergebnisse aus dem Data Mining ein, um die Eigenkapitalquote risikooptimal zu bestimmen. Auch Marketingaktionen profitieren von diesen Analysen, da nicht-zahlungsfähige oder -willige Kunden nicht noch auf zusätz-liche Produkte angesprochen werden.

Page 38: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 38

Survival Data Mining Speziell für Fragestellungen im Bereich der Stornoprävention ist die Methodik des Survival Data Mi-ning immer populärer geworden. Dabei wird die “erwartete Lebensdauer” eines Kunden im Sinne der Dauer seiner Kundenbeziehung auf Basis von historischen demografischen und verhaltensbezogenen Daten modelliert. Im Gegensatz zur klassischen Vorgehensweise im Data Mining, wobei ein Modell zur Vorhersage eines bestimmten Ereignisses in einem bestimmten Zeitfenster (z.B. 80% Wahrscheinlichkeit in den nächsten 12 Mona-ten) trainiert wird, wird beim Survival Mining die Wahrscheinlichkeit für das Ein-treten des Events über ein Zeitintervall hinweg modelliert (50% Kündigungswahrscheinlichkeit im nächsten Monat, aber 75% im darauf folgenden Monat). Der Algorithmus im Enterprise SAS® Enterprise Miner ermög-licht dabei die Berücksichtigung externer Faktoren. So kann beispielsweise die Frage beantwortet werden, ob Kunden mit Mehrproduktbesitz weniger schnell wieder kündigen als Kunden, die nur ein Produkt besitzen. Aber nicht nur die traditionelle Frage zur Stornoprävention lässt sich mit Survival Data Mining be-antworten, sondern auch weitere Fragen rund um das Kundenverhalten, wie z.B. wann wird ein Kun-de ein weiteres Produkt erwerben oder sich für eine höherwertigere Dienstleistung entscheiden? Zu wissen, wann ein Kunde ein bestimmtes Verhalten zeigen wird, führt zu entscheidenden Wettbe-werbsvorteilen und hilft Marketingbudgets im Sinne einer langfristigen Kundenstrategie geeignet einzusetzen. Time Series Data Mining Häufig spielen Zeitabhängigkeiten in historischen Daten eine bedeutende Rolle bei der Erklärung des Kundenverhaltens. Ein neuer Ansatz im Rahmen des Data Mining ist daher die Verwendung von Ver-fahren zur Zeitrei-henanalyse. Die Funktionalitäten im Enterprise Miner ermöglichen es Techniken aus der Zeitreihenanalyse mit den herkömmlichen Methoden des Data Mining zu kombinieren. Ein Beispiel dafür ist die seit langem eingesetzte RFM-Methode (R=Recency, F=Frequency, M=Monetary) im Handelsumfeld. Die Idee ist, dass kürzlich gezeigtes Kundenverhalten einen deutlich höheren Einfluss auf das zukünftige Verhalten hat, als länger zurückliegende Aktivitäten. Häufig liegen aber die zeitabhängigen Informationen als transaktionale Daten oder in Form von Zeit-reihen vor, so dass sie nicht ohne weiteres zur Vorhersagemodellierung geeignet sind. Methoden zur Aufbereitung der Daten in Form von automatischen Transformationen gehören daher ebenso zum Lösungsumfang wie verschiedene Glättungsverfahren zur Reduktion der Variabilität in den Daten. Darüber hinaus können Zeitreihen auf Basis ihrer Ähnlichkeit miteinander kombiniert werden. Betrugserkennung Data Mining findet auch im Rahmen der Betrugserkennung Anwendung. Zu den häufigsten Betrugs-delikten bei der Abwicklung des Zahlungsverkehrs für die Inanspruchnahme von Internet-, Telefon- oder Postversand-Dienstleistungen zählt der Kreditkartenbetrug. Ihn aufzudecken ist beispielsweise für den Einzelhandel sehr wichtig, da nicht etwa die Bank des Karteninhabers, sondern der Händler selbst das finanzielle Risiko des Forderungsausfalls trägt. Ein bekannter Internethändler hat beispielsweise durch den Einsatz von Data Mining mit Hilfe von SAS die Anzahl der Betrugsfälle deutlich senken können, im ersten halben Jahr bereits um 50 %.

Page 39: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 39

Ratemaking Kerngeschäft von Versicherungen ist die Bestimmung eines in Abhängigkeit des Schadenrisikos opti-malen Tarifs für jeden Versicherten. Dabei werden auf Basis der bekannten Versicherten und Scha-denfälle mit speziellen Verfahren die erwarteten Verluste je Kunde oder Kundensegment vorherge-sagt. Mit dem Rate Making Knoten stehen diese spezifischen, aktuariellen Verfahren nun auch im Enter-prise Miner zur Verfügung. Dabei ist es möglich -in nur einem Knoten- sowohl das Eintreten eines Schadens, das Schadenaufkommen als auch die Schadenhöhe vorherzusagen. Dies bildet dann die Basis, um die sogenannte Pure Premium zu berechnen, die erforderlich ist, um das individuelle Versi-cherungsrisiko zu decken. Da es sich hierbei um einen hochgradig iterativen Analyseprozess handelt, ist sehr gute Performance erforderlich, so dass für den Rate Making Knoten speziell eine Hochge-schwindigkeitsversion der Prozedur GENMOD entwickelt wurde, die Proc HPG. Neben den speziellen Anforderungen in der Versicherungsmathematik lässt sich diese Funktionalität auch für andere Fragestellungen nutzen, die mit Hilfe verallgemeinerter linearer Modelle beantwor-tet werden können. Kundensegmentierung Verfahren des Data Mining werden oft auch im Rahmen der Kundensegmentierung angewendet. Eine Kundensegmentierung ermöglicht ein besseres Verständnis der Kundenbedürfnisse, mit dem Ziel, die dabei gewonnenen Erkenntnisse für eine gezielte Ansprache der Kunden im Rahmen des Direktmarketings einzusetzen. Unter Kundensegmentierung versteht man dabei allgemein den Prozess der Einteilung des gesamten Kundenbestandes in einige wenige Kundengruppen (Segmente), die sich beispielsweise bezüglich ihres Kauf-, Transaktions- oder Kommunikationsverhaltens oder der Produkte, welche sie besitzen, ähnlich sind. Hier werden häufig Algorithmen des unüberwachten Lernens wie Cluster-Algorithmen oder auch Selbstorganisierende Merkmalskarten (Self-organizing Feature Maps) eingesetzt. Der ge-samte Kundenbestand wird in der Regel dabei so in Segmente eingeteilt, dass jeder Kunde genau einem Segment (Cluster) zugeordnet werden kann. Web Mining Eine bedeutende Rolle spielt Data Mining auch bei der Untersuchung des Surf-Verhaltens von Besu-chern der Website einer Unternehmung (Web Mining). Ausgangsbasis für die Analyse sogenannter Clickstreams (Klickpfade bzw. Folgen von Site-Aufrufen) sind die Einträge in den Log-Dateien des Web-Servers, die durch das Navigationsverhalten des Internet-Surfers beim Besuch der Website ent-stehen. Mit Web Mining können mögliche Zusammenhänge zwischen Klickpfaden, Verweildauern auf bestimmten Site-Inhalten und Kaufwahrscheinlichkeiten für bestimmte Produktkategorien erkannt werden. Es kann insbesondere ermittelt werden, welche Site-Inhalte von Besuchern mit speziellen Interessengebieten besonders häufig frequentiert werden, wie sich die Klickpfade von Käufern und Nichtkäufern unterscheiden und inwieweit sich bestimmte homogene Gruppen von Website-Besuchern (Kundensegmente) identifizieren lassen. Damit ist es letztendlich möglich, den Web-Auftritt des Unternehmens hinsichtlich zusätzlicher Umsatzpotenziale zu optimieren.

Page 40: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 40

Ermittlung von Kundenwerten Der Kundenwert (Customer Lifetime Value bzw. CLV) stellt ein wichtiges Konzept für viele Unterneh-men dar und dient als Steuerungsinstrument zur Entscheidungsunterstützung. Der Kundenwert wird als der diskontierte Nettozufluss aus Ein- und Auszahlungsströmen eines Kunden an das Unterneh-men während der gesamten Dauer der Kundenbeziehung definiert. Er setzt sich aus einem aktuellen Wert und einem zukünftigen (strategischen) Wert zusammen. Der aktuelle Wert eines Kunden wird durch die gegenwärtige Profitabilität des Kunden repräsentiert. Die Berechnung des aktuellen Wertes basiert auf den Erlösen durch den Verkauf von Produkten und Dienstleistungen an den Kunden und der durch den Kunden entstehenden Kosten bis zum Zeitpunkt der Analyse. Der zukünftige Wert eines Kunden setzt sich aus seinem langfristigen Potential zusam-men. Berücksichtigt werden dafür die zu erwartenden positiven Nettozuflüsse durch Cross und Up Selling sowie die zu erwartenden negativen Nettozuflüsse aus Kündigung, Zahlungsausfällen und sonstige Auszahlungen an den Kunden, z.B. auf Grund von Versicherungsschäden im Laufe der ver-bleibenden Kundenbeziehung. Der zukünftige Kundenwert verbindet somit einige der bereits vorgestellten Fragestellungen im Um-feld des Data Mining. Der gesamte Kundenwert lässt sich dann durch einfache Addition der Teiler-gebnisse berechnen. Insbesondere sehr viele Versicherungsunternehmen setzen den SAS Enterprise Miner im Rahmen der Berechnung solcher Kundenwerte ein.

Page 41: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 41

2.4 SAS Rapid Predictive Modeler Häufig werden Data Mining Modelle zur Vorhersage von Kundenverhalten im Marketingumfeld ein-gesetzt. Dabei ist die Modellentwicklung nur ein Schritt in der Gesamtplanung und Durchführung einer Kampagne. Diese Situation erfordert es, dass Modelle in kürzester Zeit entwickelt werden müs-sen. Darüber hinaus verfügen nicht alle Unternehmen über spezialisierte Mitarbeiter, die über die not-wendigen analytischen Fähigkeiten verfügen, um Data Mining Analysen durchführen zu können. SAS Rapid Predictive Modeler adressiert genau diese Zielgruppe, so dass Data Mining Analysen nun einem erweiterten Anwenderkreis zur Verfügung stehen. Der SAS Rapid Predictive Modeler (kurz RPM) vereinfacht und automatisiert als Wizard-gesteuertes Add-on zum SAS Enterprise Guide oder SAS Add-In for Microsoft Office den Prozess der Modellent-wicklung. Er eignet sich für Klassifikations- und auch Regressionsprobleme. Klassifikationsmodelle können diskrete Variablen vorhersagen, wie z.B. Kauf / Nicht-Kauf, Richtig / Falsch, Kündigung / Nicht-Kündigung; Regressionsmodelle sagen einen Wert wie beispielsweise Umsatz vorher. Im Rahmen der Analyse werden automatisch Ausreißer bereinigt, fehlende Werte ersetzt, schiefe Verteilungen der Inputvariablen korrigiert und relevante Variablen selektiert. Ausgangspunkt ist eine denormalisierte Analysetabelle, die neben beschreibenden Merkmalen eine Zielvariable beinhaltet.

Abb. 2.13: Analysedaten im Enterprise Guide als Basis für die Analyse mit dem SAS Rapid Predictive Modeler.

Page 42: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 42

Abbildung 2.14: Festlegung der Modellrollen.

Abb. 2.15: Auswahl des Modellierungstyps und evtl. Vergabe von Priori-Verteilungen.

Der Anwender kann nun in wenigen Schritten erfolgreich eine Data Mining Analyse durchführen. Dazu muss er lediglich angeben, welche der im Datensatz enthaltenen Variablen die Zielvariable dar-stellt. Werden nicht explizit Variablen aus der Analyse ausgeschlossen (Modellierungsrolle: Exklusive), so werden alle übrigen Variablen als Inputvariablen in der Modellierung verwendet.

Im SAS Rapid Predictive Modeler stehen drei Modellierungstypen zur Auswahl: Basis, Intermediär und Fortgeschritten. Je nach Auswahl werden unterschiedlich komplexe Analyseschritte und Modellie-rungsverfahren eingesetzt und konkurrierend bewertet. Der Basismodus trainiert ein einfaches Re-gressionsmodell; in den beiden anderen Modi kommen weitere Verfahren wie Entscheidungsbäume und Neuronale Netze hinzu.

Page 43: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 43

Die im SAS Rapid Predictive Modeler erstellten Modelle generieren im Hintergrund standardisierte Prozessflüsse im SAS Enterprise Miner (analog wie in Kapitel 2.3.1 dargestellt). Die SAS Enterprise Miner Modelle lassen sich im SAS Enterprise Miner öffnen und im Bedarfsfall noch weiteres Fine-Tuning vornehmen (White-Box Ansatz). So wird auch eine Zusammenarbeit zwischen der Anwender-gruppe der Business Analysten und der erfahrenen Data Mining Anwendern ermöglicht. Alle RPM-Modelle generieren zum Abschluss Standardberichte, die helfen das Modell zu beurteilen. Zusätzlich wird eine deskriptive Scorecard erstellt, welche die Beschreibung und Auswahl der Kunden als Zielgruppe erleichtert.

Abb. 2.16: Darstellung der Wichtigkeit der einzelnen Variablen im Hinblick auf die Zielvariable anhand der Variable Im-portance, sowie Captured Response Chart zur Beurteilung der Modellgüte. Mit dem SAS Rapid Predicitve Modeler erstellte Modelle können wiederum im Metadaten Server registriert werden. Sie stehen so unmittelbar zur Verwendung in anderen SAS Applikationen wie dem SAS Data Integration Studio oder auch dem SAS Model Manager zur Verfügung.

Page 44: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 44

2.5 Management des Modell-Lebenszyklus Der Aspekt des Time-To-Market als entscheidender Faktor für die erfolgreiche Umsetzung einer Busi-ness Analytics Strategie hat zunehmend auch Auswirkungen auf die Gestaltung des Prozesses bei der Integration analytischer Anwendungen in die bestehende operative Systemlandschaft der Organisa-tion. Insbesondere bei der Vorhersagemodellierung greift immer häufiger die Einsicht, dass Modelle Alterungsprozessen unterliegen. Aufgrund der Veränderungen bei den Zielgruppen-Merkmalen oder sich verändernder Marktdynamik (Wettbewerber-Aktionen), die zum Zeitpunkt der Modellerstellung nicht adäquat berücksichtigt werden konnten, nimmt die Prognosegenauigkeit und damit die Quali-tät eines bestehenden Modells im Laufe der Zeit immer weiter ab. Für eine erfolgreiche Umsetzung einer Vorhersagemodellierung sind damit nicht nur die statistischen Eigenschaften eines solchen Modells, wie etwa seine Prognosegüte, von Bedeutung, sondern auch wie schnell erkannt wird, dass ein Modell überarbeitet werden muss und wie lange dann der Prozess von der Modellaktualisierung bis zur Bereitstellung für operative Zwecke dauert. Anders ausgedrückt: Modelle unterliegen häufig einem Lebenszyklus, beginnend mit der Erstellung über das Testen und dem produktiven Einsatz bis hin zur Ablösung durch ein geeigneteres Modell, etwa nach dem Cham-pion-Challenger-Ansatz (vgl. Abb. 2.17). Eine solche Begleitung des Modell-Lebenszyklus (Lifecycle Analytics) ermöglicht der SAS® Model Ma-nager.

Abb. 2.17: Grafische Benutzeroberfläche des SAS Model Manager mit Projektbaum-Ansicht zur Gliederung der einzelnen Phasen innerhalb des Modell-Lebenszyklus und zur Darstellung relevanter Modell-Informationen.

Page 45: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 45

Abb. 2.18: Gesamter Modell-Lebenszyklus.

Mit dem SAS Model Manager können Vorhersagemodelle entlang ihres Lebenszyklus verwaltet, ver-sioniert und dokumentiert werden. Dies beinhaltet das Erstellen von Vorlagen (Templates) für die einzelnen Prozessschritte, das Registrieren von Modellen in der Metadaten-Umgebung von SAS, das Hinzufügen modellrelevanter Dokumentation, das Anwenden der Modelle auf Testdaten, das Freige-ben für die produktive Nutzung, das Übergeben (Veröffentlichen) der Modelle in die operative Um-gebung innerhalb der die aus dem Modell resultierende Scoring-Funktion aufgerufen werden soll sowie das fortlaufende Überwachen der Eigenschaften des Modells (z.B. Prognosegüte, Wertevertei-lung von Zielgröße und Eingangsmerkmalen). Die Modellentwicklung im SAS Enterprise Miner oder auch SAS/STAT oder dem SAS Rapid Predictive Modeler ist ein Schritt im Rahmen des gesamten Lebenszyklus eines Modells .

Nach der Entwicklung müssen Modelle in Produktion gegeben werden und ihre Trennschärfe im Zeitablauf überwacht werden, um so den richtigen Zeitpunkt abzupassen, in dem Modelle auf Grund von Überalterung aus dem Produktionsprozess (operatives Scoring) genommen werden sollten. Je mehr Modelle im Einsatz sind oder auch je schneller Modelle auf Grund schnelllebiger Geschäfts-prozesse an Validität verlieren, umso wichtiger ist ein valides Modellmanagement. Der SAS Model Manager unterstützt die Definition dieser Prozessschritte mit einem zusätzlichen Werkzeug, dem SAS Workflow Studio 1.1. Anwender können damit leicht einen Prozess nach Ihren Bedürfnissen definie-ren. Dabei können Verantwortlichkeiten, Benachrichtigungen, Termine, Richtlinien und andere Work-flow-Komponenten festgelegt werden. So können Scoring-Läufe bereits vor tatsächlicher Produktivsetzung direkt im Fachbereich getestet werden. Bei der Anwendung von Vorhersagemodellen auf großen Datenbeständen, etwa zur regelmäßigen Durchführung von Kundenbewertungen mittels Scoring-Funktion, kommen heutzutage vermehrt In-Database Scoring-Ansätze auf massiv parallelen Datenbanksystemen zum Einsatz (vgl. dazu Kapitel 1.3). Auch der SAS Model Manager bietet über den SAS Scoring Accelerator die Möglichkeit Scoring-Funktionen direkt auf der Datenbank auszuführen.

Page 46: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 46

Werden Modelle metadatengesteuert in anderen SAS Applikationen verwendet, so ermöglicht der SAS Model Manager die nahtlose Übergabe der Modelle von der Entwicklungs- in die Produktions-umgebung z.B. für ein Batch-Scoring im SAS Data Integration Studio oder auch ein Online-Scoring im SAS Real-Time Decision Manager, aber auch den Austausch der Modelle durch eine aktualisierte Ver-sion und gleichzeitige „Pensionierung“ des überalterten Modells. Um die Validität eines Modells im Zeitablauf kontinuierlich beurteilen zu können, werden automa-tisch verschiedene Modellvalidierungsberichte generiert, die u.a. Kennzahlen wie Lift, ROC oder auch KS-Statistik im Zeitablauf messen. Wird ein kritischer Grenzwert unterschritten, wird der verantwort-liche Anwender per E-Mail informiert. Sofern es sich um ein SAS Enterprise Miner Modell handelt, kann in diesem Fall der verantwortliche Anwender direkt aus dem SAS Model Manager heraus ein „Retraining“ des Modells veranlassen, d.h. es muss kein neues Modell entwickelt werden, sondern ein bestehendes Modell wird nachkalibriert. Das neu trainierte Modell wird möglicherweise andere Prediktoren, Koeffizienten usw. hervorbrin-gen, da es auf aktuellsten Daten trainiert wurde. Der SAS Model Manager 3.1 erstellt diese Modelle im Batch und zeigt die Ergebnisse nach Beendi-gung der Verarbeitung an. Die neuen Modelle werden als neue „Challenger“-Modelle im Projekt be-kannt gemacht. Ein Vergleich mit den ursprünglichen Modellen zeigt, ob es eine Verbesserung in der Modellgüte gegeben hat. Eine Aktualisierung der SAS Enterprise Miner Modelle ist ohne Verlassen der Model Manager Umgebung möglich. Dadurch bleibt den Analytikern mehr Zeit, sich auf die Ent-wicklung neuer Modelle zu konzentrieren. Um bestehenden regulatorischen Anforderungen beispielsweise im Bankenumfeld gerecht zu wer-den, werden alle Änderungen in einem patentierten Model Repository gespeichert.

Page 47: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Data Mining 47

2.6 Weiterführende Informationen Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema Da-ta Mining. Bitte beachten Sie bei der Verwendung der nachfolgenden Navigationshinweise, dass Website-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen In-formationen zum Produkt SAS Enterprise Miner: Products & Solutions - Analytics - Predictive Analytics & Data Mining - Model Development & De-ployment Dort stehen u.a. folgende Inhalte zur Verfügung: • Englischsprachige Produktbeschreibung zum Herunterladen im PDF-Format (Fact Sheet) • Verweise auf internationale Referenzen (Customer Success Stories) Verschiedene technische Informationen (Online-Dokumentation) finden Sie auf der Website www.sas.com über folgenden Navigationsweg: Support & Training - Documentation - Products & Solutions - Select a product: SAS Enterprise Miner Weitere Informationen zum SAS Rapid Predictive Modeler finden Sie über: Products & Solutions - Analytics - Predictive Analytics & Data Mining - Model Development & De-ployment - SAS Rapid Predictive Modeler Weitere Informationen zum SAS Model Manager finden Sie über: Products & Solutions - Analytics - Model Mgmt. & Monitoring Das Schulungsprogramm von SAS Training enthält eine Reihe an Kursen und Workshops zum Thema Data Mining. Detaillierte Beschreibungen und die aktuellen Termine finden Sie auf der Website www.sas.de/training.

Page 48: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 48

3 Text Mining 3.1 Problemstellung im Überblick Ein Großteil der Daten in der realen Welt liegt in unstrukturierter Form als Text vor: Kundenfeedback, E-Mails, Twitter, Facebook, Webseiten, Beschwerden, Umfragen, Artikel, Studien oder Mark-tanalysen, um nur einige Beispiel zu nennen. Um den größtmöglichen Nutzen aus solchen Textdaten zu ziehen, muss ein Unternehmen in der Lage sein, diese Daten ebenso automatisch analysieren zu können wie strukturierte Daten aus einem Data Warehouse oder einer operativen Datenquelle. Text Analytics bedeutet in diesem Zusammenhang, große Textmengen nach Informationen (z.B. Trends oder Meinungen) zu durchforsten, um diese weitestgehend ungenutzten Datenspeicher in aussage-kräftiges und wertvolles Wissen zu verwandeln. Insbesondere Text Mining, ein wesentliches Teilge-biet von Text Analytics, nutzt dabei statistisch-mathematische Verfahren, um Textsammlungen in ähnliche Gruppen (Cluster) einzuteilen, vorgegebenen Kategorien zuzuordnen oder allgemein die Ähnlichkeit zwischen Textdokumenten zu ermitteln. Neben Text Mining umfasst Text Analytics aber auch Aspekte wie die Organisation von Begriffs- oder Themenhierarchien (Ontologien und Taxono-mien) aus Textsammlungen und das Anwenden computerlinguistischer Methoden zur automatischen Extraktion bestimmter Informationen (Themen, Tonalität) aus Texten. Die Übergänge zwischen Text Mining und anderen Gebieten von Text Analytics sind heute jedoch fließend. Insofern wird nachfol-gend der Begriff Text Mining sehr weit definiert. Text Mining eignet sich beispielsweise für die Analyse der Kundendaten, die beim Betrieb eines Call-centers eines Unternehmens in Form von Kommentaren, Meinungen und Beschwerden täglich anfal-len, um daraus Anhaltspunkte für eine Verbesserung des jeweiligen Service-Angebots abzuleiten. Eine manuelle Bewertung jeder einzelnen Kundenaussage durch Mitarbeiter des Callcenters wäre aufgrund der zu bewältigenden Datenmengen hier oftmals nicht praktikabel. Verfahren des Text Mining sind jedoch in der Lage, diesen Prozess zu automatisieren. Zunehmend gewinnen auch soziale Medien an Bedeutung, aus denen sich wertvolles Kundenfeedback - etwa zur Markenwahrnehmung oder Produktqualität - gewinnen lässt. Die in Form von einzelnen Textdokumenten verfügbaren Informationen werden dabei zunächst im Zuge einer Text-Vorverarbeitung so aufbereitet, dass nur noch diejenigen semantischen Elemente mit substanziellem Informationsgehalt weiterverarbeitet werden. Für die Fragestellung nicht relevan-te Informationen (z.B. bestimmte Satzelemente wie Präpositionen, Pronomen, Artikel u.ä.) werden dabei herausgefiltert. Ebenso werden unterschiedliche Begriffe mit identischer Bedeutung (Synony-me), Wörter mit gemeinsamen Wortstamm oder Konstruktionen, die eine sachlogische Einheit bilden (z.B. Adressen, Datumsangaben, Firmen- oder Produktnamen) jeweils zu semantischen Einheiten zusammengefasst. Die dadurch entstehende Liste der Begriffe wird anschließend in Form einer tabel-larischen Darstellung von Häufigkeiten über die Gesamtzahl der Dokumente aufbereitet und ist so für die eigentliche statistische Datenanalyse erst zugänglich. Der unterschiedliche Bedeutungsgehalt einzelner Begriffe für die gegebene Fragestellung kann dabei durch Anwendung von Gewichtungsfak-toren berücksichtigt werden. Die so entstandene Häufigkeitstabelle (Term-by-Document Matrix) ist aufgrund der großen Anzahl von Begriffen in der Regel immer noch sehr groß. Um das Datenmaterial noch weiter zu verdichten, werden dann häufig Verfahren zur Dimensionsreduktion verwendet. Bei der Singulärwertzerlegung werden beispielsweise die in der Tabelle enthaltenen Informationen, die mathematisch betrachtet komplexe mehrdimensionale Zusammenhänge repräsentieren, in einem geometrischen Raum mit geringerer Anzahl von Dimensionen abgebildet.

Page 49: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 49

Auf die verdichteten Daten können dann für die jeweilige Fragestellung geeignete statistisch-mathematische Verfahren der Datenanalyse angewendet werden. So bietet es sich in diesem Beispiel an, die Sammlung der Dokumente mit Hilfe verschiedener Clusterverfahren nach dem Kriterium der Ähnlichkeit vorkommender Begriffe zunächst in homogene Gruppen (Cluster) aufzuteilen. Aus der Analyse der charakteristischen Begriffe für die einzelnen Cluster ist dann erkennbar, wie sie sich nach inhaltlich-thematischen Aspekten unterscheiden (z.B. bestimmte Produkteigenschaften, Service, Preis-Leistungs-Verhältnis etc.). Die Clusterzugehörigkeit kann dann im nächsten Schritt mit anderen Daten verknüpft werden, etwa der Kategorie des jeweiligen Kundentelefonats (Beschwerde, Lob, Anfrage etc.), um daraus Anhaltspunkte für die Kundenwahrnehmung von Schwächen oder Stärken des Leistungsangebots der Unternehmung zu gewinnen. 3.2 Die SAS Lösung Der SAS Text Miner bietet eine breite Palette an Werkzeugen für Textverarbeitung und Analyse, mit deren Hilfe in umfangreichen Sammlungen von Textdokumenten implizit enthaltene gemeinsame Themen oder Konzepte offen gelegt werden können. Textdokumente können eingelesen, automa-tisch verdichtet, in Gruppen zusammengefasst, Themen zugeordnet und in Verbindung mit struktu-rierten Daten zur Erstellung von Klassifikationsmodellen verwendet werden. Diese Tätigkeiten kön-nen entweder von der Software automatisch oder von erfahrenen Benutzern individuell mit den im Folgenden beschriebenen drei Teilschritten durchgeführt werden. 3.2.1 Text einlesen Die Anwender haben beim SAS Text Miner universellen Zugriff auf zahlreiche Arten von Textdaten, die in Form elektronischer Dokumente vorliegen. Unterstützt werden dabei zum Beispiel die Formate Adobe Portable Document Format (PDF), ASCII-Text, HTML und Microsoft Word und viele weitere Dokumentformate. Diese Textdaten können zum Zwecke des Text Mining extrahiert, umgewandelt und in eine SAS Tabelle geladen werden. Des Weiteren gibt es die Möglichkeit, automatisch Inhalte von Websites zu durchforsten (Crawling). Mit Hilfe von regulären Ausdrücken können komplexe Suchmuster extrahiert und ersetzt werden bzw. in zusätzlichen Attributen für jedes Dokument abge-speichert werden. Des Weiteren gibt es Anwendungsroutinen, die dabei helfen, Probleme zu bear-beiten, welche sich aus den in den Texten vorkommenden Tippfehlern und unkonventionellen Abkür-zungen ergeben. Der SAS Text Miner unterstützt für die Analyse von Texten mehrere Sprachen. Die Satzbauanalyse und Identifikation der einzelnen Satzelemente (Parsing) sowie die Durchführung von Wortstammbil-dungen (Stemming) sind mittels automatischer Spracherkennung für Deutsch, Chinesisch, Englisch Italienisch, Portugiesisch, Spanisch, Arabisch, Niederländisch, Finnisch, Französisch, Japanisch, Kore-anisch, Polnisch und Schwedisch verfügbar. Elementare Funktionen für Parsing stehen außerdem für alle anderen Sprachen zur Verfügung, sofern die einzelnen Wörter durch Leerzeichen bzw. Interpunk-tion voneinander getrennt sind.

Page 50: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 50

Sobald die Textdaten in eine SAS Tabelle eingelesen wurden, stehen die umfassenden Funktionen der SAS Text Miner Komponente „Text Parsing“ zur Text-Vorverarbeitung zur Verfügung. So können die wichtigsten Informationen in der Dokumentensammlung erfasst und herausgefiltert werden. „Text Parsing“ bietet u.a. folgende Funktionen: • Voreingestellte oder durch den Anwender definierte Sperrlisten für jede Sprache zur Entfernung

von Begriffen mit nur wenig bzw. ohne jeglichen Informationswert • Wortstammanalyse zur Identifikation von gemeinsamen Wortstämmen, wie z.B. bei den Wort-

paaren „läuft“ vs. „laufen“ oder „Ausschluss“ vs. „ausschließen“ • Erkennung der Wortart auf der Basis des Satzzusammenhangs (z.B. Verwendung des Wortes Le-

ben als Substantiv in „Das Leben wird immer teurer“ oder als Verb in „Leben lässt es sich hier gut“)

• Herauslösen von Nominalkonstruktionen zur Identifikation von Konzepten auf Phrasenebene, wie z.B. in „Data Mining“ oder „rechtliche Schritte“

• Vom Anwender zu definierende Einheiten, bestehend aus mehreren Wörtern, wie z.B. „Data Warehouse“ oder „Point and Click“

• Verwaltung benutzerdefinierter und voreingestellter Synonymlisten • Aufspaltung von zusammengesetzten Begriffen (Komposita) in die einzelnen Teilbegriffe Durch Anlegen von benutzerdefinierten Datenlexika können einzelne Informationen, wie z.B. die Namen von Personen, Produkten, Unternehmen, Adressen oder auch Web-Adressen (URLs) extra-hiert werden. Die extrahierten Einheiten werden anschließend normiert und in eine tabellarische Darstellung der Häufigkeiten überführt.

Abb. 3.1: Die Ergebnisse des „Text Parsing“ sind für den Benutzer grafisch aufbereitet.

Page 51: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 51

3.2.2 Text filtern In einem zweiten Schritt ermöglicht die Komponente „Text Filter“ eine weitere Verdichtung auf Basis unterschiedlicher Algorithmen zur Gewichtung der Begriffshäufigkeiten, z.B. unter Berücksichtigung ihrer Verteilung über alle Texte hinweg oder ihrem Informationsgewinn bzgl. einer Zielkategorie. Dabei können Schreibfehler automatisch korrigiert und Dokumente und Begriffe über Schwellwerte und Suchbegriffe eingeschränkt werden. Dazu steht eine Volltextsuche mit umfangreichen logischen Suchoperatoren zu Verfügung, deren Ergebnisse nach Relevanz geordnet sind. Auch hier ist eine gra-fische Exploration möglich, in der ähnliche Begriffe einschließlich der Stärke des Zusammenhangs als Baumstruktur visualisiert werden.

Abb. 3.2: Filterergebnisse können im Filter Viewer interaktiv nachvollzogen und angepasst werden. Die anpassbare Grafik „Concept Linking“ visualisiert dabei zusammenhängende Begriffe. Während bereits aus den Häufigkeiten der Begriffe interessante Schlüsse gezogen werden können, ist es darüber hinaus auch möglich Reihenfolgen und andere Zusammenhänge zwischen Begriffen zu analysieren. Dazu bietet der SAS Text Miner eine (experimentelle) Anwendungsroutine für Bayes’sche Netze. Deren bedingte Wahrscheinlichkeiten können z.B. für verschiedene Textgruppen jeweils typische Begriffsmuster aufdecken.

Page 52: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 52

3.2.3 Themen Identifizieren Nach der Vorverarbeitung der Textdaten und deren Aufbereitung in Matrixform können mit der Komponente „Text Topic“ leistungsstarke Techniken wie Rollup und Singulärwertzerlegung zur Di-mensionsreduktion angewandt werden. Die Verwendung von Rollup-Begriffen stellt eine Standard-methode zur Reduktion dar, bei der die n am höchsten gewichteten Begriffe für die Darstellung eines Dokuments ausgewählt werden. Bei der Singulärwertzerlegung werden dagegen mit Hilfe eines sta-tistisch-mathematischen Verfahrens die Häufigkeitsverteilungen der einzelnen Begriffe über die Do-kumente durch eine geringere Anzahl zugrunde liegender Dimensionen zusammengefasst. Dieses Verfahren lässt sich geometrisch wie folgt interpretieren: Die Häufigkeitsprofile der einzelnen Doku-mente über die Menge der Begriffe repräsentieren einen mehrdimensionalen Raum mit n Dimensio-nen, wobei n aufgrund der großen Anzahl von Begriffen üblicherweise sehr groß ist. Sie werden nun so in einen m-dimensionalen Unterraum projiziert, dass Dokumente mit ähnlichen Profilen möglichst nah nebeneinander liegen (wobei m deutlich kleiner als n ist). Mehr Details können z.B. dem im In-ternet frei verfügbaren Artikel „Taming Text with the SVD“ von Russ Albright entnommen werden. Soll jedes Dokument mehreren Themen zugeordnet werden, kann dieses Verfahren mit einer Fak-torzerlegung kombiniert werden. Durch die Dimensionsreduktion wird eine Verdichtung der in den Dokumenten enthaltenen Informa-tionen erreicht, so dass die Dokumente ihrem Inhalt entsprechend anschließend leichter gruppiert werden können. Hierzu bietet der SAS Text Miner zwei spezielle Verfahren der Clusteranalyse. Beim Verfahren Expectation Maximization erfolgt die Zuordnung der Dokumente zu homogenen Gruppen (Cluster) so, dass für jedes Dokument eine bestimmte Wahrscheinlichkeit für die Zugehörigkeit zu jedem Cluster berechnet wird. Im Gegensatz dazu wird bei der hierarchischen Clusteranalyse eine eindeutige Zuordnung der einzelnen Dokumente zu bestimmten Clustern vorgenommen. Beide Ver-fahren liefern bei der Erstellung von Clusterprofilen eine Liste der aussagekräftigsten Begriffe für jeden Cluster.

Page 53: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 53

3.2.4 Weiterführende Analysen Da der SAS Text Miner vollständig in die grafische Benutzeroberfläche des SAS Enterprise Miner ein-gebunden ist, können dort im Prozessflussdiagramm die entsprechenden Knoten für Clusteranalyse und Self-Organizing Maps zur Gruppierung von Dokumenten benutzt werden. Bei Vorliegen struktu-rierter Daten (wie z.B. Alter, Kaufneigung usw.), die eventuell zusätzlich mit den ursprünglichen Do-kumenten erhoben wurden, können außerdem Profile für diese Cluster erstellt werden.

Abb. 3.3: In diesem Beispiel wird mit Hilfe eines Entscheidungsbaumes der Einfluss von mit dem SAS Text Miner identifizier-ten Themen aus KFZ-Schadensberichten auf Unfälle untersucht. Nachdem die Dokumente vorverarbeitet wurden und die in den Textdaten enthaltene Information in eine numerische Darstellung überführt wurde, können mit Hilfe der verschiedenen Modelltypen im SAS Enterprise Miner Modelle für eine Zuordnung der Dokumente zu vordefinierten Kategorien er-stellt werden. Zur Auswahl stehen z.B. Regressionsverfahren, Entscheidungsbäume, neuronale Netze oder Memory-Based Reasoning (MBR). Im Gegensatz zu herkömmlichen Verfahren für die Kategori-sierung von Dokumenten kann der SAS Text Miner nahtlos zusätzliche quantitative und qualitative Daten mit den Textdaten kombinieren und so die Vorhersagegenauigkeit erhöhen. Schließlich kann die Leistung der verschiedenen Modelle im Knoten Model Comparison miteinander verglichen wer-den und ein Rangschlüssel für die Kategorisierung neuer Dokumente verwendet werden. Die Existenz der grafischen Benutzeroberfläche des SAS Enterprise Miner mit der Möglichkeit, die einzelnen Verarbeitungsschritte über Knoten in einem Prozessflussdiagramm einzufügen, macht die manuelle Kodierung durch Schreiben von Programmieranweisungen überflüssig. Der zeitliche Auf-wand für Text Mining wird für den analytischen Anwender erheblich reduziert. Der Prozessfluss kann modifiziert, abgespeichert und anderen Anwendern zur Verfügung gestellt werden.

Page 54: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 54

Der SAS Text Miner verfügt zudem über flexible Berichtsmöglichkeiten. Die Ergebnisse eines Text Mining-Prozesses können beispielsweise in einem HTML-Dokument bereitgestellt werden.

Abb. 3.4: Der SAS Text Miner läuft innerhalb der intuitiven Anwendungsumgebung des SAS Enterprise Miner. Die Analyse von Textdaten kann so nahtlos in andere Data Mining-Prozesse eingebunden werden.

Page 55: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 55

3.2.5 Weitere Verfeinerung durch computerlinguistische Ansätze Die Analysefähigkeiten der bisher beschrieben statistischen Ansätzen lassen sich durch Methoden der Computerlinguistik verfeinern. Über den SAS Text Miner hinaus bietet SAS dazu weitere Textana-lyse-Produkte für die folgenden Anwendungsszenarien an: • Definition von Begriffshierarchien anhand derer sich Dokumente anhand einer unternehmens-

spezifischen Taxonomie (z.B. von Produkten und deren Eigenschaften) klassifizieren lassen („SAS Ontology Management“).

• Einsatz sprachlicher Regeln für mehr als 30 Sprachen in Form von Grammatiken zur Erkennung von Konzepten, Aussagen, Verneinungen und anderen Sprachkonstruktionen. („SAS Content Ca-tegorization“). Dieses Vorgehen kann mit dem SAS Text Miner verknüpft werden. Die dort statis-tisch ermittelten Themen werden dazu einschließlich der ihnen zugeordneten Texte an SAS Con-tent Categorization übergeben. Dort lassen sich die Konzepte durch erneutes Training auf „ihren“ Texten anhand linguistischer Regeln weiter schärfen.

• Stimmungsanalyse anhand derer sich die Tonalität (positiv oder negativ) von Texten, z.B. zur Produktwahrnehmung bewerten lässt („SAS Sentiment Analysis“).

Abb. 3.5 Links eine schematische Darstellung der beiden komplementären Ansätze der (statistischen) Wissensentdeckung und der Computerlinguistik mit den zugehörigen SAS Produkten. Rechts das Beispiel einer SAS Echtzeit-Anwendung, die themenbezogen Trends und Stimmungen in sozialen Medien verfolgt. Die Vorgehensweise dieser in ständiger Weiterentwicklung begriffenen Techniken sei an folgender fiktiven Kundenbewertung illustriert: „Unsere Pizzen von Pizza&Pasta Express waren gestern Abend echt klasse, frischer Belag mit viel Käse und zügig geliefert :-) Wir haben sogar noch eine halbwegs gute Flasche Rotwein dazu bekommen. Ich kann den Laden wirklich nur empfehlen, ist allerdings auch nicht zu günstig.“

Page 56: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 56

Selbst aus diesem kurzen Text lassen sich wertvolle strukturierte Informationen für die weitere quan-titative Analyse gewinnen, z.B.: • Es handelt sich um ein „Kundenfeedback“ zu einer „Pizza“ (gemäß einem entsprechend zu hinter-

legende Taxonomie). • Identifikation relevanter Konzepte, z.B. dem Unternehmensnamen und seiner betroffenen Pro-

dukte • Aus den vier im Text enthaltenen Bewertungen (positiv, neutral, positiv, negativ) lässt sich so-

wohl das Gesamturteil „überwiegend positiv“ als auch ein differenziertes Feedback je Produkt ableiten.

Solche computerlinguistischen Ansätze ermöglichen es Unternehmen, die Wahrnehmung ihres Fir-menimages oder ihres Produkt- und Dienstleistungsportfolios in sozialen Medien im Internet („Web 2.0“) fortlaufend und in Echtzeit zu beobachten und bewerten. Vom statistisch getriebenen Text Mining aus ist mit dem Add-On SAS Concept Creation for Text Miner der Einstieg in die Welt der linguistischen Analysen möglich. Mit dieser Lösung lassen sich sprachlich komplexe Konstruktionen, z.B. Adressen in ihren unterschiedlichen länderspezifischen Schreibweisen oder Verneinungen in ihren vielen Spielarten (z.B. Abschwächung oder Verstärkung durch ein oder mehrere Adverbien), sehr effizient einsetzen. Abbildung 3.6 illustriert wie die Verneinung eines Verbs in dem im Add-On enthaltenen SAS Content Categorization Studio mit Hilfe der eigens zu diesem Zweck entwickelten Beschreibungssprache „LITI“ sehr kompakt beschrieben werden kann. Aus sol-chen Regeln und den ihr zugrundeliegenden Wortlisten können nun vollautomatisch eine große Zahl Begriffssequenzen generiert werden und vom SAS Text Miner beim Testeinlesen, -filtern und zur Themenfindung genutzt werden.

Abb. 3.6: Die im Add-On SAS Concept Creation for Text Miner definierten Regeln (linkes Bild) erzeugen automatisch im SAS Text Miner die zugehörigen Begriffe (rechtes Bild).

Page 57: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 57

3.3 Einsatz in der Praxis 3.3.1 Beispiel Ein typisches Beispiel für die Anwendung von Text Mining im Umfeld des Customer Relationship Ma-nagement stellt die Automatisierung von Kommunikationsabläufen zwischen Kunden und Unter-nehmen dar. Mit Hilfe des SAS Text Miner können Unternehmen große Mengen eintreffender Kun-den-E-Mails verwalten und kategorisieren, um auf diesem Weg die Weiterleitungs- und Bearbei-tungsvorgänge deutlich effizienter zu gestalten. Freie Textnotizen, die von Mitarbeitern des Callcen-ters gesammelt werden, können sinnvoll in Gruppen zusammengefasst werden. So sind fundierte Entscheidungen darüber möglich, welche Produkte für den jeweiligen Kunden am besten geeignet sind. 3.3.2 Weitere Einsatzgebiete Text Mining eignet sich auch für Problemstellungen bei der Personalrekrutierung in Unternehmen oder bei der Besetzung von Studienplätzen an Universitäten. Mit Hilfe des SAS Text Miner ist es dabei möglich, Tausende von Lebensläufen und Bewerbungen automatisch zu durchforsten und somit den Kreis der qualifizierten Bewerber auf die jeweiligen offenen Stellen bzw. Studienplätze möglichst schnell einzugrenzen. Auch bei der Auswertung empirischer Befragungen kann der SAS Text Miner eingesetzt werden. Mit seiner Hilfe können Informationen, die aus Fließtextantworten resultieren, mit solchen Informatio-nen verknüpft werden, die aus Antworten mit vordefinierten Antwortmöglichkeiten stammen. Damit ergeben sich bei der Auswertung der Umfrageergebnisse zusätzliche Interpretationsmöglichkeiten. Möglich ist z.B. die Segmentierung der Befragten auf Basis der Informationen in diesen Textantwor-ten mit anschließendem Profilvergleich der Segmente über andere Befragungsinhalte. Eine weitere Anwendungsmöglichkeit für den SAS Text Miner stellt die automatische Auswertung und Analyse von Textdokumenten über Krankheitsverläufe oder Versuchsprotokolle dar. Damit wer-den beispielsweise Pharmaunternehmen in die Lage versetzt, ihre klinischen Testprozesse zu opti-mieren. Suchanfragen für große Dokumentendatenbanken können so eingegrenzt werden, dass au-tomatisch nur noch die tatsächlich für eine gegebene Fragestellung interessierenden Artikel gefun-den werden. Text Mining spielt auch im Zusammenhang mit der Betrugserkennung im Versicherungswesen eine Rolle. Dabei werden Schadensberichte aus der Vergangenheit, bei denen Fälle missbräuchlicher Inan-spruchnahme von Versicherungsleistungen nachgewiesen werden konnten, nach bestimmten Signal-begriffen durchforstet. Die Kenntnis solcher Begriffe versetzt die Versicherung in die Lage, bei neu eingetretenen Schäden mögliche Missbräuche direkt zu erkennen und die entsprechenden Fälle an die Betrugsabteilung weiterzuleiten. Zunehmend gewinnen, wie bereits angesprochen, soziale Medien im Internet an Bedeutung. Deren hochfrequentes, großes Datenvolumen kann überhaupt erst durch eine automatisierte Textanalyse effizient genutzt werden.

Page 58: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 58

3.4 Weiterführende Informationen Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema Text Mining. Bitte beachten Sie bei der Verwendung der nachfolgenden Navigationshinweise, dass Websi-te-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen Informa-tionen zum Produkt SAS Text Miner: Products & Solutions – Analytics - Text Analytics Dort stehen u.a. folgende Inhalte zur Verfügung: • Englischsprachige Lösungsübersicht zum Herunterladen im PDF-Format (Solution Brief) • Einführung unterschiedlicher Text Analytics Anwendungsszenarien (White Papers) • Verweise auf internationale Referenzen (Customer Success) Verschiedene technische Informationen (Online-Dokumentation) finden Sie auf der Website www.sas.com über folgenden Navigationsweg: Support & Training - Documentation - Products & Solutions - Select a product: SAS Text Miner Das Schulungsprogramm von SAS Training enthält eine Reihe an Kursen und Workshops zu den The-men Data Mining und Text Mining. Detaillierte Beschreibungen und die aktuellen Termine finden Sie auf der Website www.sas.de/training.

Page 59: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 59

4 Statistische Analyse 4.1 Problemstellung im Überblick Praktische Fragestellungen, die mit mathematisch-statistischen Methoden zu lösen sind, finden sich in fast allen Bereichen der Wirtschaft. So spielt etwa in Banken die statistische Analyse von Kreditaus-fallrisiken eine wichtige Rolle bei der Bewertung von Kreditwünschen von Firmen oder Privatperso-nen. Die mit Hilfe statistischer Verfahren ermittelten unterschiedlichen Ausfallrisiken dienen auch zunehmend zur Ableitung differenzierter Preismodelle. Im Versicherungswesen werden dagegen Schadenshäufigkeiten und Schadenssummen durch statistische Verteilungen nachgebildet und zur Grundlage von Tarifierungsmodellen gemacht. In der Industrie sind statistische Fragestellungen sehr häufig in der Qualitätssicherung zu finden (vgl. dazu auch Kapitel 6). Regressionsmodelle helfen bei-spielsweise, Ursachen für Probleme einzugrenzen und wichtige Einflussquellen auszumachen. 4.2 Die SAS Lösung Mit SAS/STAT und anderen in diesem Dokument vorgestellten analytischen Verfahren werden dem Anwender in der Regel die notwendigen Werkzeuge bereitgestellt, um seine analytischen Frage-stellungen beantworten zu können. Abgedeckt sind dabei auch die meisten Situationen, in denen die typischen Anwendungsvoraussetzungen klassischer Verfahren oder Algorithmen nicht gegeben sind. Dennoch gibt es Konstellationen, in denen selbst dieses umfassende Spektrum von Methoden und Verfahren nicht ausreicht und der Wunsch besteht, eigene Verfahren oder Algorithmen effizient mit-tels Programmiersprachen höherer Ordnung zu entwickeln. Genau diese Lücke schließt die Interakti-ve Matrizensprache (IML) innerhalb der Lösung SAS/IML, die ein weiteres wichtiges Standbein der SAS-Lösungen zur statistischen Analyse darstellt. 4.2.1 SAS/STAT Die Berechnung von Häufigkeiten und elementaren statistischen Kennziffern wie arithmetisches Mit-tel, Median, Standardabweichung oder Korrelation ist bereits mit Base SAS möglich. Das Produkt SAS/STAT enthält darüber hinaus ein umfassendes Spektrum von Verfahren der beschreibenden und schließenden Statistik. Es reicht von ein- und mehrdimensionalen deskriptiven Methoden über ver-schiedene Test- und Schätzverfahren bis hin zu multivariaten Methoden wie Varianzanalyse, Fakto-renanalyse, Clusteranalyse, Diskriminanzanalyse und Hauptkomponentenanalyse sowie unterschied-lichsten Verfahren der multiplen Regression. Hinzu kommen Verfahren zur kategorialen Daten-analyse, multiplen Imputation, Berechnung von Stichprobenumfängen, Analyse von Umfragedaten sowie zur Überlebensanalyse. In neueren Versionen von SAS/STAT wird neben der Methodenvielfalt immer stärker auch das Thema High-Performance Computing bedient. So nutzen ausgewählte Funktionalitäten der Prozeduren GLM, LOESS, REG und ROBUSTREG bereits mehrere CPUs. Die Prozedur HPMIXED beispielsweise ver-wendet spezielle High-Performance Techniken um gemischte lineare Modelle mit Varianzkom-ponentenstruktur noch schneller mit noch geringeren Speicheranforderungen anzupassen.

Page 60: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 60

Alle angebotenen Verfahren sind universell einsetzbar und thematisch zusammengefasst in über 60 analytischen Prozeduren in SAS/STAT implementiert. Diese können durch Schreiben entsprechender Programmieranweisungen im SAS Code ausgeführt werden. Für viele Verfahren steht mit dem Enter-prise Guide darüber hinaus auch eine grafische Benutzeroberfläche als Alternative zur Verfügung. Die Vorgehensweise bei der Anwendung statistischer Verfahren in SAS/STAT ist typischerweise itera-tiv. Der Anwender wählt nach einer eingehenden Problemanalyse zunächst das geeignete statistische Verfahren aus und erstellt einen vorläufigen Programmcode, der durch wiederholtes Modifizieren (Einfügen bestimmter Anweisungen und Optionen) dann schrittweise optimiert wird. Auf diese Wei-se ist die Erstellung von Programmen und Makros möglich, die später als Batch Jobs bzw. als Be-standteile von externen Anwendungsumgebungen implementiert werden können. Dies ist beispiels-weise beim Einsatz von Scoring-Modellen zur Bewertung von Kreditanträgen in Banken der Fall. Da-mit können auch Anwender ohne Kenntnisse in mathematisch-statistischen Verfahren oder Pro-grammierung vom Einsatz solcher Verfahren profitieren. Die nachfolgend vorgestellten Methoden und Verfahren beschreiben die Vielfalt der Verfahren in SAS/STAT bei weitem nicht vollständig, geben jedoch einen Überblick über die Mächtigkeit dieses Produkts. Besonders hervorzuheben sind die zahlreichen Möglichkeiten zur Regressionsanalyse für Frage-stellungen, bei denen die Einflüsse verschiedener Merkmale (unabhängige Variablen) auf bestimmte Zielgrößen (abhängige Variable) analysiert werden. Die in SAS/STAT verfügbaren Regressionsmodelle haben ihren Ursprung in der Charakteristik der Variablen (diskrete oder kontinuierlich, normal oder nicht-normal verteilt), Annahmen über die Form des Modells (linear, generalisiert linear oder nicht-linear), Annahmen über den unterliegenden Mechanismus zur Datengenerierung (Umfrage, Be-obachtung oder experimentelle Daten) sowie Schätzprinzipien. Sie decken somit ein breites Spekt-rum möglicher Anwendungsfälle ab und können auch in solchen Situationen eingesetzt werden, in denen die Daten nicht die Voraussetzungen des klassischen linearen Regressionsansatzes erfüllen. So müssen die unabhängigen und abhängigen Variablen nicht zwingend intervallskaliert sein. Für den Fall nicht normal-verteilter Residuen stehen Prozeduren wie LOGISTIC, GENMOD, GLIMMIX und NLMIXED zur Verfügung. Residuen mit nicht-konstanten Varianzen können mittels der Prozeduren GENMOD, GLIMMIX und MIXED modelliert werden. Die Prozeduren GENMOD, MIXED und GLIMMIX können auch in Situationen eingesetzt werden, in denen die einzelnen Beobachtungen nicht als von-einander unabhängig interpretiert werden können, sondern abhängig bzw. korreliert sind. Das ist häufig bei verbundenen Stichproben mit Messwiederholungen (Designs vom Typ „vorher – nachher“) der Fall, so wie sie in empirischen Befragungen oder bei klinischen Studien verwendet werden. Ridge Regression (PROC REG) und Hauptkomponenten Regression (PROC PLS) kommen im Falle von Multi-kolinearitäten, sprich starken linearen Abhängigkeiten zwischen den unabhängigen Variablen zum Einsatz. In vielen praktischen Aufgabenstellungen wie Stornovorhersage oder Bewertung von Kreditanträgen weisen die abhängigen Variablen anstelle einer Intervallskalierung eine binäre, nominale oder ordi-nale Skalierung auf. In solchen Situationen können Modelle der logistischen Regression verwendet werden, wie sie beispielsweise in den Prozeduren LOGISTIC, GENMOD, CATMOD oder auch GLIMMIX enthalten sind.

Page 61: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 61

Sind dagegen unter den unabhängigen Variablen solche mit nominalem Skalenniveau vorhanden, greifen die Ansätze des allgemeinen bzw. des verallgemeinerten linearen Modells in den Prozeduren GLM, GENMOD, MIXED und GLIMMIX. Insbesondere letztere Modelle sind dann wichtig, wenn die Zielvariable nicht normalverteilt ist. In dieser Situation werden Link-Funktionen, basierend auf unter-schiedlichsten Verteilungen (Normal-, Binomial-, Poisson-, Gamma- und inverse Gaußverteilung) dazu genutzt die Grundannahmen der einfachen Regression durch eine Transformation herzustellen. In vielen Situationen kann die Beziehung zwischen abhängiger Variable und den unabhängigen Vari-ablen selbst nach Anwendung von Transformationen nicht durch Modelle mit linearem Gleichungs-ansatz beschrieben werden, etwa bei der Analyse des Zusammenhangs zwischen Dosierung und Wir-kung von Medikamenten. Nichtlineare Regressionen können z.B. mit der Prozedur NLIN berechnet werden, nichtlineare Varianzkomponentenmodelle, bei denen die unabhängigen Variablen nominal-skaliert sind und als Realisation einer Stichprobe (Varianzkomponenten) aufgefasst werden, dagegen mit der Prozedur NLMIXED. Besonders geeignet für Analysen von Umfragedaten sind die Prozeduren SURVEYSELECT, SUR-VEYFREQ, SURVEYMEANS, SURVEYREG und SURVEYLOGISTIC. Mit Hilfe dieser Prozeduren können anspruchsvolle Stichprobenpläne generiert werden, die nach der Datengewinnung in den speziell darauf abgestimmten Verfahren auswertbar sind. So ist es möglich, den gesamten Analyseprozess von der Datengewinnung bis hin zur Auswertung solcher Befragungen durchgängig zu gestalten und zu optimieren. Neue Wege zur Behandlung fehlender Werte in den Daten ermöglichen die Prozeduren MI und MI-ANALYZE. Bei klassischen statistischen Verfahren müssen häufig solche Beobachtungen komplett unberücksichtigt bleiben, die nicht vollständig sind, d.h. bei denen für einzelne Variablen keine Werte vorliegen. Bei diesem Vorgehen werden jedoch möglicherweise wertvolle Informationen verschenkt. Durch eine vorgelagerte Ersetzung der fehlenden Werte mit Hilfe der genannten Prozeduren können diese Beobachtungen in die Analyse einfließen. Auf diese Weise kann die Qualität der Analyse bei Existenz lückenhafter Daten derjenigen bei vergleichbaren vollständigen Daten sehr nahe kommen. Die dabei verwendete Technik der Projektion von Information aus anderen Merkmalen hat sich be-sonders beim Data Mining mit großen Datenmengen ausgezeichnet bewährt (vgl. dazu auch Kapitel 2). Ein wichtiges grundsätzliches Thema der schließenden Statistik adressieren die beiden Prozeduren POWER und GLMPOWER. Mit ihnen kann für zahlreiche statistische Testverfahren die Güte (Power) bzw. der Fehler zweiter Art (Beta-Fehler) beurteilt werden. Hierbei geht es um die Frage, wie gut die Trennschärfe bestimmter Testverfahren ist, d.h. inwieweit tatsächlich vorhandene Zusammenhänge in den Daten durch diese Tests auch als statistisch signifikant angezeigt werden. Da die Güte u.a. eine Funktion des Stichprobenumfangs ist, lässt sich so oftmals der notwendige Mindeststichproben-umfang abschätzen, ab dem ein beobachteter Effekt als statistisch signifikant beurteilt werden soll. Insbesondere bei der Gestaltung effizienter Versuchsanordnungen im Vorfeld einer statistischen Auswertung ist diese Information von großem Interesse.

Page 62: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 62

Diese Prozeduren können auch interaktiv verwendet werden. Bestandteil von SAS/STAT ist eine sepa-rat installierbare Anwendung Power and Sample Size (PSS), die in einem Netzwerk für die Betriebsar-ten local (Verarbeitung auf dem Client-Rechner) oder remote (Verarbeitung auf einem Server) konfi-guriert werden kann. Mit ihrer Hilfe können verschiedene Testverfahren wie t-Tests, Äquivalenztests, Konfidenzintervalle, Regression, Varianzanalyse und Rangtests für Überlebensverteilungen hinsicht-lich der Güte beurteilt werden.

Abb. 4.1: Die verschiedenen Analysemöglichkeiten der Anwendung Power and Sample Size.

Page 63: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 63

Die Ergebnisse werden in Tabellen, Grafiken und erläuternden Kommentaren dargestellt. Besonders anschaulich sind die grafischen Darstellungen der Power-Kurven.

Abb. 4.2: Die Power-Kurve der Anwendung Power and Sample Size beschreibt den Güteverlauf von Tests in Abhängigkeit vom Stichprobenumfang und dem Signifikanz-Niveau. Ein weiteres Merkmal der analytischen Prozeduren in SAS/STAT, das mit SAS 9 verfügbar ist, ist die Möglichkeit zur automatischen Erstellung von Grafiken über das Output Delivery System (ODS). Alle statistischen Prozeduren schreiben berechnete Größen über das ODS in SAS Tabellen. Diese werden von grafischen Visualisierungskomponenten ausgelesen und als Standardgrafiken dargestellt. Der Anwender muss dabei keine Einstellungen für das Grafiklayout (Achsen, Datenpunkte, Diagramm-bereiche, Farben usw.) vornehmen und kann sich voll und ganz auf die inhaltliche Interpretation kon-zentrieren.

Page 64: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 64

Die folgenden beiden Beispiele zeigen sehr anschaulich die Verwendung von ODS-Grafiken im Kon-text der statistischen Analyse.

Abb. 4.3: ODS-Grafik für eine zweidimensionale Dichteschätzung mit der Prozedur KDE.

Abb. 4.4: ODS-Grafik für ein mit der Prozedur REG erstelltes Regressionsmodell.

Page 65: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 65

4.2.2 Interaktive Matrizensprache (IML) Die Matrizensprache IML (Interactive Matrix Language) in SAS/IML ist ein universell und flexibel ein-setzbares Werkzeug für anspruchsvolle mathematische Berechnungen im Umfeld von Wissenschaft und Technik. Anwender können damit in SAS neue Verfahren selbst entwickeln und in bestehende Programme integrieren. Die Möglichkeiten von SAS/IML sind so umfangreich, dass kaum Grenzen bezüglich der Umsetzbarkeit eigener Vorstellungen bei der Entwicklung neuer Algorithmen existie-ren. Mit SAS/IML können Berechnungen auch bei größeren Datenmengen problemlos bewältigt wer-den. Zudem existiert die Möglichkeit, das Laufzeitverhalten der in SAS/IML generierten Programme zu beobachten und den Code gegebenenfalls zu optimieren. Moderne Programmiersprachen wie C# oder Java sind zwar durchaus mächtig, eignen sich als Pro-grammierwerkzeug für statistisch-mathematische Methoden und Algorithmen jedoch nur bedingt, da ihre Handhabung von mehrdimensionalen Datenfeldern (Arrays) eher umständlich ist. SAS/IML trägt diesem Manko Rechnung und nutzt als Basisobjekt eine Matrix beliebiger Ordnung. Somit können Programme übersichtlicher gestaltet werden, und die Gefahr von Fehlerquellen im Programmcode wird reduziert. Dadurch sind erhebliche Effizienzsteigerungen in der Formulierung komplexer ma-thematischer Operationen möglich. SAS/IML enthält eine umfangreiche Menge an Operatoren für die Verknüpfung von Matrizen, so dass nicht auf Funktionen aus externen Programmbibliotheken zurückgegriffen werden muss. Die Opera-toren wirken dabei auf die einzelnen Elemente der Matrizen. Zwei Matrizen A und B können bei-spielsweise über die einfache Anweisung A+B addiert werden. Die Multiplikation ist dagegen über die Anweisung A*B oder A#B durchführbar (letzteres bei elementweiser Multiplikation). Mit SAS/IML ist eine interaktive Arbeitsweise möglich. Die Befehle können sofort ausgeführt oder in Programmbausteinen für eine spätere Ausführung abgelegt werden. Die Resultate ausgeführter Be-fehle sind sofort sichtbar. Die Programmausführung in SAS/IML kann für Benutzereingaben temporär angehalten werden, um ein sequenzielles iteratives Vorgehen bei der Abarbeitung der gewünschten Berechnung zu ermöglichen. Zwischenergebnisse können dabei unmittelbar kontrolliert werden. Komplexere Auswertungen können zudem auf einfacheren (erprobten) Programmblöcken aufsetzen. Die Ergebnisanzeige bleibt dabei stets im Blickfeld des Programmierers sichtbar. SAS/IML beinhaltet eine dynamische und weitgehend automatische Speicherverwaltung, d.h., es müssen im Programmcode keine Dimensionen deklariert oder Speicherbereiche adressiert werden. Der Anwender ist daher nicht gezwungen, Größenordnungen von Feldern, Matrizen oder Lösungs-mengen vor oder während der Programmierung abzuschätzen. Er muss sich also im Programmcode nicht um technische Belange der Verwaltung von Systemressourcen kümmern, sondern kann sich voll und ganz auf die inhaltlichen Aspekte der Algorithmenentwicklung konzentrieren. SAS/IML kann für einfachere Fragestellungen ebenso eingesetzt werden wie für komplexe Probleme mit großer Anzahl von Dimensionen. Größenbeschränkungen sind dabei lediglich durch die Architektur des jeweiligen Betriebssystems bedingt. SAS/IML ermöglicht Berechnungen nicht nur für Daten, die innerhalb des Programmcodes definiert werden, sondern auch für externe Daten. Solche Daten können jederzeit eingelesen werden, wobei auch Selektionen von Teilmengen möglich sind. Es können insbesondere SAS Tabellen gelesen, edi-tiert und geschrieben werden.

Page 66: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 66

SAS/IML unterstützt zudem den Aufbau einer Vielzahl von Grafiken, die für die Datenexploration genutzt werden können. Darin enthalten sind auch mehrdimensionale Flächen- und Kontur-diagramme sowie interaktive 3-D-Grafiken.

Abb. 4.5: Mit SAS/IML Studio als rotierende 3-D-Grafik visualisierte multivariate Verteilungsdichte.

Page 67: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 67

Die Anwendungsumgebung SAS/IML Studio ist eine separat zu installierende grafische Benutzerober-fläche für SAS/IML unter Microsoft Windows. Sie bietet besonders anwenderfreundliche Funktionali-tät wie interaktive Grafiken oder Tabellen und erweitert die Programmiersprache IML durch objekt-orientierte Komponenten und die Möglichkeit, benutzerdefinierte Funktionen aufzurufen. Diese er-weiterte Sprache wird als IMLPlus bezeichnet.

Abb. 4.6: SAS/IML Studio ermöglicht die interaktive Suche nach Ausreißern und deren Selektion.

Last but not least beinhalten die PROC IML sowie die Programmiersprache IMLPlus die Möglichkeit SAS DATA-Step Sprachanweisungen, Makros und SAS-Prozeduren mittels eines SUBMIT/ENDSUBMIT Anweisungspaares (SUBMIT-Block) aus dem IML-Code heraus aufzurufen. Durch dieses Konstrukt können SAS/IML Programmierer beliebige SAS Funktionalitäten nutzen ohne den Status ihrer aktuel-len IML-Session zu verlieren. Auf analoge Weise, sprich mittels des SUBMIT-Block Konstrukts, können des Weiteren beliebige R Programme aus IML angesprochen werden ohne dabei die IML-Session verlassen zu müssen. Ähnlich der SAS/IML Sprache beinhaltet die freie statistische Programmiersprache R viele Besonderheiten, welche für die Entwickler statistischer Algorithmen essentiell sind. Hierzu zählen die Fähigkeit mit Matrizen und Vektoren zu rechnen, eine große Anzahl vordefinierter Funktionen zur Berechnung statistischer Größen sowie die Möglichkeit die mitgelieferte Funkionenbibliothek um benutzerdefi-nierte Funktionen zu erweitern. Die Integration bereits entwickelter und getesteter SAS- und R-Funktionalitäten innerhalb von IML ermöglicht es dem SAS/IML Programmierer auf einen nahezu unerschöpflichen Fundus analytischer Funktionalitäten innerhalb des SAS/IML Studio zuzugreifen. Dies lässt das SAS/IML Studio zum Mit-telpunkt der Entwicklung mathematisch-statistischer Algorithmen werden.

Page 68: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 68

4.3 Einsatz in der Praxis 4.3.1 SAS/STAT - Beispiel Ein typisches Anwendungsfeld für statistische Methoden und Verfahren ist die medizinische For-schung und Ausbildung. Eine klinische Forschungseinrichtung, die jährlich etwa zwei Millionen Pati-enten ambulant und etwa 100.000 Patienten stationär behandelt, setzt die analytischen Verfahren von SAS/STAT im Rahmen ihrer Forschungstätigkeit ein. Die Verwendung von SAS Software gewähr-leistet dabei, dass die Forschungsergebnisse, die international hohe Beachtung erfahren und nach-vollziehbar sein müssen, durch Anwendung anspruchsvoller statistischer Verfahren untermauert sind. Neben der Forschung widmet sich die Einrichtung auch der universitären Ausbildung und betreibt Ausbildungsprogramme sowie Kurse verschiedener Stufen und Disziplinen, wobei jährlich etwa 600 wissenschaftliche Veröffentlichungen publiziert werden. Der Einsatz von SAS Produkten spielt auch in diesem Zusammenhang eine große Rolle. Das Institut für Biostatistik an dieser Einrichtung nutzt etwa SAS/STAT in erheblichem Umfang für die Ausbildung von Biometrikern in biostatistischen Methoden, etwa bei der Verwendung von Verfahren der Überlebensanalyse im Zusammenhang mit biologischen oder epidemiologischen Langzeitstudien. Die Qualität der SAS Software stellt dabei sicher, dass Hun-derten von wissenschaftlichen Arbeiten jährlich die notwendige analytische Fundierung gegeben wird. 4.3.2 SAS/STAT - Weitere Einsatzgebiete Weitere Einsatzgebiete für die Anwendung statistischer Verfahren finden sich in Forschungs- und Entwicklungsabteilungen sowie in der Qualitätssicherung von Industrieunternehmen. Moderne Ferti-gungseinrichtungen sind meist hoch automatisiert und arbeiten in der Regel mit der notwendigen Präzision zur Sicherstellung der Qualitätsanforderungen an das Endprodukt. Oftmals existieren je-doch prozesskritische unvorhergesehene Einflüsse auf das Produktionsergebnis, die schnell und gründlich zu identifizieren sind. In SAS/STAT verfügbare Verfahren wie Regression, Varianzanalyse und verallgemeinerte lineare Modelle können hier helfen, die entscheidenden Einflussgrößen zu erkennen. Durch die Modellierung der Fertigungszusammenhänge können der Produktionsprozess optimiert und die Produktqualität stabilisiert werden. Ein großer US-amerikanischer Konsumgüter-hersteller mit international bekanntem Markenportfolio setzt solche Verfahren ein, um Mischungs-prozesse in der Lebensmittelherstellung qualitätskonform zu gestalten. 4.3.3 SAS/IML - Beispiel SAS/IML wurde beispielsweise im Rahmen einer wissenschaftlichen Dissertation über die Wettbe-werbsfähigkeit genossenschaftlich organisierter Finanzsysteme am Fallbeispiel Vietnam verwendet. Die so genannte Data Envelopment Analysis (DEA) stellt ein mikroökonomisch fundiertes Effizienz-messungsverfahren dar, in das Maße der Gesamteffizienz, der technischen Effizienz und der Ska-leneffizienz bzw. der Betriebsgröße von Banken eingehen. Die dabei verwendeten Modelle (Banker-Chames-Cooper) und Verfahren (Bootstrap-Regression) wurden mit Hilfe von SAS/IML realisiert.

Page 69: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 69

4.3.4 SAS/IML - Weitere Einsatzgebiete Über die Umsetzung mathematischer Formeln hinaus können mit SAS/IML spezielle statistische Ver-fahren, beispielsweise spezielle Formen von verallgemeinerten Regressionen oder auch nichtlinearen Ansätzen, entwickelt werden. Mit diesen Modellen sind dann Simulationen auf variierenden Parame-tern oder Inputgrößen möglich. Darüber hinaus können eigene Algorithmen zur linearen und nichtli-nearen Optimierung entwickelt werden. Die Möglichkeiten reichen bis zur Programmierung leis-tungsfähiger genetischer Algorithmen zur Lösung numerischer Probleme. 4.4 Weiterführende Informationen 4.4.1 SAS/STAT Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema Sta-tistische Analyse. Bitte beachten Sie bei der Verwendung der nachfolgenden Navigationshinweise, dass Website-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen Informa-tionen zum Produkt SAS/STAT: Product & Solutions – Analytics – Statistics – Statistical Analysis Dort stehen u.a. folgende Inhalte zur Verfügung: • Englischsprachige Produktbeschreibung zum Herunterladen im PDF-Format (Fact Sheet) • Verweise auf internationale Referenzen (Customer Success Stories) • Verweise auf technische Informationen (siehe Abschnitt Customer Support Site) Zusätzliche Informationen (Online-Dokumentation) finden Sie auf der Website www.sas.com über folgenden Navigationsweg: Support & Training - Documentation - Select a product: SAS/STAT Fragen zur Verfügbarkeit statistischer Verfahren finden Sie auf http:\\support.sas.com\techsup über: Go to Our Knowledge Base – SAS Product Listing: Index A-Z – SAS/STAT. Das Schulungsprogramm von SAS Training enthält eine Reihe an Kursen zur statistischen Analyse. Neben Grundlagen werden auch statistische Methoden wie beispielsweise einfache deskriptive Sta-tistiken, Varianzanalyse, Regression oder die multivariate Analyse vermittelt. Detaillierte Beschrei-bungen der Kurse und die aktuellen Termine finden Sie auf der Website www.sas.de/training.

Page 70: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Statistische Analyse 70

4.4.2 SAS/IML Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema In-teractive Matrix Language (IML). Bitte beachten Sie auch hier, dass bei der Verwendung der nachfol-genden Navigationshinweise, dass Website-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen Informa-tionen zum Produkt SAS/IML: Products & Solutions – Analytics – Statistics – Interactive Matrix Programming Dort stehen u.a. Verweise auf technische Informationen zur Verfügung (siehe Abschnitt Customer Support Site). Zusätzliche Informationen (Online-Dokumentation) finden Sie dagegen auf der Website www.sas.com über folgenden Navigationsweg: Support & Training - Documentation - Select a product: SAS/IML Das Schulungsprogramm von SAS Training enthält eine Reihe an Kursen und Workshops, unter ande-rem zum Thema Interactive Matrix Language (IML). Detaillierte Beschreibungen und die aktuellen Termine finden Sie auf der Website www.sas.de/training.

Page 71: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 71

5 Zeitreihenanalyse und Ökonometrie 5.1 Problemstellung im Überblick Die statistische Analyse und Prognose von Zeitreihen ist heute in vielen Anwendungsgebieten unver-zichtbar. Dies gilt vor allem für viele betriebs- und volkswirtschaftliche Fragestellungen, aber auch für die Analyse von ingenieurtechnischen Problemen oder die Untersuchung von Phänomenen im na-turwissenschaftlichen Umfeld. Gemeinsames Element ist dabei die Tatsache, dass die Daten als Wer-tereihen vorliegen, die nach dem Kriterium der Zeit geordnet sind. Bei solchen Daten sind die Vo-raussetzungen für die Verwendung allgemeiner statistischer Ansätze für die Modellierung, wie z.B. linearer Regression (vgl. Kapitel 4) oftmals nicht gegeben, insbesondere weil Autokorrelation, d.h. fehlende Unabhängigkeit von aufeinander folgenden Beobachtungen im Zeitverlauf, vorliegt. Um die in Zeitreihen enthaltenen Informationen für analytische Fragestellungen adäquat bearbeiten zu können, ist es häufig notwendig, Zeitreihen geeignet aufzubereiten oder zu transformieren. Dazu gehört beispielsweise das Überführen von einzelnen, mit einem Zeitstempel versehenen Beobach-tungen in eine geordnete Zeitreihe oder das Umwandeln einer Zeitreihe von einem Zeitintervall in ein anderes. Dies gilt beispielsweise für das Aufsummieren einzelner Finanztransaktionen in eine Zeitreihe mit Tageswerten oder das Erstellen einer Monatsreihe aus einer Wochenreihe (oder um-gekehrt!). Verfahren der Zeitreihenanalyse spielen darüber hinaus auch eine Rolle, wenn es darum geht, be-stimmte Eigenschaften von Zeitreihenentwicklungen wie z.B. langfristige Trends, regelmäßige saiso-nale Schwankungen oder das Ausmaß des Zusammenhangs zwischen den einzelnen Periodenwerten und ihren - ggf. um eine bestimmte Anzahl Perioden - versetzten Vorgängerwerten (Autokorrelation) zu identifizieren. Einblick in diese Eigenschaften bildet häufig die Voraussetzung dafür, adäquate Modelle zur Beschreibung der Zusammenhänge zu finden oder zukünftige Entwicklungen von Zeit-reihen vorherzusagen. Wichtige volkswirtschaftliche Zeitreihen wie Arbeitslosenquote und Produktion werden z.B. oftmals saisonbereinigt, um saisonal bedingte Einflüsse auszuschalten. So schwanken etwa die monatlich veröffentlichten Zahlen der Arbeitslosenstatistik im Jahresverlauf schon allein deswegen, weil be-stimmte Branchen (z.B. Baugewerbe oder Tourismus) in den Wintermonaten witterungsbedingt ge-ringere Aktivitäten aufweisen. Mit Hilfe geeigneter Verfahren zur Zeitreihenzerlegung können solche Effekte beim Vergleich zum jeweiligen Vormonat heraus gerechnet werden. Damit wird leichter er-kennbar, welchem Trend die jeweils betrachtete Größe im Zeitablauf folgt. Dieses Vorgehen ist aber grundsätzlich nicht nur auf die Betrachtung volkswirtschaftlicher Zeitreihen eingeschränkt, sondern könnte etwa auch im Controlling eines Unternehmens eingesetzt werden, um eine bessere Ver-gleichsbasis bei der Kennzahlenanalyse herzustellen. Darüber hinaus existieren statistische Modelle, welche die in Zeitreihen enthaltenen Informationen verwenden, um Prognosen für zukünftige Entwicklungen zu erstellen. Im Gegensatz zu Ansätzen im Data Mining oder in der statistischen Datenanalyse steht hierbei nicht die Schätzung eines bestimm-ten Werts oder der Eintrittswahrscheinlichkeit für ein bestimmtes Ereignis zu einem gegebenen Zeit-punkt im Mittelpunkt, sondern die Einschätzung einer zukünftigen Entwicklung über mehrere Zeit-punkte in der Zukunft (Prognosehorizont).

Page 72: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 72

Eine solche Einschätzung zukünftiger Entwicklungen wird immer dann benötigt, wenn in einem Un-ternehmen für eine interessierende Größe wie z.B. Absatzmenge, Arbeitsaufwand oder technischer Ressourcenverbrauch begrenzte Kapazitäten zur Verfügung in Form von Lager- und Transportraum, Personal oder Hardware vorhanden sind. Hier möchte man frühzeitig erkennen, ob die vorhandenen Kapazitäten unter Berücksichtigung von Trends, saisonalen oder einmaligen Bedarfsspitzen und Strukturbrüchen noch ausreicht oder aufgestockt werden muss bzw. sogar reduziert werden kann. Eine einfache Hochrechnung des zukünftigen Bedarfs durch Anwenden des „Dreisatz-Prinzips“ auf aktuelle Plan-Ist-Abweichungen ist hier häufig nicht ausreichend. Oftmals ist es möglich, mit Hilfe einfacher Extrapolationsverfahren oder durch Anwendung kom-plexerer Modelle aus einer Zeitreihe von monatlichen Werten die Werte für die jeweils nächsten Monate zu prognostizieren. Gegebenenfalls können dabei auch zusätzliche Variablen zur Erklärung der Entwicklung in die Prognose einbezogen werden. Manche Zeitreihen zeichnen sich oftmals dadurch aus, dass sich die erfassten Merkmale und Variab-len gegenseitig beeinflussen und ihre Zusammenhänge nur simultan erfasst werden können. Die wechselseitigen Beziehungen sind dann häufig nur in Form mehrerer Modellgleichungen abzubilden. Dabei müssen bestimmte Annahmen für die wechselseitige Beziehung der in mehreren Gleichungen vorkommenden Variablen getroffen werden. Da diese Situation sehr häufig bei Zeitreihen zur Darstellung volkswirtschaftlicher Größen wie Nach-frage, Angebot oder Preise auf Güter- und Finanzmärkten anzutreffen ist, hat sich in den Wirt-schaftswissenschaften mit der Ökonometrie eine eigene Teildisziplin für diese Fragestellungen entwi-ckelt. Solche Mehrgleichungsmodelle heißen dementsprechend auch ökonometrische Modelle. Im Vordergrund steht bei solchen Modellen weniger die Einschätzung einer zukünftigen Entwicklung, was häufig durch einfache Prognosemodelle mindestens genauso gut (wenn nicht sogar besser) be-werkstelligt werden kann. Vielmehr erfolgt die Analyse der Ergebnisse bei alternativen Annahmen über bestimmte Ausgangsszenarien nach dem Was-wäre-wenn-Prinzip in komplexen, nur über meh-rere Modellgleichungen abbildbaren Systemen. Beispielsweise müssen weltweit tätige Unternehmen oftmals mit Hilfe von ökonometrischen Model-len die Entwicklung von Wechselkursen und/oder Rohstoffpreisen abschätzen, um ihren Bedarf an Transaktionen zur Absicherung von Währungsrisiken zu planen oder die Auswirkung regulatorischer Änderungen auf die von ihnen bedienten Märkte zu analysieren. Staatliche Behörden (Zentralban-ken, Ministerien), wirtschaftswissenschaftliche Forschungsinstitute und Beratungsunternehmen set-zen ökonometrische Modelle dagegen ein, um etwa die Wirksamkeit alternativer wirtschafts-politischer Maßnahmen wie Zinsänderungen auf volkswirtschaftliche Größen zu analysieren oder Hypothesen über vermutete Zusammenhänge empirisch zu testen.

Page 73: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 73

5.2 Die SAS Lösung Die in den Produkten SAS/ETS und SAS Forecast Server enthaltenen Verfahren decken ein weites Methodenspektrum der Zeitreihenanalyse ab. Sie ermöglichen u.a. die vorbereitende Bearbeitung von Zeitreihen und die Untersuchung ihrer Eigenschaften, die Durchführung von Prognosen (wobei auch eine weitgehend automatisierte Verarbeitung größerer Mengen von Zeitreihen möglich ist), die Schätzung von ökonometrischen Modellen sowie die Bewertung von Zeitreihen alternativer Finanzie-rungsinstrumente zum Vergleich ihrer Rentabilität. SAS/ETS enthält u.a. Funktionalität für den direkten Zugriff auf Daten diverser kommerzieller und staatlicher Anbieter von ökonomischen Zeitreihen (z.B. HAVER oder FAME) und für die Bearbeitung von Zeitreihen in Vorbereitung auf weiterführende Analysen. Letzteres beinhaltet etwa die Überfüh-rung von Transaktionsdaten mit Zeitstempel in geordnete äquidistante Zeitreihen, die Identifizierung von Ausreißern, die Interpolation fehlender Werte oder die Anwendung linearer Filter-transformationen. Beispielsweise können Differenzenbildungen oder gleitende Durchschnitte zur Ausschaltung bzw. Sichtbarmachung von Trends und Saisonalitäten verwendet werden. Für weiter-gehende Zerlegungen von Zeitreihen in Einzelkomponenten wie Trend, Saison und irreguläre Schwankungen stehen die klassische Saisonbereinigungsmethode oder Methoden des Census-II-Ansatzes (X11 bzw. ARIMA X12) zur Verfügung.

Abb. 5.1: Mit der Prozedur TIMESERIES erzeugte grafische Übersicht zur Zeitreihen-Zerlegung in verschiedene Teilkomponen-ten und bereinigte Zeitreihen für die Variable Produktionsindex als Indikator der monatlichen Produktionsentwicklung der Bundesrepublik Deutschland 2001 bis 2010 (Basis 2005=100). Darüber hinaus bietet SAS/ETS eine umfassende Auswahl weiterer Analysemethoden, die zu einem tieferen Verständnis der Eigenschaften von Zeitreihen verhelfen und oft wichtige Informationen für eine spätere Modellbildung liefern. Beispiele hierfür sind die Inspektion von Autokorrelations-mustern zur Identifikation der Eigenschaften eines stochastischen Prozesses, der als zugrundeliegen-der Datengenerierungsmechanismus für ein Zeitreihenmodell angenommen wird.

Page 74: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 74

Außerdem ist die Berechnung von Metriken für den Vergleich der Ähnlichkeit verschiedener Zeitrei-hen möglich - ggf. unter Berücksichtigung von Verschiebungen, Kompressionen oder Expansionen einzelner Sequenzbereiche (Sliding bzw. Dynamic Time Warping). Solche Ähnlichkeitsberechnungen spielen etwa bei der Suche nach analogen Verlaufsprofilen im Rahmen von Prognoseansätzen für Neuprodukteinführungen oder Betrugserkennung bei Transaktionsmustern eine wichtige Rolle. Weiterhin bietet SAS/ETS Funktionalität zum Erkennen des Vorliegens charakteristischer Eigen-schaften einer Zeitreihe. Hierzu gehören etwa Tests auf das Vorliegen von „Weißem Rauschen“ (eine Zeitreihe mit reinen Zufallsschwankungen ohne erkennbare Systematik) oder Stationarität (ein im Zeitablauf gleichbleibendes Niveau und konstante Streuung). Zur Prüfung auf Stationarität spielen häufig Unit-Root Tests eine wichtige Rolle. Der Begriff Unit Root bezeichnet in diesem Zusammen-hang eine Lösung (die Einheitswurzel) des charakteristischen Polynoms zur Beschreibung des daten-generierenden stochastischen Prozesses. Die Spektralanalyse eignet sich hingegen zur Identifizierung von besonderen Mustern bei Interpreta-tion von Zeitreihen als Überlagerung von Schwingungen unterschiedlicher Frequenz. Dies ist etwa sinnvoll, um verschiedene sich überlagernde Periodizitäten oder Saisonzyklen in der Zeitreihe zu ent-decken. Die Kreuzspektralanalyse stellt diesbezüglich eine Erweiterung auf den Fall des Zusammen-hangs zwischen zwei Zeitreihen dar.

Abb. 5.2: Mit der Prozedur TIMESERIES erzeugte Übersicht der Autokorrelationsfunktion (ACF), der partiellen Autokorrelati-onsfunktion (PACF), der inversen Autorkorrelationsfunktion (IACF) sowie der Wahrscheinlichkeiten zum Test auf „Weißes Rauschen“ für die Variable Produktionsindex als Indikator der monatlichen Produktionsentwicklung der Bundesrepublik Deutschland 2001 bis 2010 (Basis 2005=100).

Page 75: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 75

Für die Anpassung von Modellen zur Prognose von Zeitreihen bietet SAS/ETS eine Vielzahl von Mög-lichkeiten. Folgende Modellfamilien eignen sich beispielsweise besonders für diesen Anwendungsbe-reich: • Exponentielles Glätten (einfach, doppelt, linear, saisonal, gedämpfter Trend, Winters), • ARIMA, ARIMA-X (einschließlich saisonaler Varianten), • Unobserved Component Models (Strukturmodelle). Die in SAS/ETS enthaltenen Verfahren zur Abbildung komplexer Zusammenhänge in ökonometri-schen oder multivariaten Zeitreihenmodellen umfassen u.a. • VAR (Vektor-Autoregression) und VARMAX , • Kointregation und Fehlerkorrekturmodelle, • Zustandsraum-Modelle (State-Space), • ARCH/GARCH (einschließlich multivariate GARCH), • Regression bei Panel-Daten (für kombinierte Zeitreihen- und Querschnittsdaten), • Regressionsmodelle bei abhängigen Variablen mit wenigen kategorialen Ausprägungen (Discrete

Choice, mit Logit und Probit als Spezialfällen), • Poisson-Regression zur Modellierung von Häufigkeiten (Count Regression), • Regressionsmodelle mit verteilten Wirkungsverzögerungen (Distributed Lags), • Regressionsmodelle bei abhängigen Variablen mit begrenztem Wertebereich (Tobit), • Stochastic Frontier Produktions- und Kostenmodelle, • Regressionsmodelle für lineare Gleichungssysteme (u.a. mit Parameterschätzung nach den Prin-

zipien OLS, SUR, 2SLS, FIML, LIML, 3SLS, MELO oder K-Class). Über die Prozedur MODEL kann zudem eine Vielzahl linearer und nichtlinearer Gleichungen oder Gleichungssysteme flexibel modelliert werden. Darin enthalten sind u.a. Möglichkeiten zur Durchfüh-rung von Zielwertsuche (Goal Seeking), Boot-Strap Schätzungen und Monte Carlo-Simulationen ent-halten, wie sie etwa im Finanzdienstleistungsumfeld für Risiko-bezogene Fragestellungen oder Stress-Tests (Sensitivitäts- oder Szenarienanalyse) Anwendung finden. Darüber hinaus bietet SAS/ETS diverse finanzmathematische Funktionen und Verfahren zur Analyse von Zeitreihen mit Zahlungsströmen. Die Erstellung von Amortisierungsplänen ist dabei ebenso mög-lich wie die Berechnung von Barwerten, die Ermittlung wichtiger finanzmathematischer Kennziffern oder der Vergleich von Szenarien mit alternativer Verteilung der Ein- und Auszahlungsströme („Was wäre, wenn ...“). Solche finanzmathematischen Funktionen und Verfahren eignen sich damit beson-ders für Fragestellungen zur Auswahl von Investitionsalternativen im Portfolio-Management, Kauf vs. Miete von Investitionsgütern oder zur Evaluierung von Refinanzierungsmaßnahmen. Während SAS/ETS eher für die Bedürfnisse des Anwenders nach einer umfassenden, flexiblen und interaktiven Möglichkeit der Prognose einzelner Zeitreihen geeignet ist, wurde SAS Forecast Server ganz speziell für Anwendungsfälle konzipiert, in denen Prognosen für größere Mengen von Zeitreihen weitgehend automatisiert, aber mit interaktiven Kontroll- und Eingriffsmöglichkeiten durchgeführt werden sollen. SAS Forecast Server automatisiert dabei den gesamten Prozess einer Datenaufbereitung für Analyse-zwecke, der Vorselektion von geeigneten Prognosemodellen und einem hoch performanten Schätz-prozess, der Modellgütebewertungen, grafische Visualisierungen, individuelle Nachbehandlungen und das Ablegen von Ergebnissen umfasst. Entscheidend für die Güte automatisierter Prognosen ist die Tatsache, dass Zusatzinformationen wie Einflüsse durch korrelierte Zeitreihen oder einzelne zu bestimmten Zeitpunkten wirkende Ereignisse selbsttätig vom Modellierungsprozess geprüft und ein-bezogen werden.

Page 76: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 76

Dafür steht beispielsweise eine bequeme Verwaltung von Kalenderereignissen zur Verfügung. SAS Forecast Server wurde gezielt im Hinblick auf die Kriterien Skalierbarkeit und Geschwindigkeit für die Verwendung mit großen Datenmengen optimiert. Beide Produkte stellen jedoch keineswegs sich gegenseitig ausschließende Alternativen zur Prognose dar. Ausgewählte Funktionalität von SAS/ETS ist sogar in die automatisierten Modellierungsprozesse von SAS Forecast Server eingebettet. Trotz-dem kann es notwendig sein, in schwierigen Datensituationen von Hand in die Modellierungsergeb-nisse einzugreifen oder mit SAS/ETS eine manuell eingestellte Nachmodellierung vorzunehmen. Die Modellierungsspezifikationen individueller Ansätze können aus einer Vielzahl von Modelloptionen ausgewählt werden und ermöglichen so in einem iterativen Vorgehen größere Prognosegenauigkeit. Der Zeitaufwand dafür kann für besonders wichtige Einzelreihen durchaus gerechtfertigt sein. SAS Forecast Server kann in zwei Varianten gesteuert werden: interaktiv über eine grafische Benut-zeroberfläche oder im Batch-Betrieb. Für die interaktive Erarbeitung von Modellen auf neuen Zeitreihen steht mit SAS Forecast Studio ein grafisches Java-Frontend zur Verfügung, welches die Beobachtung und Justierung des gesamten Ana-lyseprozesses ermöglicht. SAS Forecast Studio ermöglicht die Visualisierung von Zeitreihen, die Defi-nition von externen Einflussfaktoren, die Auswahl von Modelllisten, die Aufarbeitung und den Export der Ergebnisse und vieles mehr, was die Arbeit des Analytikers unterstützen kann.

Abb. 5.3: Prognose für eine Hierarchie von Zeitreihen monatlicher Verkaufszahlen in SAS Forecast Studio mit automatischer Modellauswahl und Generierung von Prognosewerten.

Page 77: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 77

Forecast Studio bietet zudem die Möglichkeit, bei Modellen, die Kausalfaktoren als Eingangsgrößen zu verwenden, Prognosen bei alternativen zukünftigen Verläufen dieses Kausalfaktors zu erstellen und damit Szenarien- oder Was-wäre-wenn-Analysen durchzuführen.

Abb. 5.4: Alternative Szenarienverläufe für die Umsatzprognose eines bestimmten Produkts in Abhängigkeit von der ange-nommenen Konjunkturentwicklung. Da SAS Forecast Studio letztendlich als Code-Generator für die zugrunde liegende Prognose-Engine, SAS High Performance Forecasting, dient, kann der notwendige Programmcode mit den dabei ver-wendeten Prozeduren auch im Editor manuell entwickelt werden. Das resultierende SAS Programm ist als Alternative zum interaktiven Modus dann im Batch ausführbar. Dieses Vorgehen bietet sich insbesondere bei sehr großen Datenmengen an, bei denen eine individuelle Betrachtung und Analyse von Zeitreihen über eine grafische Oberfläche eher unpraktisch ist. 5.3 Einsatz in der Praxis 5.3.1 Beispiel Ein europäischer Betreiber von Zahlungsverkehrssystemen setzt SAS Forecast Server zur auto-matischen Vorhersage größerer Zeitreihenmengen bei der Ermittlung der Bargeldnachfrage an Geld-automaten ein. Die Wahl der richtigen Bereitstellungsmengen und Auffüllzeitpunkte für das betreute Netz von Geldautomaten stellt hier eine große Herausforderung dar. Es müssen insbesondere die Risiken einer möglichen Nichtverfügbarkeit von Bargeldbeständen mit negativen Auswirkungen auf die Kundenzufriedenheit den Kosten für die Befüllvorgänge und die entgangenen Zinseinkünfte bei Haltung exzessiver Sicherheitsreserven gegenübergestellt werden. Die Lösung dieses Problems ist aufgrund der Komplexität und der Vielzahl von Einflussfaktoren ei-gentlich nur durch mathematische Ansätze des Operations Research möglich (vgl. Kapitel 7), setzt aber in jedem Fall für jeden einzelnen der Geldautomaten eine möglichst gute Abschätzung der Bar-geldnachfrage der Kunden innerhalb des jeweiligen Planungshorizonts voraus. An dieser Stelle wer-den die in SAS Forecast Server verfügbaren Prognoseverfahren zur Vorhersage der Bargeldnachfrage eingesetzt. Die aus dieser Vorhersage resultierenden Daten bilden dann im nächsten Schritt die Aus-gangsbasis für die Optimierung der Bargeldbereitstellung.

Page 78: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 78

5.3.2 Weitere Einsatzgebiete SAS Forecast Server wird häufig in Unternehmen eingesetzt, um für Fragestellungen der Budget- und Finanzplanung sowie des Controllings von relevanten Planungskennzahlen statistische Prognosen durchzuführen. Solche Prognosen tragen zum einen zu mehr Transparenz und Objektivität bei der Initialisierung von Plänen bei, liefern auf der anderen Seite als Frühwarnsystem eine fortlaufende Kontrolle hinsichtlich möglicher Planabweichungsrisiken. In Deutschland nutzen u.a. ein größeres Telekommunikationsunternehmen als auch ein Unternehmen im Umfeld Social Media SAS für diese Fragestellung. Die richtige Prognose von Absatzmengen bzw. Bedarfsmengen an Materialien spielt insbesondere auch bei Fragen des Supply Chain Management eine große Rolle. Unnötig hohe Lagerbestände auf-grund exzessiver Überbevorratung zählen hier oft zu den größten Kostentreibern. Andererseits resul-tieren aus einer möglichen Unterschätzung der notwendigen Mengen Engpässe, die im schlimmsten Fall zur Nichtverfügbarkeit von Waren oder Dienstleistungen führen. Konsumgüterhersteller und Einzelhandelsunternehmen nutzen SAS Forecast Server, um die in ihren Supply Chain Management- oder Dispositionssystemen häufig unzureichend ausgestatteten Prognosefunktionen durch die leis-tungsfähigen Möglichkeiten von SAS zu ergänzen. Auch bei der Planung von Lager- und Personalkapazitäten für Transportdienstleistungen gilt es häu-fig, einerseits Service-Level-Vereinbarungen zur Verfügbarkeit einzuhalten, andererseits Kapitalbin-dung durch Vorhalten unnötig hoher Sicherheitsreserven zu reduzieren. Mit einer genaueren Nach-frageprognose gelingt dieser Spagat. So setzen nicht nur einige Fluggesellschaften, Logistik-Dienstleister und Eisenbahngesellschaften auf SAS Forecast Server und SAS/ETS, um ihre Personalein-satzplanung oder die Ressourcenallokation für ihre Logistiknetzwerke besser zu unterstützen. Auch ein Flughafenbetreiber verwendet SAS Forecast Server, um die Planung der Personal-Ressourcen für das zu erwartende Frachtaufkommen zu bewerkstelligen. SAS/ETS wird darüber hinaus auch oft für anspruchsvolle ökonometrische Fragestellungen eingesetzt. Dies gilt etwa im Rahmen der Werbeforschung für die Analyse von dynamischen Zusammenhängen, bei denen ein gegebener Werbeimpuls über mehrere Zeitperioden auf den Verkaufsumsatz nach-wirkt. Ein Beispiel für eine erfolgreiche Umsetzung dieses Ansatzes stellen Modelle zur Werbeer-folgsmessung dar, die ein US-amerikanischer Anbieter von Dienstleistungen im Bereich Medienpla-nung für seine Kunden entwickelt hat.

Page 79: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Zeitreihenanalyse und Ökonometrie 79

5.4 Weiterführende Information Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema Zeit-reihenanalyse und Ökonometrie. Bitte beachten Sie bei der Verwendung der nachfolgenden Naviga-tionshinweise, dass Website-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen (eng-lischsprachigen) Informationen zu den Produkten SAS/ETS und SAS Forecast Server: Menü Products & Solutions – Analytics – Forecasting & Econometrics Dort finden Sie nicht nur beschreibende Funktionsübersichten (Features), sondern auch Software-Screenshots, Systemvoraussetzungen, Referenzbeispiele (Success Stories), interaktive Demos und im PDF-Format downloadbare Dokumente wie Kurzbroschüren (Fact Sheets) oder Whitepaper zu die-sem Thema. Detaillierte Beschreibungen der in SAS/ETS, SAS Forecast Server bzw. SAS High Performance Forecas-ting enthaltenen Prozeduren und Verfahren finden Sie auf www.sas.com im Menü Support & Trai-ning über folgenden Navigationsweg: Abschnitt Knowledge Base – Documentation Wählen Sie dann in der alphabetischen Auflistung der SAS Produkte unter SAS Product Docu-mentation den Eintrag für SAS/ETS, SAS High Performance Forecasting oder SAS Forecast Server aus.

Page 80: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Qualitätssicherung 80

6 Qualitätssicherung 6.1 Problemstellung im Überblick Um sich am Markt zu behaupten, gehört ein kontinuierliches Qualitätsmanagement, also die Verbes-serung und Überwachung der Qualitätsstandards von Produkten und Dienstleistungen, heute zum Pflichtenheft jeder Organisation. Da hierbei die statistische Datenanalyse eine wichtige Rolle spielt, wurden im Laufe der Zeit aus elementaren statistischen Methoden speziell auf das Qualitätsma-nagement industrieller Fertigungsprozesse zugeschnittene Verfahren entwickelt, die mittlerweile auch in völlig anderen Branchen und Anwendungsfeldern eingesetzt werden. Die Anwendung reicht dabei von der Ermittlung einfacher beschreibender Kennziffern zur Charakterisierung von Qualitäts-merkmalen bis hin zur Gestaltung und Analyse komplexer Versuchsanordnungen für die Optimierung von Produktionsvorgängen. Bedingt durch schwankende Qualität des Ausgangsmaterials oder unterschiedliche Justierung von Maschinen kann etwa der Fertigungsprozess zur Herstellung eines Produkts im Zeitablauf gewissen, meist sehr geringfügigen, Schwankungen unterliegen. Diese zeigen sich bei der laufenden Entnahme von Stichproben durch Variation der Produkteigenschaften (physikalische Abmessungen, chemische Zusammensetzung etc.). Im Rahmen der Qualitätssicherung ist nun von Interesse, inwieweit solche Schwankungen noch innerhalb des tolerierbaren Zufallsbereichs liegen oder bereits eine korrektur-bedürftige Störung des jeweiligen Fertigungsprozesses mit Auswirkungen auf die Qualität des End-produkts signalisieren. Im letzteren Fall möchte man die entsprechende Störung frühzeitig erkennen, was durch Einsatz geeigneter Verfahren der statistischen Prozesssteuerung (Regelkarten) möglich ist. Voraussetzung für die Anwendung solcher Regelkarten als Frühwarnindikator ist jedoch, dass der Prozess in seiner Gesamtheit innerhalb technisch bzw. konstruktionsbedingt vorgegebener Ferti-gungstoleranzen operiert. Für die Beantwortung der Frage, inwieweit die beobachtete Streuung sich noch mit der Einhaltung der vorgegebenen Fertigungstoleranzen verträgt, werden Verfahren aus der Prozessfähigkeitsanalyse verwendet. Neben der fortlaufenden Überwachung steht im Rahmen des Qualitätsmanagements oftmals aber auch die kontinuierliche Verbesserung der Fertigungsprozesse im Vordergrund. So können verschie-dene Versuche unternommen werden, um diejenigen Einflussfaktoren zu ermitteln, die die Prozess-ausbeute signifikant beeinflussen. Auf der Basis dieser Erkenntnis können dann Prozessparameter so eingestellt werden, dass die Prozessausbeute optimal wird. Die damit einhergehende Vermeidung von Ausschussproduktion oder nachträglichen Korrekturarbeiten hilft, langfristig die Qualität der Endprodukte zu erhöhen oder die Kosten der Fertigung zu senken. Verfahren der Versuchsplanung werden in diesem Zusammenhang für das Design geeigneter Versuchsanordnungen eingesetzt. Dabei werden die Einflussfaktoren in einer systematischen Weise variiert, um mit möglichst geringem Auf-wand an Versuchsläufen fundierte Erkenntnisse über die Wirkungszusammenhänge zu erhalten.

Page 81: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Qualitätssicherung 81

6.2 Die SAS Lösung Grundsätzlich existieren innerhalb der SAS Welt mit dem Modul SAS/QC und JMP, einer grafischen Benutzeroberfläche als Bestandteil der Lösung SAS Visual Data Discovery, zwei unterschiedliche Lö-sungsansätze zur Adressierung von analytischen Ansätzen in der Qualitätssicherung. Für Analyse-projekte, bei denen die Anforderungen nach Automatisierung in Bezug auf Alarmnotifikation bei Prozessstörungen, fortlaufende Berichtaktualisierung und Dokumentation der Prozess-Zustände eine größere Rolle spielen, kommt eher das Modul SAS/QC in Frage. Steht bei der Analyse dagegen die interaktive Exploration der Daten mit Hilfe verschiedener Verfahren der statistischen Qualitäts-sicherung im Vordergrund, ist eher JMP der richtige Ansatz. Natürlich besteht auch die Möglichkeit, beide Ansätze miteinander zu kombinieren. SAS/QC bietet ein umfassendes Portfolio von statistischen Methoden rund um das Thema Qualitäts-sicherung und enthält u.a. Verfahren zur statistischen Prozesssteuerung, allgemeine Werkzeuge für statistisches Qualitätsmanagement, Methoden zur Analyse der Lebensdauer bzw. Zuverlässigkeit von Systemen im Rahmen des Reliability Engineering sowie Methoden zur Versuchsplanung. Die in SAS/QC verfügbaren Verfahren zur statistischen Prozesssteuerung - auch als Statistical Process Control oder kurz SPC bezeichnet - ermöglichen eine fortlaufende Überwachung von Prozesspara-metern mit Hilfe von Qualitätsregelkarten, um bei statistisch signifikanten Prozessstörungen recht-zeitig gegensteuern zu können. Das Prinzip der Regelkarte beruht auf dem möglichst frühzeitigen Erkennen von Signalen, die echte Prozessstörungen anzeigen, gegenüber der natürlichen Streuung der überwachten Prozessparameter, d.h. fortwährender Zufallsschwankungen innerhalb so genann-ter Regelgrenzen. Auch systematische Muster innerhalb der Regelgrenzen, etwa sechs zusammen-hängende Datenpunkte in auf- oder absteigender Reihenfolge, können auf Prozessstörungen hinwei-sen und werden häufig mit Hilfe von Runs Tests (Western Electric Rules) geprüft. SAS/QC enthält dazu neben den etablierten Regelkarten vom Typ Shewhart für kategoriale Quali-tätsmerkmale (Attribute) und kontinuierliche Merkmale (Variablen) eine Vielzahl weiterer Regelkar-tentypen. Die wichtigsten dieser Regelkartentypen stehen auch über die grafische Benutzeroberflä-che SAS Enterprise Guide zur Verfügung.

Abb. 6.1: Qualitätsregelkarten zur fortlaufenden Überwachung von Mittelwert (Mean) und Streuung (Std Dev) von täglichen Stichproben für das Gewicht einer Rolle nach Aufbringen eines Haftmittels (Adhesive Amount) in einem industriellen Be-schichtungsprozess.

Page 82: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Qualitätssicherung 82

Darüber hinaus bietet SAS/QC Möglichkeiten zur Prozessfähigkeitsanalyse, d.h. zur Einschätzung der Fähigkeit eines Prozesses, konstruktionsbedingt vorgegebene Spezifikationsgrenzen (Fertigungs-toleranzen) trotz natürlich vorhandener Streuung einzuhalten. Insbesondere ist die Ermittlung so genannter Process-Capability-Indizes möglich, die diese Fähigkeiten in Form von beschreibenden Kennzahlen ausdrücken. Auch dies kann mit Hilfe des SAS Enterprise Guides erfolgen.

Abb. 6.2: Histogramm und berechneter Process-Capability-Index, einschließlich 90%-Konfidenzintervall, zur Beurteilung der Verteilung von Messungen zur Verstärkungsleistung (Variable Amplification in Decibels) einer Stichprobe von Verstärker-Einheiten für Telefone. Zudem enthält SAS/QC eine Palette weiterer statistischer Verfahren, mit denen sich ein modernes Qualitätsmanagement umsetzen lässt, so wie es etwa im Rahmen des Six-Sigma-Ansatzes erforder-lich ist. Dazu stehen u.a. beschreibende Statistiken, Tests zur Verteilungsanpassung, Mittelwertver-gleiche über verschiedene Gruppen sowie grafische Darstellungen der Verteilung qualitätsrelevanter Variablen zur Verfügung. Zu den grafischen Darstellungsformen gehören beispielsweise Histo-gramme, Box-Whisker-Plots, Probability Plots und Pareto-Diagramme. Darüber hinaus existieren in SAS/QC Werkzeuge zur Evaluierung von Stichproben-Entnahmeplänen und zur Bewertung der Aussa-gefähigkeit von Meßsystemen im Rahmen so genannter Gage-R&R-Versuche. Schließlich sind mit Hilfe von Ishikawa-Diagrammen auch grafische Darstellungen der Ursache-Wirkungs-Kette verschie-dener Einflussfaktoren in Bezug auf ein gegebenes Qualitätsmerkmal möglich.

Page 83: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Qualitätssicherung 83

SAS/QC bietet des weiteren Verfahren, mit denen die Entwicklung der Zuverlässigkeit von tech-nischen Systemen (z.B. Kondensatoren) im Zeitverlauf analysiert werden kann. Dabei soll beispiels-weise geschätzt werden, wie hoch der Anteil von ausgefallenen Systemen nach einer bestimmten Betriebsdauer ist, nach welcher Betriebsdauer ein bestimmter Anteil der Systeme (etwa 50 %) ausge-fallen sein wird oder wie sich unterschiedliche Systemtypen bezüglich ihrer Ausfallraten im Zeitver-lauf unterscheiden. Verschiedene SAS Prozeduren ermöglichen für die Beantwortung solcher Fragen die Anpassung statistischer Wahrscheinlichkeitsverteilungen, die speziell für die Lebensdauer von Systemen charakteristisch sind. Die geschätzten Parameter der jeweils angepassten Verteilung liefern Erkenntnisse über die Entwicklung von Ausfallraten eines Systems bzw. seiner Überlebenswahr-scheinlichkeit. Zudem wird die Schätzung der Wirkung bestimmter Einflussgrößen (Covariate) auf Lebensdauer-verteilungen mit Hilfe von spezialisierten Regressionsmodellen unterstützt, einschließlich geeigneter Modelle für Tests mit beschleunigten Alterungsprozessen. Die Analyse der Verteilung von Altersin-tervallen für wiederkehrende Ereignisse (Recurrence Data) in reparierbaren Systemen ist dabei eben-falls möglich. Sämtliche der bisher aufgelisteten Funktionalitäten stehen auch in JMP, der grafischen Benutzerober-fläche der Lösung Visual Data Discovery, zur Verfügung. JMP bietet darüber hinaus aber noch mehr Möglichkeiten für die interaktive, grafisch-gestützte Analyse von Qualitätsdaten (vgl. auch Kapitel 8).

Abb. 6.3: Überblick über die verfügbaren Grafiktypen in JMP.

Page 84: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Qualitätssicherung 84

Sowohl SAS/QC als auch JMP enthalten verschiedene Methoden zur Versuchsplanung, die auch unter den Fachbegriffen Experimental Design bzw. Design of Experiments (DOE) bekannt sind. Diese Me-thoden helfen bei der Gestaltung effizienter Versuchsanordnungen zur Charakterisierung oder Ver-besserung industrieller Fertigungsprozesse: Hierbei wird das Verhalten qualitätsrelevanter Merkmale (Response-Variablen) bei systematischer Variation der Ausprägungen (Stufen) verschiedener steuer-barer Prozessgrößen (Faktoren) untersucht, wobei der Aufwand an Versuchsläufen möglichst gering gehalten werden soll. Man möchte dabei herausfinden, welche der Faktoren (z.B. chemisches Reak-tionsverfahren, Katalysatorzugabe, Reaktionstemperatur etc.) überhaupt einen signifikanten Einfluss auf die Response-Variable (z.B. Viskosität eines Stoffes) haben und bei welcher Kombination von Faktorstufen die Response-Variable optimal ist. Auf der Basis dieser Information können dann ent-sprechende Einstellungen der Parameter im Fertigungsprozess vorgenommen werden. Um solche Versuchsanordnungen möglichst effizient durchzuführen, stehen beispielsweise in JMP eine Vielzahl geeigneter Versuchsplantypen zur Verfügung. Diese können vollständig (sämtliche Kombinationen von Ausprägungen der Faktoren) oder fraktioniert (nur bestimmter Anteil der Kom-binationen) sein. Neben so genannten faktoriellen Plänen, Plänen für Wirkungsflächen (Response Surface Designs) und Plänen nach dem Taguchi-Ansatz werden dabei auch spezielle Plantypen für Mischungskomponenten angeboten. Die generierten Versuchspläne zeichnen sich generell durch die mathematische Eigenschaft der Orthogonalität aus. Anschaulich bedeutet dies, dass die gemessenen Wirkungen der einzelnen Faktoren auf die Response-Variable sich bei der Interpretation der Ergeb-nisse sauber voneinander trennen lassen. Für Situationen, in denen diese Eigenschaft nur näherungs-weise realisierbar ist, stehen zudem verschiedene Nicht-Standard-Pläne (Choice Designs) zur Verfü-gung.

Page 85: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Qualitätssicherung 85

JMP eignet sich auch insbesondere sehr gut für die interaktive Auswertung der Messwerte nach Durchführen der gemäß der Versuchsplanung generierten Versuchsdurchläufe. Neben der Analyse der Parameterschätzungen für die einzelnen Faktoren und Wechselwirkungsterme der Versuchs-pläne ist dabei auch die Simulation der Wirkung alternativer Faktoreinstellungen auf die jeweilige Response-Variable sowie die Optimierung der Faktoreinstellungen in Bezug auf eine definierbare Wünschbarkeit (Desirability) möglich.

Abb. 6.4: Mit JMP erzeugte Darstellung von Wirkungsflächen und Wünschbarkeitsfunktion für eine Response-Variable Rei-fenabrieb (Abrasion) in Abhängigkeit verschiedener chemischer Bestandteile (Faktoren Silane, Silica, Sulfur) bei einem Ver-suchssplan zur Optimierung von Komponentenmischungen für Reifen.

Page 86: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Qualitätssicherung 86

6.3 Einsatz in der Praxis 6.3.1 Beispiel Ein Hersteller von Spezialfasern (u.a. für wetterfeste Kleidung) mit Hauptsitz in den USA nutzt die in SAS/QC verfügbaren Methoden der Versuchsplanung, um seine Fertigungsprozesse für die Faser-produktion kontinuierlich weiterzuentwickeln. Die im Rahmen dieser Forschung gewonnenen Er-kenntnisse werden für Prozessoptimierungen eingesetzt, die höhere Prozessausbeuten, geringere Lagerbestände für einzusetzendes Material und schnellere Durchlaufzeiten nach sich ziehen. Insbe-sondere die grafische Benutzeroberfläche ADX, über die auch Ingenieure und Wissenschaftler ohne Programmierkenntnisse einen bequemen Zugang zur Versuchsplanung finden, ermöglicht eine recht frühe Bereitstellung der Versuchsergebnisse und letztendlich im Vergleich zum Wettbewerb be-schleunigte Produktentwicklungszyklen. 6.3.2 Weitere Einsatzgebiete Für Qualitätsmanagement-Werkzeuge, so wie sie Bestandteil von SAS/QC und JMP sind, besteht Be-darf in nahezu jeder industriellen Produktionsumgebung. Insbesondere die Verwendung von Quali-tätsregelkarten ist immer dann sinnvoll, wenn es bei komplexen Fertigungsprozessen mit vielen Ein-zelschritten und einer Vielzahl von Prozessparametern und Variablen darauf ankommt, diese im Sin-ne eines Frühwarnsystems möglichst ökonomisch zu überwachen. Aus der Datenflut, die die techni-schen Fertigungssteuerungssysteme zur Verfügung stellen, müssen die wirklich wichtigen Infor-mationen (Signale) über mögliche Prozessstörungen von den rein zufälligen Schwankungen (Rau-schen) herausgefiltert werden. Oftmals werden die Daten dabei in Echtzeit direkt aus einem operati-ven System oder zeitnah an der Produktion aus einem Data Warehouse geliefert. Diese Situation tritt besonders in Branchen mit technologieintensiver Fertigung auf, wie z.B. Halblei-ter, Automobile einschließlich Zulieferer, Luft- und Raumfahrttechnik, Chemie, Pharma oder Unter-haltungs- und Kommunikationselektronik. Viele Unternehmen aus diesen Branchen setzen dort er-folgreich SAS/QC und/oder JMP ein, meist auch in Verbindung mit anderen SAS Technologien im Um-feld von Data Mining und Data Warehousing.

Page 87: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Qualitätssicherung 87

6.4 Weiterführende Information Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema Qualitätssicherung. Bitte beachten Sie bei der Verwendung der nachfolgenden Navigationshinweise, dass Website-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen (eng-lischsprachigen) Informationen zu SAS/QC: Menü Products & Solutions – Analytics – Quality Improvement Dort finden Sie nicht nur beschreibende Funktionsübersichten (Features), sondern auch Software-Screenshots, Systemvoraussetzungen, Referenzbeispiele (Success Stories), interaktive Demos und im PDF-Format downloadbare Dokumente wie Kurzbroschüren (Fact Sheets) oder Whitepaper zu die-sem Thema. Detaillierte Beschreibungen der in SAS/QC enthaltenen Prozeduren und Verfahren finden Sie auf www.sas.com im Menü Support & Training über folgenden Navigationsweg: Abschnitt Knowledge Base – Documentation Wählen Sie dann in der alphabetischen Auflistung der SAS Produkte unter SAS Product Documen-tation den Eintrag für SAS/QC aus. Informationen zu den Fähigkeiten von JMP in Bezug auf das Thema Qualitätssicherung finden Sie auf der Website www.jmp.com/de unter dem Abschnitt Anwendungsbereiche.

Page 88: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 88

7 Optimierung und Projektplanung 7.1 Problemstellung im Überblick Im alltäglichen Sprachgebrauch wird Optimierung meist im Sinne von Verbesserung im Vergleich zu einer bestehenden Situation verstanden. Bei der Lösung eines solchen Optimierungsproblems lässt man sich meist von der eigenen Intuition leiten, unternimmt verschiedene Versuchsanläufe und wählt dann denjenigen Anlauf als Lösung, der die besten Ergebnisse liefert. Dieses empirische Vorge-hen kann aber schon bei einfachen Problemen versagen. Praktisch unbrauchbar ist es, wenn man zusätzlich viele Entscheidungsvariablen und viele Nebenbedingungen berücksichtigen muss. Möchte man beispielsweise bei einer Belieferung von 20 verschiedenen Standorten die Route so gestalten, dass die Gesamtstrecke minimal wird (sogenanntes „Problem des Handelsreisenden“), gibt es bereits 20! = 2.432.902.008.176.640.000 = 2,4E18 mögliche Alternativen für die Belieferungsroute. Wenn für die Distanzberechnung einer jeden dieser möglichen Routen auf einem Rechner jeweils eine CPU-Millisekunde benötigt würde, so müsste man mehr als 240 Milliarden Jahre auf das Ergeb-nis warten. Die mathematische Disziplin, die sich mit komplexen Entscheidungsproblemen dieser Art beschäftigt, nennt man Management Science oder Operations Research (OR). Sie zeichnet sich durch folgende Merkmale aus: • Beschreibung realer Sachverhalte durch formale mathematische Modelle (in der Regel als Glei-

chungssysteme mit Zielfunktionen und Nebenbedingungen). • Quantitative Bewertung (Ranking) der möglichen Entscheidungsalternativen im Hinblick auf die

zu optimierende(n) Zielgröße(n). • Grundsätzliche Berücksichtigung aller Entscheidungsalternativen bei der Lösungssuche. • Effizientes und systematisches Vorgehen bei der Suche nach optimalen Lösungen durch Verwen-

dung von Algorithmen oder Heuristiken. • Einbeziehung von Unsicherheiten durch Risikoabschätzungen (im Falle von Simulationen oder

stochastischer Optimierung). • Betrachtung von Opportunitätskosten alternativer Konstellationen durch „Was wäre, wenn ...“-

Szenarien.

Page 89: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 89

7.2 Die SAS Lösung Die in SAS/OR enthaltenen Prozeduren, Makros und Anwendungen decken ein weites Metho-denspektrum für Fragestellung der Optimierung, Planung und Simulation ab: • Algorithmen für die Lösung allgemeiner und speziell strukturierter mathematischer Optimie-

rungsprobleme mit Hilfe linearer oder nichtlinearer Programmierung, • Verfahren für die Lösung von Ressourcenallokationsproblemen im Rahmen eines Projekt-

managements, • Genetische Algorithmen als lokale Suchverfahren für die Lösung von Problemen mit besonders

komplexer Struktur, • Algorithmen zur Ermittlung von optimalen Lösungswegen bei mehrstufigen Entscheidungs-

problemen (Decision Analysis), • Verfahren für die Stücklisten-Darstellung der hierarchischen Beziehungen zwischen den ein-

zelnen Bauelementen eines Produkts (Bill-of-Materials Processing), • Verfahren zur Visualisierung von Netzwerkstrukturen, insbesondere zur Sichtbarmachung bisher

unbekannter Muster oder Beziehungen, • Simulationsverfahren für die Modellierung und Analyse von Warteschlangenprozessen. Eine besondere Stärke von SAS/OR ist, dass diese Werkzeuge eng mit anderen SAS Anwendungen verknüpft sind. Dies erlaubt dem Anwender: • Daten ohne Systembrüche zu laden, zu bereinigen und auf die entsprechende Entscheidungs-

fragestellung hin umzuformen, • SAS/OR-Verfahren mit anderen analytischen Ansätzen zu kombinieren (z.B. die Ergebnisse einer

Zeitreihenprognose als Eingabeparameter für eine Bedarfsplanung verwenden), • Optimierungsergebnisse einfach an einen größeren Benutzerkreis zu kommunizieren. SAS/OR Funktionalität läuft in vielen SAS Produkten und Lösungen für den Anwender unsichtbar un-ter der Oberfläche und bietet damit Benutzern auch ohne OR-Hintergrund Entscheidungsunter-stützung in vielfältigen Geschäftssituationen. Bei der Planung von Kundenansprachen mit SAS Marke-ting Optimization wird etwa zunächst die erwartete Effizienz je Kommunikationskanal und Kunde mittels Data-Mining-Ansätzen bestimmt, um darauf basierend unter Berücksichtigung des verfüg-baren Budgets mit mathematischer Optimierung den optimalen Kommunikationskanal je Kunde zu ermitteln. Andere Lösungen betreffen die Preisgestaltung (SAS Revenue Optimization) oder Be-standsdisposition (SAS Inventory Optimization und andere). SAS/OR selbst bietet zudem Oberflächen für das Projektmanagement oder Simulation diskreter Ereignisse an. Neben diesen vordefinierten Lösungen, ist es aufgrund der Vielseitigkeit von SAS/OR üblich, dass mathematisch versierte Anwender eine Problemstellung mit Hilfe der SAS/OR Programmierung kon-zeptionell vorbereiten. Diese können dann mit Hilfe von SAS Stored Processes und anderen SAS Technologien einem größeren Kreis von fachlichen Anwendern als interaktive Anwendungen ein-schließlich Konfigurationsmöglichkeiten und grafischen Auswerungen zur Verfügung gestellt werden. Für die OR-Programmierung bietet SAS zwei Ansätze, die im Folgenden detaillierter dargestellt wer-den.

Page 90: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 90

7.2.1 Lineare und nichtlineare Programmierung mit klassischen Prozeduren Die in den Prozeduren LP und INTPOINT enthaltenen Algorithmen der linearen Programmierung kön-nen zur Lösung einer Vielzahl mathematischer Optimierungsprobleme verwendet werden, wobei neben reellen auch ganzzahlige Entscheidungsvariablen berücksichtigt werden können. Typische Anwendungen sind etwa Material- bzw. Personaleinsatzplanung, Produktionsprogrammplanung, Zusammensetzung von Finanzportfolios oder Budgetierung von Investitionsprogrammen. Die zusätz-lich verfügbaren Prozeduren ASSIGN, TRANS und NETFLOW nutzen die Tatsache aus, dass viele Prob-lemstellungen sich als Spezialfälle des allgemeinen Ansatzes zur linearen Programmierung formulie-ren lassen. Darunter fallen etwa Transport- und Zuordnungsprobleme oder Probleme im Rahmen der Netzflussoptimierung. Mit den Prozeduren QP und NLP können zudem solche Fragestellungen be-antwortet werden, bei deren Lösung Algorithmen der quadratischen oder nichtlinearen Programmie-rung verwendet werden. Die Prozeduren für Projektmanagement und Ressourcenplanung in SAS/OR versetzen den Anwender in die Lage, komplexe Projekte und Unterprojekte mit einem einzigen System zu planen, zu kontrol-lieren und zu überwachen. Das Projektmanagement wird dabei unter Beachtung zeitlicher Restriktio-nen, Ressourcenverfügbarkeiten und Anforderungen optimiert. Neben den Algorithmen Critical Path und Constraint Programming existiert mit der Prozedur PM auch eine interaktive Methode zur Pro-jektplanung. Die Ergebnisse werden in Netzwerkdiagrammen und Gantt-Charts visualisiert. Des Wei-teren gibt es die Möglichkeit, Daten vom Typ Microsoft Project zu erfassen und in die Projektplanung zu integrieren. SAS/OR bietet mit der Prozedur GA auch lokale Suchverfahren über genetische Algorithmen an. Diese können praktisch zur Lösung eines jeden beliebigen Optimierungsproblems genutzt werden, sind allerdings häufig den klassischen Algorithmen (z.B. lineare Programmierung) in Genauigkeit unterle-gen. Daher werden genetische Algorithmen meist nur für Probleme eingesetzt, für deren Lösung die herkömmlichen Verfahren und Rechenmethoden zu aufwendig sind (vgl. „Handelsreisenden“-Problem in Abschnitt 7.1). Sie eignen sich darüber hinaus auch insbesondere zur Mehrziel-optimierung. Mit der Prozedur BOM können Stücklisten (Bill of Materials) bearbeitet werden. Die Prozedur liest Daten über alle Haupt- und Teilelemente eines Produkts ein und kombiniert diese Informationen durch Zusammenstellung einer Stückliste. Die Ergebnisse können dann in mehreren Hierarchiestufen (Teilkomponenten) bis hin zu den Rohmaterialien aufbereitet werden. Die Prozedur DTREE ermöglicht interaktive Entscheidungsanalysen (Decision Analysis). Sie inter-pretiert ein komplexes Entscheidungsproblem, das durch mehrere hierarchisch verkettete Entschei-dungsmöglichkeiten, Wahrscheinlichkeiten und Nutzen charakterisiert ist, und findet die optimale Handlungsstrategie, die den erwarteten Nutzen maximiert.

Page 91: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 91

Simulationsmodelle werden für Netzwerk- und Telekommunikationssysteme, Produktionsabläufe, im Transportwesen, aber auch zum Auslegen von neuen operativen Prozessen in einer Organisation genutzt. Bevor man solche Prozesse umstrukturiert, möchte man durch Simulationen abschätzen, inwieweit die geplanten Veränderungen tatsächlich die gewünschten Verbesserungen bringen, und feststellen, wie stabil bzw. belastbar die Prozesse bei Variation der Ausgangsbedingungen reagieren. Zur Durchführung diskreter Simulationen gibt es in SAS/OR mit dem SAS Simulation Studio eine inter-aktive grafische Benutzeroberfläche, die keine Programmierkenntnisse erfordert. Für frei definierba-re Interaktionsmodelle lassen sich dabei verschiedene Datenszenarien in Form von Experimenten simulieren.

Abb. 7.1: Übersichtsfenster des SAS Simulation Studios - eine von vielen SAS/OR Anwendungen.

Page 92: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 92

7.2.2 Die neue Modellierungsumgebung OPTMODEL Mit der neuen Prozedur OPTMODEL lassen sich auch sehr komplexe Fragestellungen intuitiv model-lieren. OPTMODEL ist eine komplette, codebasierte Optimierungsumgebung, in der Daten geladen, Modelle entwickelt und Lösungsstrategien für potentiell unterschiedliche Problemvarianten und das Zusammenspiel verschiedener Algorithmen realisiert werden können. Problemmodellierung Das Model kann mit Hilfe einer intuitiven algebraischen Beschreibungssprache formuliert werden, die unter anderem Datenabstraktion, Indexmengen und Summenschreibweisen, mathematische Funktionen und automatische Differentiation (analytisch oder numerisch), logische Ausrücke, Men-genoperatoren und Optimierungselemente (z.B. Zielfunktion oder Nebenbedingen) unterstützt. Mit OPTMODEL kann sich der Benutzer ganz auf die konzeptionelle Arbeit der Modellentwicklung und -verbesserung konzentrieren und erzeugt dabei gut lesbare und erweiterbare Modelle. Problemlösung Auch hier nimmt OPTMODEL dem Anwender viel Arbeit ab. Das Modell wird automatisch mit den aktuellen Daten gefüllt und der Presolver versucht das Problem vor der eigentlichen Optimierung, z.B. durch Ableiten möglichst enger Variablengrenzen aus den Nebenbedingungen, zu vereinfachen. Für lineare Probleme kommen primaler oder dualer Simplex, Innere-Punkte-Verfahren oder (im ganzzahligen Fall) Branch-und-Bound Verfahren zum Einsatz. Für Letztere stehen viele Heuristiken zum Zerlegen des Suchraumes („Schnittebenen“) und zum schnellen Finden von Lösungen in Teil-problemen zur Verfügung. Für nichtlineare Probleme (auch beschränkte oder ganzzahlige) stehen Quasi-Newton-Verfahren (nach Broyden-Fletcher-Goldfarb-Shanno), konjugierte Gradienten-Verfahren (nach Fletcher-Reeves oder Polak-Ribière), Trust-Region-Verfahren oder iterative Innere-Punkte-Verfahren zu Verfügung. OPTMODEL wählt je nach struktureller Beschaffenheit des Problems den geeignetsten Algorithmus soweit möglich automatisch aus. Wenn nötig, kann aber der gesamte Lösungsprozess auch vom Benutzer fein gesteuert werden. Dabei können Varianten der Prob-lemstruktur, verschiedene Daten, und Lösungsansätze flexibel miteinander kombiniert werden.

Page 93: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 93

7.2.3 Beispiel Transportoptimierung mit OPTMODEL Ein deutsches Industrieunternehmen möchte die Transporte von Produktionsstätten zu Vertriebs-standorten optimieren. Dazu liegen die folgenden Daten vor: • Erwartete Produktionsmengen für seine Produktionsstätten in den sechs größten deutschen

Städten. Die Gesamtproduktionsmenge verteilt sich proportional zur Einwohnerzahl. • Erwartete Absatzmengen in 99 weiteren deutschen Städten. Auch diese verteilen sich ent-

sprechend der Einwohnerzahl. • Mögliche Transporte. Es wird angenommen, dass von jeder Fabrik unbegrenzt zu jedem Ver-

triebsstandort transportiert werden kann und die dafür anfallenden Kosten proportional zur Luftdistanz sind. Diese lässt sich direkt aus den in SAS verfügbaren Geodaten für ausgewählte Städte berechnen.

Anhand OPTMODEL lässt sich in wenigen Codezeilen modellieren, was zu entscheiden ist (Variablen), welche Transportpläne möglich sind (Nebenbedingungen) und was den besten Plan auszeichnet (Ziel-funktion). Dies lässt sich wie in folgendem Auszug umsetzen: proc optmodel; /* Parameter: Fabriken mit Angebot, Vertriebsstandorte mit Bedarfen. */ set <str> Fabrik, Vertrieb; num Angebot {Fabrik}; num Bedarf {Vertrieb}; … /* Entscheidungsvariable: Liefermengen zwischen Standorten. */ var x{Fabrik, Vertrieb} >= 0; /* Ziel: Minimale Kosten (=Distanz*Menge aller Transporte) */ min Kosten = sum{i in Fabrik, j in Vertrieb} Weg[i,j] * x[i,j]; /* Angebot begrenzt Abtransporte und Nachfrage begrenzt Anlieferungen */ con Verfügbar {i in Fabrik}: sum{j in Vertrieb} x[i,j]<= Angebot [i]; con Genug {j in Vertrieb}: sum{i in Fabrik} x[i,j]>= Nachfrage[j]; … /* Optimierung anstoßen. (OPTMODEL wählt geeigneten Löser) */ solve; … quit;

Page 94: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 94

Definition und Einlesen der Modelparameter sowie Ausgaben der Ergebnisse sind hier nicht enthal-ten, erfordern aber nur jeweils wenige weitere Programmzeilen. Der von SAS/OR ermittelte optimale Distributionsplan ist in Abbildung 7.2 links grafisch dargestellt. Aufgrund der ungünstigen Lage der Produktionsstandorte sind hier selbst in der optimalen Lösung lange Transportwege von Nord nach Süd notwendig, da in einigen Regionen, z.B. Nordrhein-Westfalen, nicht ausreichend produziert wird.

Abb. 7.2: Links im Bild der von SAS/OR ermittelte optimale Distributionsplan mit Produktion in den sechs größten deutschen Städten. Rechts ein alternative Plan mit zusätzlicher Produktion in Dortmund und Mülheim an der Ruhr. Die Stärke der Transportlinien ist proportional zur vorgeschlagenen Transportmenge. Die grafische Darstellung wurde mit der SAS/Graph Prozedur GMAP erststellt. Beim praktischen Einsatz einer Optimierungslösung kristallisieren sich häufig weitere Anforderungen an das Modell heraus. Im vorliegenden Beispiel interessiert sich das Management dafür, wie sich durch das Öffnen neuer Produktionsstandorte Transportkosten reduzieren lassen. Solche Erweite-rungen lassen sich in SAS/OR sehr effizient durchführen. Durch wenige weitere Zeilen im oben ge-zeigten Modell wird SAS/OR veranlasst, unter allen Vertriebsstandorten genau die beiden zu ermit-teln, in denen neue Produktionseinrichtung (zu vorgebender Kapazität) den deutschlandweiten Transport insgesamt bestmöglich entlasten. Ein solches sogenanntes „Supply Chain Design“-Problem enthält implizit viele Ja-Nein-Entscheidungen in Form binärer Variablen. Diese stellen - wie auch schon im Problem des Handelsreisenden in der Einleitung - aufgrund der vielen Kombinations-möglichkeiten eine große Herausforderung für die Optimierung dar. SAS/OR meistert diese und wählt dabei sogar selbständig das richtige Lösungsverfahren. Die in diesem Beispiel optimalen Empfehlun-gen für neue Standorte und Transporte sind in Abbildung 7.2 rechts dargestellt. Dieses Beispiel ist zur Illustration stark vereinfacht, doch es zeigt bereits, wie flexibel und mächtig SAS/OR in der Modellierung von Entscheidungsproblemen ist. Fortgeschrittene Benutzer können zusätzlich zur Problembeschreibung auch ein Lösungsvorgehen vorgeben. Im vorliegenden Beispiel kann die Optimierung beschleunigt werden, indem die Lösung des ersten Modells für einen „Warm-start“ des zweiten, schwierigeren Problems genutzt wird. Mit solchen, durch den Benutzer vorgege-benen, Strategien lassen sich auch sehr große, komplexe und realitätsnahe Optimierungsprobleme lösen.

Page 95: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 95

7.2.4 Beispiel Ressourcenplanung

Wie zu Beginn dieses Abschnitts aufgelistet, ist SAS/OR nicht auf die mathematische Programmierung beschränkt. Ein häufiges Entscheidungsproblem in der operativen betrieblichen Praxis sind Termin- und Ressourcenplanung von sowohl einmaligen Vorhaben (Projekten) als auch operativen Abläufen, z.B. in der Produktion. SAS/OR Project Management unterstützt dazu Standardverfahren zur Projek-toptimierung z.B. Terminierung von Arbeitspaketen unter Berücksichtigung der unterschiedlichen Folgebeziehungen (häufig: „Ende-Start“) und Ressourcen-Verfügbarkeiten, die sich anschließend in Netzplänen, GANTT-Diagrammen und anderen Darstellungen visualisieren lassen. Zur Demonstration der Vielseitigkeit von SAS/OR sei hier aber ein Beispiel angeführt, das über den Standardfall der Ressourcenplanung hinausgeht und dennoch mit SAS/OR - in diesem Fall mit Verfah-ren des Constraint Programming - sehr effektiv gelöst werden kann. In diesem fiktiven Szenario aus der Produktionsplanung erhält eine Lackierstation in der Automobilproduktion zum Anfang jeder Stunde den Auftrag zehn Autos in jeweils einer von vier Farben zu lackieren. Zu entscheiden ist, in welcher Reihenfolge die Aufträge abgearbeitet werden, wobei die Anzahl der (kostspieligen) Umrüs-tungen von einer Farbe auf eine andere zu minimieren ist. Dabei darf die Position eines Wagens um nicht mehr als drei Positionen verändert werden, um den Gesamtfertigstellungstermin nicht zu ver-zögern. Mit Constraint Programming lässt sich dieses Problem in wenigen Zeilen Programmcode spezifizie-ren, wobei mit kombinatorisch sehr leistungsfähigen Befehlen wie „all-different“ sehr kompakt aus-gedrückt werden kann, dass z.B. nur ein Auto zur gleichen Zeit bearbeitet werden kann.

Abb. 7.3: Mit SAS/GRAPH visualisierte Lösung eines Constraint Programming Problems zur Bestellfolge RBGYRBGYRB (R=Rot=R; B=Blau; G=Grün; Y=Gelb). Optimal ist einer der vier ersten Produktionspläne (jeweils fünf Umrüstungen).

Page 96: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 96

7.3 Einsatz in der Praxis 7.3.1 Beispiel Ein immer wiederkehrendes Thema in der Bildungspolitik ist der durch längere Krankheiten und Er-ziehungsurlaub von Lehrkräften bedingte Unterrichtsausfall an Schulen. In Belgien wurde versucht, dieses Problem mit einem zentralen Pool von ca. 5.000 Aushilfslehrern zu lösen. Jedoch stellte sich der operative Einsatz dieses Aushilfspools als sehr schwierig dar: Einerseits mussten fachliche Eig-nung und Muttersprache der Aushilfslehrer (Französisch und Flämisch) mit den Vakanzen in den Schulen übereinstimmen, andererseits kann man einem Aushilfslehrer nicht zumuten, innerhalb von wenigen Tagen losgelöst von den eigenen Lebensumständen und Präferenzen an einem neuen Dienstort seinen Beruf aufzunehmen. Schließlich sind bei der Besetzung von Aushilfen auch noch die geltenden tariflichen Rahmenbedingungen einzuhalten, auf die sich Arbeitgeber und Gewerkschaften geeinigt haben. In diesem Geflecht von Nebenbedingungen war es immer wieder zu Situationen mit Bevorzugungen und Benachteiligungen von einzelnen Aushilfslehrern gekommen, die zu suboptima-len Ergebnissen für die betroffenen Schüler führten und Kritik an der Gerechtigkeit des Verteilungs-systems aufkommen ließen. Um dieser Kritik zuvorzukommen, wurde eine unabhängige Dienstleistungsagentur vom belgischen Bildungsministerium mit der Entwicklung eines Lösungssystems beauftragt, mit dem innerhalb von zwei Tagen offene Lehrerstellen nach objektiv nachvollziehbaren Kriterien optimal besetzt werden können. Die von der Agentur gemeinsam mit SAS entwickelte Intranet-basierte Lösung enthält eine Daten-bank, in der nach objektiv kontrollierbaren Kriterien alle notwendigen Fachinformationen über die Aushilfslehrer inklusive der persönlichen Präferenzen bezüglich möglicher Einsatzorte abgespeichert sind. Schulen leiten ihren notwendigen Bedarf an Aushilfslehrern mit Angabe aller notwendigen In-formationen über die vakanten Stellen an die Agentur weiter. In regelmäßigen Abständen wird mit Hilfe von linearen Optimierungsalgorithmen (Prozedur LP) die Ressourcenallokation für alle Schulen und Aushilfslehrer optimiert. Die gleichzeitige Berücksichtigung bestmöglicher Unterrichtsversorgung und geografischer Präferenzen der Aushilfslehrer erfolgt so nach objektiven Kriterien. Zu den dann noch in Frage kommenden Kandidaten wird telefonisch Kontakt aufgenommen, so dass das Zeitfens-ter von zwei Tagen bis zur Besetzung problemlos eingehalten werden kann. Aus den Ergebnissen dieser Optimierung werden weiterhin regelmäßig Berichte mit einem Überblick über den Unterrichtsausfall und die Verwendung von Hilfslehrern erstellt. Diese Berichte dienen auch als Planungsgrundlage für die Personalplanung des Pools, um den Bedarf und die notwendige Quali-fikation von Aushilfslehrern für die nächsten Jahre zu ermitteln.

Page 97: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 97

7.3.2 Weitere Einsatzgebiete Obwohl Operations Research als Fachdisziplin nur wenig bekannt ist, ist praktisch jeder Mensch im Alltag Nutzer oder Nutznießer der Ergebnisse solcher Optimierungsverfahren. Dies gilt beispielsweise für verschiedene Aspekte der Urlaubsgestaltung. Wer etwa seinen Urlaub über das Internet plant, bekommt nach den eigenen Vorgaben optimierte Flugverbindungen angezeigt, wobei wahlweise die Zielgrößen Preis oder Reisezeit - oder beide gleichzeitig - optimiert werden können. Verreist man etwa mit dem Flugzeug, so werden von den Fluglinien Verfahren aus dem Operations Research verwendet, um Verspätungen zu vermeiden und ihr Personal effizient einzusetzen. Einsatz-pläne der Crews werden dabei so ausgelegt, dass die im Flugzeug verbrachte produktive Zeit unter Einhaltung aller arbeitsrechtlicher Vorgaben und flugtechnischer Sicherheitsanforderungen maxi-miert wird. Bei Durchführung eines Großprojektes wie dem Bau eines Kreuzfahrtschiffes, auf dem man etwa seinen Urlaub verbringt, werden oftmals Optimierungsalgorithmen für die Einsatzplanung von Res-sourcen verwendet, mit deren Hilfe die Einhaltung von Auslieferungsterminen und Budgetvorgaben sichergestellt wird. Die dadurch erzielte Effizienz ermöglicht dem Werftbetreiber dann oftmals die Annahme zusätzlicher Aufträge, die bei einem Projektmanagement ohne Optimierung nicht möglich wäre. Wer aus dem Urlaub eine Postkarte schickt, weiß meistens nicht, dass die logistische Infrastruktur, die die Postkarte bei ihrem Weg vom Absender bis hin zum Adressaten nutzt, das Ergebnis der An-wendung von Optimierungsalgorithmen ist. Diese Art der Optimierung wird in mehr oder weniger regelmäßigen Abständen wiederholt, wobei eventuell teurer gewordene Verbindungen bzw. Filialen mit wenig Nachfrage gestrichen und neue Standorte mit kostengünstigen Strukturen oder in Wachs-tumsregionen dagegen ausgebaut werden. Ein weiteres Beispiel für den Einsatz von Optimierungsverfahren aus dem Urlaubsalltag stellt die Ver-kehrslenkung bei der Reise mit dem Auto dar. Hier werden Verfahren aus der stochastischen Opti-mierung eingesetzt, um das Verkehrsaufkommen automatisch durch Geschwindigkeitsbeschrän-kungen zu steuern und so Staubildungen auf Autobahnen zu vermeiden.

Page 98: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 98

7.4 Weiterführende Information Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema Operations Research. Bitte beachten Sie bei der Verwendung der nachfolgenden Navigationshin-weise, dass Website-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen Informa-tionen zum Produkt SAS/OR: Products & Solutions – Analytics – Operations Research Dort stehen u.a. folgende Inhalte zur Verfügung: • Englischsprachige Produktbeschreibung zum Herunterladen im PDF-Format (Fact Sheet) • Verweise auf internationale Referenzen (Customer Success) • Einführung unterschiedlicher Operations Research Anwendungsszenarien (White Papers) • Dokumentation, technische Hinweise und Trainings (Product Support) Das Schulungsprogramm von SAS Training enthält eine Reihe an Kursen und Workshops zum Thema Operations Research. Detaillierte Beschreibungen und die aktuellen Termine finden Sie auf der Website www.sas.de/training.

Page 99: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 99

8 Datenvisualisierung 8.1 Problemstellung im Überblick In Daten enthaltene Muster und Zusammenhänge lassen sich bei analytischen Fragestellungen häufig durch Visualisierung intuitiv einfacher erkennen als durch das Betrachten tabellarischer Zusammen-fassungen, beschreibenden Statistiken oder einzelner Schätzparameter von Modellen. Die Band-breite der Möglichkeiten, Muster und Zusammenhänge in Daten durch Visualisierung besser zugäng-lich zu machen, ist vielfältig. Sie reicht von einfachen Geschäftsgrafiken über statistische Grafiken und innovativen Darstellungsformen für wissenschaftliche Analysen bis hin zu interaktiven Visualisie-rungstechniken. Geschäftsgrafiken dienen häufig der anschaulichen grafischen Aufbereitung von Sachverhalten in Diagrammen. Sie sind heute aus Präsentationen, Vorträgen oder Managementberichten (etwa in Dashboard-Ansichten) nicht mehr wegzudenken. Weitverbreitete Beispiele dafür sind etwa: • Kreisdiagramme (Tortengrafiken, ggf. auch mit extrudierten Scheiben). • Balkendiagramme (auch als Kegel oder Säulen mit horizontalem oder vertikalem Layout). • Liniendiagramme (auch als Bänder oder Ribbons in 3D-Form). • Flächendiagramme (auch als Oberflächen in 3D-Darstellung). • Kennzahlenindikatoren (z.B. Tachometer-Scheiben, Pegelstands- oder Ampeldarstellung). • Kartographische Darstellungen (z.B. Landkarten mit Flächeneinfärbungen). Dieser Grafiktyp, der in zahlreichen Varianten und Unterausprägungen Einzug in moderne Reporting-Werkzeuge, Tabellenkalkulations- und Präsentationsprogramme gefunden hat, besitzt den Vorteil einer sehr eingängigen, allgemeinverständlichen Darstellungsweise. Die Verwendung von 3D-Elementen, Piktogrammen oder Farbmusterverläufen lassen solche Grafiktypen häufig professio-neller und ansprechender erscheinen, verändern aber in der Regel nicht den Informationsgehalt. Sie können in Ausnahmefällen bestimmte Informationen sogar verschleiern (z.B. können in 3D-Darstellungen Schattierungen andere Bereiche verdecken). Ein Nachteil dieser Grafiktypen besteht darin, dass sie maximal bis zu zwei Dimensionen von Informa-tionsgehalt effizient transportieren können und dies ggf. auch nur unter bestimmten Voraussetzun-gen. So lassen sich Unterschiede zwischen den Werteverteilungen eines Merkmals nach den Ausprä-gungen eines weiteren Merkmals mit Hilfe von gruppierten Balken- oder Kreisdiagrammen auf grafi-schem Wege zwar grundsätzlich analysieren. Dies gilt jedoch nur solange, wie die Anzahl der einzel-nen Merkmalsausprägungen in beiden Kategorien überschaubar ist. Das Hinzunehmen eines weite-ren Merkmals als zusätzliche Gruppierungsdimension macht die Darstellungsweise dann häufig schon so komplex, dass möglicherweise interessante Wechselwirkungen zwischen den einzelnen Merkma-len nicht erkennbar sind. Zudem geht bei einer größeren Anzahl von darzustellenden Merkmals-ausprägungen die Übersichtlichkeit in Balken- oder Kreisdiagrammen verloren.

Page 100: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 100

Im Gegensatz zu intuitiven Geschäftsgrafiken ist der Adressatenkreis bei statistisch-wissenschaft-lichen Grafiken ungleich kleiner. Solche Grafiken spielen häufig im Vorfeld der Entwicklung von Prog-nosemodellen beim Data Mining oder in der statistischen Analyse eine Rolle, um etwa Annahmen zur Werteverteilung bezüglich einzelner Merkmale oder Modellresiduen zu überprüfen. Auf Basis dieser Darstellung lässt sich dann häufig ableiten, ob etwa ein Bedarf für die Elimination von Ausreißerwer-ten oder die Anwendung einer geeigneten Transformation der Originalwerte besteht. Häufige Darstellungsformen sind dabei: • Histogramme (Balkendiagramme mit Häufigkeitsauszählungen von in Klassen eingeteilten Ein-

zelmerkmalen, ggf. mit überlagerter Anpassungskurve für Normalverteilung oder Kerndichte-schätzung).

• Bivariate Histogramme (gemeinsame Häufigkeitsverteilungen für zwei Merkmale in drei-dimensionaler Darstellung).

• Box-Whisker-Plots (Horizontale oder vertikale Anordnung einzelner Verteilungsmerkmale wie Quantile, Extrema oder Mittelwert als Kasten mit angrenzenden Strichen zur vergleichenden Be-schreibung von Verteilungen zwischen Merkmalsausprägungen).

• Streudiagramme bzw. Scatterplots (Darstellung von zwei Merkmalen als Punkte im X-Y-Koordinatenraum, ggf. mit angepasster Kurve, Konfidenzbändern oder Konfidenzellipsen)

• Wahrscheinlichkeitsdiagramme (Quantil-Quantil- oder Probability-Probability-Plots zur Dar-stellung der Anpassungsgüte einer Werteverteilung an eine theoretische Verteilung).

• Scatterplot-Matrizen (paarweise Anordnung von einzelnen Scatterplots für mehrere Merkmale in einer Matrixform, häufig mit Histogrammen für die einzelnen Merkmale in der Hauptdiagonalen)

• 3D-Streudiagramme (Darstellung von Punkten in XYZ-Koordinatensystemen, ggf. mit „Schlauch“ für Konfidenzellipse).

• 3D-Oberflächen- und 2D-Konturendiagramme (Abbildung des Zusammenhangs zwischen einem Reponse-Merkmal und zwei unabhängigen Merkmalen über dreidimensionale Oberflächengitter oder zweidimensionale Höhenlinien oder Flächen mit Farbcodierung).

• Ternäre Darstellung (Spezialfall von 2D-Konturdiagrammen mit Dreiecksanordnung zur Dar-stellung eines Response-Merkmals in Abhängigkeit von drei Mischungskomponenten).

• Baumdiagramme oder Dendrogramme (Liniengrafik für vertikale oder horizontale Zusammen-führung von Einzelobjekten oder Gruppen im Rahmen einer Clusteranalyse).

• Radardiagramme (Darstellung der Werteausprägungen eines Objekts auf mehreren Dimensionen in einer Spinnennetz-artigen Anordnung).

Mitunter ist auch eine gemeinsame kompakte Anordnung mehrerer dieser Grafiktypen sinnvoll, z.B. Darstellung von zwei Merkmalen mit Hilfe eines Streudiagramms mit Histogramm- oder Box-Whisker-Plots zur Kennzeichnung der einzelnen Werteverteilungen entlang der X- und Y-Achse. Im Alltag haben einige dieser Grafiken bereits Einzug gehalten, wenn auch unter anderem Namen. So finden sich zweidimensionale Kontur- oder Flächendarstellungen mit Farbcodierung häufig auch un-ter dem Begriff „Wärmebild“ oder „Heat Map“ etwa bei der Darstellung von Wetterkarten oder Di-agnosebildern von Computertomographen wieder, während etwa Box-Whisker-Plots in leicht modifi-zierter Version zur Darstellung der Kursbewegungen bei der Aktienanalyse herangezogen werden.

Page 101: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 101

Aus der Abwandlung von Geschäftsgrafiken und wissenschaftlichen Grafiktypen haben sich in letzter Zeit auch neuere, innovative Darstellungsformen entwickelt, wie etwa: • Blasendiagramme (Streudiagramme - erweitert um die Fähigkeit, eine dritte und vierte Dimen-

sion durch die Größe/ Durchmesser und Farbe der Blasen abzubilden). • Parallelachsen- bzw. Parallelkoordinatendiagramme (Abbildung einzelner Fälle/Objekte als Lini-

enprofile über ihre Merkmale, ggf. mit Einfärbung nach weiterem Merkmal). • Netzwerkkonstellationen (Anordnung von Objekten als Netzwerk im XY-Koordinatensystem mit

Verbindungslinien zur Darstellung der Beziehungsstärke). • Kachel- oder Mosaikdiagramme bzw. Tree Maps (kompakte Darstellung zweier abhängiger

Merkmale über Farbcodierung und Flächengröße für mehre unabhängige Merkmale mit diskre-ten Ausprägungen).

Diese Darstellungsformen haben zwar den Nachteil, dass sie zunächst einmal erläuterungs- und für den Betrachter gewöhnungsbedürftig sind. Dafür bieten sie die Möglichkeit, mehr Information in einer einzigen Grafik zu transportieren oder bestimmte Informationen eleganter zu transportieren. So finden Kacheldiagramme mittlerweile Anwendung bei der Analyse der Auslastung und Verfügbar-keit von IT-Ressourcen in einem Server-Park, wobei der Auslastungsgrad über die Farbcodierung und die Kapazität (z.B. Speicherkapazität in Gigabyte) über die Flächengröße abgebildet werden kann. Diese Form der Darstellung ist kompakter und vermittelt gerade bei größeren Datenmengen ein kla-reres Bild als die Aneinanderreihung von Balkendiagrammen. Netzwerkkonstellationen finden sich dagegen häufig bei der Analyse der Verknüpfung von Objekten, etwa bei Klickpfadanalyse von mitei-nander verlinkten Seiten einer Website oder bei der Identifikation organisierter Personengruppen im Rahmen der Betrugserkennung. Zu den fortgeschrittenen Möglichkeiten im Rahmen der Visualisierung zählen interaktive Techniken. Hierbei geht es weniger um neue Grafiktypen, sondern um die interaktive Veränderung von Grafiken mit dem Ziel, daraus Rückschlüsse über bestimmte Zusammenhänge zu ziehen. Im Gegensatz zu sta-tischen Abbildungen eines Sachverhalts werden die Grafiken dabei als dynamische Objekte aufge-fasst. Das Spektrum der interaktiven Möglichkeiten hängt dabei vom jeweiligen Grafiktyp ab. Typische Anwendungsbeispiele für solche interaktiven Techniken sind: • Zoom- bzw. Lupen-Werkzeug (z.B. zum Vergrößern einzelner Grafikausschnitte, um besondere

Details zu analysieren). • Rotationen (Drehen einer dreidimensionalen Grafik um verschiedene Achsen für unterschiedliche

perspektivische Ansichten, um etwaige bei Frontperspektive nicht oder nur verzerrt dargestellte Muster besser zu erkennen).

• Fadenkreuz (bewegliches Objekt mit Referenzlinien zur besseren Orientierung, etwa bei Beurtei-lung, ob ein Punkt- oder Linienverlauf horizontal oder vertikal ausgerichtet ist).

• Binning (interaktives Verändern der Klassenbreite bei Histogrammen, um zu prüfen, wie eine Werteverteilung auf feinere oder gröbere Klassenbildung reagiert).

• Linking & Brushing (Dynamisch miteinander verknüpfte Grafik- und Tabellenobjekte; Markieren einzelner Punkte oder Teile einer Grafik hebt z.B. automatisch entsprechende Bereiche in ande-ren Grafiken oder Zeilen in einer Datentabelle hervor).

• Grafikanimationen (Visualisierung von Entwicklungen des in einer Grafik abgebildeten Sachver-halts im Zeitablauf, etwa zum Erkennen von Trends, zeitlichen Strukturen).

Page 102: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 102

Solche Techniken erweisen sich gerade bei der explorativen Datenanalyse, bei der es zunächst einmal um das visuelle Entdecken von Strukturen geht, als produktivitätssteigernd. Gerade die dynamische Verknüpfung von Grafiken und Tabellen erweist sich als flexibles Werkzeug, um Teilbereiche zu fil-tern oder einzelne Ausreißerobjekte zu identifizieren, etwa in multivariaten Darstellungen wie Streu-diagramm-Matrizen. Interaktive Visualisierungstechniken spielen daher auch häufig als Teildisziplin des Data Minings im Vorfeld der Modellbildung eine wichtige Rolle. 8.2 Die SAS Lösung Da die Datenvisualisierung häufig unterstützende Funktion im Rahmen weiterführender Analysen besitzt, überrascht es nicht, dass die im Abschnitt 8.1 genannten Möglichkeiten und Werkzeuge in eine Vielzahl von Lösungen und Produkten von SAS integriert sind. Sie finden sich beispielsweise im SAS Enterprise Miner oder in den entsprechenden Modulen zur statistischen Datenanalyse und Zeit-reihenanalyse (SAS/STAT, SAS/IML, SAS/ETS). Darüber hinaus existiert mit Visual Data Discovery eine SAS Lösung, die sich gezielt dem Thema Visualisierung widmet. Je nach Anforderungen an die Analy-setätigkeit (Automatisierungsgrad bei der Grafikerstellung vs. Flexibilität für interaktive Datenexplo-ration) kommen dabei Funktionalitäten verschiedener Module wie SAS/GRAPH oder JMP zum Ein-satz. Mit Hilfe der in SAS/GRAPH enthaltenen Prozeduren können neben einfachen Geschäftsgrafiktypen auch eher wissenschaftlich orientierte Grafiktypen erzeugt werden. Die Erzeugung und Kontrolle des Layouts solcher Grafiken sind grundsätzlich sowohl über das Programmieren entsprechender Proze-duranweisungen möglich als auch bequem über eine grafische Benutzeroberfläche wie den Enterpri-se Guide oder das SAS Add-In for Microsoft Office.

Abb. 8.1: Beispiel für die im Grafikmenü des SAS Enterprise Guide verfügbaren Grafiktypen sowie ein Dialogfenster zur Ein-stellung der Grafikeigenschaften von Balkendiagrammen.

Page 103: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 103

Zusätzlich können Grafiken über das Output Delivery System (ODS) von SAS flexibel in Dokumente integriert werden. So ist etwa bei HTML-basierten Berichtssystemen eine statische Einbindung über die Bildformate JPG, GIF oder PNG möglich sowie eine Einbindung als ActiveX-Komponente.

Abb. 8.2: Beispiel für ein nachträglich modifiziertes ActiveX-Element - Streuungsdiagramm zur Darstellung des Zusammen-hangs zwischen Benzinverbrauch (Miles Per Gallon bzw. MPG) auf der Autobahn (Highway) und im Stadtverkehr (City) mit hinzugefügter quadratischer Anpassungskurve, Konfidenzband, Grafiksymbolleiste und Eigenschaftenfenster. Das SAS Output Delivery System (ODS) von SAS bietet darüber hinaus auch die Möglichkeit, vorkon-figurierte statistische Grafiken direkt über Plot-Anweisungen in Prozeduren aufzurufen. Diese in SAS/GRAPH enthaltenen ODS-Grafiken liefern häufig in einer kompakten Übersicht die wichtigsten grafischen Darstellungen zur Modelldiagnose - etwa zur Beurteilung der Anpassungsgüte eines Re-gressionsmodells.

Abb. 8.3: Beispiel für eine mit der Prozedur REG erzeugte ODS-Grafik mit Übersicht der wichtigsten Grafiken und Kennzahlen zur Residuenanalyse eines Regressions-modells zur Erklärung der Bevölkerung (Variable pop) in verschiedenen Ländern - in Abhängigkeit verschiedener soziodemografischer Faktoren wie Geburtenrate, Alphabetisierungsrate, Erwerbstätigkeit etc.

Page 104: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 104

Zusätzlich bietet SAS/GRAPH eigene Prozeduren zum Erstellen von statistischen ODS-Grafiken. Diese bieten erweiterte Möglichkeiten bezüglich der Layout-Gestaltung, etwa für gruppierte Darstellungen (Panel- und Matrixansichten), das Einfügen von Etiketten und Farbcodes zu Datenpunkten in Streudi-agrammen oder das Hinzufügen von Glättungs- und Anpassungskurven (Splines, Kerndichteschätzer etc.). Zur flexiblen Steuerung der einzelnen Objekte von Grafikvorlagen existiert dabei mit der Graph Template Language (GTL) eine eigene Syntax von SAS. Die Bearbeitung dieser Objekte kann aber auch über eine grafische Oberfläche, den SAS ODS Graphics Designer, erfolgen.

Abb. 8.4: Der ODS Graphics Designer als grafische Oberfläche zum Definieren der Grafikvorlagen mit Hilfe der Graph Control Language (GTL).

Page 105: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 105

Neben Geschäftsgrafiken und statistisch-wissenschaftlichen Grafiken bietet SAS/GRAPH auch eher innovative Darstellungsformen wie Kacheldiagramme oder Konstellationen zur Visualisierung von Netzwerkzusammenhängen. Mit NV Workshop (NV = Network Visualization) existiert zudem eine eigene Anwendungsoberfläche, die nicht nur die Visualisierung selbst erlaubt, sondern durch die dynamische Verknüpfung von Tabellen und Grafikobjekten auch Möglichkeiten zur interaktiven Da-tenexploration bietet.

Abb. 8.5: NV Workshop zur Visualisierung von Netzwerkstrukturen wie etwa Verbindung von Personen über Mandate in Verwaltungsräten (Board of Directors) von US-amerikanischen Unternehmen. Die Information über die Beziehungen wird in zwei SAS Tabellen bdlinks (für Verknüpfungen) und bdnodes (für Knoten) hinterlegt. Durch farbliche Kennzeichnung nach Kategorien können Teilbereiche des Netzwerks in den Tabellen identifiziert werden.

Page 106: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 106

Die grafische Benutzeroberfläche JMP bietet darüber hinaus nicht nur zahlreiche Funktionen für Da-tenmanagement und statistische Verfahren mit eingebetteten Grafiken, sondern auch eine große Auswahl von Visualisierungsmöglichkeiten innerhalb des Grafikmenüs.

Abb. 8.6: Übersicht vorhandener Grafiktypen im JMP Pro Hauptfenster. Hinter den Menüoptionen Graphik erstellen und Diagramm verbergen sich flexible Möglichkeiten zum Erstellen grafischer Zusammenfassungen.

Page 107: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 107

Die Erstellung selbst von komplexen Grafiken erfolgt in JMP in wenigen Schritten. Insbesondere durch den Einsatz von interaktiven Elementen eignet sie sich daher besonders für eine explorative Datenanalyse auf visueller Basis. So lässt sich das Prinzip Linking & Brushing, d.h. Verknüpfen und Markieren von Datenobjekten in Grafiken und Tabellen mit JMP besonders gut umsetzen.

Abb. 8.7: Streudiagramm-Matrix zur Visualisierung der Zusammenhänge zwischen verschiedenen, die Leistung von Automo-bilen messenden, Merkmalen. Die interaktive Markierung eines Teilbereichs der Grafik hebt automatisch die relevanten Datenpunkte in den anderen Grafiken und in der Tabelle hervor. Kombiniert mit einer Farbcodierung lassen sich so relevante Muster erkennen oder Ausreißer im Datenbestand identifizieren. Neben Linking und Brushing verfügt JMP über weitere interaktive Techniken im Rahmen der Datenvi-sualisierung, u.a. • Fadenkreuz, • Lupe (Zoom-Werkzeug), • Rotation von 3D-Ansichten, • Etikettenanzeige für einzelne Datenpunkte in der Grafik, • Verschiedene farbliche Markierung von Symbolen nach Gliederungskriterium, • Interaktiver Datenfilter, einschließlich zeitlicher Animation, • Malwerkzeuge zum Kommentieren und Kennzeichnen von Teilbereichen der Grafik (Pinsel, Lasso,

Linie, Polygonzüge und einfache Objektformen, Textfelder).

Page 108: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 108

Häufig sind in JMP zudem auch die in verschiedenen Kategorien (Plattformen) organisierten statisti-schen Analyseverfahren interaktive Grafikfähigkeiten eingebettet.

Abb. 8.8: Beispiel für Analysediagramm mit interaktivem Profiler und Simulator im Rahmen eines Regressionsmodells zur Erklärung des Zusammenhangs zwischen Benzinverbrauch im Stadtverkehr (Variable MPG_CITY) einerseits und Leistung (Variable Horsepowser) und Fahrzeuggewicht (Variable Weight) andererseits.

Page 109: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 109

Darüber hinaus besteht die Möglichkeit, mit der in JMP enthaltenen Skriptsprache JSL (JMP Scripting Language) Code der Open Source Programmiersprache R einzubinden und auf diesem Wege auch Grafikobjekte aus R mit JMP zu erzeugen. Damit kann man die Erzeugung von Grafiken aus R über JMP-basierte Dialoge und Menüs steuern.

Abb. 8.9: Beispiel für einer auf R Funktionalität basierenden Analyse und grafischen Darstellung (Bootstrap-Simulationen für einzelne Verteilungsparameter).

Page 110: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 110

8.3 Einsatz in der Praxis 8.3.1 Beispiel Ein US-amerikanisches professionelles Basketball-Team nutzt SAS Visual Data Discovery, um Perfor-mance-Statistiken der Spieler zu analysieren und damit wertvolle Anhaltspunkte für die Planung der Aktivitäten vor und während einer Saison zu tätigen. SAS wird hierbei einerseits eingesetzt, um die verfügbaren Daten aus verschiedenen Quellen zusammenzuführen. Andererseits helfen gerade die interaktiven Visualisierungsmöglichkeiten von JMP dabei, bestimmte Hypothesen zu testen oder neue Muster zu entdecken. Ein typisches Anwendungsbeispiel für den Einsatz visuell gestützter Ana-lysen ist beispielsweise das Bewerten des Potenzials eines neu verpflichteten Nachwuchsspielers auf Basis der Performance-Statistik in seiner bisherigen College-Basketballkarriere. 8.3.2 Weitere Einsatzgebiete Datenvisualisierung wird häufig im Umfeld der Erstellung von statistischen Modellen für die Be-schreibung, Prognose oder Simulation von Kundenverhalten eingesetzt, um Modellannahmen zu prüfen oder Transformationsbedarfe von Merkmalen zu erkennen und damit Anhaltspunkte zur Mo-dellspezifikation zu finden. Insofern ist es naheliegend, dass ein weit verbreitetes Einsatzgebiet im analytischen Kundenbeziehungsmanagement zu finden ist. In Ergänzung zur Bildung statistischer Prognosemodelle bzw. als dessen vorgelagerter Arbeitsschritt leistet Datenvisualisierung dabei einen wertvollen Beitrag. Es ermöglicht etwa Vorarbeiten für die Modellbildung bezüglich der Eingrenzung der Zielgruppendefinition und der relevanten Merkmale durch Fachanwender im Marketing, die inhaltlich „nah am Kunden“ sind, aber die keine fortgeschrit-tenen quantitativen Modellierungskenntnisse besitzen und einen intuitiven grafisch-gestützten Zu-gang zur Datenanalyse benötigen. Von den Ergebnissen dieser vorgelagerten Analysen profitieren dann die Modellierungsexperten, so dass im Zusammenspiel von Datenvisualisierung und statisti-scher Modellierung die Mitarbeiterproduktivität im Database-Marketing erhöht wird. So setzt beispielsweise ein Internet-Dienstleistungsunternehmen, das in den USA einen Online-Marktplatz für Veranstaltungs-Tickets zu sportlichen und kulturellen Großereignissen vertreibt, ins-besondere die grafischen Fähigkeiten von SAS Visual Data Discovery ein, um Zielgruppen für Kam-pagnenansprache geeigneter zu definieren. Nicht nur im Marketing, sondern auch im technisch-ingenieurwissenschaftlichen Umfeld spielt Da-tenvisualisierung eine wichtige Rolle. Über die visuelle Aufbereitung von Fehlerbildern in Produkti-onsprozessen oder Systemzuständen lassen sich wertvolle Rückschlüsse für Prozess- oder Konstruk-tionsverbesserungen gewinnen. Auch hier gilt es häufig, zunächst mit SAS Daten aus verschiedenen Quellen (z.B. Messgeräten) zusammenzuführen, um dann einem Anwenderkreis mit umfassendem technischem Fachverständnis, aber geringen Kenntnissen in fortgeschrittenen Modellierungsverfah-ren einen möglichst einfachen Zugang zur Datenanalyse zu bieten. Ein Konstruktionslabor für die Luft- und Raumfahrtindustrie in den USA nutzt die grafischen Analyse-fähigkeiten von SAS Visual Data Discovery etwa bei der Entscheidungsunterstützung im Rahmen ei-ner Team-übergreifenden Konstruktionsplanung.

Page 111: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Datenvisualisierung 111

8.4 Weiterführende Informationen Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema Da-tenvisualisierung. Bitte beachten Sie bei der Verwendung der nachfolgenden Navigationshinweise, dass Website-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen (eng-lischsprachigen) Informationen zu SAS Visual Data Discovery: Menü Products & Solutions – Analytics – Data Visualization Dort finden Sie nicht nur beschreibende Funktionsübersichten (Features), sondern auch Software-Screenshots, Systemvoraussetzungen, Referenzbeispiele (Success Stories), interaktive Demos und im PDF-Format downloadbare Dokumente wie Kurzbroschüren (Fact Sheets) oder Whitepaper zu die-sem Thema. Detaillierte Beschreibungen der in SAS/GRAPH und JMP enthaltenen Prozeduren und Verfahren fin-den Sie auf www.sas.com im Menü Support & Training über folgenden Navigationsweg: Abschnitt Knowledge Base – Documentation Wählen Sie dann in der alphabetischen Auflistung der SAS Produkte unter SAS Product Documentati-on den Eintrag für JMP oder SAS/GRAPH aus. Das Schulungsprogramm von SAS Training enthält eine Reihe an Kursen und Workshops zu den The-men SAS Visual Data Discovery, SAS/GRAPH und JMP. Detaillierte Beschreibungen und die aktuellen Termine finden Sie auf der Website www.sas.de/training.

Page 112: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Risikoberechnungen und Simulationen 112

9 Risikoberechnungen und Simulationen 9.1 Problemstellung im Überblick Die Bemessung von Risiken gehört zur zentralen Aufgabe jeder Unternehmung. Unternehmerisches Handeln ist stets ein Wagnis, das idealerweise mit Gewinnen entlohnt wird, aber im ungünstigsten Fall mit Verlusten endet. Bei der Risikomessung geht es darum, die möglichen Verluste zu beziffern. Erst dann ist ein Risikomanagement möglich, aus dem Strategien für den Umgang mit Risiken er-wachsen, wie z.B. Vermeiden, Versichern oder Abdeckung durch eigene Mittel. Insbesondere Unternehmen aus dem Finanzdienstleistungssektor (Banken und Versicherungen) ste-hen wegen ihrer besonderen volkswirtschaftlichen Bedeutung im Fokus verschiedener nationaler und supranationaler Aufsichtsorgane. Die Verpflichtung zum Risikomanagement ist somit Bestandteil einer Vielzahl entsprechender Vorschriften. Beispiele hierfür sind das Gesetz zur Kontrolle und Transparenz im Unternehmensbereich (KonTraG), Sarbanes-Oxley-Act, Basel II sowie Solvency II. Bei der Quantifizierung der finanziellen Risiken mit statistischen Verfahren ist der Value at Risk (VaR) am weitesten verbreitet. Der VaR misst für einen definierten Zeitraum den Verlust eines Finanzport-folios, der mit einer bestimmten Wahrscheinlichkeit maximal eintreten kann. Der VaR lässt sich ent-weder analytisch (z.B. über Delta-Normal-Analyse) oder mit Hilfe von Simulationstechniken (z.B. his-torische Simulation oder Monte-Carlo-Simulation auf Basis der Kovarianz oder multivariaten Model-len) berechnen. Während analytische Verfahren im Allgemeinen mit weniger Rechenaufwand betrie-ben werden können, liefern die Simulationsverfahren meist die genaueren Ergebnisse. Bei der Monte-Carlo-Simulation wird die zukünftige Entwicklung eines Risikofaktors mit Hilfe eines Zufallszahlengenerators erzeugt. Ein Risikofaktor ist dabei eine Variable, die Einfluss auf das Ergebnis hat, deren Eintrittswert jedoch nicht unmittelbar beeinflusst werden kann. Für die benötigten Marktbeobachtungen wird eine Vielzahl an Marktszenarien simuliert. Die daraus berechneten Portfo-liowerte ergeben dann die Verteilung zukünftiger Gewinne und Verluste. Bei Simulationen mit meh-reren Risikofaktoren sind bei den Marktszenarien zusätzlich die Korrelationen zwischen den Risiko-faktoren zu berücksichtigen. Hierzu wird die Kovarianzmatrix verwendet. Alternativ kann jeder Risi-kofaktor mit einem individuellen Modell simuliert werden. Die einzelnen Verteilungen werden an-schließend mit Hilfe so genannter Copulas zu einer zusammenhängenden Gesamtverteilung über-führt. 9.2 Die SAS Lösung SAS Risk Dimensions eignet sich zur Abbildung aller Aspekte eines modernen Risiko-Manage-mentsystems. Die Lösung beinhaltet die komplette Funktionalität von SAS zum Aufbau eines Risiko-Datenbestands. SAS Risk Dimensions ist als metadatengesteuerte Anwendungsumgebung aufgebaut und kann über die flexiblen Definitionsmöglichkeiten hinsichtlich unterschiedlicher Risikofragestel-lungen (etwa Kapitalanlagerisiken oder Messung versicherungstechnischer Risiken) ausgestaltet wer-den. Es gibt eine grafische Benutzeroberfläche zum Aufbau und zur Kontrolle der Risikoumgebung. Sämtli-che Definitionen und Schritte lassen sich außerdem über die Erstellung von Batch Jobs automatisie-ren. Die Einstellungen für einzelne Umgebungen können vererbt werden, so dass ausgehend von einer Basisumgebung leicht individuelle Analysen aufgebaut werden können.

Page 113: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Risikoberechnungen und Simulationen 113

9.2.1 Analysemöglichkeiten Zentraler Bestandteil ist die analytische Engine für die Erstellung unterschiedlichster Berechnungen. Die folgenden analytischen Verfahren stehen zur Verfügung: • Sensitivitäts-Analyse, • Szenario-Analyse, • Profit-&-Loss-Kurven (sowie -Oberflächen), • Delta-Normal-Analyse, • Historische Simulation, • Monte-Carlo-Simulation auf Kovarianz-Basis, • Modellbasierte Monte-Carlo-Simulation (symmetrische und asymmetrische Copulas), • Verschiedene Risikomaße, z.B.:

VaR, marginal VaR, and Expected Shortfall, VaR Delta (Komponenten VaR), • VaR Zerlegung, • Cash- Flow-Analyse, • Current-/Potential-Exposure-Analyse, • Portfolio-Optimierung. 9.2.2 Risikofaktoren Für eine Risikoanalyse werden die Bestandsdaten des betrachteten Portfolios und die aktuellen Marktdaten (z.B. Zinskurven, Aktien- und Wechselkurse) benötigt. Jede Marktwertvariable wird in SAS Risk Dimensions als Risikofaktor registriert. So wird dem System mitgeteilt, um welche Art von Risikofaktor es sich hierbei handelt und wie dieser in der Simulation zu behandeln ist. Bei der Bewer-tung des Portfolios werden die Werte einzelner Risikofaktoren mit Hilfe eines Referenz-Mappings zugewiesen. Die Risikofaktoren können einer oder mehreren Kategorien zugeordnet werden, um so gezielt in Analysen ausgewählt zu werden (z.B. Marginal- oder Konditionalanalyse).

Abb. 9.1: Definition von Risikofaktoren in SAS Risk Dimensions hier am Beispiel eines Zins-Bucket.

Page 114: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Risikoberechnungen und Simulationen 114

9.2.3 Daten und Modelle Neben den aktuellen Marktdaten werden in Abhängigkeit der Analyseart Informationen über das Verhalten des Marktes benötigt, wie z.B. Historie der Marktdaten, die Kovarianzmatrix oder spezifi-sche Modelle für einzelne Risikofaktoren. Ein Marktdatenmodell beschreibt funktional die individuelle Verteilung der Werte eines Risikofak-tors. Der Schlüssel bei der Implementierung eines Marktdatenmodells ist zum einen die Wahl der am besten geeigneten statistischen Verteilung zur Abbildung des Verhaltens eines bestimmten Risikofak-tors, zum anderen die möglichst genaue Schätzung der zugehörigen Modellparameter. Die Parameter werden durch Anpassung von Modellen an Daten für bereits beobachtete Marktsituationen ge-schätzt (Fitted Model). Modelle wie Brown’sche Bewegung, GARCH, Vasicek oder Cox-Ingersoll-Ross lassen sich sehr einfach selbst entwickeln und zur Vorhersage zukünftiger Risikofaktorwerte verwen-den (mit Hilfe der Monte-Carlo-Simulation). Zusätzlich können sogenannte Parametermatrizen registriert werden, die dann für bestimmte Aufga-benstellungen zur Verfügung stehen, wie z.B. ein Kalender mit Feiertagsdaten oder eine Look-up-Tabelle mit Ausfallwahrscheinlichkeiten. 9.2.4 Portfoliobewertung Die Portfoliodaten sind der Gegenstand der Risikomessung. Es kann sich hierbei um einzelne Finanz-kontrakte (Wertpapiere), um individuelle Verträge mit Kunden oder um technische Portfolios wie etwa Fuhrparks oder Immobilien handeln. Die Portfoliodaten enthalten Klassifizierungsvariablen (für entsprechende Zuordnungen) und bewertungsrelevante Daten. Ein Portfolio kann somit verschiede-ne Instrumente aufweisen. Jedem Instrument wird eine Bewertungsmethode zugeordnet, die den theoretischen Wert dieser Position aus den bewertungsrelevanten Instrument-Daten und den zuge-ordneten Risikofaktoren bestimmt. In SAS Risk Dimensions lassen sich beliebig viele externe, in C oder C++ geschriebene Bewertungs-funktionen einbinden. Hierbei werden im System einmalig die von den einzelnen Funktionen erwar-teten Variablen oder C-Strukturen (z.B. für Yield-Kurven oder Feiertagskalender) registriert. Sobald die externen Funktionen im System bekannt sind, können diese in den sogenannten Bewertungsme-thoden mit ihrem Namen aufgerufen werden. Über die Bewertungsmethoden lassen sich verschiedene Funktionen kombinieren, so dass auch komplexere Produkte bewertet werden können. Bei einem Swap kann beispielsweise das Floating Leg über den Aufruf einer Forward-Rate-Note-Funktion und das Fixed Leg mit Hilfe einer Bond-Funktion berechnet werden. Bewertungsmethoden dienen nicht nur zur Übergabe von Werten an einzelne Bewertungs-funktionen. Es lassen sich auch mathematische Transformationen vornehmen oder Strukturelemente einer Programmiersprache (If-then-else-Verzweigungen, Arrays, Schleifen usw.) einbauen. Es lassen sich beliebige weitere Output-Variablen (z.B. Accrued Interest oder Duration) für die Ergebnisausgabe erzeugen.

Page 115: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Risikoberechnungen und Simulationen 115

Neben externen Bewertungsbibliotheken können beliebig komplexe Funktionen in SAS für die Ver-wendung in den Bewertungsmethoden erstellt werden. Liegen das Konzept zur Bewertung und die benötigten Daten vor, kann somit jedes beliebige Instrument in SAS Risk Dimensions abgebildet wer-den. Durch diesen flexiblen Mechanismus ist es möglich, auch zukünftige Produktanforderungen problemlos zu integrieren.

Abb. 9.2: Bewertungsmethodik in SAS Risk Dimensions.

9.2.5 Transformations- und Inputmethoden Mit Hilfe von Transformationsmethoden lassen sich künstliche Risikofaktoren herleiten oder beste-hende vor der Bewertung umformen. Dies ist z.B. sinnvoll, wenn es zu bestimmten Risikofaktoren keine aussagekräftige Historie von Marktdaten gibt (z.B. bei neuen Aktien). Die Transformationsme-thoden können aber auch zur Optimierung der Verarbeitungszeit eingesetzt werden, indem z.B. aus Zinssätzen Diskontfaktoren errechnet werden. Analog funktionieren die sogenannten Inputmethoden. Hier werden auf Instrument-Ebene Werte vor der Bewertung verändert oder neue Werte erzeugt. So können etwa in Abhängigkeit von der Rating-Klasse über eine Look-up-Tabelle die aktuellen Ausfallwahrscheinlichkeiten übergeben werden.

Page 116: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Risikoberechnungen und Simulationen 116

9.2.6 Projektverwaltung In SAS Risk Dimensions lassen sich sogenannte Analyseprojekte flexibel zusammenstellen. Hierbei wird bestimmt, welche Daten verwendet werden sollen, welche Analysemethoden zur Anwendung kommen und welche Berichte zu erzeugen sind. Die Cross Classification gibt an, nach welchen Klassi-fikationsvariablen die Ergebnisse hierarchisch dimensioniert werden. Darüber hinaus können hier Dateipfade für die Ausgabe, Formate und die Berichtswährung festgelegt werden.

Abb. 9.3: Zusammenstellung eines Analyseprojektes.

Page 117: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Risikoberechnungen und Simulationen 117

In SAS Risk Dimensions lassen sich so über die grafische Benutzeroberfläche schnell individuelle Ana-lysen definieren und zusammenstellen.

Abb. 9.4: Einfaches Zusammenstellen von Ad-hoc-Analysen über die grafische Benutzeroberfläche.

9.2.7 Generierung von Code für Batch Jobs Für alle Einstellungen in SAS Risk Dimensions kann Code zur Ausführung von Batch Jobs erstellt wer-den. Dies gilt sowohl für die Definition der Risikoumgebung, als auch für die vor- und nachgelagerten Prozesse zur Datenintegration und das Berichtwesen. Abbildung 9.5 zeigt ein Beispiel für generierten Code zur Registrierung von Marktdaten und einer Kovarianzmatrix in der Risikoumgebung. Die in diesem Beispiel verwendete Makrovariable &RiskData wird zur Laufzeit aufgelöst und enthält eine Pfadangabe. Über diesen eleganten Weg kann der Programmfluss flexibel gestaltet werden.

Abb. 9.5: Generierter Code für Batch Job zum Aufbau einer Risikoumgebung.

Page 118: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Risikoberechnungen und Simulationen 118

9.2.8 Ergebnisse Abhängig von den gewählten Analysen liefert SAS Risk Dimensions verschiedene Tabellen, multidi-mensionale Ergebniswürfel und grafische Reports mit vielen Detailinformationen. So kann man bei-spielsweise jeden Marktzustand und jede Instrument-Bewertung einer Simulation ausgeben lassen. Abbildung 9.6 zeigt ein standardmäßig erzeugtes Dichtediagramm einer Simulation. Das hier gezeigte Beispiel enthält das Ergebnis eines Drill-Downs in die Portfolio-Dimensionen Region und Instru-menttyp. Die (hier nicht abgebildeten) statistischen Kennzahlen beschreiben den Value at Risk und die generierte Werteverteilung (z.B. Standardabweichung, Schiefe, Wölbung usw.). Außerdem wird der relative Einfluss einzelner Risikofaktoren auf das Ergebnis dargestellt (Shannon Information Mea-sures). Neben Standardkennzahlen wie Mark-to-Market-Wert, Profit & Loss, Value at Risk oder Expo-sure können zusätzlich individuelle Kennzahlen festgelegt werden.

Abb. 9.6: Dichtediagramm für die ausgewählten Dimensionen Region = New York und Instrumenttyp = Government Bond.

Page 119: Datenanalyse mit SAS - sas.com · Diese Einführung in die Datenanalyse mit SAS enthält einen Überblick über die analytische Funktiona-lität der SAS Plattform. Sie richtet sich

Risikoberechnungen und Simulationen 119

9.3 Einsatz in der Praxis 9.3.1 Beispiel Das Tochterunternehmen eines großen deutschen Versicherungskonzerns, das sich auf Dienstleis-tungen rund um das operative Investment-Controlling spezialisiert hat, bietet seine Leistungen so-wohl für Kapitalanlagen des Mutterkonzerns als auch für Kapitalanlagen von Drittkunden an. Zu den Services dieses Unternehmens gehören u.a. der Betrieb und die Pflege einer Finanzdatenbank, in der alle weltweit verwalteten Kapitalanlagen des Mutterkonzerns abgelegt sind. Das Erstellen von Per-formance- und Risikoanalysen sowie andere finanzspezifische Auswertungen für das Kapitalanlagen-Controlling werden dabei mit Hilfe von SAS Risk Dimensions bewältigt. 9.3.2 Weitere Einsatzgebiete Neben dem klassischen Anwendungsgebiet zur Bewertung von Marktrisiken über Berechnung des Value at Risk wird SAS Risk Dimensions auch in der Energiewirtschaft und für Berechnungen im Zu-sammenhang mit dem Basel-II-Abkommen eingesetzt. Darüber hinaus können Kreditrisikomodelle wie etwa Moody's KMV oder CreditRisk+ von der Credit Suisse in SAS Risk Dimensions implementiert werden. Mit den Anforderung von Solvency II kann SAS Risk Dimensions auch in der Versicherungs-branche für den Einsatz interner Risikomodelle verwendet werden, insbesondere zur Messung des versicherungstechnischen Risikos und für Asset-Liability-Rechnungen. SAS Risk Dimensions ist außer-dem der Rechenkern der neuen SAS Risiko Lösungen für Banken sowie für Versicherungen. 9.4 Weiterführende Informationen Die Website von SAS enthält zahlreiche Hinweise auf weiterführende Informationen zum Thema SAS Risk Dimensions. Bitte beachten Sie bei der Verwendung der nachfolgenden Navigationshinweise, dass Website-Inhalte von Zeit zu Zeit aktualisiert werden. Über folgenden Navigationsweg gelangen Sie auf der Website www.sas.com zu allgemeinen Informa-tionen zu den Lösungen SAS Risk Dimensions: Products & Solutions - Solution Lines - Risk Management Dort stehen u.a. für die verschiedenen Unterkategorien Energy, Financial Services, Insurance, Credit Risk Management und Operational Risk Management folgende Inhalte zur Verfügung: • Verweise auf internationale Referenzen (Customer Success Stories) • Broschüren zum Herunterladen im PDF-Format Zusätzliche Informationen (Online-Dokumentation) finden Sie auf der Website www.sas.com über folgenden Navigationsweg: Support & Training - Documentation - Products & Solutions - Select a product: SAS Risk Dimensions Das Schulungsprogramm von SAS Training enthält eine Reihe an Kursen und Workshops zum Thema SAS Risk Dimensions. Detaillierte Beschreibungen und die aktuellen Termine finden Sie auf der Webs-ite www.sas.de/training.