40
9 9.1 Leidensdruck auf der Managementebene Technologie vorhanden Kurzfristige Lösungen für langfristige Probleme 184 Oata Warehousing - strategisch betrachtet Warum ist Data-Warehousing heute so populär? Obwohl das Data-Warehouse-Konzept in Fachkreisen bereits seit rund zehn Jahren diskutiert wird, ist es erst in der zweiten Hälfte der neunziger Jahre zu einem beherrschenden Thema nicht nur in den IT-Abteilungen der Unternehmen, sondern durchaus auch auf deren Managementetagen geworden. Der Hauptgrund dafür ist schlicht der, dass in vielerlei Hinsicht die Zeit dafür reif ist. Der Leidensdruck auf der Managementebene der Unternehmen ist inzwischen grass genug, um die Bereitschaft zu grossen Investitionen in ein umfangreiches Data-Warehouse-Projekt zu fördern. Das Leiden entsteht, wie schon an anderen Stellen in diesem Buch dargelegt, durch die Diskrepanz zwischen einer immer grösseren Datenmenge bei gleichzeitigem Informations- defizit in den Unternehmen Cvgl. hierzu Kapitel 5). Desweiteren ist heute die Technologie vorhanden, um komplexe Data-Warehouse-Architekturen und ehrgeizige Data-Warehouse- Projekte umsetzen und realisieren zu können. Diese Technologie war vor wenigen Jahren noch nicht verfügbar. Das gilt vor allem für die Datenbanktechnologie, welche die Verarbeitung sehr komplexer Analyseprozesse auf grassen Datenmengen erlaubt. Aber auch für die anderen Komponenten eines Data- Warehousing-Systems stehen immer mehr leistungsfähige Werk- zeuge zur Verfügung, welche die Entwicklung und den Betrieb grosser Data-Warehouse-Anwendungen effizient unterstützen. Aber auch der fatale Hang, für langfristige Probleme nach kurz- fristigen Lösungen zu suchen, ist dem Data-Warehouse- Gedanken förderlich . Zu oft wird leider mit einem initialisierten Data-Warehouse-Prajekt die Vorstellung verbunden, mit neuer Technologie und einem neuen Konzept kurzfristig die Daten- und Informationsprableme eines ganzen Unternehmens oder zumindest eines Unternehmensbereiches lösen zu können. Unterstützt wird diese Auffassung von einigen Werkzeuganbie- tern, die propagieren, ein Data-Warehouse-Projekt sei in weni- gen Monaten erfolgreich durchführbar und reduziere sich im wesentlichen auf die Einführung neuer Technologien. Diese Einstellung ist, wie wir noch sehen werden, falsch und kann zu grossen Fehlinvestitionen führen. K. Schwinn et al., Unternehmensweites Datenmanagement © Friedr. Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden 1999

Unternehmensweites Datenmanagement || Data Warehousing — strategisch betrachtet

  • Upload
    stephen

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

9

9.1

Leidensdruck auf der Managementebene

Technologie vorhanden

Kurzfristige Lösungen für langfristige Probleme

184

Oata Warehousing - strategisch betrachtet

Warum ist Data-Warehousing heute so populär? Obwohl das Data-Warehouse-Konzept in Fachkreisen bereits seit rund zehn Jahren diskutiert wird, ist es erst in der zweiten Hälfte der neunziger Jahre zu einem beherrschenden Thema nicht nur in den IT-Abteilungen der Unternehmen, sondern durchaus auch auf deren Managementetagen geworden. Der Hauptgrund dafür ist schlicht der, dass in vielerlei Hinsicht die Zeit dafür reif ist.

Der Leidensdruck auf der Managementebene der Unternehmen ist inzwischen grass genug, um die Bereitschaft zu grossen Investitionen in ein umfangreiches Data-Warehouse-Projekt zu fördern . Das Leiden entsteht, wie schon an anderen Stellen in diesem Buch dargelegt, durch die Diskrepanz zwischen einer immer grösseren Datenmenge bei gleichzeitigem Informations­defizit in den Unternehmen Cvgl. hierzu Kapitel 5).

Desweiteren ist heute die Technologie vorhanden, um komplexe Data-Warehouse-Architekturen und ehrgeizige Data-Warehouse­Projekte umsetzen und realisieren zu können. Diese Technologie war vor wenigen Jahren noch nicht verfügbar. Das gilt vor allem für die Datenbanktechnologie, welche die Verarbeitung sehr komplexer Analyseprozesse auf grassen Datenmengen erlaubt. Aber auch für die anderen Komponenten eines Data­Warehousing-Systems stehen immer mehr leistungsfähige Werk­zeuge zur Verfügung, welche die Entwicklung und den Betrieb grosser Data-Warehouse-Anwendungen effizient unterstützen.

Aber auch der fatale Hang, für langfristige Probleme nach kurz­fristigen Lösungen zu suchen, ist dem Data-Warehouse­Gedanken förderlich . Zu oft wird leider mit einem initialisierten Data-Warehouse-Prajekt die Vorstellung verbunden, mit neuer Technologie und einem neuen Konzept kurzfristig die Daten­und Informationsprableme eines ganzen Unternehmens oder zumindest eines Unternehmensbereiches lösen zu können. Unterstützt wird diese Auffassung von einigen Werkzeuganbie­tern, die propagieren, ein Data-Warehouse-Projekt sei in weni­gen Monaten erfolgreich durchführbar und reduziere sich im wesentlichen auf die Einführung neuer Technologien. Diese Einstellung ist, wie wir noch sehen werden, falsch und kann zu grossen Fehlinvestitionen führen .

K. Schwinn et al., Unternehmensweites Datenmanagement© Friedr. Vieweg & Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden 1999

9.2

Executive­Informations­Systeme

Decision-Support­Systeme (DSS)

Extrahieren von Rohdaten

9.2 Was ist ein Data-Warehouse?

Was ist ein Data-Warehouse ? Bevor die strategische Bedeutung des Data-Warehouse­Konzeptes sowohl aus der Unternehmenssicht wie auch aus IT­und speziell Datenmanagementsicht diskutiert werden kann, muss definiert werden, was wir unter einem Data-Warehouse verstehen unq wie es gegen die gängigen Executive­Informations-Systeme (EIS) und Decision-Support-Systeme (DSS) abgegrenzt wird.

Ein EIS ist eine Anwendung, die speziell für die Verwendung durch das Top-Management des Unternehmens entwickelt wird, sich durch einfache Benutzerführung und die grafische Präsenta­tion hoch-aggregierter und summierter Unternehmensdaten auszeichnet. Teilweise werden in einem solchen System Mög­lichkeiten angeboten, über sogenannte "Drill-Down­Mechanismen" von höheren Aggregierungsstufen auf detaillier­tere Daten zuzugreifen und diese zu analysieren. Je nach spe­ziellem Anwendungsgebiet (Controlling, Kreditrisikoanalyse, etc.) werden unterschiedliche Anwendungssysteme zur Verfügung gestellt.

Ein DSS ist ein System, das für taktische und strategische Ent­scheidungsunterstützung zur Verfügung gestellt wird, im Gegen­satz zu den operativen Systemen, die zur täglichen Geschäftsab­wicklung dienen. Auch einem DSS stehen die Daten Ld.R. nicht in ausreichend detaillierter Form zur Verfügung, sondern sie sind ebenfalls aggregiert und summiert. Techniken wie Sensibilitäts­oder What-If-Analysen stehen im Vordergrund solcher Anwen­dungen. Je nach speziellem Anwendungsgebiet (Liquiditätsma­nagement, Portfoliomanagement, Bonitätsprüfung, etc.) werden wieder unterschiedliche Anwendungssysteme entwickelt.

Die Rohdaten für EIS- und DSS-Systeme stammen aus den operativen Anwendungen des Unternehmens. Diese Daten werden periodisch, z.B. einmal im Monat oder einmal im Quartal aus den operativen Datenbanken extrahiert und mit teilweise sehr komplexen Prozessen aufeinander abgestimmt, aggregiert, summiert, bewertet und schliesslich in die Datenbank des nach­gelagerten Systems geladen. Diese Systeme sind in den späten achtziger- und frühen neunziger Jahren in verschiedenen An­wendungsgebieten entwickelt worden.

185

9 Data Warehousing - strategisch betrachtet

Beurteilung EIS/DSS Aber allen diesen Systemen haftet ein entscheidender Nachteil an. Da sie im Prinzip ähnlich entwickelt wurden, wie die opera­tiven Systeme Jahre zuvor, nämlich funktions- und anwendungs­bezogen und nicht integriert, fehlt ihnen die gemeinsame, integrierte Sicht auf die Daten des Unternehmens. Dies führt dazu, dass in solchen Systemen zu ein und demselben Sachver­halt widersprüchliche Aussagen produziert werden oder die Analysen in sich selbst bereits unglaubwürdig sind.

Strategische Projekte (EIS/DSS), taktisches Vorgehen

Konsequenzen, taktisches Vorgehen

186

Da viele dieser Systeme häufig nicht nur ein eigenes Verständnis von der Semantik der Unternehmensdaten entwickeln, sondern auch von den Geschäftsregeln, die z.B. bei der Berechnung einer Produktprofitablität angewendet werden sollten, sind die Resultate der Analysen kaum noch vergleichbar und nachvoll­ziehbar.

Auch wenn die Entwicklung solcher Systeme, vor allem im EIS­Bereich, aufgrund des Auftraggebers aus dem Top-Management oft als strategische Projekte bezeichnet werden, ist das Vorgehen doch eher taktisch geprägt, indem auf die Herstellung einer konsistenten, integrierten Sicht auf die Unternehmensdaten verzichtet wird und jede Entwicklung weitgehend isoliert von anderen Entwicklungen stattfindet. Damit werden auf der tak­tisch-strategischen Ebene exakt die Fehler wiederholt, welche in den siebziger Jahren auf der operativen Ebene bereits gemacht wurden (vgl. Kapitel 5).

Ist die Handlungsweise aus den siebziger Jahren wegen des damals anders lautenden Auftrages aber verständlich und nach­vollziehbar, so erstaunt es doch, dass man sich in den IT­Abteilungen und in den Unternehmen insgesamt den Luxus leistet, dieselben Fehler auf einer anderen Ebene noch einmal zu begehen.

Die Abbildung 9-1 zeigt, wie die Anzahl der zu unterhaltenden Schnittstellen zwischen den Anwendungssystemen auf der operativen Ebene und den Anwendungen auf der Analyse- und Berichtsebene mit jeder neuen Anwendung auf der einen oder anderen Ebene multiplikativ wächst. Bei drei Analysesystemen, die ihre Daten jeweils aus fünf operativen Systemen beziehen, müssen 3*5=15 Prozesse aufgebaut und unterhalten werden. Kommt eine weitere Datenquelle hinzu, so erhöht sich die Anzahl der Prozesse auf 3*6=18.

Abbildung 9-1: Architektur von Analysesystemen ohne zentrale Komponente

Ziel Data-Warehouse

Gemeinsame Datenbasis

Abbildung 9-2: Architektur von Analysesystemen mit zentraler Kompo­nente

9.2 Was ist ein Data-Warehouse?

Datenquellen

Daten­beschaffung I Daten Akquisition

-::~:~:s~~~~:---~------~-------~-------------------------------------------------------------Datenverwendung ~ ~ ~

Das Ziel eines Data-Warehouse ist es, die Mängel der oben beschriebenen EIS- und DSS-Anwendungen dadurch zu beseiti­gen, dass zunächst einmal für alle Anwendungen aus diesem Anwendungsbereich eine konsistente, integrierte und qualitäts­gesicherte Datenbasis zur Verfügung gestellt wird - das Data­Warehouse.

Ein Anwendungssystem zur Unterstützung der taktischen oder strategischen Ebene des Unternehmens bezieht seine Daten ausschliesslich aus dieser gemeinsamen Datenbasis. Damit ist sichergestellt, dass alle diese Anwendungen von einem gemein­samen Verständnis von der Semantik der Unternehmensdaten ausgehen.

Datenquellen

Daten­beschaffung

Analysesysteme

Datenverwendung ~

187

9 Data Warehousing - strategisch betrachtet

9.3

Abbildung 9-3: Verschiedene Daten für verschiedene Anwendungen

Redundante Datenhaltung

188

Basis für dieses Verständnis ist ein gemeinsames Datenmodell. Eine solche zentrale Komponente, wie sie in Abbildung 9-2 dargestellt ist, reduziert die Anzahl der zu unterhaltenden Daten­beschaffungs-Prozesse. Bei dem Beispiel mit fünf Datenquellen und drei Analysesystemen sind 3+5=8 Schnittstellen zu unter­halten. Bei einer zusätzlichen, anzuschliessenden Datenquelle ist nur ein additives Wachstum der Prozesse zu bewältigen, es kommt lediglich eine einzige Schnittstelle hinzu.

Die Prinzipien eines Data-Warehouse Das grundlegende Prinzip eines Data-Warehouse ist die Tren­nung von operativen Daten für die tägliche Geschäftsabwicklung von solchen Daten, welche für Zwecke des Berichtswesens, der Entscheidungsunterstützung, der Geschäftsanalyse sowie des Controlling und der Unternehmensführung verwendet werden und die Managementprozesse unterstützen.

Dateneingabe und -verwendung

~

Operative Daten

Operative Systeme

Auftragseingang

Kreditabwicklung

Lohnbuchhaltung

Daten Analyse

~

Informations-Systeme

Marketing-Analysen

Trend-Analysen

Multidimensionale Analysen

Ad-hoc-Abfragen

Aus der Sicht des Datenmanagers mag man zunächst einwenden, dass durch die teilweise redundante Datenhaltung in den opera­tiven Systemen und in der Warehouse-Umgebung die Datenpro­liferation zunimmt und damit das Datenchaos nicht gemildert, sondern eher verschärft wird. Da es sich aber, wie wir noch sehen werden, um eine kontrollierte Redundanz handelt, ist dies kein Grund, der gegen die Trennung der Daten und Anwendun­gen spricht. Die Idee, die u .a. mit der relationalen Datenbank­Technologie verbunden wurde, die operativen Anwendungen und die Analyse-Anwendungen auf dieselben Datenbestände zugreifen zu lassen, hat sich als unrealistisch erwiesen.

Verschiedene Sichten auf die Daten

Zusätzliche Daten

Aggregationen von Daten

Zeitpunktbezogene Daten

9.3 Die Prinzipien eines Data-Warehouse

Für eine getrennte Speicherung der Daten sprechen folgende essentielle Gründe:

• Analysesysteme erfordern eine andere Sicht auf die Daten als operative Systeme. In operativen Systemen wird streng auf Redundanzfreiheit der Daten geachtet, um die Gewährlei­stung der Datenkonsistenz (darunter versteht man die Frei­heit von logischen Widersprüchen) weitgehend dem Daten­bankmanagementsystem überlassen zu können. Bei reinen Auswertungssystemen kann die Datenkonsistenz durch die Ladeprozesse sichergestellt werden. Somit ist auch Daten­redundanz in solchen Auswertungsssystemen eher erlaubt, um einfachere Datenstrukturen zu erreichen, die für reine Auswertungsanwendungen besser geeignet sind.

• In Analysesystemen werden zusätzliche Daten benötigt, die in den operativen Systemen nicht vorhanden sind. Solche Daten sind vor allem historische Daten, aber auch Daten aus externen Quellen wie demographische Daten oder unstruk­turierte Daten wie Dokumente, Berichte und Bilder. Die Verknüpfung dieser Daten mit den Daten, welche den ope­rativen Quellen entnommen werden, muss durch das Da­tenmodell und das Datenbankmanagementsystem sicherge­stellt werden.

• Die Aggregationen von Daten, die für Analysesysteme notwendig sind, müssen erst aus den Daten der operativen Anwendungen erzeugt werden. Die dafür notwendigen Ag­gregierungsstufen über Organisationshierarchien, regionale Unterteilungen und Zeithierarchien sind oft in den operati­ven Systemen nicht vorhanden und müssen vor dem Laden der Daten in das Data-Warehouse-System erst noch gebildet werden.

• Die Daten in den operativen Systemen unterliegen dauern­den Veränderungsoperationen (Einfügen, Löschen, Verän­dern), d.h. sie werden im Zeitverlauf kontinuierlich verän­dert. Eine Analyse, die auf einem solchen Datenbestand morgens um 10:00 Uhr durchgeführt wird, führt zu einem anderen Resultat, wie dieselbe Analyse am Nachmittag um 16:00 Uhr. Welches Resultat ist nun das richtige? Für Zwecke der Analyse und des Berichtwesens müssen die Daten zu ei­nem fixen Zeitpunkt (Tagesende, Monatsende, Quartalsende, Jahresende) in einem konsistenten und nicht mehr verän­derbaren Zustand vorliegen, damit Analysen zuverlässig und in sich widerspruchsfrei durchgeführt werden können.

189

9 Data Warehousing - strategisch betrachtet

Physische Implementierung

Spezielle Daten­bankmaschinen

Dynamische Datenbankabfragen

Business Information Directory

190

• Analysesysteme verlangen nicht nur einen anderen logischen Datenentwurf, sondern auch eine andere physische Imple­mentierung als operative Systeme. Falls operative Systeme und Analysesysteme auf derselben physischen Datenbank realisiert sind, führt dies beim physischen Datenbankentwurf zu Kompromissen, die weder der einen noch der anderen Anwendung gerecht werden.

• Operative Datenbanken werden mit dem Ziel entworfen, dass sie sehr schnell einfache Datenbankoperationen auf ei­ner kleinen Datenmenge unter Gewährleistung der Daten­integrität ausführen können. Im Gegensatz dazu führen Analysesysteme auf grossen Datenmengen komplexe Abfra­gen durch. Hierfür stehen heute spezielle Datenbankmaschi­nen für eine parallele Verarbeitung der Datenbankoperatio­nen zur Verfügung. Mit einem speziellen Datenbankentwurf kann die parallele Verarbeitung noch unterstützt werden. Für ein Analysesystem mit grosser Datenmenge und komplexen Datenbankabfragen sollte eine solche technische Implemen­tierung gewählt werden.

• Abfragen auf die Unternehmensdaten sind oft nicht planbar und daher auch nicht im voraus programmierbar. Aus die­sem Grund werden immer häufiger mächtige Abfragewerk­zeuge in den Unternehmen eingesetzt, die auf der Basis von dynamischem SQL arbeiten und es auch dem ungeübten Anwender erlauben sollen, ohne Kenntnisse der Sprache SQL seine Datenbankabfrage zu formulieren und sein ge­wünschtes Ergebnis zu erhalten. Die Anwendung von dy­namischem SQL ist aber sowohl aus Gründen des Daten­schutzes wie auch der hohen Inanspruchnahme von Pro­zessorzeit nicht unproblematisch. Aus diesem Grund ist es in vielen Unternehmen höchst unerwünscht, mit Anwendun­gen, die dynamisches SQL verwenden, auf operativen Da­tenbeständen zu arbeiten.

• Im voraus statisch programmierte Datenbankabfragen in einem Anwendungssystem überlassen die korrekte Interpre­tation der Daten und deren Präsentation dem Anwendungs­system. Falls Endbenutzer Analysewerkzeuge verwenden, welche die dynamische Abfrage von Daten aus dem Data­Warehouse erlauben, muss ein sogenanntes Business Infor­mation Directory (BID) zur Verfügung gestellt werden, das den Benutzer dabei unterstützt, die Daten, welche er benö­tigt, zu finden und richtig zu interpretieren.

Tabelle 9-1: Unterschiede zwischen operativen Systemen und Informationssyste­men

Mehrstufige Architektur

9.4

9.4 Eine idealtypische DW-Architektur

Zusammenfassend kann man die Unterschiede zwischen operati­ven Systemen und Daten einerseits sowie Infornationssystemen und -daten andererseits wie folgt charakterisieren:

Operative Systeme Informationssysteme

Prioritäten • hoher Datendurchsatz • einfache Benutzung • hohe Verfü~barkeit • flexibler Datenzu~riff

Benutzung • weitgehend • ungleich, mit Spitzen gleichbleibend

Antwortzeit • unterhalb der • Sekunden bis Minuten Sekundengrenze

Datenbank- • hierarchisch • Relational modell • relational • multi-dimensional

• Netzwerk • Dateien

Datenbank- • einfügen • lesen operationen • verändern • einfügen (nur durch

• löschen kontrollierte Prozesse

• lesen zum Laden)

Natur der Daten • dynamisch • historisch abgelegt • ständige Veränderung • Zeitpunkt bezogen

.... • periodisch geladen Endbenutzer • Mitarbeiter aus der • rnformatJonsnutzer

operativen Geschäfts- • "Wissens-uArbeiter abwicklung • Entscheidungsträger

Ein Data-Warehousing-System, mit einer mehrstufigen Architek­tur und mit einem Basis-Data-Warehouse als einer zentralen Komponente, welches die Unternehmensdaten zentral, konsi­stent und qualitätsgesichert gemäss einem zuvor definierten Datenmodell zur Verfügung stellt, beseitigt die gravierenden Nachteile heutiger Informationssysteme, wie sie hier beschrieben wurden.

Eine idealtypische DW-Architektur Ausgehend von den Prinzipien und den Anforderungen an ein Data-Warehouse entsteht eine idealtypische Data-Warehouse­Architektur.

Die folgende Abbildung 9-4 stell eine idealtypische Data­Warehouse-Architektur dar:

191

9 Data Warehousing - strategisch betrachtet

Abbildung 9-4: Data Warehousing System

Operative Systeme

Externe Daten

Data-Warehousing Management

Repository

192

externe Daten

operative Systeme

: Basis Oata I Warehouse I I I

EJ~~~

L J ~~

EJ ~m Funktionale

Oata Warehouse

-t--........ ~ Information Directory / Repository

Data Warehousing Management

Die Komponenten des Systems werden im Folgenden kurz skizziert:

• Dies ist die Ebene der operativen Datenquellen, über welche das tägliche operative Geschäft abgewickelt wird.

• Die Integration externer Datenquellen in das Data­Warehousing-System ist Ld.R. unerlässlich, um für Analyse­systeme Marktdaten, demographische Daten u.ä. zur Verfü­gung stellen zu können. Teilweise können solche externen Datenquellen auch schon in den operativen Anwendungen vorhanden sein (z.B. Kursinformationen in einem Börsen­system), andere müssen spezifisch für Analyseanwendungen beschafft und ins Data-Warehouse integriert werden.

• Um die verschiedenen, komplexen Prozesse, die im Data­Warehousing-System ablaufen, kontrollieren zu können so­wie einen effizienten und sicheren Betrieb des Systems si­cherzustellen, sind Systemmanagementwerkzeuge notwen­dig, die weitgehend über die Metadaten eine Metadaten Ma­nagement Systems gesteuert werden.

• Das Information-Directory des Data-Warehousing-Systems ist ein Teil des umfassenden Metadaten Management Systems und umfasst meistens ein Repository-System als zentraler Metadatenserver, wie im Kapitel 7 ausführlich dargestellt wurde. Das Information-Directory enthält die Metadaten, welche speziell für das Data-Warehousing benötigt werden. Auch im Data-Warehousing-System werden die Metadaten typischerweise in verschiedenen Datenverzeichnissen ge­speichert. Die Voraussetzung ist jedoch, dass die Daten in

Daten-Akquisition

9.4 Eine idealtypische DW-Architektur

ein übergeordnetes Information-Directory übertragen wer­den können. Einzig dieses übergeordnete Verzeichnis zeigt die Gesamtsicht auf das Data-Warehousing-System. Die Me­tadaten, die in einem solchen Verzeichnis verfügbar gemacht werden, können folgendermassen klassifiziert werden:

• Transformations-Informationen: Hier wird definiert und beschrieben, wie die Daten aus den Datenquellen in das Datenmodell des Data-Warehouse abgebildet werden, wie die Daten transformiert werden, in welcher Periodizität sie selektiert und geladen werden.

• Technische Informationen: Hierunter sind die Be­schreibungen der Datenbankschemata und der techni­schen Implementierung der Quellen- und Zielsysteme zu finden . Informationen über die Benutzung des Data­Warehouse (welche Daten wie häufig von wem abge­fragt werden) und den Datenzugriffsschutz fallen eben­falls unter diese Kategorie.

• Logische Informationen: Mit diesen Informationen kann der Data-Warehouse-Benutzer die Verfügbarkeit, die Semantik und den Zusammenhang der im Ware­house vorhandenen Daten ermitteln. Sie versetzen den Benutzer in die Lage, möglichst frei im Data-Warehouse zu navigieren sowie gezielt Informationen zu finden und abzurufen, soweit er gemäss den definierten Zugriffsre­geln dazu berechtigt ist.

Das Directory bildet darüber hinaus die Basis für das Ware­housing-System-Management.

• Die Prozesse, welche die Daten aus den Datenquellen (operative Systeme, externe Daten) in die Data-Warehouse­Umgebung transferieren, werden als Daten­Akquisitionsprozesse bezeichnet. Diese Prozesse umfassen die Selektion der Datenquellen, die Datenübertragung in das Data-Warehousing-System, die Korrektur der Daten basie­rend auf ihrer Meta-Beschreibung, die Transformation der Daten in das Datenmodell des Data-Warehouse, die Aggre­gationen und Summierungen von Detaildaten sowie das La­den des Basis-Data-Warehouse. üblich erweise ist in den operativen Systemen die zeitbezogene Sicht nicht vorhan­den. Die Daten-Akquisitionsprozesse müssen daher den Detaildaten die Dimension "Zeit" hinzufügen, damit im Data­Warehouse Auswertungen über diese Dimension möglich ist.

193

9 Data Warehousing - strategisch betrachtet

Basis-Data­Warehouse

Funktionales Data­Warehouse I Data Mart

194

Diese Prozesse stützen sich u.a. auf die Definitionen der Daten und der Geschäftsregeln im Information-Directory.

• Wir verwenden hier für das zentrale, unternehmensweite Data-Warehouse den Begriff Basis-Data-Warehouse, um es deutlich von anderen, auf bestimmte Geschäftsfunktionen fokussierte Data-Warehouse-Anwendungen zu unterschei­den. Das Basis-Data-Warehouse enthält die historisierten, nach einem einheitlichen Datenmodell und einer standardi­sierten Logik zentral verwalteten Unternehmensdaten, die den nachgelagerten Anwendungssystemen für Analyse- und Berichtszwecke zur Verfügung gestellt werden. Das Daten­modell des Basis-Data-Warehouse präjudiziert keine be­stimmte Verwendung der Daten. Daher sind im Basis-Data­Warehouse vor allem Detaildaten vorhanden, da jede Aggre­gation oder Summierung bereits wieder die Verwendbarkeit der Daten einschränken würde. Trotzdem werden im Basis­Data-Warehouse neben den Detaildaten auch häufig benö­tigte Aggregationen, bewertete Daten oder anders abgelei­tete Daten, wie Summen oder Durchschnittswerte, gespei­chert. Dieses Vorgehen hat folgende Vorteile:

• das Basis-Data-Warehouse stellt die gemeinsame, konsi­stente und integrierte Sicht aller Analysesysteme auf die Unternehmensdaten zur Verfügung;

• aus diesen Daten kann jede spezielle, funktionale Sicht auf die Unternehmensdaten abgeleitet werden;

• wenn jede funktionale Sicht eines Analysesystems auf die Unternehmensdaten ausschliesslich aus den Daten des Basis-Data-Warehouse abgeleitet wird, sind die Da­ten und Ergebnisse der einzelnen Analysesysteme mit­einander vergleichbar und integer;

• bei dem Anschluss weiterer Datenquellen resp. neuer Informationssysteme ist das Wachstum der zusätzlich benötigten Prozesse nur additiv und nicht multiplikativ, wie es ohne ein Basis-Data-Warehouse der Fall ist.

• Diese Ebene in einer Data-Warehouse-Architektur wird häufig als sogenannter "Data Marf' bezeichnet, um sie vom eigentlichen Data-Warehouse abzuheben. Leider wird unter einem Data Mart oft implizit ein Anwendungssystem ver­standen, das, verglichen mit dem Warehouse, mit einer eher kleinen Datenmenge arbeitet. Dies ist nicht zwingend der Fall. Nicht die Grösse der Datenbank entscheidet, ob es sich um ein Warehouse oder einen Mart handelt, sondern einzig

Business Intelligence

9.5

Integration Techno­logiekomponenten

9.5 Die Data-Warehouse-Technologie

und allein der Zweck, dem das System dient. Wir bevorzu­gen daher die hier vorgeschlagene Terminologie eines Ba­sis-Data-Warehouse für die unternehmensweite Sicht auf die Daten und der funktionalen Data-Warehouse-Systeme für solche Anwendungen, die einer bestimmten Geschäftsfunk­tion dienen. Diese Datenextrakte aus dem Basis-Data­Warehouse stellen spezielle, funktionale Sichten auf die Da­ten des Unternehmens dar, um spezifische Geschäftsfunktio­nen wie das Controlling, das Berichtswesen oder das Marke­ting zu unterstützen. Diese Extrakte sind nötig, da nur be­stimmte Daten und bestimmte Aggregationen, Bewertungen, Zusammenfassungen usw. für die Analysen und Berichte in spezifischen Anwendungsgebieten verwendet werden und solche Sichten nicht jederzeit dynamisch aus der gesamten Datenmenge des Basis-Data-Warehouse erstellt werden kön­nen.

• Auf dieser Ebene ist die Benutzerschnittstelle in das Data­Warehousing-System zu finden. Die Werkzeuge, welche die­se Schnittstellen bilden, können von einer zur anderen Pro­blemstellung sehr unterschiedlich sein. Von einfachen Ab­frage- und Berichtsystemen, über mehrdimensionale Analy­sewerkzeuge (OLAP) bis hin zu komplexen Datenvisualisie­rungstechniken oder Data-Mining-Prozessen müssen die Anwender der unterschiedlichen Data-Warehouse-Systeme jede Möglichkeit erhalten, ihre spezifischen Aufgaben effizi­ent durchführen zu können. Eine immer grössere Bedeutung für den unternehmensweiten Benutzerzugriff auf die Daten im Data-Warehousing-System erhält der Einsatz von Intra­Net- und HTML-Technologie als Benutzerumgebung.

Die Data-Warehouse-Technologie Für alle oben beschriebenen Komponenten einer Data­Warehouse-Architektur steht heute leistungsfähige Technologie zur Verfügung, die zum Teil sehr neu auf dem Markt ist, aber auch schon in vielen umfangreichen und komplexen Anwen­dungen erprobt ist.

Das Problem besteht weniger in der Zuordnung der Technologie zu den verschiedenen Komponenten, als viel mehr in der Inte­gration der Technologiekomponenten untereinander. Nur wenn die Werkzeuge innerhalb des Data-Warehousing-Systems mitein­ander integriert sind, ist ein leistungsfähiges System möglich. Die Integration der Komponenten findet über den Austausch der

195

9 Data Warehousing - strategisch betrachtet

Abbildung 9-5: Daten- und Metada-ten-Integration im Warehousing-System

Datenbank­Managementsysteme

Multi-Dimensionale­Datenbank­Managementsysteme (MDBMS)

Extraktions­werkzeuge

196

Meta-Informationen statt, die jedes Werkzeug in einer eigenen Metadatenbank speichert. Im Idealfall ist die Integration der Metadaten über ein zentrales Information-Directory/ Repository möglich, das so als "Single Point of Control" dienen kann. Ähn­lich verwenden wir das Basis-Data-Warehouse zur Integration der Geschäftsdaten, um so einen "Single Point of Truth" zu erhalten.

externe ~ Daten -Jii1 t L J 0 A

L J -~ T E N

I

Y -~ I I I I I : I : m : ! :

I I

[)6. I Tool

T :~Ti T T ~ T!I·rl : Dlrwct : DI..cI I I I I I I I I

I Information Directory / Repository

Die zentralen Technologien, die in einem Warehousing-System zum Einsatz kommen, sind neben den Directory- und Metada­tensystemen vor allem die folgenden:

• Zur Datenverwaltung werden im Basis-Data-Warehouse DBMS eingesetzt, die parallele Verarbeitung von komplexen Datenbankprozessen erlauben. Abhängig von der Grösse der Datenbank und der Komplexität der Prozesse werden sie auch für funktionale Data-Warehouse-Anwendungen einge­setzt.

• Bei kleineren funktionalen Data-Warehouse-Anwendungen kommen zur multi-dimensionalen Speicherung der Daten und Abfragen nach dimensionalen Kriterien MDBMS zum Einsatz. Universal-Databases erlauben die Speicherung auch komplexer Datenstrukturen wie Texte, Dokumente, Bilder, u.ä.

• Für die Daten-Akquisitions-Komponente werden Extraktions­werkzeuge eingesetzt, die gestützt auf den Meta­Informationen des Ziel-Datensystems, der Identifikation des Quellsystems und mit Hilfe grafischer Benutzeroberflächen die Festlegung der Abbildungs- und Transformationsregeln erlauben, automatisch Extraktions- und Transformationspro-

Abfrage- und Visualisierungs­werkzeuge

Intra-Net

Data-Mining Werkzeuge

9.6

Daten Ebenen

9.6 Die Datenarchitektur im Data-Warehouse

zeduren generiert. Aufgrund der zu bewältigenden Komple­xität erhalten diese Werkzeuge immer grössere Bedeutung gegenüber den traditionell programmierten Verfahren. Er­gänzt wird dieser Teil des Data-Warehousing-Systems durch Werkzeuge zur Datenbereinigung auf der Basis zuvor defi­nierter Regeln.

• Zur multi-dimensionalen Darstellung und Analyse der Daten werden Abfrage- und Visualisierungswerkzeuge eingesetzt. Sie bauen auf einer multi-dimensionalen oder einer relatio­nalen Datenbank auf. Diese Werkzeuge unterstützen den Anwender bei Informationsverarbeitung im Data-Ware­housing-System.

• Immer wichtiger wird die Einbindung des Data­Warehousing-Systems in das unternehmens-interne Netz­werk, das Intra-Net und die Anwendung von Browser­Technologie, um einer grossen Benutzergemeinde im Unter­nehmen Daten und Berichte effizient zur Verfügung stellen zu können. Die Einbindung des Internets als zusätzlicher Informationsquelle gewinnt ebenfalls an Bedeutung.

• Schliesslich erfährt die Anwendung von Data-Mining­Techniken immer grössere Beachtung. Unter Data-Mining versteht man werkzeug-gestützte Analyse-Prozesse auf gros­sen Datenmengen, um Muster in den Daten zu erkennen und die Daten anschliessend zu klassifizieren. Data-Mining­Techniken finden z.B. Anwendung bei der Segmentierung von Kunden, Bonitätsanalysen, Marktanalysen, Entwicklung von Marketingstrategien, aber auch beim Erkennen von sy­stematischen Fehlern in den Daten. So kann Data-Mining­Technologie auch die Bereinigung der Daten vor dem Laden in das Data-Warehousing-System unterstützen.

Die Datenarchitektur im Data-Warehouse Die oben dargestellte Data-Warehouse-Architektur (vgl. 9.4) zeigt, dass das Data-Warehousing-System aus mehreren Ebenen besteht, dem Basis-Data-Warehouse sowie verschiedenen funk­tional ausgerichteten Warehouse-Anwendungen. Auf diesen Ebenen sind die Daten in unterschiedlichem Detaillierungsgrad, in unterschiedlicher Breite und mit unterschiedlichen Modellie­rungstechniken abgebildet.

Welche Daten auf den verschiedenen Ebenen im Warehouse­System verfügbar sein müssen, lässt sich am besten klären, wenn

197

9 Data Warehousing - strategisch betrachtet

Fakten und Dimensionen

Dimension Zeit

198

man von den Fragestellungen ausgeht, die typischeIWeise in Analyse- und Berichtssystemen beantwortet werden sollen.

Beispiele hierfür sind:

1. Welchen Deckungsbeitrag hat ein bestimmtes Produkt im letzten Quartal in einer bestimmten Region in einem be­stimmten Kundensegment erzielt?

2. Wie profitabel war eine bestimmte Produktgruppe im letzten Berichtsjahr?

3. Welche Kunden reagieren auf ein bestimmtes Produktange-bot mit einer Wahrscheinlichkeit von über 90% positiv?

4. Die Kunden sollen nach Profitabilität segmentiert werden.

5. Die Kunden sollen in Risikoklassen eingeteilt werden.

6. Die Performance des Kundenportfolios soll anhand eines Referenzportfolios gemessen werden.

7. Wie verändert sich der Umsatz eines Produktes bei be-stimmten Preisänderungen (Sensitivitätsanalyse)?

Kennzeichnend für solche Fragestellungen ist, dass nach Fakten gefragt wird, die an bestimmten Einflussgrössen oder Dimensio­nen festgemacht sind oder dass anhand der Fakten Analyseer­gebnisse abgeleitet werden können. Fakten aus den oben ge­nannten Beispielen sind etwa das Kundenportfolio, das Markt­portfolio, der Umsatz. Dimensionen werden repräsentiert durch die Produkte, die Zeit, die Region, die Kunden, den Markt. Abgeleitete Analyseergebnisse sind der Deckungsbeitrag, die Profitabilität, die Wahrscheinlichkeit, die Kundensegmentierung, die Bestimmung von Risikoklassen und die Einteilung der Kun­den, die Performance des Kundenportfolios, die Preissensitivität des Produktumsatzes. Die Dimensionen können in sich selbst eine Hierarchie besitzen. Produkte gehören zu Produktgruppen, Kunden sind in Kundensegmente eingeteilt, die Zeit hat eine Hierarchie ebenso wie die regionale Marktunterteilung.

Im Basis-Data-Warehouse werden die für diese Analysen not­wendigen Rohdaten im grösstmöglichen Detaillierungsgrad zur Verfügung gestellt. Wesentlich ist, dass diesen Rohdaten die Dimension "Zeit " hinzugefügt wird. Die bestehenden Daten des Data-Warehouse werden beim periodischen Laden neuer Daten auf gar keinen Fall überschrieben, wie dies typischeIWeise bei Transaktionssystemen im operativen Umfeld der Fall ist. Sie werden durch eine jüngere Generation der Daten ergänzt. So sind im Laufe der Zeit über alle wesentlichen Daten des Unter-

Entity-Relationship­Modell für DWH

Dimensionales Datenmodell für ein funktionales DWH

9 .6 Die Datenarchitektur im Data-Warehouse

nehmens auch zeitbezogene Sichten und Analysen möglich. Damit diese Sichten konsistent, d.h. ohne Widersprüche aufge­baut werden können, muss zuvor die Abbildung der Dimension Zeit "modelliert" werden. Diese Modellierung sieht etwas anders aus, als etwa die Modellierung der Dimension "Produkt". Da die Zeit eine dynamische, aber auch eine relative Grösse ist, muss ein Konzept erstellt werden, das darlegt, wie die logische und die technische Darstellung der Zeit im Data-Warehouse erfolgen soll. Da alleine die Darlegung aller damit verbundenen Frage­stellungen und möglichen Lösungen ein Buch füllen könnte, müssen wir es an dieser Stelle bei diesen Hinweisen belassen. Wir betonen aber nochmals, dass die Erarbeitung eines "Zeit­Konzeptes" für eine erfolgreiche Data-Warehouse-Implemen­tierung absolut unerlässlich ist und von vielen Projektmanagern und Auftraggebern völlig unterschätzt wird.

Das Datenmodell des Basis-Data-Warehouse ist typischerweise ein klassisches Entity-Relationship-Modell. Dies hat im wesentli­chen zwei Gründe:

1. Die allermeisten Endbenutzer arbeiten nicht mit den Daten des Basis-Data-Warehouse, sondern mit funktionalen Ware­house-Daten, die einem anderen, für diese Zwecke besser geeigneten Datenmodell folgen. Die Endbenutzer sind also nicht mit der strukturellen Komplexität des ER-Modells kon­frontiert .

2. Das ER-Modell ist aufgrund der Redundanzfreiheit flexibel für Änderungen und vor allem Erweiterungen. Flexibilität ist aber eine der wesentlichen Erfolgsfaktoren einer Data­Warehouse-Implementierung.

Für das Datenmodell des Basis-Data-Warehouse ist es vor allem wichtig, dass keine bestimmte Verwendung der Detaildaten in einer betrieblichen Funktion präjudiziert werden darf. Die Daten müssen anwendungsneutral abgebildet sein.

Anders sieht ein Datenmodell für ein funktionales Data­Warehouse aus. Hier gilt es ja gerade, eine bestimmte Ge­schäftsfunktion mit ihren speZifischen Datenanforderungen zu unterstützen. Da die Fragestellungen, die hier bearbeitet werden, sich an Dimensionen orientieren und Fakten analysieren, wer­den die Daten auch in Form von Dimensionen und Fakten modelliert. Es wird ein mehr-dimensionales Datenmodell erstellt. Kommt ein Multi-Dimensionales-Datenbank-Managementsystem zum Einsatz, so kann dieses multi-dimensionale Modell auch

199

9 Data Warehousing - strategisch betrachtet

Abbildung 9-6: Abbildung von Dimensionen in einem Star-Schema­Datenmodell

UDM als Basis für DWH

Abbildung 9-7: Transformation des UDM in ein Dimen­sionenmodell

200

direkt in das Datenbank-Schema übertragen werden. Beim Einsatz eines relationalen Systems wird ein sogenanntes Star­Schema-Modell erstellt. Diese Form eines Datenmodells wird als "Star-Schema" bezeichnet, weil seine grafische Form mit den um die Fakten angeordneten Dimensionen-Entitäten an einen Stern erinnern.

Wie grass der Aufwand ist, die Daten aus den operativen Daten­quellen in dieses dimensionen-orientierte Data-Warehouse­Modell zu transformieren, mit welcher Qualität dies gelingt und welchen Restriktionen diese Transformationen unterliegen, hängt entscheidend davon ab, wie gut die Daten in den Datenquellen bereits an einer unternehmensweiten Datenarchitektur ausge­richtet sind.

Untemehmens-Datenmodell Data-Warehouse­Datenmodell

Wenn wir uns das Beispiel eines Unternehmens-Datenmodells (UDM) einer Bank aus dem Kapitel 5 in Erinnerung rufen, so wäre ein solches Modell bereits eine exzellente Grundlage für eine Data-Warehouse-Implementierung. Einige Teile des UDM

Vorgehen zum Aufbau DWH-Modell

Dimensionen und Kemdaten

9.7

9.7 Die kritischen Erfolgsfaktoren

(wie z.B. Partner, Produkt) repräsentieren die Dimensionen im Data-Warehouse-Modell, die Entitäten "Vertrag" und "Geschäfts­fall" werden zu Fakten transformiert. Die Dimension Zeit ist im UDM nicht modelliert. Hierfür muss ein spezielles Zeitkonzept erarbeitet werden. Basierend auf diesem Konzept wird diese Dimension bei jedem Laden einer neuen Generation von Daten ins Data-Warehouse, d.h. dem Delta zwischen den bereits vor­handenen Daten und den inzwischen in den Datenquellen veränderten Daten, weiter ausgebaut.

Leider sind in den meisten Unternehmen die Voraussetzungen nicht so ideal, wie in dem hier dargestellten Fall, in dem bereits durch die Erarbeitung eines Unternehmens-Datenmodells die Basis für eine erfolgreiche Warehouse-Implementierung ge­schaffen wurde. In anderen Fällen muss die Data-Warehouse­Initiative dafür genutzt werden, eine solche Datenarchitektur zu erarbeiten und in einem Basis-Data-Warehouse zu implementie­ren. Eine solche Datenarchitektur ist unerlässlich, damit die im Basis-Data-Warehouse angestrebte Datenintegration erreicht wird. Um das Data-Warehousing-Vorhaben aber nicht an einer endlosen ModelIierungsübung scheitern zu lassen, wird auch hier das im Kapitel 5 diskutierte Vorgehen zum Aufbau eines Kern-Datenmodells empfohlen.

Wie wir gesehen haben, müssen für ein Data-Warehouse­Datenmodell zunächst die Dimensionen definiert werden, nach denen ausgewertet und analysiert werden soll. Dies ist genau das gleiche Vorgehen, wie wir es für das Kern-Datenmodell vorgeschlagen haben. Insofern kann dieses Vorgehen auch für ein Data-Warehouse-Projekt erfolgreich übernommen werden.

Die kritischen Erfolgsfaktoren Die Einführung eines unternehmensweiten Data-Warehousing­Systems kann ein ähnlich ambitioniertes Vorhaben sein wie der Aufbau einer neuen operativen Systemumgebung. Dies geschieht nicht über Nacht, sondern wird mehrere Jahre intensiver Arbeit beanspruchen. Es ist darauf zu achten, den Anwendern und Kunden im Unternehmen in Abständen von einigen Monaten jeweils einen echten zusätzlichen Geschäftsnutzen zu liefern. Das Vorhaben erfordert eine seriöse Planung und die Beachtung von einigen wesentlichen kritischen Erfolgsfaktoren, um die Erwartungen zu erfüllen.

201

9 Data Warehousing - strategisch betrachtet

9.7.1

9.7.2

Auftraggeber Geschäftsbereich

Projektsteuerung

9.7.3

Top-Down-Ansatz

202

Ein Data-Warehouse ist kein Produkt Da ein Data-Wa reh ouse kein Produkt ist, kann man es nicht kaufen, sondern man muss es bauen. Dies bedeutet, dass kein produkt die Erarbeitung einer Data-Warehouse-Architektur, die Data-Warehouse-Strategie, die seriöse Planung und den sorgfälti­gen Entwurf ersetzen kann. Ein methodisches Vorgehen, sowohl beim Bau des Systems als auch bei der Auswahl der System­komponenten ist ein Garant für den Erfolg.

Der Geschäftsnutzen steht im Vordergrund Der Aufbau eines Data-Warehousing-Systems ist kein Vorhaben, welches der Informatikbereich eines Unternehmens aus eigener Kraft betreiben sollte. Sicher wird die Informatik eine tragende Rolle in diesen Projekten spielen, aber die Priorisierung der verschiedenen zu realisierenden Teilbereiche muss aus den Geschäftsbereichen des Unternehmens kommen.

Diese müssen das Data-Warehouse-Vorhaben nicht nur mittra­gen, sondern sie müssen es steuern und aktiv gestalten. Nur ein interessierter Geschäftsbereich ist in der Lage zu bestimmen, mit welchen neuen oder verbesserten Funktionen ein hoher "Return­on-Investment (RO!)" zu finden ist, welches Informationsbedürf­nis dafür abgedeckt werden muss, welche Qualität die Daten haben resp. haben sollten und wie die Daten ggf. zu bereinigen sind.

Ein Gremium aus leitenden Managern verschiedener Unterneh­mensbereiche zur Steuerung des Projektes ist der Idealfall . Da solche Projekte typischerweise Abteilungs- oder auch Bereichs­grenzen überschreiten, benötigt das Projekt eine entsprechende Eskalationsstufe .

Architektur und Planung kommen vor Realisierung

Dieser Grundsatz bedeutet, dass zunächst alle Aufmerksamkeit und Anstrengung auf den Aufbau einer umfassenden Architektur, die sowohl die Integration verschiedener Systemkomponenten wie auch die zukünftige Datenarchitektur berücksichtigt, gerich­tet wird. Darauf aufbauend wird eine Umsetzungsstrategie entwickelt, die prinzipiell entweder von einem Top-Down- oder einem Bottom-Up-Ansatz ausgehen kann.

Beim Top-Down-Ansatz wird davon ausgegangen, dass zunächst ein unternehmensweites Basis-Data-Warehouse erstellt wird, auf

Abbildung 9-8: Top-Down-Ansatz

Beurteilung

Abbildung 9-9: Bottom-Up-Ansatz

9.7 Die kritischen Erfolgsjaktoren

dessen neuen und sauberen Datenstrukturen und moderner Technologie dann die jeweiligen funktionalen Data-Warehouse­Anwendungen aufbauen. Der Top-Down-Ansatz beim Data­Warehousing ist ähnlich zu bewerten, wie bei der Erstellung eines unternehmensweiten Datenmodells (vgl. Kapitel 5).

externe ~ Daten

L J ~1i.1 t 0

& A

~~ T I i E C J lii.!! E I c6-N ~

T op-Down-Ansatz • Untemehmensweites Basis-Data-Warehouse stellt integrierte

Darauf werden die funktionalen DW-Anwendungen entwickelt

~ • Sehr hohe Initial kosten. lange Implementierungszeit ~ • historische Detaildaten zur Verfügung

A • Als reines Infrastrukturprojekt ohne die nötige Benutzerunterstützung

[ J Zur Lösung der Datenintegrationsproblematik im Data-Ware­housing-System ist dieser Ansatz zwar theoretisch richtig, aber wie die Praxis gezeigt hat auch wenig erfolgversprechend. Das Vorhaben ist zu komplex und damit zu risikoreich, es löst zu hohe Initialkosten aus, und ihm fehlt die dringend nötige Benut­zerunterstützung, da es sich hierbei zunächst einmal um ein reines Infrastrukturprojekt ohne direkten Geschäftsnutzen han­delt.

o A T E N

externe Daten r J i ~~

u---+--~ • Aufbau einzelner funktionaler Data-Warehouse-Anwendungen

~ • Schnelle Verfügbarkeit. relativ geringe Kosten

M • Führt zu erheblichen Datenintegrationsproblemen E • Gefahr, Inkonsistenzen und Inkorrektheiten in den Daten zu T multiplizieren

Ar ~ ______________________________ ~J

203

9 Data Warehousing - strategisch betrachtet

Beurteilung

Abbildung 9-10: Gemischter Ansatz

204

Der entgegengesetzte Weg führt Bottom-Up, d.h. über die Im­plementierung einzelner funktionaler Data-Warehouse-Anwen­dungen schrittweise zu einem integrierten Basis-Data­Warehouse. Dieser Ansatz vermeidet einige der wesentlichen Gefahren des reinen Top-Down-Ansatzes. So ist der Aufbau einzelner funktionaler Data-Warehouse-Systeme weit weniger komplex, riskant und teuer. Diese unterstützen direkt eine Geschäftsfunktion und erfahren daher die nötige Unterstützung durch die späteren Anwender des Systems.

Allerdings stellt sich die gewünschte Integration der Daten und Prozesse im Warehousing-System durch einen reinen Bottom­Up-Ansatz nicht ein. Es findet i.d.R. keine Wiederverwendung von Daten und Prozessen statt, eine übergeordnete Planung fehlt, und es besteht die grosse Gefahr, die Inkonsistenzen aus den Quellensystemen des operativen Systemumfeldes damit auf die Ebene der Informationssysteme zu übertragen.

D A T E N

Information Directory I Repository

Der erfolgversprechende Weg besteht in einem gemischten Top­Down- und Bottom-Up-Vorgehen. Hierbei werden vor dem Start des ersten Data-Warehouse-Projektes folgende Konzepte top­down erarbeitet und für jedes dann folgende DW-Projekt für verbindlich erklärt:

• Die technische DW-Architektur wird ausgearbeitet.

• Die Datenarchitektur inkl. eines Zeitkonzeptes wird erstellt.

• Die Data-Warehouse-Grundsätze werden formuliert.

• Die Umsetzungsstrategie mit Priorisierung der folgenden Projekte wird festgelegt.

Auswahl der Teilbereiche

Beurteilung

Data-Warehouse­Grundsätze

9.7 Die kritischen Erfolgsfaktoren

Sobald das "grosse Bild" entworfen ist, wird jene Geschäftsfunk­tion ausgewählt, mit der, basierend auf der Architektur und der strategischen Planung, ein erster Teilbereich des Data­Warehousing-Systems realisiert wird. Bei der Auswahl dieses ersten Teilbereiches sollte man sich von drei Überlegungen leiten lassen.

• Zum einen sollte eine Geschäftsfunktion ausgewählt werden, welche durch die Realisierung dieses Teiles des Data­Warehousing-Systems einen unmittelbaren und messbaren geschäftlichen Nutzen erzielt.

• Zum zweiten muss die Realisierung in einem akzeptablen Zeitraum, zu akzeptablen Kosten und in der erforderlichen Qualität möglich sein. Dies hängt vor allem von der Verfüg­barkeit und der Qualität der Quellendaten ab.

• Zum dritten sollte dieser erste Teilbereich eine gute Grund­lage für die nachfolgenden zu realisierenden Bereiche legen. Dies wird daran gemessen, wie gut die Daten die erarbeitete Datenarchitektur des Data-Warehouse ausfüllen, welche Di­mensionen in welcher Qualität bereitgestellt werden, die von nachfolgenden Bereichen genutzt werden können. Eine sogenannte "Intersection-Analyse", in der versucht wird, überlappende Datenbereiche in verschiedenen potentiellen Anwendungsgebieten zu identifizieren, kann hierbei wert­volle Erkenntnisse liefern.

Diesen Vorarbeiten muss höchste Aufmerksamkeit geschenkt werden. Wir erkennen eine direkte Korrelation zwischen dem Aufwand und der Zeit, welche für den Aufbau einer Architektur und einer Umsetzungsstrategie aufgewendet wird, zu dem Aufwand, der später für Erweiterungen des Data-Warehousing­Systems betrieben werden muss. Gleichzeitig erhöht sich das Risiko des Scheiterns überproportional mit dem Mangel an fehlenden Architektur- und Planungsüberlegungen.

Es ist wichtig für den Integrations- und Wiederverwendungsge­danken des Data-Warehousing-Systems, dass bestimmte Fragen und Problemstellungen vor dem Start des ersten Data­Warehouse-Projektes gelöst werden und damit quasi für jedes DW-Projekt "Gesetzes"-Charakter erhalten. Damit wird vermie­den, dass solche Fragen immer wieder neu behandelt und nur aus der jeweiligen Projektsicht gelöst werden.

205

9 Data Warehousing - strategisch betrachtet

9.7.4

206

Diese zentralen Punkte werden als Data-Warehouse-Grundsätze formuliert und jedem DW-Projekt als verbindliche Vorgehens­weise mit auf den Weg gegeben.

Beispiele für solche Grundsätze sind:

• Es wird festgelegt, wie verschiedene Versionen von Daten und Prozessen im Data-Warehousing-System zu behandeln sind.

• Der Entwurf jedes DW-Anwendungssystems muss das Wachstum und potentielle Erweiterungen adaptieren.

• Es werden immer Detaildaten in das Data-Warehouse-System geladen, auch wenn dies für die momentanen Bedürfnisse noch nicht notwendig wäre.

• Es ist streng auf die Wiederverwendung bereits vorhandener Daten und Prozesse zu achten.

• Detaildaten werden in Basis-Tabellen abgelegt, und diese Tabellen werden normalisiert. Auswertungs- und Analyse­daten werden in Form eines Star-Schema-Designs abgelegt oder in einer multi-dimensionalen Datenbank gespeichert.

Es sind noch erheblich mehr und detaillierter ausformulierte Grundsätze denkbar und sinnvoll. Wichtig ist vor allem, dass es sie überhaupt gibt, und so ein einheitlicher Prozess definiert wird, nach dem in einem Unternehmen Data-Warehousing­Projekte durchgeführt werden.

Methodisches Vorgehen ist unerlässlich

Eine Methodik zur Entwicklung eines Data-Warehouse unter­scheidet sich in einigen Punkten von konventionellen Methoden zur Entwicklung operativer Anwendungssysteme. Die Methodik muss vor allem drei Problembereiche berücksichtigen, die typisch für Data-Warehousing-Projekte sind:

• die starke Betonung der Datenproblematik,

• die Bewältigung des raschen Wachstums von Daten und Prozessen,

• sowie die Ungeduld der Auftraggeber und Anwender. Dem wird durch ein iteratives Vorgehen Rechnung getragen.

Abbildung 9-11: Iteratives Vorgehen

Startphase

Analyse

Evaluierung und Planung

Systementwurf

9.7 Die kritischen Erfolgsfaktoren

Analyse

ITERATIONS· MANAGEMENT~~--~

In einer Startphase werden zunächst in mehreren Workshops das Ziel des Projektes aus fachlicher Sicht definiert, die Rahmenbe­dingungen und die Systemgrenzen festgelegt.

Nach der Bildung eines Projektteams beginnt die erste Iteration des Projektes mit der Analyse der Informationsbedürfnisse. Daraus werden die Datenanforderungen sowie die funktionalen Anforderungen bzgl. Informationsgewinnung aus den Daten abgeleitet. Der häufig schwierigste Teil der Analysephase besteht in der "Datenarchäologie", d.h. der Identifikation möglicher Datenquellen und der Bestimmung der Semantik der Daten. Hier entscheidet sich auch oft, ob das Projekt in der geplanten Form resp. dem geplanten Zeitraum überhaupt durchführbar ist. Sind die benötigten Daten überhaupt nicht oder nicht in der erforder­lichen Qualität verfügbar, muss das Projekt entweder aufgegeben oder mit geänderter Zielsetzung und Zeitplanung neu geplant werden.

Zeigt die Analysephase die Verfügbarkeit der erforderlichen Datenressourcen, wird der Iterationszyklus mit der Planung der folgenden Phasen und der Evaluierung der technischen Infra­struktur fortgesetzt.

Die nächste Phase beinhaltet den Systementwurf, technisch wie konzeptionell. Auf der technischen Seite muss vor allem berück­sichtigt werden, dass das System hinsichtlich Datenmenge und Benutzeranforderungen wachsen wird. Dieses Wachstum muss in der Auslegung des Systems adaptiert werden. Auf der kon­zeptionellen Seite gehört vor allem die Festlegung der Abbil­dungsregeln von Datenquellen in das Ziel-Datenmodell. Für den

207

9 Data Warehousing - strategisch betrachtet

Konstruktion und Test

Einführung

9.7.5

Datenmengen und Zeitreihen

Benutzer

208

Erfolg des gesamten Data-Warehousing-Vorhabens ist es essenti­ell, dass solche Regeln im Gesamtsystem nicht redundant und inkonsistent definiert werden. Wiederverwendung bereits beste­hender Regeln ist ein absolutes Muss.

Nach dem Systementwurf folgt die Konstruktion des Systems und die Testphase.

Zur Einführung gehört häufig auch eine intensive Benutzer­schulung, da die Anwender oft mit neuen Analyse- und Zu­griffswerkzeugen, aber auch mit neuen Möglichkeiten der Infor­mationsbeschaffung und -aufbereitung konfrontiert werden. Ohne eine solche Schulung werden die Möglichkeiten des Data­Warehouse nicht voll genutzt und ein Teil der Investitionen ist damit vergeblich gewesen. Wird das Data-Warehouse aber voll genutzt, entstehen bald Erweiterungsbedürfnisse, welche in einem folgenden Iterationszyklus befriedigt werden.

Beherrschung des Wachstums

Die Beherrschung des Wachstums an Daten, Prozessen und Benutzeranforderungen ist eine spezifische Herausforderung in Data-Warehousing-Projekten.

Die Anforderung, in einem Data-Warehouse Zeitreihenanalysen durchführen zu können, hat zur Konsequenz, viele Generationen von Daten für den direkten Zugriff im Data-Warehouse zur Verfügung stellen zu müssen. Je nach dem gewünschten Detail­Iierungsgrad werden jährlich, vierteljährlich, monatlich, wö­chentlich oder gar täglich neue Versionen der Daten in das Data­Warehouse geladen. Nimmt man z.B. für eine Data-Warehouse­Anwendung an, dass beim initialen Laden der Datenbank 200 Gigabyte gespeichert werden und in jedem Monat weitere 20 Gigabyte mit einer neuen Generation von Daten hinzukommen, so ist sehr schnell eine Datenbankgrösse erreicht, die den Einsatz massiv-paralleler Systeme und spezieller Datenbanktechnologie mit entsprechenden Reorganisations- und Recoveryverfahren notwendig macht.

Hinzu kommt häufig, dass bei entsprechender Informationsqua­lität immer mehr Benutzer immer komplexere Analysen und Datenbankanfragen durchführen wollen, das Informationsbe­dürfnis wächst und zusätzliche Datenquellen angeschlossen werden müssen. Damit steigt die Daten- und Informationsmenge erneut.

Skalierbarkeit

Abbildung 9-12: Management des Wachstums

Versionenführung

9.7.6

9.7 Die kritischen Erfolgsjaktoren

Diese Entwicklung ist typisch für erfolgreiche Data-Warehouse­Projekte. Daher muss bei der Festlegung der Systemarchitektur zwingend auf die Skalierbarkeit aller zentralen Systemkompo­nenten inkl. der Zugriffswerkzeuge geachtet werden.

Mehr Geschäftsanforderungen

Mehr Daten +-f--+--~

Mehr Entwicklung

Mehr Anwendungen und Wartung

Mehr Unterstützung

Komplexere technische Architekturen

Die Änderung resp. Erweiterung der Benutzerwünsche sowie die Abhängigkeit des Data-Warehouse von den Datenquellen ver­langt nicht nur eine skalierbare, sondern auch eine flexible Infrastruktur. Vor allem muss die Kontrolle verschiedener Ver­sionen von Daten und Prozessen bei Änderungen in den Daten­quellen gut organisiert und technisch beherrscht werden. Mit starren Funktionen und unzureichender Versionenkontrolle ist eine schnelle und sichere Reaktion auf die stetigen Veränderun­gen in den operativen Datenquellen und der Anforderungen der Benutzer nicht zu gewährleisten.

Qualität der Daten

Ein Data-Warehouse, welches die Daten nicht in der erforderli­chen Qualität zur Verfügung stellt, ist nutzlos. Daraus folgt, dass der Datenqualität höchste Aufmerksamkeit zu schenken ist, wenn das Data-Warehouse ein Erfolg sein soll. Bei der Diskussi­on über die Qualität der Daten ist es wichtig zu erkennen, dass Qualität eine relative und keine absolute Grösse darstellt. Die Daten haben relativ zu ihrer jeweiligen Verwendung eine bestimmte Güte, d.h. Daten können bezogen auf ihre Verwen­dung in einer bestimmten Anwendung gute oder ausreichende Qualität besitzen. In einem anderen Kontext allerdings können dieselben Daten eine absolut unzureichende Qualität besitzen. Dies ist ein Kernproblem im Data-Warehousing. Die Daten aus

209

9 Data Warehousing - strategisch betrachtet

Massnahmen

Daten- und Informationsqualität

210

den Quellensystemen werden aus ihrem ongmaren Kontext gelöst und für andere als die ursprünglich vorgesehenen Zwecke im Data-Warehouse zur Verfügung gestellt.

Für die Sicherung der Datenqualität im Data-Warehouse müssen folgende Massnahmen ergriffen werden:

• Zunächst sind die Kriterien zu bestimmen, an denen die Qualität der Daten zu messen ist. Die Kriterien können nach ihrer Bedeutung gewichtet werden.

• Danach wird die Soll-Qualität der Daten im Data-Warehouse festgelegt, wobei ggf. auch wieder nach verschiedenen An­wendungsgebieten unterschieden wird.

• Nach der Identifikation der Datenquellen wird der Ist­Zustand der Datenqualität erhoben. Dabei ist zwischen Roh­daten und abgeleiteten Daten zu unterscheiden, weil diese durch unterschiedliche Prozesse generiert werden.

• Unter dem Stichwort "Data-Cleansing" werden organisatori­sche, konzeptionelle und technische Massnahmen definiert wie der Soll-Zustand erreicht werden kann.

• Schliesslich muss die Qualität der Daten, die ins Data­Warehouse übertragen werden, einer ständigen Überprüfung und Verbesserung unterzogen werden.

Daten- und Informationsqualität ist kein Problem, welches sich auf das Data-Warehouse beschränkt, sondern das ganze Unter­nehmen betrifft. Die Anstrengungen im Data-Warehousing legen diese Problematik nur besonders drastisch offen. Die Lösung des Problems kann durch Data-Warehousing-Initiativen angestossen und einige taktische Massnahmen vorangetrieben werden, aber nicht unternehmensweit zu Ende geführt werden. Insgesamt ist das Thema Daten- und Informationsqualität dem Thema Data­Warehousing übergeordnet und wird daher im Schlusskapitel dieses Buches gesondert behandelt. Hier beschränken wir uns darauf, die für Data-Warehousing-Projekte typischen Fragestel­lungen kurz zu diskutieren.

Die Tabelle 9-2 fasst einige der wesentlichen Qualitätsmerkmale zusammen, welche Daten in einem Data-Warehouse aufweisen sollten. Es können je nach Unternehmen und Verwendungs­zweck noch andere Kriterien hinzukommen. Auch die aufge­führten möglichen Massnahmen stellen nur eine grobe, beispiel­hafte Aufzählung dar.

9.7 Die kritischen Erfolgsjaktoren

QuaUtits·Kriterium Erllluterung MögliChe Massn.ahmen

Konsistenz Die Übereinstimmung der Daten mit Datenadministrationsmassnahmen: ihrer Beschreibung in einem Reposi. • Konsistentes DalenmodeU tory; Widerspruchsfreiheit der Daten • Pflege des Repository·Systems untereinander • Beseitigung von Homonymen und

Synonymen, usw. • Aufdecken logischer Widerspruche

durch Data·CleansinR;-Massnahmen

Korrektheit Die Übereinstimmung der Daten mit • Überprufung der Validierungsregeln der Realität beim Erfassen der Daten

• Aufdecken logischer Widerspruche durch Data-GleansinR;-Massnahmen

Vollständigkeit Die Verfügbarkeit aller für den • Erstellung eines vollständigen Verwendungszweck relevanten Daten Datenmodells

• ggf. Ergänzung von internen Daten durch externe

• Aufbau einer Historie

Exaktheit Die Daten sind für den Verwendungs- • Einsetzen geeigneter Standardwene zweck angemessen genau bei fehlenden Datenwenen und

Kenntlichmachung dieser Wene • überprufung von verwendeten

Algorithmen • VerbesserunR; der DatenerfassunR;

ReJevam Die Daten haben für den Verwen- • Erstellung eines geeigneten dungszweck eine Bedeutung Datenmodells

Zuverlässigkeit, Die Daten sind nachvollziehbar • Für den Anwender muss die

Glaubwürdigkeit Entstehung der Daten nachvollziehbar sein

• Angabe der Datenquellen • Angabe aller verwendeten Prozesse • Beschreibunl'l auf dem Reposilorv

Verfügbarkeit Die Daten sind an dem On, an dem • Vemetzung, Nutzung des Intranet sie benötigt werden, zu der Zeit, zu • rechtzeitiges Laden neuer Daten-der sie benötigt werden, und in einer generationen Sprache, welche der Benutzer • tlexible Infrdstruktur, um schnell versteht , verfügbar reagieren zu können

• Laden von mehr Daten, als aktuell benötigt werden

• Vorsehen von Mehrsprachigkeit in den Daten und ihrer Beschreibunl'l

VerstänclJJchkeit Die Daten werden in einer verständli- • Nutzung angemessener chen, dem Verwendung zweck und Pr.isentalionsfonnen wie Daten-den Anwendem angepassten Form VisuaHsierungstechniken, multi-präsentien dimensionale Darstellungen, etc.

Tabelle 9-2: Kriterien für die Datenqualität

211

9 Data Warehousing - strategisch betrachtet

9.7.7

Vorteile 3NF

Nachteile 3NF

Diskutierte Star­Schema-Modelle

212

Beherrschung der Datenmodellierung für das Data-Warehouse

DatenmodelIierung für ein Data-Warehouse ist etwas anderes als DatenmodelIierung für ein operatives System. Sie schliesst die ModelIierung der Zeit mit ein.

Jene Art von Datenmodellen, welche die Datenmodellierer methodisch korrekt, redundanzfrei und in dritter Normalform (3NF) für operative Anwendungssysteme entwerfen, sind für Data-Warehouse-Anwendungen oft nur bedingt geeignet. Zur Erinnerung: ein 3NF-Modell ist in dem Sinne redundanzfrei, dass ein Faktum nur an einer Stelle des Datenmodells vorkommt. Bei Veränderungsoperationen in einer nach einem 3NF-Modell implementierten Datenbank können daher keine Speicheran­omalien entstehen. Das Datenbankmanagementsystem ist (be­dingt) in der Lage, die Datenkonsistenz zu gewährleisten. Dar­über hinaus ist das 3NF-Modell änderungs- und erweiterungs­freundlich .

Diese Vorteile werden mit einigen Nachteilen bezahlt. Im Zu­sammenhang mit Data-Warehousing ist der wesentlichste Nach­teil, dass das 3NF-Modell die Daten über sehr viele Tabellen verteilt, um Redundanzfreiheit zu erreichen. Um zusammenhän­gende Daten wieder zu einer Information zusammenzuführen, müssen komplexe Datenbankabfragen verwendet werden. Im Falle einer programmierten Anwendung wie sie typisch für operative Systeme ist, wird dem Endanwender dieser Prozess vom Programm (resp. vom Programmierer) abgenommen.

Will ein Benutzer des Data-Warehouse mit Business-Intelligence­Werkzeugen ad-hoc solche Abfragen formulieren, ist er i.d.R. mit der Formulierung von solch komplexen Anforderungen überfor­dert. Er wäre gezwungen, in Datenbankstrukturen zu denken, anstatt sein Problem zu formulieren. Daher müssen jene Daten, mit denen die Benutzer des Data-Warehouse direkt arbeiten, in einfacheren Datenstrukturen gespeichert sein. Solche einfacheren Strukturen sind die oben bereits diskutierten Star-Schema­Modelle. Da man aber auch im Data-Warehousing-System die Flexibilität von 3NF-Modellen benötigt, empfiehlt es sich, die Basis-Tabellen des Basis-Data-Warehouse, welche die Detailda­ten enthalten, in 3NF-Strukturen zu speichern, um auf diesen aufbauend Star-Schema-Modelle für die Endanwender und spezifische funktionale Data-Warehouse-Anwendungen zu entwickeln. Dabei ist insbesondere auf die Hierarchien in den

9.7 Die kritischen Eifolgsfaktoren

Dimensionentabellen zu achten. Solche Prinzipien sollten in den Data-Warehouse-Grundsätzen festgehalten werden.

Herausforderung Zeit Eine besondere Herausforderung stellt die Abbildung der Di­mension "Zeit" im Datenmodell dar. Nur in wenigen operativen Anwendungen ist die Darstellung der Zeit ein Modellierungspro­blem, da es sich bei operativen Anwendungen Ld.R. um soge­nannte "Snap-Shots", also Schnappschüsse handelt. Hierbei werden ältere Daten von neuen überschrieben, so dass jeweils nur der aktuelle Zustand, der Schnappschuss, sichtbar ist. Dass die Erarbeitung eines Zeitkonzeptes für das Data-Warehousing unabdingbar ist, wurde bereits dargelegt. Die grosse Herausfor­derung besteht darin, dass man mit strukturellen und inhaltli­chen Änderungen der Daten im Zeitverlauf umgehen muss. Es müssen u.a. folgende Probleme gelöst werden:

9.7.8

• Das Datenmodell eines oder mehrerer Quellensysteme ändert sich im Zeitverlauf. Wie wird im Zielsystem damit umgegangen?

• Die Beziehung zwischen verschiedenen Generationen von Daten und ihren Metadaten muss auch im Zeitverlauf ein­deutig bleiben.

• Das Unternehmen ändert zu einem bestimmten Zeitpunkt ~ die regionale Einteilung seiner Märkte. In den historischen Daten vor dem Zeitpunkt to findet sich die alte Einteilung, danach die neue Zeitachse. Analysen, wie sich die Umsätze in bestimmten Marktregionen im Zeitverlauf entwickelt ha­ben, sind ohne Bruch über den Zeitpunkt to hinaus nicht mehr möglich. Welche Sicht auf die Daten gilt nun: die alte, die neue oder beide? Muss der neue Zustand in den histori­sierten Daten nachvollzogen werden?

• Durch die Historisierung von Daten können Konsistenzpro­bleme entstehen, die es bei Snap-Shot-Datenbanken nicht gibt. In den historisierten Daten ändern sich z.B. Fakten, die eigentlich auch im Zeitverlauf unveränderlich sind, wie bei­spielsweise das Geschlecht oder das Geburtsdatum einer Person. Welche Bereinigungsmassnahmen sind in diesen Fällen zu ergreifen?

Verwaltung der Metadaten

Das erfolgreiche Management der Metadaten spielt für den Erfolg eines Data-Warehousing-System eine entscheidende Rolle. Der Grund hierfür liegt in drei wesentlichen Anforderungen, die an jedes Data-Warehousing-System gestellt werden:

213

9 Data Warehousing - strategisch betrachtet

Alle Meta-Informa­tionen dokumentiert

Verfügbarkeit

Verwendungs­nachweis

9.7.9

214

• Die Qualität der Daten und Informationen muss hohen Ansprüchen genügen. Dies bedeutet, dass alle Daten im Data-Warehouse mit ihren Beschreibungen und Definitionen im Repositorysystem verknüpft sein müssen und diese Meta­Informationen für den Benutzer zugänglich und verständlich sein müssen. Aus Gründen der Glaubwürdigkeit der Infor­mationen müssen dem Anwender die Herkunft der Daten und die Prozesse, mit denen sie bearbeitet wurden, transpa­rent gemacht werden (vgl. Abschnitt 9.7.6). Auch diese In­formationen sind im Repositorysystem gespeichert und müs­sen für die Anwender abrufbar sein.

• Das Data-Warehousing-System muss neue oder erweiterte Informationsbedürfnisse schnell befriedigen können. Hierzu ist es notwendig, alle relevanten Daten über das Data­Warehousing-System und die potentiellen Datenquellen zu­verlässig und schnell im Zugriff zu haben. Auch hierfür dient das Repositorysystem. Damit ist die Wiederverwendung be­reits bestehender Prozesse und vorhandener Daten sowie die effiziente Erschliessung neuer Datenquellen zu gewähr­leisten.

• Das Data-Warehousing-System muss schnell und zuverlässig Änderungen in den Datenquellen adaptieren; umgekehrt müssen bei Änderungen in den Datenquellen die Auswir­kungen auf die Data-Warehousing-Prozesse analysiert wer­den können. Auch hierzu ist es unabdingbar, alle Prozesse im Repositorysystem beschrieben und mit den Metadaten verknüpft zu haben.

Ohne ein seriöses Management der Metadaten und dem Einsatz leistungsfähiger Repositorysysteme sind umfangreiche Data­Warehousing-Systeme mit den genannten Eigenschaften nicht zu betreiben.

Integration der technischen Komponenten

Die Integration der verschiedenen technischen Komponenten eines Data-Warehousing-Systems ist für die Flexibilität, Robust­heit und Effizienz erforderlich. Wie bereits erwähnt, ist ein Data­Warehouse kein Produkt, das man kaufen kann, sondern man muss es bauen. Einzelne Werkzeuge lassen sich für die techni­schen Systemkomponenten kaufen, welche zur Realisierung der Data-Warehouse-Architektur notwendig sind. Leider bietet kein Hersteller eine Werkzeugpalette an, die vollständig miteinander integriert ist. Es ist vielmehr die Regel, dass von verschiedenen

EvaJuierung

9.7.10

Eigentümerschafl versus Nutzer

Sicherheit und Data-Mining

9. 7 Die kritischen Eifolgsjaktoren

Herstellern Produkte für verschiedene Systemkomponenten bezogen werden und ein nicht unerheblicher Teil der Integrati­onsarbeit selbst geleistet werden muss.

Der Trend geht aber eindeutig dahin, dass Werkzeuge besser miteinander integriert werden. Hierzu dienen wiederum Meta­datensysteme, wie Directories , Repositories oder wekzeugspezi­fische Schnittstellen-Systeme. Bei der Evaluierung von Data­Warehouse-Produkten sollte man neben der Funktionalität auf jeden Fall sehr stark auf die Integrierbarkeit mit anderen Pro­dukten achten, um so den eigenen Aufwand zu minimieren.

Die Beachtung der besonderen Sicherheitsaspekte

])ata-Warehousing bedingt die Beachtung spezifischer, neuer Sicherheitsaspekte. Da für ein Data-Warehouse die Daten häufig aus jenem Kontext, für die sie ursplÜnglich vorgesehen waren, herausgelöst werden und in einem neuen Kontext mit anderen Daten verknüpft werden, ist es ratsam, in Data-Warehousing­Projekten frühzeitig Aspekte der Datensicherheit und des Daten­schutzes zu belÜcksichtigen.

In den Unternehmen können Konflikte entstehen zwischen der Eigentümerschaft von Daten einerseits und dem Anspruch andererseits, dass Daten eine Ressource des Gesamtunterneh­mens darstellen. Wie weit geht die Dateneigentümerschaft und dessen Verantwortung für die Sicherheit und den Schutz der Daten? Neue Sicherheitsfragen können sich auch durch die Verwendung von Data-Mining-Prozessen auf umfangreichen Datenbeständen ergeben.

In traditionellen Datenbankabfragen wird gezielt nach Informa­tionen in den Datenbanken gesucht, d.h. die Datenbankanfrage muss explizit formuliert werden. Damit können Sicherheitsme­chanismen implementiert werden, die bestimmte Anfragen zulÜckweisen und damit die Daten gegen unberechtigten Zugriff schützen. Mit Data-Mining wird u.a. nach Mustern in den Daten gesucht, diese Datenbankanfragen sind unstrukturierter und weit weniger selektiv und bearbeiten weit grössere Datenbestände. Dies macht Sicherheitskonzepte erheblich schwieriger.

Das Unternehmen, das Data-Warehousing und Data-Mining betreiben will, muss hierfür ein umfassendes Sicherheitskonzept entwickeln. Dies kann nicht einzelnen Projekten überlassen werden.

215

9 Data Warehousing - strategisch betrachtet

9.7.11

Rollen im Projekt

RoUen des 'K«ti-teams • Data-Warehouse

Manager • Techni cher

Projektmanager • Data-Warehouse

Die Zusammenstellung des Teams

Für den Erfolg des Data-Warehouse-Vorhabens ist die richtige Zusammenstellung des Teams von besonderer Wichtigkeit. Das bedeutet, dass bei der Besetzung des Projekneams auf die Besonderheiten eines Data-Warehousing-Projektes Rücksicht genommen werden muss. Durch das Data-Warehousing entste­hen teilweise neue Funktionen, die besetzt werden müssen.

Zu unterscheiden ist vor allem zwischen Rollen im Kern-Team und im erweiterten Team. Bei Bedarf werden noch weitere Rollen ins Projekt miteinbezogen.

InvoMerte ROnen' '. 'il ..

Rollen des erweiter" tenTeams

. ~ w v

• Data-Warehouse • Untemehmens- oder Projekt Projektsponsor Bereichsleitung Ebene

• InformatikJeitung

OrRanisations-Mana/.?er • Analytiker der • ProjektsporlSor für die • Trainer Benutzer

Irifomwtionsbedürfntsse akwelle Iteraliorl • PotemieUe zukünftige Ebene • Erltwiek/er für • Experte aus dem Benutzer

Daler/zugriffe, Fachbereich • AUe Fachbereichs-Dalerwisua/isierung, • Technische mitarbeiter Business [rltelligenee Unterstützung Dala Minirlg Prozesse • Benutzer aus der

Zielgruppe • Metadalerl -Manager • Benutzerunterstützung

(Help Desk) l<'/

· Daten-Administrator Daten • Dala-Warehouse • Datenbank- • Anbieter externer Daten Ebene

Architekt Administratoren der • Anbieter von • ETlfU/lek/er der Daten- DatenquelIen ysteme Datenbank-Management-

AkqllisiliorlStogik • Ver.lOlwortliche und Systemen, Daten-• Dalerl-Qualitdts- Datenadminislr,!loren Akquisitionssoftware.

Analytiker der Datenquellen- Repositorysystemen systeme

• Data-Warehouse • Systemarchitekten • Entwickler der Technik Datenbank- • Technische Experten Datenuellensysteme Ebene Administratoren (Betriebssystem, Netz- • Hard-/Software Anbieter

• Data-Warehouse werk, Kommunikations- • Opemting Erltwiek/er software, Middleware) « '" 11'

Tabelle 9-3: Rollen in einem Data-Warehouse-Projekt

216

9.7.12

Systernverhalten überwachen

9.7.13

Externe Experten

9.8

9.8 Der Operational Data Store

Die Tabelle 9-3 zeigt in Anlehnung an [DWI 19961 eine Übersicht über die verschiedenen Rollen, die in einem umfangreichen Data-Warehouse-Projekt über die verschiedenen Iterationen wahrgenommen werden sollten. Die typischen Rollen in einem Data-Warehouse-Projekt sind kursiv dargestellt.

Die Überwachung der Data-Warehouse-Nutzung Die Nutzung des Data-Warehouse muss unterstützt und über­wacht werden. Es wurde bereits darauf hingewiesen, dass die Schulung der Anwender des Systems in der Projektplanung berücksichtigt werden muss. Nach der Fertigstellung eines Inkrements des Warehousing-Systems sollten die Anwender weiter unterstützt und die Nutzung des Systems überwacht werden.

Diese Überwachung lässt einerseits Rückschlüsse auf ein opti­miertes Systemverhalten zu und erlaubt andererseits die Ermitt­lung von besonders häufig, durchschnittlich, seltener oder nie abgefragter Daten. Diese Analysen sind für die ständige Verbes­serung des Systems von grossem Wert.

Die Nutzung von externer Expertise

Man sollte von anderen im Positiven wie im Negativen zu lernen versuchen. Data-Warehousing ist in jeder Beziehung ein kom­plexes Vorhaben, das mit hohen Investitionen verbunden ist. Von daher ist es gerechtfertigt, jede denkbare Massnahme zu ergreifen, um die Wahrscheinlichkeit für den Erfolg des Vorha­bens zu steigern.

Eine ganz entscheidende Massnahme besteht in der Bereitschaft, von anderen DW-Projekten zu lernen. Das Geld, das in die Nutzung von externer Expertise, sei es in Form von Schulungen, Besuch von Konferenzen, Mitarbeit in Benutzervereinigungen oder Engagement von Experten im Projekt investiert wird, ist Ld.R. gut angelegt. Dabei ist darauf zu achten, dass sich die Lernkurve im Unternehmen selbst gezielt nach oben entwickelt.

Der Operational Oata Store Neben dem Data-Warehouse wird immer häufiger auch der Begriff des "Operational Data Store (ODS)" verwendet. Eine allgemein anerkannte Definition hierfür gibt es nicht. Daher ist das Verständnis, was ein ODS ist und wofür er dient, sehr unter­schiedlich. Einmal werden darunter einfach alle operationellen Datenspeicher zusammengefasst, ein anderes mal wird unter

217

9 Data Warehousing - strategisch betrachtet

Zeitpunkt-bezoges Laden im DWH

Aktualität der DWH­Daten

Definition ODS

Transaktionsvolumen und Datenmenge

218

einem ODS ein sehr zeitnahes Data-Warehouse verstanden. Wir wollen hier das Thema "Operational Data Store" nicht vertiefen, sondern lediglich der Vollständigkeit halber unser Verständnis eines ODS kurz erläutern.

In ein Data-Warehouse werden die Daten zu definierten Zeit­punkten durch Daten-Akquisitionsprozesse aus den operativen Quellensystemen übertragen und dort zeitpunkt-bezogen abge­legt. Zwischen zwei solchen definierten Zeitpunkten verändert sich der Zustand des Data-Warehouse nicht mehr. Es stehen mehrere Generationen von Daten in einem konsistenten und stabilen Zustand für Auswertungen und Analysen zur Verfügung. Je grösser der Zeitraum zwischen zwei Ladeprozessen in ein Data-Warehouse ist (eine Woche, ein Monat, ein Quarta!), desto älter, oder weniger aktuell, ist die jüngste Datengeneration, welche den Benutzern des Data-Warehouse zur Verfügung steht.

Für manche Analysen und Auswertungen werden sehr aktuelle Daten benötigt, die trotzdem über einen gewissen kurzen Zeit­verlauf zurückverfolgt werden können. Dies ist beispielsweise bei kurzfristigen Recherchen der Fall. Solche Daten stellt weder das Data-Warehouse wegen der mangelnden Aktualität noch ein operatives System wegen der fehlenden Historie zur Verfügung.

Unser Verständnis von einem ODS geht davon aus, dass mit einem ODS genau dieser Mangel behoben werden kann. Es wird neben den operativen Systemen ein grosser Datenspeicher zur Verfügung gestellt, in den Daten ereignisbezogen übertragen werden. Beispielsweise wird von definierten Datenbanken jede Datenbank-Transaktion synchron oder asynchron in einen ODS repliziert. Dort werden die Originaldaten nicht überschrieben, sondern durch einen neuen Datensatz ergänzt. Daraus entsteht eine kurzfristige und sehr zeitnahe Historie der Daten.

Aufgrund der vielen Transaktionen, die in einen ODS repliziert werden, entstehen in kurzer Zeit sehr grosse Datenmengen, so dass die Daten des ODS häufig und rollend (d.h. die ältesten Datensätze zuerst) wieder gelöscht oder in aggregierter Form in das Data-Warehouse übertragen werden müssen. Eine langfristi­ge Historie kann so nicht aufgebaut werden. Ausserdem sind durch den sehr kurzen, im Sekunden- oder Minutenbereich liegenden Datenfluss zwischen den Quellensystemen und dem ODS kaum Verbesserungen im Datenmodell oder der Datenqua­lität zu erzielen. Das Datenmodell des ODS repräsentiert daher die Daten mehr oder weniger in derselben Semantik, in dersel-

9.9 Die strategischen Dimensionen des Data-Warehousing

ben Struktur und derselben Qualität wie sie auch den Original­systemen zur Verfügung stehen.

Kritische Betrachtung Ein ODS kann für bestimmte Anwendungen sinnvoll sein, für umfangreiche Analysen ist er es nicht. Solche Analysen benöti­gen einen konsistenten und stabilen Zustand der Daten, den nur das Data-Warehouse bietet. Ein ODS verändert aufgrund der ständigen Datenbanktransaktionen seinen Zustand ständig. Von daher ist der Charakter eines ODS einem operativen System viel ähnlicher als einem Data-Warehouse. Daneben muss beachtet werden, dass ein ODS-System teuer und technisch sehr komplex ist. Sein Nutzen muss daher genau analysiert werden. Die oft aufgestellte Behauptung, ein ODS würde die Entwicklung eines umfangreichen Data-Warehouse-Systems erst ermöglichen oder zumindest stark vereinfachen, ist hingegen auf jeden Fall unrich­tig und rechtfertigt weder die Kosten noch den Aufwand für ein ODS-System.

9.9

9.9.1

DM Disziplinen für DWH

DWH als Initiative für modemes Datenma­nagement

DWHerübrigt klassische Funktionen

Die strategischen Dimensionen des Data-Warehousing

Auswirkungen auf die Organisation des Datenmanagements Die besten Voraussetzungen für den Erfolg eines Data­Warehousing-Vorhabens finden sich naturgemäss in jenen Un­ternehmen, die bereits ein profeSSionelles Datenmanagement betreiben.

Data Warehousing führt alle Disziplinen des modernen Daten­managements zusammen: Entwurf von Datenarchitekturen und Datenmodellen, Entwicklung von Datenmigrationsszenarien und Durchführung der Datenrnigration mit verschiedenen techni­schen Hilfsmitteln, Einsatz moderner Datenbanktechnologie, Verwaltung komplexer Datenbankanwendungen, Einsatz von Repositorysystemen und integriertes Metadatenmanagement sowie Daten-Qualitätsmanagement.

Dort, wo ein umfassendes Datenmanagement nicht vorhanden ist, sollten Data-Warehouse-Initiativen dazu genutzt werden, ein modernes Datenmanagement zu etablieren, bislang verstreute Organisationseinheiten zusammenzuführen und Synergien freizusetzen. Data-Warehousing kann den Aufbau eines inte­grierten Datenmanagements fördern oder sogar erzwingen.

Umgekehrt wird ein erfolgreiches Data-Warehousing auch auf die Organisation des Datenmanagements oder anderer Organisa­tionseinheiten zurückwirken und einige klassische Funktionen in

219

9 Data Warehousing - strategisch betrachtet

9.9.2

Tabelle 9-4: Die Kategorien der Strategieentwicklung

220

Frage stellen. Eine leistungsfähige Data-Warehouse-Infrastruktur emanzipiert die Mitarbeiter in den Fachabteilungen dahinge­hend, dass sie bei der Suche nach Daten und Informationen im Informationssystem des Unternehmens möglichst unabhängig von der Unterstützung der Informatikabteilungen sein sollten. Dies macht die klassische Auskunftsbereitschaft (oder die Infor­mation Centers) als Organisationseinheiten in den Unternehmen langfristig überflüssig. Die Expertise der dort engagierten Mitar­beiter ist aber nach wie vor wertvoll. Sie kennen Ld.R. die Daten der Quellensysteme sehr gut. Daher sollten ihre Kenntnisse im Data-Warehousing genutzt werden und die Mitarbeiter neue Aufgaben in diesem Umfeld übernehmen.

Data-Warehousing als strategische Komponente im Unternehmen

Geschäftsstrategien werden entwickelt, um Wettbewerbsvorteile gegenüber der Konkurrenz zu erzielen, diese langfristig zu sichern und die Position des Unternehmens am Markt zu stärken. Die Kategorien, in denen solche Strategien entwickelt werden können, zeigt der folgende Überblick:

Kat~Orie Ausprägung *

KoS(envorteil die Fähigkeit, preiswerter anzubieten

ProduktvotteU die Fähigkeit, Produkte und Dienstleistungen anzubie-ten, die aufgrund ihrer Qualität gefragter sind

Fokulisierung die Fähigkeit, die spezifIschen Bedürfnisse bestimmter Märkte und/oder Kunden besser zu befriedigen

Gesch.windigkeit die Fähigkeit, Markt- und Kundenbedürfnis e schneller zu befriedigen

Flexibilität. die Fähigkeit, Änderungen am Markt schneller zu adaptieren

Strategisches Denken unterscheidet sich wesentlich von jenem Denken, das zur Lösung taktischer resp. routinemässiger Pro­blemstellungen angewendet wird. Die folgende Abbildung 9-13 zeigt in Anlehnung an [Boar 19941 die Dimensionen, in denen Denken stattfinden kann.

Abbildung 9-13: Dimensionalität des Denkens: punktbe­zogenes Denken

Abbildung 9-14: Dimensionalität des Denkens: raumbezo­genes Denken

9.9 Die strategischen Dimensionen des Data-Warehousing

Abstrakt Di mensionalität der Problemstellung

Vergangenheit Zukunft

Konkret

Üblich ist das punktbezogene Denken für die Lösung täglicher, profaner Problemstellungen. Es wird jeweils nur über eine Problemstellung, in der Gegenwart und im Konkreten nachge­dacht. Für die meisten routinemässigen Problemstellungen ist solches Denken absolut ausreichend und sinnvoll. Strategisches Denken erfordert aber mehr, es erfordert das Denken in Lö­sungsräumen.

Abstrakt Dimensionalität

Konkret

Denken in Lösungsräumen bedeutet demnach, in verschiedenen Problemkategorien (vgl. Tabelle 9-4), über verschiedene Ab­straktionsstufen und in unterschiedlichen Zeiträumen zu denken. Was hat dies alles nun mit dem Data-Warehouse-Ansatz zu tun?

221

9 Data Warehousing - strategisch betrachtet

lösungsräume im DWH

Wertschöpfungskette

DWH System als Ergebnis strategi­scherÜberlegungen

222

Wie wir gesehen haben, erfordert strategisches Denken Mehrdi­mensionalität, das Denken in Lösungsräumen. Eine der drei Dimensionen des strategischen Denkens ist die Dimension Zeit. Ein Data-Warehouse ermöglicht das Navigieren in dieser Dimen­sion, über verschiedene Abstraktionsstufen, in verschiedenen Sichten auf die Daten des Unternehmens. Die Zeitdimension im Data-Warehouse erlaubt nicht nur einen Blick zurück in die Vergangenheit, sondern mit der Entwicklung und dem Einsatz von Prognosemodellen auch eine Adaption der Zukunft.

In der Wertschöpfungskette

Daten :> Informationen :> Wissen :> Denken und Entscheiden :> Handeln unterstützt das Data-Warehouse zunächst einmal nur die beiden ersten Glieder. Bei Einsatz von Data-Mining-Techniken und Prognosemodellen z.T. auch noch das dritte. Die Qualität der Daten- und Informationsbereitstellung bildet die Grundlage, auf der sich die Qualität von Wissen, Entscheiden und Handeln entwickeln und steigern kann. Zusätzlich fordert und fördert der Umgang der Mitarbeiter mit den Informationen aus dem Data­Warehouse das mehrdimensionale, strategische Denken.

So betrachtet, ist die Einführung eines Data-Warehousing­Systems in einem Unternehmen selbst das Ergebnis strategischer Überlegungen, um die strategische Schlagkraft des Unterneh­mens als Ganzes zu erhöhen. Dieser Effekt wird noch gesteigert, wenn die Einführung des Data-Warehousing-Systems durch organisatorische und personelle Massnahmen begleitet wird, welche die Nutzung und den Nutzen des Informationssystems erhöhen. Zu diesen Massnahmen gehören die prozess-orientierte Organisation der Informationsbereitstellung und -nutzung (vgl. Kapitel 10), die Schulung und Weiterbildung der Mitarbeiter, die Verfügbarkeit aller relevanten Informationen zum richtigen Zeitpunkt am richtigen Ort und in der erforderlichen Qualität, sowie die weitgehende, funktionsgerechte Delegation von Verantwortung und Kompetenzen in der Informationsnutzung und -verarbeitung auf jede Mitarbeiterstufe. Data-Warehousing verlangt nicht nur das Denken in IT-Kategorien, sondern muss den Umgang mit Informationen im gesamten Unternehmen positiv beeinflussen.

9.10

9.10 Kemaussagen zum Data-Warehouse

Kernaussagen zum Data-Warehouse

1. Konzepte und Technologien für umfangreiche und komplexe Data-Warehouse-Projekte sind heute vor­handen.

2. Ein erfolgreiches Data-Warehouse soUte nicht nur Date, sondern auch Metadaten integrieren.

3. Die Entwicklung einer Datenarchitektur und eines konsistenten Zeitkonzeptes ist eine notwendige Vor­aussetzungfür erj'olgreiches Data-Warehousing.

4. Ein gemischter Top-Down/Bottom-Up-Ansatz ist für den Aufbau eines Data-Warehouses empfehlenswert.

5. Die Beachtung kritischer Erfolgsfaktoren ist für ein erfolgreiches Data-Warehousing unabdingbar.

6. Die effiziente Nutzung der Daten in einem Data­Warehouse setzt eine hohe Qualitdt der prdsentierten Daten voraus.

7. Data-Warehousing fördert das mehrdimensionale, strategische Denken und erhöht die Lösungskompetenz der Mitarbeiter auf allen Stufen des Unternehmens.

8. Data-Warehousing führt viele Disziplinen des Daten­managements zusammen. Ein leistungsfdhiges, inte­griertes Datenmanagement ist daher die beste Voraus­setzungfür erfolgreiche Data-Warehouse-Vorhaben.

223