Detlef Apel · Wolfgang Behme · Rüdiger Eberlein · Christian Merighi
Datenqualität erfolgreich steuern
Praxislösungen für Business-Intelligence-Projekte
3., überarbeitete und erweiterte Auflage
Edition TDWI
Detlef Apel · [email protected] Wolfgang Behme · [email protected]üdiger Eberlein · [email protected] Merighi · [email protected]
Fachlektorat: Marcus PilzLektorat: Christa PreisendanzCopy-Editing: Annette Schwarz, DitzingenHerstellung: Birgit BäuerleinUmschlaggestaltung: Anna Diechtierow, HeidelbergDruck und Bindung: M.P. Media-Print Informationstechnologie GmbH, 33100 Paderborn
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
ISBN:Buch 978-3-86490-042-6PDF 978-3-86491-641-0ePub 978-3-86491-642-7
3., überarbeitete und erweiterte AuflageCopyright © 2015 dpunkt.verlag GmbHWieblinger Weg 1769123 Heidelberg
Die vorliegende Publikation ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Verwendung der Texte und Abbildungen, auch auszugsweise, ist ohne die schriftliche Zustimmung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Vervielfältigung, Übersetzung oder die Verwendung in elektronischen Systemen.Es wird darauf hingewiesen, dass die im Buch verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken- oder patentrechtlichem Schutz unterliegen.Alle Angaben und Programme in diesem Buch wurden mit größter Sorgfalt kontrolliert. Weder Autor noch Verlag können jedoch für Schäden haftbar gemacht werden, die in Zusammenhang mit der Verwendung dieses Buches stehen. 5 4 3 2 1 0
Fachliche Beratung und Herausgabe von dpunkt.büchern in der Edition TDWI: Marcus Pilz · [email protected]
v
Geleitwort zur 3. Auflage
Es zeugt von einem anhaltenden Interesse für das Thema Datenqualität und auchfür die Qualität der vorliegenden Publikation, dass nun schon die 3. Auflageerscheinen kann. Ich danke den Autoren Detlef Apel, Dr. Wolfgang Behme, Rüdi-ger Eberlein und Christian Merighi für die überaus fundierten Ausführungen unddie Breite, in der sie das Feld der Datenqualität im Kontext von Business Intelli-gence abhandeln. Es ist deutlich erkennbar, dass alle Autoren die Problem-domäne um schlechte Datenqualität in Unternehmen nicht nur theoretisch erfassthaben, sondern aus ihrer Praxiserfahrung heraus auch Lösungsansätze zu liefernvermögen. Auch in der 3. Auflage ist es zu Anpassungen und Erweiterungengekommen, die dem Buch gutgetan haben und dessen Wert noch steigern.
Da in der Unternehmenspraxis der Druck zur Verbesserung der Datenquali-tät nicht nachlässt, bin ich sicher, dass die vielen hilfreichen Handreichungen zurArbeit in BI-Projekten das Buch zu einem ständigen Begleiter der Projektmitar-beiter machen. Darüber hinaus nimmt das Werk auch einen festen Platz in derLiteraturliste der Hochschulen und Universitäten ein, denn es vermittelt in sehranschaulicher Art und Weise die Problemstellungen und die Lösungswege, welchewir den Studierenden näherbringen wollen.
In diesem Sinn empfehle ich allen Lesern die Lektüre der 3. Auflage, sei es alsLehrstoff oder als Kompendium zur eigenen Projektarbeit.
Univ.-Prof. Dr. Peter Chamoni
vii
Vorwort zur 3. Auflage
Nach Schätzungen (vgl. [Crosby 1979, S. 15] und [Juran 1988, S. 1]) verursachtschlechte Datenqualität in Unternehmen Verluste in Höhe von bis zu 25 Prozentdes operativen Gewinns. Aufgrund der zunehmenden Integration von IT in dieGeschäftsprozesse der Unternehmen, der Anforderungen hinsichtlich Com-pliance sowie der Einbeziehung unternehmensexterner Daten (z.B. Big Data)nimmt die Bedeutung von Datenqualität nochmals erheblich zu. Die Hoffnungvieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP), CustomerRelationship Management (CRM), Supply Chain Management (SCM) u.a. hatsich nicht erfüllt und macht endlich Platz für wirksame Maßnahmen.
Im Mittelpunkt dieses Buches steht die Vermittlung langjähriger Erfahrungenaus BIProjekten mit DatenqualitätsmanagementAktivitäten bei Unternehmenunterschiedlicher Branchen. Neben der anwender und praxisorientierten Dar-stellung der verschiedenen Bereiche von Datenqualitätsmanagement (DQM) wer-den die Best Practices und Lessons Learned dargestellt, sodass der Leser eigeneProjekte in diesem Umfeld erfolgreich durchführen kann.
Generell werden Daten über eine Benutzerschnittstelle erfasst oder durchGeschäftslogik von ITSystemen erzeugt. Meistens fließen die Daten weiter inandere ITSysteme und werden dabei transformiert. Ein Datenfluss kann vieleStationen haben. Das Data Warehouse ist häufig nur die »Endstation« solcherDatenflüsse. Werden fehlerhafte Daten nicht erkannt und behandelt, führen sieim Verlauf des Datenflusses zu Folgefehlern, die sich leicht zu größeren Proble-men aufschaukeln können. Es liegt also auf der Hand, ein Datenqualitätsmanage-ment möglichst frühzeitig im Datenfluss anzusetzen. Nachhaltiges Datenqua-litätsmanagement ist daher idealerweise eine unternehmensweite Aktivität, dieggf. von Vorhaben für Business Intelligence oder auch Customer RelationshipManagement angestoßen werden muss.
In den meisten Unternehmen kommen fehlerhafte Daten erst im DataWarehouse ans Licht. Das liegt daran, dass dort alle Daten in Gänze und verdich-tet betrachtet werden, während beim Datenzugriff durch operative Systeme nureinige Felder in dem einen oder anderen Datensatz zutage treten. SchlechteDatenqualität lässt sich im Data Warehouse nicht verbergen. Allerdings ist es oft
Vorwort zur 3. Auflageviii
genau diese schlechte Datenqualität, die die Akzeptanz der BIAnwendung durchden Endanwender in den Fachbereichen verhindert und häufig direkt zum Miss-erfolg des mit dem Data Warehouse verbundenen Vorhabens führt. Wer willschon wichtige geschäftliche Entscheidungen auf fehlerhafte Daten stützen? Dalässt es sich noch besser aus dem Bauch heraus entscheiden.
Dieses Buch hat nicht den Anspruch eines unternehmensweiten Datenquali-tätsmanagements, sondern fokussiert auf den Bereich Business Intelligence, woder Schmerz mit fehlerhaften Daten am größten ist. Unter Business Intelligence(BI) wird ein integrierter, unternehmensspezifischer, ITbasierter Gesamtansatzzur Unterstützung betrieblicher Entscheidungen verstanden. »Business Intelligenceist der Prozess, der Daten in Informationen und weiter in Wissen umwandelt«(Definition von Howard Dresdner (Gartner) 1989). Unternehmensentscheidun-gen und Prognosen stützen sich auf dieses Wissen und führen zu geschäftlichemMehrwert. Business Intelligence kommt sowohl zur Unterstützung strategischerEntscheidungen als auch im operativen Bereich zum Einsatz.
Business Intelligence umfasst ein breites Spektrum an Anwendungen undTechnologien und ist der Oberbegriff für Data Warehousing, Data Mining,Online Analytical Processing und Analytische Anwendungen. Im weiteren Sinneumfasst Business Intelligence auch die Erschließung unstrukturierter Daten mit-tels Content und Dokumentenmanagement. Letztgenannte Bereiche sind jedochnicht Gegenstand dieses Buches. Betrachtet wird lediglich die Business Intelli-gence im engeren Sinn, also auf strukturierte Daten bezogen.
Abb. 1 Grobe Architektur für Business Intelligence
Das Data Warehouse ist eine konsolidierte Datenhaltung zur Unterstützung vonReporting und Analyse. »Ein Data Warehouse ist eine themenorientierte, integ-rierte, chronologisierte und persistente Sammlung von Daten, um das Manage-ment bei seinen Entscheidungsprozessen zu unterstützen« (vgl. [Inmon 1996]).
Das Buch gliedert sich in drei Teile. Im ersten Teil wird beschrieben, wasDatenqualitätsmanagement ausmacht. Der zweite Teil befasst sich mit derUmsetzung und stellt insbesondere technische Hilfsmittel dar. Im dritten Teil wird
Reporting, Analyse, Data Mining Knowledge-Management
Data Warehouse Content-, Dokumentenmanagement
Struktuierte Daten Unstruktuierte Daten
Business-Intelligence-Portal
Endanwender der Fachbereiche
ixVorwort zur 3. Auflage
erklärt, wie man Verfahren, Methoden, Organisation und Werkzeuge des Daten-qualitätsmanagements in der Praxis einsetzt.
Zu Beginn des ersten Teils (Kapitel 1) werden die wesentlichen Begriffe imZusammenhang mit Datenqualitätsmanagement definiert. In Kapitel 2 wirderklärt, woran sich schlechte Datenqualität festmacht und wo die Ursachen dafürliegen. In Kapitel 3 wird dargelegt, warum es sich lohnt, ein Datenqualitätsma-nagement aufzusetzen. In Kapitel 4 werden die organisatorischen Belange inBezug auf die Datenqualität ausführlich geschildert. Die Architektur fürBIAnwendungen wird unter dem Blickwinkel der Datenqualität in Kapitel 5betrachtet. In Kapitel 6 wird Big Data Analytics mit den Herausforderungen andas Datenqualitätsmanagement diskutiert. Hierbei wird auch auf den Bereich derunstrukturierten Daten eingegangen. Das Kapitel 7 beschreibt, wie sich Daten-qualität messen lässt.
Im zweiten Teil des Buches werden wichtige Prinzipien der technischenUmsetzung des Datenqualitätsmanagements beschrieben. Dabei werden dieWerkzeuge zur Unterstützung des Datenqualitätsmanagements betrachtet, ange-fangen beim Metadatenmanagement über Data Profiling, die Validierung, Berei-nigung und Anreicherung von Daten bis hin zur fortlaufenden Überwachung derDatenqualität. Anschließend wird auf die Integration der Werkzeuge in dieAnwendungslandschaft der jeweiligen ITUmgebung eingegangen. Am Ende die-ses Buchteils werden Kriterien zur Produktauswahl aufgeführt.
Der dritte und letzte Teil des Buches bildet Datenqualitätsmanagement aufdas Vorgehen in BIProjekten ab. Dabei werden die einzelnen Phasen einesBIProjekts von der Vorstudie über Spezifikation, Design und Umsetzung bis zumBetrieb im Unternehmen betrachtet. Für jede Projektphase werden die jeweils ein-zusetzenden Elemente des Datenqualitätsmanagements benannt, die im zweitenTeil des Buches beschrieben wurden. Somit bietet der dritte Buchteil für Projekt-verantwortliche eine unverzichtbare Hilfestellung zur erfolgreichen Durchfüh-rung von Projekten.
Was hat sich in der 3. Auflage geändert? Im 1. Teil des Buches wurde dasThema Big Data neu aufgenommen, da es für die Welt der Business Intelligenceeine neue Evolutionsstufe darstellt und somit Auswirkungen auf das Datenquali-tätsmanagement hat. Weiterhin wurden in allen Kapiteln Aktualisierungen vorge-nommen.
Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi
Troisdorf, Hannover, München, Wien, im Dezember 2014
xi
Inhaltsübersicht
Teil I 1
1 Datenqualität 3
2 Ausprägungen und Ursachen schlechter Datenqualität 19
3 Auswirkungen schlechter Datenqualität 37
4 Organisation 53
5 Referenzarchitektur für Business-Intelligence-Anwendungen 69
6 Big Data 91
7 Kennzahlen zur Messung der Datenqualität 103
Teil II 117
8 Verbesserung der Datenqualität im Quellsystem 123
9 Data Profiling 131
10 Erfolgreiche Datenvalidierung und -filterung 175
11 Standardisierung und Bereinigung 187
12 Datenanreicherung 219
13 Verbesserung der Datenqualität in der Bereitstellung undVisualisierung 233
14 Wertschöpfung durch Metadaten 253
15 Data Quality Monitoring 269
16 Produktauswahl und -integration 285
Inhaltsübersichtxii
Teil III 295
17 Datenqualitätsmanagement in einer Studie 301
18 Datenqualitätsmanagement in der Spezifikation 319
19 Datenqualitätsmaßnahmen in der Konstruktionsphase 335
20 Steuerung der Datenqualität in der Realisierung 345
21 Steuerung der Datenqualität im Betrieb 351
Anhang 355
Abkürzungen 357
Literatur 359
Index 367
xiii
Inhaltsverzeichnis
Teil I 1
1 Datenqualität 3
1.1 Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Qualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.4 Datenqualitätsmanagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Ausprägungen und Ursachen schlechter Datenqualität 19
2.1 Geschäftstreiber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2 Ausprägungen schlechter Datenqualität . . . . . . . . . . . . . . . . . . . . . . 242.3 Ursachen schlechter Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 Beispiel: Finanzdienstleister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.5 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3 Auswirkungen schlechter Datenqualität 37
3.1 Datenqualitätskosten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2 Gesetzliche Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3 Business-Case-Betrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.4 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4 Organisation 53
4.1 Aufbauorganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.2 Ablauforganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.3 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Inhaltsverzeichnisxiv
5 Referenzarchitektur für Business-Intelligence-Anwendungen 69
5.1 Referenzarchitektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.1.1 Datenquellen und Datenströme . . . . . . . . . . . . . . . . . . . . . . 715.1.2 Datenintegration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.1.3 Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.1.4 Informationsbereitstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 735.1.5 Anwender und Rollen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745.1.6 Operative Anwendungen und Prozesse . . . . . . . . . . . . . . . . 745.1.7 Querschnittsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.2 Problemstellen und Lösungsansätze hinsichtlich der Datenqualität . . 755.2.1 Datenquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.2.2 Datenintegration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.2.3 Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.2.4 Informationsbereitstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.3 Architektur für Datenqualitätsmanagement . . . . . . . . . . . . . . . . . . . . 815.4 Serviceorientierte Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 835.5 Master Data Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.5.1 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.5.2 Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.6 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6 Big Data 91
6.1 Definitionen von Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 916.1.1 Fachlich-datenbezogene Sicht . . . . . . . . . . . . . . . . . . . . . . . 936.1.2 Gartner-Sicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946.1.3 Technisch-infrastrukturelle Sicht . . . . . . . . . . . . . . . . . . . . . 95
6.2 Bedeutung der Datenqualität bei Big Data . . . . . . . . . . . . . . . . . . . . . 956.3 Herausforderung externe Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 976.4 Herausforderung unstrukturierte Daten . . . . . . . . . . . . . . . . . . . . . . . 996.5 Herausforderung Geschwindigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 1006.6 Herausforderung Volumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1016.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7 Kennzahlen zur Messung der Datenqualität 103
7.1 Anwendungsmöglichkeiten von Kennzahlen . . . . . . . . . . . . . . . . . . 1047.2 Messpunkte für Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1067.3 DQ-Metriken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1097.4 Kennzahlen für ausgewählte Datenqualitätskriterien . . . . . . . . . . . . 1127.5 Kennzahlenbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1147.6 Kennzahlenformular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1157.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
xvInhaltsverzeichnis
Teil II 117
8 Verbesserung der Datenqualität im Quellsystem 123
8.1 Vorbeugung vor neuen Datenqualitätsproblemen . . . . . . . . . . . . . . 1248.2 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
9 Data Profiling 131
9.1 Data-Profiling-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1329.1.1 Schritt 1: Integration der Daten . . . . . . . . . . . . . . . . . . . . 1339.1.2 Schritt 2: Analyse der integrierten Daten . . . . . . . . . . . . . 1339.1.3 Schritt 3: Darstellung der Ergebnisse . . . . . . . . . . . . . . . . 1349.1.4 Schritt 4: Fachliche Bewertung der Ergebnisse . . . . . . . . . 134
9.2 Zusammensetzung des Data-Profiling-Teams . . . . . . . . . . . . . . . . . 1359.3 Vorgehensweise beim Data Profiling . . . . . . . . . . . . . . . . . . . . . . . 1369.4 Data-Profiling-Verfahren zur Analyse von Attributen . . . . . . . . . . . 137
9.4.1 Standardanalysen auf Attributebene . . . . . . . . . . . . . . . . . 1379.4.2 Analyse der Attribute mit Geschäftsregeln . . . . . . . . . . . . 150
9.5 Data-Profiling-Verfahren zur Analyse von Datensätzen . . . . . . . . . 1589.5.1 Analyse auf Schlüsselattribute . . . . . . . . . . . . . . . . . . . . . 1589.5.2 Analyse auf abgeleitete Werte . . . . . . . . . . . . . . . . . . . . . . 1619.5.3 Analyse von Datensätzen mit Geschäftsregeln . . . . . . . . . 162
9.6 Data-Profiling-Verfahren zur Analyse von Tabellen . . . . . . . . . . . . 1639.6.1 Analyse von Tabellen auf referenzielle Abhängigkeiten . . 1639.6.2 Analyse von Tabellen mit Geschäftsregeln . . . . . . . . . . . . 168
9.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
10 Erfolgreiche Datenvalidierung und -filterung 175
10.1 Validierung auf vier Ebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17510.2 Filterung fehlerhafter Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17610.3 Validierung bei Extraktion oder Laden . . . . . . . . . . . . . . . . . . . . . . 18010.4 Arten der Datenvalidierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18210.5 Erstellung der Validierungsregeln und Speicherung der Ergebnisse . 18410.6 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
11 Standardisierung und Bereinigung 187
11.1 Standardisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18711.2 Datenbereinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18911.3 Standardisierung und Bereinigung im ETL-Prozess . . . . . . . . . . . . . 21711.4 Verfahren für nicht zu bereinigende Daten . . . . . . . . . . . . . . . . . . . 21811.5 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Inhaltsverzeichnisxvi
12 Datenanreicherung 219
12.1 Wirtschaftsinformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21912.2 Geografische Informationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22212.3 Soziodemografische Informationen . . . . . . . . . . . . . . . . . . . . . . . . . 22412.4 Haushaltsbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22512.5 Standards zur Klassifizierung von Waren und Dienstleistungen . . . . 22612.6 Branchenklassifizierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22912.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
13 Verbesserung der Datenqualität in der Bereitstellung und Visualisierung 233
13.1 Bereitstellung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23313.2 Visualisierung der Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23513.3 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
14 Wertschöpfung durch Metadaten 253
14.1 Metadaten: Begriff und Strukturierung . . . . . . . . . . . . . . . . . . . . . . 25314.2 Metadatenarchitekturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25514.3 Metadatenmanagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25814.4 Metadatenkategorien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26014.5 Probleme bei der Erstellung: Motivation und Aktualität . . . . . . . . . 26514.6 Nutzung von Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26514.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
15 Data Quality Monitoring 269
15.1 DQ-Planung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27015.2 DQ-Assessment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27115.3 DQ-Phasenkonzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27415.4 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27715.5 Verantwortlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28315.6 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
16 Produktauswahl und -integration 285
16.1 Anbieter und Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28516.2 Auswahlkriterien im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28716.3 Funktionale Kriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28716.4 Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29116.5 Einbeziehung der Fachbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29316.6 Sprachen und Länder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29316.7 Einbindung in DQM-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29416.8 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
xviiInhaltsverzeichnis
Teil III 295
17 Datenqualitätsmanagement in einer Studie 301
17.1 Analyse des Istzustands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30217.2 Entwurf des Sollkonzepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31117.3 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31617.4 Umsetzungsplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31717.5 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
18 Datenqualitätsmanagement in der Spezifikation 319
18.1 Spezifikation der Schnittstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31918.2 Definition der Rollen in der Datenorganisation . . . . . . . . . . . . . . . 32018.3 Festlegung der Datenqualitätsziele . . . . . . . . . . . . . . . . . . . . . . . . . 32218.4 Bezeichnung und Definition der Objekte . . . . . . . . . . . . . . . . . . . . 32518.5 Festlegung der Geschäftsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32718.6 Messung der Qualität von Definitionen und Geschäftsregeln . . . . . 32918.7 Data Profiling in der Spezifikation . . . . . . . . . . . . . . . . . . . . . . . . . 32918.8 Entwurf des Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33018.9 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
19 Datenqualitätsmaßnahmen in der Konstruktionsphase 335
19.1 Übertragung der Datenqualitätsziele . . . . . . . . . . . . . . . . . . . . . . . . 33519.2 Konventionen und Richtlinien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33619.3 Entwurf des Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33719.4 Erstellung eines Prototypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34319.5 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
20 Steuerung der Datenqualität in der Realisierung 345
20.1 Einhaltung der Konventionen, Richtlinien und Konzepte . . . . . . . . 34520.2 Data Profiling in der Realisierung . . . . . . . . . . . . . . . . . . . . . . . . . . 34620.3 Einbindung der Datenverantwortlichen und Benutzer . . . . . . . . . . 34720.4 Realisierung der Datenqualitätsmaßnahmen . . . . . . . . . . . . . . . . . . 34820.5 Durchführung von Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34920.6 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
21 Steuerung der Datenqualität im Betrieb 351
21.1 Monitoring und Berichtswesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35221.2 Ausbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35321.3 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
Inhaltsverzeichnisxviii
Anhang 355
Abkürzungen 357
Literatur 359
Index 367
3
1 Datenqualität
Der Begriff Datenqualität ist sehr stark subjektiv geprägt. Sowohl bei der Befra-gung von Fachleuten als auch in der Literatur erhält man zu diesem Thema sehrunterschiedliche Antworten. Viele Autoren gehen in Ermangelung einer einheitli-chen Definition daher auf die beiden Grundbestandteile des Begriffs zurück unddefinieren sowohl Daten als auch Qualität allgemein und folgen damit LarryEnglish, einem der Pioniere auf dem Gebiet der Datenqualität: »The best way tolook at information quality is to look at what quality means in the general mar-ketplace and then translate what quality means for information« (vgl. [English1999, S. 15ff.]).
In diesem Kapitel werden zunächst die grundlegenden Begriffe Daten undQualität und daraus abgeleitet der Begriff Datenqualität erläutert. Nach einerausführlichen Beschreibung der Eigenschaften wird auf unterschiedliche Taxono-mien eingegangen. Den Abschluss des Kapitels bildet das Thema Datenqualitäts-management.
1.1 Daten
Die aktuelle Situation in den Unternehmen ist durch eine steigende Datenflutgekennzeichnet. Beispielsweise fallen durch die Vernetzung von Scannerkassen inSupermärkten oder die Speicherung von Verbindungsdaten in der Telekommuni-kationsbranche große Datenmengen an. Dieser Trend wird durch neue Entwick-lungen wie Radio Frequency Identification (RFID) noch verstärkt. Nach Schät-zungen der GartnerGruppe würde die Einzelhandelskette WalMart täglichDaten im Umfang von 7 Terabyte generieren, wenn alle Artikel mit RFIDMar-ken versehen würden (vgl. [Raskino/Fenn/Linden 2005]). Gemäß einer IDC-Stu-die (vgl. [IDC 2011]) ist die weltweit produzierte Datenmenge im Jahr 2011 aufein Volumen von 1,8 Zettabyte1 angestiegen. Daten allein haben jedoch nur einenbegrenzten Wert, erst in einem sinnvollen Kontext werden daraus unternehmens-relevante Informationen.
1. 1 Zettabyte = 1 Billion Gigabyte
1 Datenqualität4
Bisher gibt es keine einheitliche Definition des Begriffs Daten. Den meistenDefinitionen ist jedoch gemein, dass sie Daten nicht getrennt, sondern im Zusam-menhang mit Information und Wissen betrachten, weil sich die Begriffe jeweilsergänzen (vgl. [English 1999, S. 18; Helfert 2002, S. 13; Müller 2000, S. 5ff.u.a.]). Zumeist findet eine Hierarchisierung statt, deren unterstes Glied die Datendarstellen. Hierbei wird häufig die Semiotik als Strukturierungshilfe (Syntaktik –Semantik – Pragmatik) genutzt, die die allgemeine Lehre von den Zeichen, Zei-chensystemen und Zeichenprozessen in das Gebiet der Informatik überträgt.
Abb. 1–1 Semiotisches Dreieck (in Anlehnung an [Hinrichs 2002, S. 27])
Auf syntaktischer Ebene werden lediglich die Zeichen sowie ihre mathema-tischstatistischen Beziehungen untereinander (z.B. relative Häufigkeit innerhalbbestimmter Grundstrukturen) untersucht, ohne dabei auf die Bedeutung der Zei-chen einzugehen. Diese maschinenlesbaren Zeichenfolgen (Daten) bilden somitdie Informationen der realen Welt ab.
Wird den Daten Bedeutung hinzugefügt, gelangt man auf die semantischeEbene, d.h., die Daten werden in einem bestimmten Kontext gesehen, und manspricht von Information.
Auf der pragmatischen Ebene steht der direkte Benutzer (Interpreter) im Mit-telpunkt der Untersuchungen, d.h., hier spielt die Wirkung von Information aufdie sie verarbeitenden Verwender (Menschen, Maschinen) eine wichtige Rolle.Somit kommt die pragmatische Ebene der Wirklichkeit am nächsten, indem siesich über die ersten zwei Ebenen hinausgehend noch mit Fragen der jeweiligenAbsicht und des Werts für den einzelnen Benutzer befasst. Erst dann wird aus derInformation Wissen.
Aus Gründen der besseren Lesbarkeit bezieht sich in den nachfolgendenKapiteln dieses Buches der Begriff Datenqualität sowohl auf die Qualität derDaten als auch auf die Qualität der Informationen.
Information – SemantikBedeutung von Zeichenfolgen
Daten – SyntaktikStruktur von Zeichenfolgen
Wissen – PragmatikVerwendung von Zeichenfolgen
51.2 Qualität
1.2 Qualität
Der Begriff Qualität stammt ab vom lateinischen »qualitas« und bedeutet Eigen-schaft oder Beschaffenheit. Ursprünglich weder positiv noch negativ belegt, wirdder Begriff in der Umgangssprache automatisch als positiv angesehen. Die Suchenach einer einheitlichen Definition führt zu einer Vielzahl von Definitions undInterpretationsversuchen. Eine allgemein akzeptierte Begriffsbeschreibung ist dieDINNorm 55 350. Danach ist die »Qualität die Gesamtheit von Eigenschaftenund Merkmalen eines Produktes oder einer Tätigkeit, die sich auf deren Eignungzur Erfüllung festgelegter oder vorausgesetzter Erfordernisse beziehen« (vgl.[DIN 55350]).
Einer der ersten Systematisierungsansätze geht auf Garvin (vgl. [Garvin1984, S. 40ff.]) zurück, der fünf generelle Qualitätsvorstellungen unterscheidet:
■ Produktorientierter Ansatz■ Anwenderorientierter Ansatz■ Prozessorientierter Ansatz■ Wertbezogener Ansatz■ Transzendenter Ansatz
Die produktbezogene Sicht entspricht einem objektiven Qualitätsbegriff, weilQualität als eine messbare, genau spezifizierbare Größe, die das Produktbeschreibt, gesehen wird. Qualität stellt dabei eine objektive Größe dar, die unab-hängig von subjektiven Wahrnehmungen bestimmt werden kann, d.h., dieserAnsatz bezieht sich nur auf das Endprodukt, unabhängig von den Kunden(Benutzern). Qualitätsdifferenzen lassen sich damit auf die Unterschiede in denProdukteigenschaften zurückführen.
Der kunden oder anwenderbezogene Ansatz hingegen definiert die Qualitäteines Produkts über den Produktnutzer, und somit entscheidet ausschließlich derKunde, inwieweit das Produkt der geforderten Qualität entspricht (subjektiveBeurteilung des Kunden). In die amerikanische Literatur hat dieser Ansatz Ein-gang über die Definition »fitness for purpose« oder »fit for use« gefunden. Dabeikönnen verschiedene Endbenutzer unterschiedliche Bedürfnisse haben, sodass dieQualität des gleichen Produkts unterschiedlich bewertet werden kann.
Beim Herstellungsbezug (prozessorientierter Ansatz) wird angenommen, dassQualität dann entsteht, wenn der Herstellungsprozess optimal und kontrolliertverläuft und alle Vorgaben (Produktspezifikationen) eingehalten werden. Abwei-chungen von dem definierten Prozess werden als Qualitätsverlust angesehen.
Der wertbezogene Ansatz betrachtet Qualität unter Kostengesichtspunkten.Ein Produkt ist dann von hoher Qualität, wenn die Kosten und die empfangeneLeistung in einem akzeptablen Verhältnis stehen.
Der transzendente Ansatz kennzeichnet Qualität als vorgegebene Vortreff-lichkeit, Einzigartigkeit oder Superlativ. Qualität wird als Synonym für hoheStandards und Ansprüche angesehen. Dieser Grundgedanke setzt ein philosophi-
1 Datenqualität6
sches Verständnis voraus, das davon ausgeht, dass Qualität nicht messbar, son-dern nur erfahrbar ist. Dieser Ansatz ist für den hier zu betrachtenden Kontextvon Business Intelligence nicht geeignet.
Auch wenn die hier beschriebenen Ansätze für die Fertigungsindustrie entwi-ckelt wurden, lassen sie sich ohne Weiteres auf den Bereich der Datenqualitätübertragen, wie die folgenden Analogien zeigen (vgl. [Wang/Ziad/Lee 2001, S. 3f.].Ein Datenverarbeitungsprozess kann auch als Herstellungsprozess im Sinne derFertigungsindustrie gesehen werden. Die Datenquellen (Lieferanten), die dieRohdaten (Rohmaterialien) bereitstellen, bilden den Ausgangspunkt der Wert-schöpfungskette. Sie werden im Zuge der Integration/Transformation (Produkti-onsprozess) bearbeitet. Das Ergebnis des Prozesses sind die Datenprodukte, dieden Datenbeziehern (Kunden) zu Auswertungszwecken zur Verfügung gestelltwerden.
Abb. 1–2 Analogie zwischen industrieller Fertigung und Datenverarbeitung (Data Warehousing) (in Anlehnung an [Grimmer/Hinrichs 2001, S. 72])
Der wesentliche Unterschied liegt im Betrachtungsgegenstand sowie dessen Qua-litätsmerkmalen. Im industriellen Fertigungsprozess werden physische Produkteerstellt, die Merkmale wie Haltbarkeit, Länge und Gewicht aufweisen. Im darge-stellten Kontext der Datenverarbeitung entspricht das Produkt einem bestimmtenAusschnitt des Datenbestands, auch als Datenprodukt (gleichbedeutend miteinem Datensatz) bezeichnet. Zur Bestimmung der Qualität wird einem Produkteine Menge von Merkmalen zugeordnet. Ein Merkmal ist dabei eine Eigenschaft,die zur Unterscheidung von Produkten in qualitativer oder quantitativer Hinsichtherangezogen werden kann (vgl. [Behme 2002, S. 52]).
Während in der Industrie der Qualitätsbegriff seit Jahrzehnten einen wichti-gen Platz einnimmt, taucht der Begriff Datenqualität erst Mitte der 1990erJahrevermehrt auf. Die Vorgaben zu Datenqualität liegen damit in ihrer Entwicklunghinter den im Kontext der industriellen Fertigung entwickelten Standards hin-sichtlich Qualität deutlich zurück.
Kunden
Lieferanten
Produktion/Veredelung
Produkte
Rohstoffe
Industrielle Fertigung
Datennutzer
Lieferanten
Produktion/Veredelung
Datenprodukte
Rohstoffe
Data Warehousing
Qua
lität
sman
agem
ent
71.3 Datenqualität
1.3 Datenqualität
Es gilt nun, aus den obigen allgemeinen Daten und Qualitätsdefinitionen denBegriff der Datenqualität abzuleiten. Helfert hat die in der Literatur vorhandenenAnsätze zur Definition von Datenqualität untersucht und einander gegenüberge-stellt (vgl. [Helfert 2002, S. 69ff.] und [Helfert 2000, S. 62ff.]). Das Ergebnis die-ser Untersuchung zeigt, dass der Anwender das Qualitätsniveau festlegt unddamit im Kontext der Datenverarbeitung ausschließlich der anwenderorientierteAnsatz (vgl. [Müller 2000, S. 15; English 1999, S. 52ff.]) sinnvoll ist. Datenquali-tät wird daher nach Würthele definiert als »mehrdimensionales Maß für die Eig-nung von Daten, den an ihre Erfassung/Generierung gebundenen Zweck zu erfül-len. Diese Eignung kann sich über die Zeit ändern, wenn sich die Bedürfnisseändern« (vgl. [Würthele 2003, S. 21]).
Diese Definition macht deutlich, dass die Qualität von Daten vom Zeitpunktder Betrachtung sowie von dem zu diesem Zeitpunkt an die Daten gestelltenAnspruchsniveau abhängt.
Um die Datenqualität letztendlich messbar zu machen, bedarf es objektiverMerkmale (auch Qualitätskriterien genannt), die den Daten (Datenprodukten)zugeordnet werden. Diese werden dabei aufgrund der praktischen Erfahrungenintuitiv definiert, auf Basis von Literaturrecherchen erstellt oder anhand vonempirischen Untersuchungen zusammengestellt (vgl. [Helfert 2002, S. 69]). DieQualitätskriterien müssen messbar sein, damit der jeweilige Erfüllungsgrad durchden Datennutzer ermittelt werden kann. In der Praxis wird es einen hundertpro-zentigen Erfüllungsgrad der Kriterien nicht geben, vielmehr sind jeweils anwen-dungs oder kundenbezogene Anspruchsniveaus (Sollwerte) zu definieren, andenen die Datenqualität gemessen wird.
Beispielsweise gelten für Quartals oder Jahresbilanzen im Bankenbereich,die kurzfristig nach Ablauf des jeweiligen Zeitraums an die Aufsichtsbehördenübermittelt werden, sehr hohe Ansprüche an die Genauigkeit und Aktualität.Dagegen sind bei Auswertungen zum Kundenverhalten geringere Anspruchsni-veaus akzeptabel.
Tabelle 1–1 zeigt eine Übersicht über häufig genannte Datenqualitätskriterien(DQKriterien) in alphabetischer Reihenfolge (in Anlehnung an [Helfert/Herr-mann/Strauch 2001, S. 7]).
1 Datenqualität8
Tab. 1–1 Liste möglicher Datenqualitätskriterien
Im Folgenden wird lediglich auf eine Auswahl der vorgestellten Qualitätskrite-rien näher eingegangen, da die Liste zum Teil Doppelungen enthält sowie nichtalle Kriterien als besonders geeignet erscheinen (vgl. [Hinrichs 2002, S. 30f.; Zeh2009, S. 43f.]):
■ Aktualität■ Allgemeingültigkeit■ Alter■ Änderungshäufigkeit■ Aufbereitungsgrad■ Bedeutung ■ Benutzbarkeit■ Bestätigungsgrad■ Bestimmtheit■ Detailliertheit ■ Effizienz■ Eindeutigkeit■ Fehlerfreiheit■ Flexibilität ■ Ganzheit■ Geltungsdauer■ Genauigkeit ■ Glaubwürdigkeit ■ Gültigkeit ■ Handhabbarkeit
■ Integrität ■ Informationsgrad ■ Klarheit ■ Kompaktheit■ Konsistenz■ Konstanz■ Korrektheit ■ Neutralität■ Objektivität ■ Operationalität ■ Performanz■ Portabilität■ Präzision ■ Problemadäquatheit■ Prognosegehalt■ Quantifizierbarkeit■ Rechtzeitigkeit■ Redundanzfreiheit ■ Referenzielle Integrität■ Relevanz
■ Robustheit ■ Seltenheit ■ Sicherheit■ Signifikanz■ Testbarkeit ■ Unabhängigkeit ■ Überprüfbarkeit ■ Verdichtungsgrad■ Verfügbarkeit ■ Verlässlichkeit ■ Verschlüsselungsgrad■ Verständlichkeit■ Vollständigkeit ■ Wahrheitsgehalt ■ Wiederverwendbarkeit■ Wirkungsdauer■ Zeitbezug ■ Zeitnähe■ Zugänglichkeit■ Zuverlässigkeit
Datenqualitätskriterien Definition
Korrektheit Fehlerfreiheit
Die Attributwerte eines Datensatzes (im Data Warehouse) entsprechen denen der modellierten Entitäten der realen Welt, d.h., die Daten stimmen mit der Realität überein.
Konsistenz Die Attributwerte eines Datensatzes weisen keine logischen Widersprüche untereinander oder zu anderen Datensätzen auf. Inkonsistente Daten innerhalb der operativen Systeme führen zu massiven Glaubwürdigkeitsproblemen in den analytischen Systemen.
Zuverlässigkeit Nachvollziehbarkeit
Die Attributwerte sind vertrauenswürdig, d.h., die Entstehung der Daten ist nachvollziehbar. Insbesondere bei externen Daten ist auf die Zuverlässigkeit der Quellen zu achten. Aber auch innerhalb des Data Warehouse müssen die verschiedenen Transformationen der Daten nachvollziehbar sein. Dies beginnt bei der Erfassung der Daten und geht bis zur Erstellung der Berichte in den analytischen Systemen.
➝
91.3 Datenqualität
Tab. 1–2 Definition ausgewählter Datenqualitätskriterien
Die beiden letzten Kriterien stellen eine spezielle Ausrichtung auf das relationaleDatenbankmodell dar. Aufgrund der sehr starken Verbreitung des relationalenModells ist diese Sichtweise legitim.
Die sechs DQKriterien Korrektheit, Konsistenz, Zuverlässigkeit, Vollstän-digkeit, Zeitnähe und Relevanz werden in Abschnitt 2.3 nochmals aufgegriffenund im Kontext Business Intelligence näher betrachtet.
Datenqualitätskriterien Definition
Vollständigkeit Die Attributwerte eines Datensatzes sind mit Werten belegt, die semantisch vom Wert NULL (unbekannt) abweichen. Eine andere Definition bezieht sich auf den modellierten Ausschnitt der Welt. Alle wichtigen Entitäten, Beziehungen und Attribute müssen im System repräsentiert sein.
Vollständigkeit beschreibt auch die generelle Verfügbarkeit von Inhalten, die der Anwender benötigt, um seine Arbeit überhaupt durchführen zu können. Dies behandelt die Frage, ob beispielsweise alle Datenbereiche in den Business-Intelligence-Systemen integriert sind, um die Anforderungen zu erfüllen.
Des Weiteren beschreibt dieses Kriterium auch, ob die Daten komplett im ELT-Prozess oder im Fehlerfall in das Data Warehouse übernommen werden. Besonders schwierig ist dies beispielsweise bei tagesaktuellen Lieferungen aus verschiedenen Zeitzonen.
Genauigkeit Abhängig vom jeweiligen Kontext liegen die Daten in der geforderten Genauigkeit (z.B. Anzahl Nachkommastellen) vor.
Aktualität Zeitnähe Zeitbezug
Alle Datensätze entsprechen jeweils dem aktuellen Zustand der modellierten Welt und sind damit nicht veraltet. Die Daten bilden die tatsächlichen Eigenschaften des Objekts zeitnah ab. Mangelnde Aktualität kann einerseits aus der Frequenz der Ladezyklen resultieren (z.B. wöchentlich statt täglich) oder durch die verspätete Pflege der Daten bereits im operativen System (z.B. keine regel-mäßige Neubewertung von Sicherheiten).
Redundanzfreiheit Innerhalb der Datensätze dürfen keine Duplikate vorkommen. Als Duplikate werden hierbei Datensätze verstanden, die dieselbe Entität in der realen Welt beschreiben. Sie müssen aber nicht notwendiger-weise in allen Attributwerten übereinstimmen.
Relevanz Der Informationsgehalt einer Datensatzmenge bezüglich eines definierten Anwendungskontextes deckt sich mit dem Informations-bedarf einer Anfrage.
Einheitlichkeit Die Repräsentationsstruktur einer Menge von Datensätzen ist einheitlich, d.h., sie werden fortlaufend gleich abgebildet.
Eindeutigkeit Ein Datensatz muss eindeutig interpretierbar sein, d.h., die vorhande-nen Metadaten müssen die Semantik des Datensatzes festschreiben.
Verständlichkeit Die Datensätze stimmen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen des Fachbereichs überein.
Schlüsseleindeutigkeit Die Primärschlüssel der Datensätze sind eindeutig.
Referenzielle Integrität Im relationalen Modell muss jeder Fremdschlüssel eindeutig auf einen existierenden Primärschlüssel referenzieren.
1 Datenqualität10
Das folgende Beispiel (in Anlehnung an [Leser/Naumann 2007, S. 354f.]) ausdem BIUmfeld verdeutlicht die Relevanz der DQKriterien Vollständigkeit, Zeit-nähe und Glaubwürdigkeit. Als Entscheidungsgrundlage für das Managementeines Industrieunternehmens werden regelmäßig aus einem Data WarehouseBerichte erstellt:
■ Diese Berichte müssen Daten aus allen Werken vollständig abdecken, sonstsind die Produktionszahlen ungenau.
■ Die Berichte müssen zeitnah abrufbar sein, sonst kann nicht schnell genug beieiner veränderten Absatzlage reagiert werden.
■ Wenn die Zahlen in den Berichten nicht stimmen, weil in der Vergangenheitnachträglich viele Daten manuell geändert wurden, sind die Kennzahlenunglaubwürdig, und die Akzeptanz der BILösung sinkt.
Dieses Beispiel zeigt deutlich, dass Datenqualität stets mehrdimensional zubetrachten ist. Wird die Datenqualität auf ein einzelnes Kriterium (wie beispiels-weise Vollständigkeit) reduziert, wird die Datenqualität von den Anwendern den-noch gefühlt als schlecht wahrgenommen, wenn veraltete Daten vorliegen (DQ-Kriterium Zeitnähe).
Werden die hier vorgestellten DQKriterien strukturiert in Gruppen zusam-mengefasst, spricht man von einem Qualitätsmodell. Ein wesentliches Charakte-ristikum eines solchen Modells ist die Zerlegungssystematik. In der Literatur sinddiverse Systematiken zu finden (vgl. [Wang/Strong 1996, S. 20; Redman 1996,S. 267]), die bei genauerer Betrachtung gewisse Unstimmigkeiten bezüglich derZerlegung aufweisen. Ziel dieses Kapitels ist es jedoch nicht, diese Lücke durchein eigenes Modell zu schließen. Daher sei an dieser Stelle beispielhaft zunächstdas Qualitätsmodell von Hinrichs vorgestellt, das sich aus den beschriebenenQualitätskriterien ableiten lässt:
Abb. 1–3 Taxonomie von Datenqualitätskriterien (vgl. [Hinrichs 2002, S. 30])
Diesem eher aus theoretischer Sicht entstandenen Qualitätsmodell stellt die Deut-sche Gesellschaft für Informations und Datenqualität (DGIQ) eine Kategorisie-rung gegenüber, die aus einer Studie (vgl. [Wang/Strong 1996]) durch Befragungvon ITAnwendern hervorgegangen ist (siehe Abb. 1–4).
KorrektheitKonsistenz
Zuverlässigkeit
Genauigkeit
ZeitnäheRedundanzfreiheitRelevanz
EinheitlichkeitEindeutigkeit
Verständlichkeit
SchlüsseleindeutigkeitReferenzielle Integrität
Glaubwürdigkeit
Vollständigkeit
Interpretierbarkeit Schlüsselintegrität (relational)Nützlichkeit
Datenqualitätskriterien
111.4 Datenqualitätsmanagement
Abb. 1–4 Taxonomie von Datenqualitätskriterien (vgl. [DGIQ 2007])
Ergänzend zu den bereits beschriebenen Kriterien sind vor allem die Zugänglich-keit und die Bearbeitbarkeit hinzugekommen. Unter Zugänglichkeit wird die ein-fache Abrufbarkeit der Daten für den Anwender verstanden. Inwieweit die Datenleicht für unterschiedliche Zwecke zu bearbeiten sind, wird mit dem KriteriumBearbeitbarkeit ausgedrückt.2
Die Identifikation und Klassifikation von Datenqualitätskriterien alleinreicht für die Messung der Datenqualität allerdings nicht aus. Was fehlt, sindkonkrete, numerische Metriken. Nur darüber kann später geprüft werden, ob dieVerbesserungsmaßnahmen auch wirkungsvoll waren (»You cannot control whatyou cannot measure« (vgl. [deMarco 1982])).
Die Anwendung geeigneter Metriken ermöglicht eine Quantifizierung vonDatenqualitätskriterien und ist somit die Voraussetzung zur Bildung von Quali-tätskennzahlen. In Kapitel 7 wird genauer auf die Bildung dieser Kennzahlen aufBasis ausgewählter DQKriterien eingegangen.
1.4 DatenqualitätsmanagementDas nachträgliche Bereinigen von Daten, das durch eine Vielzahl an existierendenWerkzeugen zur Fehlererkennung und korrektur erleichtert wird, ist im Ver-gleich zu qualitätssichernden Maßnahmen um den Faktor 5–10 teurer (vgl. [Han-kins 1999]). Trotzdem finden in den Unternehmen kaum präventive Maßnahmenstatt, sondern es wird erst beim Auftreten von Problemen reagiert (vgl. [Otto etal. 2008, S. 215f.]).
Dieses reaktive Vorgehen führt u.a. dazu, dass Risiken nicht rechtzeitigerkannt werden oder gesetzliche Auflagen nicht zu erfüllen sind (siehe Abschnitt3.2). Erst langsam kommt es in den Unternehmen zu einem Sinneswandel und
2. Eine ausführliche Beschreibung der einzelnen Kriterien findet sich in [Rohwedder et al. 2011, S. 25ff.].
System
InhaltNutzung
Darstellung
Zugänglichkeit Bearbeitbarkeit
systemunterstützt
Glaub- würdigkeit
zweck- abhängig inhärent
einheitliche Darstellung
eindeutige Auslegbarkeit
hohes Ansehen
Fehlerfreiheit
Objektivität
Relevanz
Aktualität
Wertschöpfung
Angemessener Umfang
Übersicht- lichkeit
Ver- ständlichkeit
darstellungsbezogen
IQ
Quelle: DGIQ IQ-Definition – 2007
Vollständigkeit
1 Datenqualität12
somit zu einem proaktiven Ansatz mit einem Datenqualitätsmanagement, dasvon vornherein auf qualitativ hochwertige Daten setzt und kostenintensive nach-trägliche Bereinigen minimiert.
Das dazu erforderliche Qualitätsmanagement umfasst nach DIN ISO 8402»alle Tätigkeiten der Gesamtführungsaufgabe, die die Qualitätspolitik, ziele undverantwortung festlegen sowie durch Mittel wie Qualitätsplanung, lenkung,sicherung und verbesserung im Rahmen des Qualitätsmanagementsystems ver-wirklichen« (vgl. [DIN ISO 8402]). Hieraus wird deutlich, dass das Qualitätsma-nagement in der Gesamtstrategie des Unternehmens verankert sein muss. Dieseaus heutiger Sicht sinnvolle Definition entwickelte sich in der Historie seit Beginndes 20. Jahrhunderts gemäß Abbildung 1–5 in vier Stufen:
Abb. 1–5 Entwicklungsstufen des Qualitätswesens (in Anlehnung an [Wolf 1999, S. 63])
In der ersten Stufe (Qualitätskontrolle) wurde eine klare Trennung zwischen derProduktion und der Qualitätskontrolle vorgenommen, d.h., festgestellte Mängelkonnten erst nachträglich am bereits fertigen Produkt erkannt und bereinigt wer-den. Erst in den 1930erJahren wurde die Qualitätskontrolle in den Produktions-prozess integriert. Damit war es möglich, die Fehler während des Prozesses amEntstehungsort zu beheben (Qualitätssicherung). In den 1960erJahren setztesich zunehmend die Erkenntnis durch, dass sich durch die prozessbegleitendenMaßnahmen nicht alle Fehlerquellen abstellen lassen. Daher wurde das Quali-tätswesen sowohl auf die vorgelagerten Bereiche wie Forschung & Entwicklungoder Konstruktion als auch auf die nachgelagerten Bereiche wie den Vertrieb aus-gedehnt. Geprägt wurde diese Stufe durch Feigenbaum (vgl. [Feigenbaum 1961]),der den Begriff »Total Quality Control« einführte. Die ständige Weiterentwick-lung der Konzepte führte zu dem heute bekannten, ganzheitlichen Qualitätsma-nagement (Total Quality Management), das in der Gesamtstrategie des Unterneh-mens integriert sein muss.
Qualitäts- kontrolle
Qualitäts- sicherung
Total Quality Control
Total Quality Management
› Zunehmende Arbeitsteilung
› Produkt- undTechnikorientierung
› Endkontrolle
› Prozess- und produktions-orientierte Qualitätskontrolle
› Technik- orientierung
› Statistische Methoden
› Ausweitung der Qualitätssicherung auf alle qualitäts-relevanten Prozesse
› Kundenorientierung
› Ganzheitliche Qualitäts-konzeption
› Kunden-orientierung (extern und intern)
› Mitarbeiter-orientierung
› Proaktive Qualitätssicherung
131.4 Datenqualitätsmanagement
Für den Aufbau eines Qualitätsmanagements (QM) sind vor allem die Berei-che Qualitätsplanung und lenkung von Interesse (vgl. [English 1999, S. 70ff.]).Aufgabe der Qualitätsplanung ist es, die Qualitätsanforderungen an den Prozessund das Produkt in überprüfbarer Form festzulegen. Dies beinhaltet die Auswahlvon Qualitätskriterien sowie die Festlegung von Sollwerten (Anspruchsniveaus)für diese Kriterien. Die Qualitätslenkung, zu der Arbeitstechniken und Tätigkei-ten gehören, die zur Erfüllung der Qualitätsanforderungen angewendet werden,setzt die Qualitätsplanung um. Dazu müssen geeignete Prozesse identifiziert undMaßnahmen zum Erreichen einer Prozesskonformität ergriffen werden. Produktund Prozessqualität müssen im Rahmen der Qualitätslenkung gemessen werden(vgl. [Helfert 2002, S. 40ff.]). Die Qualitätssicherung umfasst vor allem organisa-torische Maßnahmen, die nach außen sicherstellen sollen, dass im Unternehmenein Qualitätsmanagement existiert.
Die Ausführungen zum Qualitätsmanagement lassen sich auf ein Datenquali-tätsmanagement (DQM) für den Datenverarbeitungsprozess übertragen. Beson-ders erwähnenswert sind in diesem Zusammenhang die Arbeiten von Wang (vgl.[Wang 1998; Wang/Strong 1996]) am Massachusetts Institute of Technology(MIT), der eine Adaption der QMKonzepte unter der Bezeichnung Total DataQuality Management (TDQM) entwickelte. Der Grundgedanke seiner Methodeist der sogenannte PlanDoCheckActZyklus, der die Ideen von Deming alsRegelkreis beschreibt (siehe Abb. 1–6).
Abb. 1–6 Plan-Do-Check-Act-Zyklus (vgl. [Redman 1996])
Planen (plan)
Verbessern (act)Ausführen (do)
Überprüfen (check)
1 Datenqualität14
Tab. 1–3 Vergleich ausgewählter DQMStrategien
Der Zyklus beginnt mit der Definition der Datenqualitätsziele (Plan). Anschlie-ßend wird der Istzustand der Daten aufgenommen und analysiert (Do, Check).Im letzten Schritt muss durch den Einsatz geeigneter Methoden die Datenqualitätverbessert werden (Act).
Das Konzept des TDQM wurde u.a. von English (vgl. [English 1999, S. 69ff.])weiterentwickelt, der eine Vorgehensweise zur kontinuierlichen Datenqualitäts-verbesserung einführte (siehe Abb. 1–7).
Abb. 1–7 Total-Quality-data-Management-Methodik (TQdM) nach English (vgl. [English 1999, S. 70])
Redman (1996) English (1999)
Name der Strategie Data Quality Policy/Program, Managing Information Chains
Total Quality data Manage-ment, Information Quality Environment: the 14 Points of Information Quality
Grundgedanke Das Managen der Informa-tionskette als Zyklus mit einem Prozessverantwortlichen. Dabei werden die Kunden-bedürfnisse durch ein Daten-qualitätsprogramm und fest-stehende Grundsätze für Datenqualität berücksichtigt.
Die Etablierung einer Unter-nehmenskultur der Informa-tionsqualität als Basis für Datenqualitätsprozess-verbesserungen.Die Kultur ist angelehnt an die Theorien des Total Quality data Management und Demings 14-Punkte-Programm für Change Management.
Einzelne Methoden Error detection and correction, Statistical Quality Control, Measurement-System
Statt einzelner Methoden werden unterschiedliche Prozessabläufe vorgestellt, deren Aktivitäten man schritt-weise folgen kann.
Praxisbeispiel AT & T, Telstra Corporation Limited
Kein Beispiel, an dem die Gesamtstrategie durchgespielt wird, es werden nur einzelne Phasen oder Schritte beispiel-haft erläutert
Bestimmung der Datenschema- & Systemqualität
Bestimmung der Datenqualität
Bestimmung der Kosten mangelhafter Datenqualität1
2
3
Datenumstruk- turierung & -bereinigung 4
Optimierung derDatenverarbeitungs-prozesse 5
151.4 Datenqualitätsmanagement
Neben der bereits erwähnten Erweiterung gibt es in der wissenschaftlichen Lite-ratur eine Vielzahl von Arbeiten, die sich mit dem Thema Datenqualitätsmanage-ment, basierend auf den Gedanken von Wang, auseinandersetzen. Die wichtigs-ten sind in Tabelle 1–3 aufgeführt (vgl. [Behme/Nietzschmann 2005, S. 46]).
Bei der Betrachtung der einzelnen Strategien zeigt sich, dass entweder ein ehertechnisch orientierter Ansatz gewählt wurde oder der Fokus auf dem Manage-mentkonzept liegt. Einig ist man sich aber, dass die technisch orientierten Ansätzenicht ohne ein begleitendes Managementkonzept möglich sind.
Für die Umsetzung eines Datenqualitätsmanagements für ein Data-Ware-house-System lassen sich drei Bereiche identifizieren (vgl. [Helfert/Herrmann/Strauch 2001, S. 19]):
■ Datenqualität als Unternehmenskultur und philosophie ist als Verpflichtungdes Managements anzusehen.
■ Ein Qualitätsmanagementsystem (nach ISO 8402) ist zu etablieren, das inallen Bereichen geeignete Prozesse, Richtlinien, Pläne sowie Test und Prüf-verfahren aufsetzt, um die geforderte Datenqualität dauerhaft zu erreichen.
Hinrichs (2002) Helfert (2002) Olson (2003)
CLIQ – Data Cleansing mit intelligentem Qualitäts-management
Proaktives Datenqualitäts-management
Data Quality Assurance Program
Vorgehensmodell für den Datenintegrationsprozess im DWH mit fester Reihenfolge der Integrationsphasen.In Anlehnung an die ISO 9001:2000 werden Datenqualitätsmaßnahmen eingebunden.
Die operative Ebene der Qualitätsplanung und -lenkung wird in die Gesamtführungs-aufgabe integriert, die Datenqualitätspolitik, -ziele und Verantwortung für Datenqualität festlegt.
Programm aus drei zu kombi-nierenden Komponenten:Dimension der Datenqualität, Methodik und Aktivitäten. Fokus sind jedoch nicht alle Dimensionen von Daten-qualität, sondern die Genauigkeit der Daten.
Sämtliche Methoden werden innerhalb des Integrations-prozesses vorgestellt, wie z. B. statistische Prozesskontrollen regelbasierte Prüfungen, Duplikatbereinigung.
Forderung der Bereitstellung von Methoden und Maßnah-men für die Ausführung der Datenqualitätsprozesse. Statistische Methoden, Data Mining zur Muster-beschreibung.
Data-Profiling-Methoden zur Generierung korrekter Meta-daten, zur Aufdeckung von ungenauen oder falschen Daten: beispielsweise Analyse der Spalteneigenschaften, Strukturanalyse
Data Quality Mining (DaimlerChrysler AG)
Beschreibung des Konzepts eines operativen Daten-qualitätsmanagements für Crédit Suisse Financial Services
1 Datenqualität16
■ Zur Ausübung der Qualitätsprozesse sind geeignete Methoden, Verfahrenund Werkzeuge zur Verfügung zu stellen.
Auf Basis der bestehenden DatenqualitätsmanagementAnsätze haben Otto u.a.einen Ordnungsrahmen entwickelt, der dem Ansatz des Business Engineeringfolgt (vgl. [Otto et al. 2008, S. 215ff.]). Dieser Ordnungsrahmen setzt sich ausden folgenden sechs Gestaltungselementen zusammen:
■ Datenqualitätsstrategie■ Führungssystem■ Data Governance■ DatenmanagementProzesse■ Datenarchitektur und Datenhaltung■ Systemunterstützung
Den Aufbau des Ordnungsrahmens zeigt Abbildung 1–8. Die Datenqualitätsstra-tegie befindet sich auf der Ebene »Strategie«, wodurch die enge Verzahnung mitder Unternehmensstrategie deutlich wird. Zwischen den Ebenen »Strategie« und»Organisation« liegt das Führungssystem, das die Umsetzung der Strategie steu-ert. Die Ebene »Organisation« enthält zum einen die Data Governance (Zuord-nung der Aufgaben und Verantwortlichkeiten im Rahmen des DQM) sowie dieDatenmanagementProzesse (umfasst die Prozesse Anlage, Pflege und Ausphasender Daten). Auf der Ebene »Systeme« wird im Rahmen der Datenarchitektur derGeltungsbereich für einzelne Datenobjekte definiert (z.B. globale versus lokaleLieferantennummer). Außerdem legt die Datenarchitektur fest, welche Rolle dieSysteme bei der Anlage, Änderung und Verteilung der Stammdaten spielen.
Abb. 1–8 Ordnungsrahmen für das Datenqualitätsmanagement (vgl. [Otto et al. 2008, S. 218])
Strategie
Organisation
Systeme
Datenqualitätsstrategie
Führungssystem
Datenarchitektur und Datenhandling
Systemunterstützung
Data Governance Datenmanage-ment-Prozesse
171.5 Zusammenfassung
1.5 Zusammenfassung
Die Ausführungen in diesem Kapitel machen deutlich, dass die Anforderungen andie Datenqualität jeweils von dem Unternehmen und insbesondere von denAnwendern der Daten abhängen. Eine allgemein gültige Festlegung, was einegute Datenqualität im Rahmen von BusinessIntelligenceLösungen ausmacht,gibt es nicht.
Um Datenqualität aber nicht nur als abstraktes Gebilde stehen zu lassen,wurde mithilfe der Datenqualitätskriterien eine Operationalisierung vorgenom-men. Die Aufgabe im konkreten Projekt besteht darin, eine Auswahl dieser Krite-rien zu treffen und jeweils auf das Unternehmen und den Projekthintergrund pas-sende Anspruchsniveaus festzulegen und diese zu realisieren.
Insgesamt wird auch deutlich, dass Datenqualität keine EinmalAktion imRahmen eines Projekts ist, sondern vielmehr als eine permanente Aufgabe ange-sehen werden muss. Dazu ist bei den Mitarbeitern ein Bewusstsein für Datenqua-lität zu schaffen sowie die Motivation, diese auch herzustellen. Nur so kann lang-fristig und nachhaltig eine bessere Datenqualität sichergestellt werden.