Qualitätskontrolle von Datenintegrations- prozessen

Preview:

DESCRIPTION

Qualitätskontrolle von Datenintegrations- prozessen. Christoph Metz WIN – Treffen 02.10.2010. Übersicht. Auffrischung Herausforderungen bei Datenintegrations-Prozessen Qualitätskontrolle von Datenintegrationsprozessen Abschließende Bemerkung. Data Warehouse. Auswertungsschicht. - PowerPoint PPT Presentation

Citation preview

QUALITÄTSKONTROLLEVON DATENINTEGRATIONS-PROZESSENChristoph Metz

WIN – Treffen 02.10.2010

Übersicht

Auffrischung Herausforderungen bei

Datenintegrations-Prozessen Qualitätskontrolle von

Datenintegrationsprozessen Abschließende Bemerkung

Data Warehouse

ERP/CRMXML ww

w

Extraktionsschicht

XML

Extraktionskomponente

DWH

Datenhaltungsschicht

Integrationsschicht

Transformationskomponente

Ladekomponente

AuswertungsschichtReporting, OLAP

Data Warehouse - ETL

Typische Transformationen Anpassung von Datentypen Eliminierung von Duplikaten Anpassung von Datenwerten Schlüsselanpassungen Umrechnung von Maßeinheiten Aggregationen Anreicherung von Daten …

Daten durchlaufen eine ganze Reihe von Prozessschritten

Herausforderungen bei ETL-Prozessen

Spezifikation Umsetzung DWH

Falsche Zahlen im Report Meldung

Fehlersuche

Herausforderungen bei ETL-Tests

Batch-Loads Zeitverzug Systemseitige „Eingabe“ Viele Tests müssen systemseitig implementiert

werden. Einzelne Transaktionen müssen aufwändig

zurückverfolgt werden. Hohes anwachsendes Datenvolumen

Menge der Testdaten steigt Anzahl der Testszenarien

In DWS sollen alle möglichen Sichten möglich sein. Traditionelle Test-Methoden auf OLTP ausgelegt

Teststrategien für ETL-Prozesse

Datenvollständigkeit Tupelvergleich, Boundary-Testing, ...

Datentransformation „stare and compare“, Datenfluss-Validierung, …

Performance + Skalierung „Break your system“, „performance modeling“, …

Integrationstests Schnittstellen, Ablaufsteuerung, Fehlerprotokolle

User Acceptance Tests Regressionstests (Datenqualität)

Faktoren der Qualität

Designqualität

Ausführungsqualität

Formulierung und Erfassung von Anforderungen und Spezifikationen

Einhaltung der festgelegten Spezifikation

Faktoren der Qualität

Designqualität stellt höchste erreichbare Grenze für die Qualität der Daten dar

Ausführungsqualität drückt Erreichungsgrad der Designqualität aus

Gesamtqualität kann durch mangelnde Design- oder Ausführungsqualität negativ beeinflusst werden

Messung der Ausführungsqualität

Datenpool

Datenpool

Datenpool

Datenpoo

l

www

Extraktions-komponente

Extraktions-komponente

Extraktions-komponente

Datenintegration Datenbereitstellung

Transfo

rmatio

nsko

mponent

eData Warehouse

Datenpool

Ladeko

mponente

Datenpool

Prozess-schritt

Datenpool

Prozess-schritt

Prozess-schritt

M

M

M

M M

M

M M

Messung der Ausführungsqualität

Grundgedanken: Messung festgelegter Kennzahlen an den

Datenpools

Soll-Ist-Vergleich während des gesamten Prozessverlaufs

Überprüfung der Wirkung von Änderungen an den einzelnen Prozessschritten.

Messung der Ausführungsqualität

Hohe Anforderungen an die Testszenarien/ Testdaten

Abgrenzung von einzelnen Datenprodukten

Zeitverzug

Systemseitige „Eingabe“

Systemseitige TestimplementierungAufwändige Zurückverfolgung

Hohes Datenvolumen

anwachsendes Datenvolumen

Abgrenzung von Datenprodukten

Datenprodukt Darstellung über „Views“

Einzelner Datensatz Datensatzgruppe Komplette Tabelle

„Alle Produkte der Kategorie Non-Food am 02.10.2010“

„Alle Daten zu Artikelnr 5674846“

Datenprodukte im Prozessverlauf

Datenpool

Datenpool

Datenpool

Extraktions-komponente

Datenintegration Datenbereitstellung

Trans-formationskompo

-nente

Data Warehouse

Datenpool

Lade-kompon

ente

Vollständigkeit Redundanzfreiheit Zeitbezug Schlüsseleindeutigkeit ….

A A* A** A***B

Sammlung der Messwerte

Relation Messpunkt Q_Voll Q_Ref Q_Korr Q_Schl Q_Zeit

Zeit

Datenprodukt A

Quelle 80% 70% 65% .. .. 15:00

Extraktion 80% 70% 65% .. .. 15:02

Transform. 1 100% 70% 100% .. .. 15:10

Transform. 2 100% 100% 95% .. .. 15:20

Laden 100% 90% 100% .. .. 15:25

Datenprodukt B

Quelle .. .. .. .. .. 15:00

Extraktion .. .. .. .. .. 15:02

Transform. 1 .. .. .. .. .. 15:10

Transform. 2 .. .. .. .. .. 15:20

Laden .. .. .. .. .. 15:25

Auswertung der Messungen

Kontrolle einzelner Prozessschritte während der Entwicklung

Schneller Vergleich von unterschiedlichen Prozessversionen

Auswertung der Messungen

Verhalten einzelner Prozessschritte in verschiedenen Szenarien

Unterstützung von Regressionstests

Auswertung der Messungen

Auswertungen Zeitverlauf

M1 M2 M3 M4 M5

00.10.20.30.40.50.60.70.80.9

1

01.01.2010

Identifizierung von Änderungsbedarf (proaktiv)

Identifizierung von „überflüssigen“ Transformationen

Herausforderungen des Ansatzes

Schaffung künstlicher Datenpools Definition geeigneter Datenprodukte Definition der Datenprodukte entlang

des Prozessverlaufes Stetige Anpassung aller Datenprodukte Interpretation der Messergebnisse

Fragen?

Anregungen?

Recommended