20
QUALITÄTSKONTROLLE VON DATENINTEGRATIONS- PROZESSEN Christoph Metz WIN – Treffen 02.10.2010

Qualitätskontrolle von Datenintegrations- prozessen

  • Upload
    neil

  • View
    22

  • Download
    0

Embed Size (px)

DESCRIPTION

Qualitätskontrolle von Datenintegrations- prozessen. Christoph Metz WIN – Treffen 02.10.2010. Übersicht. Auffrischung Herausforderungen bei Datenintegrations-Prozessen Qualitätskontrolle von Datenintegrationsprozessen Abschließende Bemerkung. Data Warehouse. Auswertungsschicht. - PowerPoint PPT Presentation

Citation preview

Page 1: Qualitätskontrolle von Datenintegrations- prozessen

QUALITÄTSKONTROLLEVON DATENINTEGRATIONS-PROZESSENChristoph Metz

WIN – Treffen 02.10.2010

Page 2: Qualitätskontrolle von Datenintegrations- prozessen

Übersicht

Auffrischung Herausforderungen bei

Datenintegrations-Prozessen Qualitätskontrolle von

Datenintegrationsprozessen Abschließende Bemerkung

Page 3: Qualitätskontrolle von Datenintegrations- prozessen

Data Warehouse

ERP/CRMXML ww

w

Extraktionsschicht

XML

Extraktionskomponente

DWH

Datenhaltungsschicht

Integrationsschicht

Transformationskomponente

Ladekomponente

AuswertungsschichtReporting, OLAP

Page 4: Qualitätskontrolle von Datenintegrations- prozessen

Data Warehouse - ETL

Typische Transformationen Anpassung von Datentypen Eliminierung von Duplikaten Anpassung von Datenwerten Schlüsselanpassungen Umrechnung von Maßeinheiten Aggregationen Anreicherung von Daten …

Daten durchlaufen eine ganze Reihe von Prozessschritten

Page 5: Qualitätskontrolle von Datenintegrations- prozessen

Herausforderungen bei ETL-Prozessen

Spezifikation Umsetzung DWH

Falsche Zahlen im Report Meldung

Fehlersuche

Page 6: Qualitätskontrolle von Datenintegrations- prozessen

Herausforderungen bei ETL-Tests

Batch-Loads Zeitverzug Systemseitige „Eingabe“ Viele Tests müssen systemseitig implementiert

werden. Einzelne Transaktionen müssen aufwändig

zurückverfolgt werden. Hohes anwachsendes Datenvolumen

Menge der Testdaten steigt Anzahl der Testszenarien

In DWS sollen alle möglichen Sichten möglich sein. Traditionelle Test-Methoden auf OLTP ausgelegt

Page 7: Qualitätskontrolle von Datenintegrations- prozessen

Teststrategien für ETL-Prozesse

Datenvollständigkeit Tupelvergleich, Boundary-Testing, ...

Datentransformation „stare and compare“, Datenfluss-Validierung, …

Performance + Skalierung „Break your system“, „performance modeling“, …

Integrationstests Schnittstellen, Ablaufsteuerung, Fehlerprotokolle

User Acceptance Tests Regressionstests (Datenqualität)

Page 8: Qualitätskontrolle von Datenintegrations- prozessen

Faktoren der Qualität

Designqualität

Ausführungsqualität

Formulierung und Erfassung von Anforderungen und Spezifikationen

Einhaltung der festgelegten Spezifikation

Page 9: Qualitätskontrolle von Datenintegrations- prozessen

Faktoren der Qualität

Designqualität stellt höchste erreichbare Grenze für die Qualität der Daten dar

Ausführungsqualität drückt Erreichungsgrad der Designqualität aus

Gesamtqualität kann durch mangelnde Design- oder Ausführungsqualität negativ beeinflusst werden

Page 10: Qualitätskontrolle von Datenintegrations- prozessen

Messung der Ausführungsqualität

Datenpool

Datenpool

Datenpool

Datenpoo

l

www

Extraktions-komponente

Extraktions-komponente

Extraktions-komponente

Datenintegration Datenbereitstellung

Transfo

rmatio

nsko

mponent

eData Warehouse

Datenpool

Ladeko

mponente

Datenpool

Prozess-schritt

Datenpool

Prozess-schritt

Prozess-schritt

M

M

M

M M

M

M M

Page 11: Qualitätskontrolle von Datenintegrations- prozessen

Messung der Ausführungsqualität

Grundgedanken: Messung festgelegter Kennzahlen an den

Datenpools

Soll-Ist-Vergleich während des gesamten Prozessverlaufs

Überprüfung der Wirkung von Änderungen an den einzelnen Prozessschritten.

Page 12: Qualitätskontrolle von Datenintegrations- prozessen

Messung der Ausführungsqualität

Hohe Anforderungen an die Testszenarien/ Testdaten

Abgrenzung von einzelnen Datenprodukten

Zeitverzug

Systemseitige „Eingabe“

Systemseitige TestimplementierungAufwändige Zurückverfolgung

Hohes Datenvolumen

anwachsendes Datenvolumen

Page 13: Qualitätskontrolle von Datenintegrations- prozessen

Abgrenzung von Datenprodukten

Datenprodukt Darstellung über „Views“

Einzelner Datensatz Datensatzgruppe Komplette Tabelle

„Alle Produkte der Kategorie Non-Food am 02.10.2010“

„Alle Daten zu Artikelnr 5674846“

Page 14: Qualitätskontrolle von Datenintegrations- prozessen

Datenprodukte im Prozessverlauf

Datenpool

Datenpool

Datenpool

Extraktions-komponente

Datenintegration Datenbereitstellung

Trans-formationskompo

-nente

Data Warehouse

Datenpool

Lade-kompon

ente

Vollständigkeit Redundanzfreiheit Zeitbezug Schlüsseleindeutigkeit ….

A A* A** A***B

Page 15: Qualitätskontrolle von Datenintegrations- prozessen

Sammlung der Messwerte

Relation Messpunkt Q_Voll Q_Ref Q_Korr Q_Schl Q_Zeit

Zeit

Datenprodukt A

Quelle 80% 70% 65% .. .. 15:00

Extraktion 80% 70% 65% .. .. 15:02

Transform. 1 100% 70% 100% .. .. 15:10

Transform. 2 100% 100% 95% .. .. 15:20

Laden 100% 90% 100% .. .. 15:25

Datenprodukt B

Quelle .. .. .. .. .. 15:00

Extraktion .. .. .. .. .. 15:02

Transform. 1 .. .. .. .. .. 15:10

Transform. 2 .. .. .. .. .. 15:20

Laden .. .. .. .. .. 15:25

Page 16: Qualitätskontrolle von Datenintegrations- prozessen

Auswertung der Messungen

Kontrolle einzelner Prozessschritte während der Entwicklung

Schneller Vergleich von unterschiedlichen Prozessversionen

Page 17: Qualitätskontrolle von Datenintegrations- prozessen

Auswertung der Messungen

Verhalten einzelner Prozessschritte in verschiedenen Szenarien

Unterstützung von Regressionstests

Page 18: Qualitätskontrolle von Datenintegrations- prozessen

Auswertung der Messungen

Auswertungen Zeitverlauf

M1 M2 M3 M4 M5

00.10.20.30.40.50.60.70.80.9

1

01.01.2010

Identifizierung von Änderungsbedarf (proaktiv)

Identifizierung von „überflüssigen“ Transformationen

Page 19: Qualitätskontrolle von Datenintegrations- prozessen

Herausforderungen des Ansatzes

Schaffung künstlicher Datenpools Definition geeigneter Datenprodukte Definition der Datenprodukte entlang

des Prozessverlaufes Stetige Anpassung aller Datenprodukte Interpretation der Messergebnisse

Page 20: Qualitätskontrolle von Datenintegrations- prozessen

Fragen?

Anregungen?