36
Data Vault 2.0 - Neue DWH-Anforderungen schnell und kostengünstig umsetzen - Jörg Stahnke 11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016

Data Vault 2 - Oracle Data Warehouse Community Seite · Data Vault 2.0 - Neue DWH-Anforderungen schnell und kostengünstig umsetzen - Jörg Stahnke 11. Oracle Business Analytics und

  • Upload
    dodan

  • View
    264

  • Download
    1

Embed Size (px)

Citation preview

Data Vault 2.0- Neue DWH-Anforderungen schnell und kostengünstig umsetzen -

Jörg Stahnke

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016

1

Agenda

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

DWH-Landschaften – Ausgangssituation & Ziele

Vorstellung Data Vault

Data Vault 1.0 – Kurzer Überblick

Data Vault 2.0 – Erweiterungen

Data Vault 2.0 – Vergleich mit herkömmlicher Architektur

Data Vault 2.0 – Vorteile

Zusammenfassung

Universal Datamodeling Generator (UDG)

2

DWH-Landschaften – Ausgangssituation & Ziele

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Ausgangs-

situation /

Heraus-

forderung

DWH als „schwerfälliger Dinosaurier“ mit hoher Komplexität

vielfältige Abhängigkeiten: „Alles hängt von Allem ab“

häufig Reengineering erforderlich

kontinuierlich steigende Kosten

Lange Umsetzungsdauer von Anforderungen

Aufwändiger Retest des gesamten Systems bei Änderungen

Ziele

Kostenreduktion durch

extrem effiziente Entwicklung

geringe Fehleranfälligkeit

Verkürzung der Time-to-Market durch

flexibles Datenmodell

hoher Automatisierungsgrad

Lösung Verwendung von Data Vault 2.0

Implementierung mit Universal Datamodel Generator (UDG) von PPI

3

Agenda

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

DWH-Landschaften – Ausgangssituation & Ziele

Vorstellung Data Vault

Data Vault 1.0 – Kurzer Überblick

Data Vault 2.0 – Erweiterungen

Data Vault 2.0 – Vergleich mit herkömmlicher Architektur

Data Vault 2.0 – Vorteile

Zusammenfassung

Universal Datamodeling Generator (UDG)

411. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Data Vault 1.0 – Kurzer Überblick

Ziele:

Entkopplung einzelner Komponenten/Fragestellungen für

fachliche Analyse

Entwicklung/Test

Beladung

agiles Vorgehen

kurze Time- to-Market (schnelle Produktivsetzung von Änderungen)

HubsGeschäftsobjekte

LinksBeziehungen von

Geschäftsobjekten

SatellitesEigenschaften von

Geschäftsobjekten

5

Data Vault 2.0 –

Erweiterung durch Architektur und Vorgehensmodell (1/2)

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Architektur

Managed Self-Service BI

Verantwortung für Daten und Geschäftsregeln (technischer Business Analyst)

Write Back: Zurückschreiben neuer Informationen in das DWH (technischer

Business Analyst)

Fehleranalyse: ständige Rückmeldung Fehler an Quellsysteme

vollständige Data-Lineage und Impact-Analyse

Automatisierung aller Prozesse

Technischer Business Analyst als neue zentrale Rolle

verfügt über fundierte fachliche Kenntnisse

hat technisches Grundverständnis

ist wichtigster Ansprechpartner für Entwickler

steuert DWH-Beladung fachlich

6

Data Vault 2.0 –

Erweiterung durch Architektur und Vorgehensmodell (2/2)

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Vorgehensmodell

agiles Vorgehen

Weiterentwicklung von SCRUM

Datenmodellierung

vollständige Entkopplung der Ladeprozesse durch Nutzung

von Hashkeys als Primärschlüssel

vereinfachte Deltaerkennung durch Hashkeys zur Differenzanalyse

logische Zugriffsschicht simuliert relationales Modell (PPI-Ansatz)

7

Geschäftsregeln

Soft Rules

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016

Data Vault 2.0 –

Konkrete Architektur

Quellen Data Vault

Sta

gin

gRaw Vault

+

++

+

+

++

Star Schema

Transformation

Info

rmation M

art

Business Vault

Error Vault

logis

che V

iew

s

Anlieferung Technisches Modell Fachliche Sicht

© PPI AG

1:1-

Übernahme

Integrationslogik

Hard Rules

8© PPI AG

Data Vault 2.0 – Vergleich mit herkömmlicher Architektur

Datenmodell

Herkömmliche Architektur

Änderung einer Relation wirkt sich in

Businessschicht kaskadierend aus

Änderung der Granularität einer

Beziehung erfordert Reengineering

Data Vault

Beziehungen zwischen Relationen gehen

immer maximal über 2 Stufen

Änderung der Granularität einer Beziehung

ist ohne Modelländerung möglich

Hubs und Links können sich nicht ändern

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016

911. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Data Vault 2.0 – Vergleich mit herkömmlicher Architektur

ETL/ELT-Prozess

Herkömmliche Architektur

fachliche Logik auf mehreren Ebenen

Logikänderung beeinflusst großen

Teil des DWH

Data Vault

fachliche Logik nur in Business Rules

Änderung fachliche Logik wirkt sich nur

auf Business Vault / Information Mart aus

Staging

Quellen

Raw Vault

Information Mart

EL ohne Logik

1:1 Übernahme

EL ohne Logik

Business Vault

ETL mit Logik (ergänzend)

Datenversorgung

Datenquellen

Integrationsschicht

Data Mart

ETL mit Logik

ETL mit Logik

ETL mit Logik

Business Schicht

ETL mit Logik (evtl. Datenkopie)

1011. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Data Vault 2.0 – Vergleich mit herkömmlicher Architektur

Standardisierung/Automatisierung

Herkömmliche Architektur

Datenmodell ist nur teilweise

standardisiert

fast alle Beladungen enthalten

fachliche Logik und sind individuell

programmiert

sinnvoller Einsatz von Generatoren

ist nur selten möglich

Data Vault

es gibt klare Regeln zum Aufbau des

Datenmodells

alle Hubs und Links sind technisch

gleich strukturiert

Satelliten haben identische

technische Felder

alle Beladungsprozesse ohne fachliche

Logik werden automatisiert generiert

Beladung Staging

Beladung Raw Vault

Beladung Information Mart

nur Geschäftsregeln zur Beladung des

Business Vaults werden individuell

programmiert

umfangreiche Generierung führt zu

weniger Fehlern

geringerem Aufwand

vollständig einheitlichem Vorgehen

1111. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Data Vault 2.0 – Vergleich mit herkömmlicher Architektur

Parallelisierung der Ladeprozesse

Herkömmliche Architektur

enthält technische Abhängigkeiten

Parallelisierung muss technische

und fachliche Abhängigkeiten

berücksichtigen

geringer Parallelisierungsgrad

Data Vault

Data Vault 2.0 enthält keinerlei

technische Abhängigkeiten (durch

Nutzung von Hash Keys)

Parallelisierung muss nur fachliche

Abhängigkeiten berücksichtigen

sehr hoher Parallelisierungsgrad

1211. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Data Vault 2.0 –

Vorteile

Entkopplung der Abhängigkeiten

massiv parallelisierbare Ladeprozesse

kein Retest des gesamten Systems erforderlich

Reengineering extrem selten

hoher Automatisierungsgrad durch standardisierte Beladungsprozesse

Reduzierung von Speicherplatz

sehr hohe Flexibilität

klare Trennung von Geschäftsobjekten, Beziehungen und Eigenschaften

inkrementelle Erweiterbarkeit

konsequente Transparenz und zeitliche Nachvollziehbarkeit

Time-to-Market sehr kurz / Reduzierung der Entwicklungskosten

Durch den erweiterten PPI-Ansatz entstehen weitere Vorteile:

durch generierte zusätzliche Views wird für fachliche Anwender ein leicht

verständliches relationales Modell automatisiert bereitgestellt

automatisiert verwaltete Point-in-Time (PIT) Tabellen garantieren zu jedem Zeitpunkt

gute Abfrageperformance trotz einer Vielzahl von Joins

13© PPI AG

Data Vault 2.0 –

Vorteile: Kostenkurven im Vergleich

Traditionell

Data Vault 2.0

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016

14

Agenda

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

DWH-Landschaften – Ausgangssituation & Ziele

Vorstellung Data Vault

Data Vault 1.0 – Kurzer Überblick

Data Vault 2.0 – Erweiterungen

Data Vault 2.0 – Vergleich mit herkömmlicher Architektur

Data Vault 2.0 – Vorteile

Zusammenfassung

Universal Datamodeling Generator (UDG)

1511. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

UDG – Universal Datamodeling Generator

Vorstellung

Eclipse Plugin zur Datenbankmodellierung

intuitive Bedienbarkeit

Prüfung der Validierungsregeln, keine (technische) Fehleingabe möglich!

Domain Specific Language (DSL) mit Xtext (Open Source) als Basis

Erzeugung von SQL-Skripten, fachlicher Datenmodelldokumentation u.a.

offene API zum Generieren von beliebigen

projektspezifischen Codes in beliebiger Programmiersprache

fachlichen Dokumentationen als Word-, HTML- oder Excel-Dateien

grafischen Übersichten

seit 4 Jahren PPI-Standardwerkzeug bei eigener Produktentwicklung

1611. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

UDG – Universal Datamodeling Generator

PPI-Ansatz zur Implementierung

Data-Vault-Regel „Reduzierung der Komplexität“ gilt auch für die Tools

herkömmliches Tool

deckt Anforderungen verschiedener Kunden ab

enthält hohe Komplexität

erfordert viel Know-how

bietet Möglichkeiten für Fehler

PPI-Ansatz

statt eines Tools wird eine anpassbare API geliefert

ist vorkonfiguriert

nutzt eigene Domain Specific Language (DSL)

kann nicht alles, aber genau das, was das Projekt braucht

Wer nutzt mehr als

5% der Funktionen

von Word?

17

Umsetzung mit UDG – Basiskomponente

Basis Data Vault Implementierung in UDG mit folgenden Annahmen:

tägliche Belieferung im Batch mit Voll-/Deltabeständen

Geschäftslogik zentralisiert bei Befüllung Business Vault

logisches relationales Datenmodell

Steuerung der Anwendung

Historisierung / Versionierung von Daten

Dokumentation Datenmodell, Data Lineage,

Prozessabhängigkeiten (grafisch , Excel und in Word)

implementiert zwingend erforderliche Funktionalitäten

diesen Code bringt PPI in ein Projekt ein

1. Basiskomponente

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Fundament ist gelegt

1811. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Umsetzung mit UDG – spezifische Verwendung im Projekt

Kunde und PPI führen initial einen technischen Architekturworkshop

durch, der die gewünschte projektspezifische Architektur festlegt:

UDG wird entsprechend diesen Vorgaben angepasst

Namenskonventionen

weitere projektspezifische Anforderungen

Umfang und Layout der Dokumentation

u.a.

1. Basiskomponente2. Anpassung

Projektspezifika

Haus ist errichtet

19

Umsetzung mit UDG – Ergebnisse 1/2

UDG erfüllt im laufenden Projektbetrieb folgende Aufgaben:

Modellierung

Datenmodell Data Vault

Source-Schnittstellen/Staging und Information Mart

Validierung Datenmodell

allgemeine Data-Vault-Regeln eingehalten?

projektspezifische Architekturfestlegungen eingehalten?

Erstellung DDL zur Erzeugung der Tabellen

fachliche Dokumentation Datenmodell, Schnittstellen,

Information Mart inklusive Grafik

3.Generator-

verwendung

im Projekt

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Haus wird genutzt

1. Basiskomponente2. Anpassung

Projektspezifika

vollständige Code-Erstellung für

Befüllung Staging, Befüllung Raw Vault / Error Vault / Information Mart

Read/Write API für Geschäftsregeln

20

Umsetzung mit UDG – Ergebnisse 2/2

vollständige Code-Erstellung für Zugriffsmechanismen auf

Data Vault-Modell

Point in Time (PIT) Tabellen

logisches relationales Datenmodell zum vereinfachten

Zugriff auf Daten

fachliche Dokumentation Datenfluss

vollständige fachliche Impact-Analyse

Abhängigkeitsanalyse zur Steuerung der Beladung mit

maximaler Parallelität

Skripte zum Vergleichstest

Datenmodellmigration

Bereitstellung fehlerhafter Daten für Endanwender zur Korrektur

im Quellsystem

3.Generator-

verwendung

im Projekt

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Haus wird genutzt

1. Basiskomponente2. Anpassung

Projektspezifika

21

Technische Umsetzung – Generatorabdeckung

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Quellen Data Vault

Sta

gin

g

Integrationslogik

Hard Rules

Raw Vault

+

++

+

+

++

Star Schema

Transformation

Info

rmation M

art

Business Vault

Error Vault

Read API

logis

che V

iew

s1:1-

Übernahme

Geschäftsregeln

Soft Rules

Write API

generiert durch UDGindividueller Programmcode

22

Agenda

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

DWH-Landschaften – Ausgangssituation & Ziele

Vorstellung Data Vault

Data Vault 1.0 – Kurzer Überblick

Data Vault 2.0 – Erweiterungen

Data Vault 2.0 – Vergleich mit herkömmlicher Architektur

Data Vault 2.0 – Vorteile

Zusammenfassung

Universal Datamodeling Generator (UDG)

2311. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Zusammenfassung –

Vorteile eines toolbasierten Data Vault-Ansatzes 1/2

sehr schnelle Umsetzungszyklen

automatische Impact-Analyse

hoher Anteil Generierung

- technisch formaler Code vollständig

- Anbindung von Liefersystemen

- Aufbereitung als Star Schema

individuelle Programmierung nur für fachliche Fragestellungen

Entkopplung der Abhängigkeiten durch Data Vault

schnelle Beladungen durch maximale Parallelität

keine technischen Synchronisationspunkte für Data Vault 2.0

automatische fachliche Abhängigkeitsanalyse

2411. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Zusammenfassung –

Vorteile eines toolbasierten Data Vault-Ansatzes 2/2

UDG hat geringe Komplexität

kein ETL-Tool mit umfangreichem (nicht genutztem) Funktionsumfang

„kann genau das, was im Projekt benötigt wird“

garantiert einheitliches Vorgehen

schnelle Einarbeitung neuer Projektmitglieder

projektspezifische Anpassung von UDG jederzeit möglich

geringe Fehlerrate

durch Validierung im UDG keine Verletzung von Architekturvorgaben möglich

hoher Generatoranteil

weniger Testaufwand

vollständiger Vergleichstest mit generierten Skripten möglich

Verarbeitung und automatisierter Vergleich des gleichen Datenbestands mit

Software-Stand vor und nach der Änderung

durch automatisierte vollständige Impact-Analyse nur kleine Teile des DWH zu

testen

25

Kontakt

© PPI AG

Jörg StahnkeDipl. Mathematiker | Principal Database Engineer

Certified Data Vault 2.0 Practitioner

PPI Aktiengesellschaft

Moorfuhrtweg 13

22301 Hamburg

Telefon: +49 40 227433-1329

Mobil: +49 1603841771

[email protected]

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016

Kommen Sie an den Stand der PPI AG und

erleben Sie die Live-Demonstration

des Universal Datamodeling Generators (UDG)!

26

BACKUP

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

2711. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Livedemonstration - im Showroom und am Stand

Validierung

Fehleingaben werden erkannt

Code Completion

Unterstützung bei der Eingabe

Generierung

Aufruf per Kontextmenü

Ergebnisse

Skripte für

- Anpassung Datenmodell

- Beladung Datenmodell

- Ergänzung logisches Modell

Steuerung angepasst

Dokumentationen aktualisiert

- Grafiken / Word / Excel

2811. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Anwendungsszenario

Automatisierte Steuerung der Beladung

AbhängigkeitenProzesse

mit StatusStart Jobgruppe

externe Steuerung legt fest, was

täglich, monatlich … starten soll

Ergänzungautomatische

Ergänzung abhängiger

Prozesse (Konsistenz)Scheduler

Executoren

parallele Ausführung

mit dbms_schedule

neue Jobs startbar?

(Abhängigkeiten erfüllt)

soll

kann

läuft

fertigSignal

generierte

Abhängigkeiten

2911. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Anwendungsszenario

Migration

Grundidee:

in der Data Vault Architektur sind logische relationale Views/Datamarts bereits

vorgesehen

dies wird in der Migrationsphase genutzt, um auf Data Vault Tabellen das „alte“

Datenmodell mit Hilfe von Views zu simulieren

noch nicht umgestellte Teile des DWH greifen auf die logische relationale Sicht von

Data Vault zu

schrittweise Umstellung daher möglich

3011. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Migration - einzelne Tabelle

bisheriges Alt DWH

neue Umsetzung in Data Vault

Raw Vault

Business

Rules

Business Vault

Befüllungsregeln

+

++

+

Source

Hard Rules

View

„Beispiel“

Lesen für Folge-

verarbeitungen

Lesen für Folge-

verarbeitungenTabelle

„Beispiel“

Source

3111. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Migration - Gesamt

bisheriges Alt DWH

Tab 1 Tab 3Tab 2

noch keine Umsetzung in Data Vault

Ausgangszustand - alle Tabellen im Alt DWH

Tabelle Tabelle Tabelle

3211. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Migration - Gesamt

bisheriges Alt DWH mit einem View

Tab 1

Data Vault erstellt

erste Tabelle durch View mit Namen Tab1 ersetzt - Data Vault eingeführt

Tab 3Tab 2

View Tabelle Tabelle

33

Tab 2

11. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Migration - Gesamt

bisheriges Alt DWH mit zweiten View

Data Vault erweitert

weitere Tabelle durch View ersetzt - Data Vault erweitert

Tab 1 Tab 3

View View Tabelle

3411. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Migration - Gesamt

bisheriges Alt DWH abgelöst

Data Vault vollständig

Endzustand - Data Vault vollständig - Alt DWH abgeschaltet

3511. Oracle Business Analytics und Data Warehouse Konferenz 2016, März 2016© PPI AG

Data Vault 2.0 –

Beispiel für Flexibilität: Referentielle Integrität

Szenario

bei einzelnen Konten fehlt die Zuordnung zum Kunden

Anforderung

Reporting über Konten und Kunden muss konsistent sein (gleiche Gesamtsumme)

Traditionelle Umsetzung

mit Hilfe von Foreign Key Constraints

fehlerhafte Sätze werden ausgesteuert (verworfen oder gesondert abgespeichert)

Umsetzung mit Data Vault

alle Daten im Raw Vault („all the facts“)

Flag setzen für fehlerhafte Daten im Business Vault („Soft Rule“)

gezieltes Bereitstellen für Endanwender (logische Views, Information Marts)

Neue Anforderung

Nick Leeson hätte keine Chance durch gezielte Fehleingaben Geschäfte dem

Monitoring zu entziehen

Data Vault hat alle Grunddaten verfügbar und muss nur die Bereitstellung ergänzen

traditionelles System benötigt umfangreiche Änderungen und rückwirkende Daten

fehlen