40
Data Vault orientierte BI-Architekturen in Theorie und Praxis Thomas Mattick Dresden

Data Vault orientierte BI-Architekturen in Theorie und Praxis · Deutsche Data Vault User Group e.V. () ... 2014 – Veröffentlichung Data Vault 2.0 (erweiterte Konzepte) Data Vault

Embed Size (px)

Citation preview

Data Vault orientierte

BI-Architekturen in Theorie und Praxis

Thomas Mattick

Dresden

2 © BBF GmbH

Projektauszug (BI)

Auftragsabwicklung/Leistungsbewertung (Luftfahrt/Logistik)

Wareneingang/Warenausgang/Retouren (Logistik)

Bestandsmanagement (Logistik)

Auftragsmanagement (Großhandel)

Flächenbewirtschaftung (Einzelhandel)

Technologien

IBM Cognos 10.1 Certified

Microsoft SQL Server

Oracle

Informatica Powercenter

Engagement

Deutsche Data Vault User Group e.V. (http://www.ddvug.de)

Empfehlung: Data Modeling Zone und TDWI

Vorstellung Thomas Mattick

Thomas Mattick

Business Developer,

InfoDyn AG

3 © BBF GmbH

InfoDyn AG

Mithilfe unserer intelligenten Technologie bietet die IC Suite

die Möglichkeit nahezu jedes IT-System anzubinden und zu analysieren.

Es wird nur auf die Bereiche der Systeme zugegriffen, die strukturelle,

prozedurale oder operationale Informationen liefern. Die eigentlichen

Daten (Kunden, Verträge, Kontakthistorie etc.) bleiben unangetastet.

Ziel

Wir ermöglichen Unternehmen, den gesamten Fluss Ihrer Informationen

von den IT-Systemen bis zum Anwender zu kennen und zu verstehen

Produkt

4 © BBF GmbH

InfoDyn AG

Nord Amerika

ITBconsult Inc.

1660 Hamilton Avenue

Suite 206

95125 San Jose

www.itbconsult-inc.com

Referenzen

Unternehmen aus verschiedenen Branchen arbeiten bereits mit

Modulen der IC Suite und profitieren von den Vorteilen:

Finanzdienstleistungen

Krankenversicherungen

Recycling

Behörden

Europa

BBF GmbH

Erika-Mann-Str. 57

80636 München

www.bbf-soft.de

Partner

Firmensitz

in Deutschland

InfoDyn AG

Wendelsteinstr. 16

82166 Gräfelfing

Standorte

Vertriebsbüro

in den USA

InfoDyn Inc.

701 Fifth Ave,

Suite 4200

Seattle, WA 98104

5 © BBF GmbH

Unabhängiges Software-Haus mit den

Schwerpunkten Datenmanagement und

Business Intelligence.

Das Unternehmen wurde 1996 gegründet

hat den Hauptsitz in München und eine

Niederlassung in Dresden.

Gründer und geschäftsführende Inhaber sind

Benjamin Böhm und Wolfgang Fergen.

Aktuell etwas über 30 Mitarbeiter.

Einsatz von template- und modellbasierte

Entwicklung und eigenentwickelten

Generatoren.

Produkt- und herstellerunabhängig und

eingebunden ein enges Netzwerk mit

Partnern und Herstellern.

In den nationalen und internationalen

Kundenprojekten jederzeit

auch beim Kunden vor Ort tätig.

Unternehmen und Mitarbeiter

Das Unternehmen

6 © BBF GmbH

BI:G

Der Lösungsansatz ist die Kombination von

methodischer Vorgehensweise und

effizienter, sprich automatisierter Entwicklung.

Mit BI:G schafft BBF für die Kunden die

Möglichkeit, in wenigen Schritten ein

traditionelles Data Warehouse in einer

3-Schichten-Architektur auf Basis eines

Data Vaults zu erzeugen.

Beschreibung

Instanziierte Modellierungskomponente

(technisch und fachlich)

Angabe von Quell- Zielzuordnungen,

zentralisierter Steuerspalten,

Bearbeitungsstatus, …

Rollout

BI:G Projektbaukasten für BI auf Basis eines Data Vaults

Self Service

BI Reporting

Logging Frame-

work

Oper-ations

Testing & QA

ETL Frame-

work

Data Modeler

7 © BBF GmbH

Agenda – Übersicht

Einleitung – Herausforderungen an BI-Projekte

Standardisierung – Standards als Basis erfolgreicher BI-Projekte

Architektur – CDW zur Unterstützung änderungsorientierter BI

Data Vault – Methodik als Lösungsansatz änderungsorientierter BI

Praxis – Vorstellung eines Standards (BI:G) für BI-Projekte

Zusammenfassung – Vorteile für die Umsetzung von BI-Projekten

8 © BBF GmbH

Agenda

Einleitung

Standardisierung

Architektur

Data Vault

Praxis

Zusammenfassung

9 © BBF GmbH

BI-Projekte und Ihre Anforderungen

Anforderungen

Ungenau

Unzureichend

Widersprüchlich

Verändernd

Unerwartet

Ursachen (u.a.)

Fehlende Erfahrung bei der Aufnahme BI-orientierter Anforderungen

Fehlende/Falsche Kenntnisse datengebender Systeme

Widersprüchliche Aussagen aufgrund verschiedener Verantwortlicher

Unzureichende Vorstellungen des Möglichen

Wunsch nach mehr

Einleitung

10 © BBF GmbH

BI-Projekte und Ihre wünschenswerten Eigenschaften

Agile und anpassbare Vorgehensmodelle

Möglichkeiten zur parallelen Abarbeitung von Projektthemen

Skalierbare Datenintegrationsprozesse

Typorientierte Datenintegrationsprozesse

Wartungsfreundliche Datenintegrationsprozesse

Möglichkeit zum zentralen Betrieb

Zentralisierte Auswertungen und Protokolle zur Betriebsunterstützung und

Datenqualitätssicherung

Einleitung

11 © BBF GmbH

Agenda

Einleitung

Standardisierung

Architektur

Data Vault

Praxis

Zusammenfassung

12 © BBF GmbH

Prozentuale Aufwandsverschiebung hin zur Anforderungsdefinition

Definierte anpassbare Vorgehensmodelle

Modellierung

Datenintegration

Betrieb

Klare Rahmenbedingungen

Regelwerke

Konventionen

Vorlagen

Feste Richtlinien

Architektur

Bewirtschaftung

Protokollierung

Standardisierung

13 © BBF GmbH

Agenda

Einleitung

Standardisierung

Architektur

Data Vault

Praxis

Zusammenfassung

14 © BBF GmbH

Architektur

Ad-hoc Auswertungen Analysen Berichte

MART

CORE

Cube Modell

STAGE

15 © BBF GmbH

STAGE (Quellsystemorientiert)

Klassische schnittstellenorientierte 1:1 Datenabzugsschicht (n-STAGEs bei Heterogenität)

Konsumorientierte Persistenz

CORE (DV - Ablageorientiert)

Datenmittelpunkt und einzige Datenwahrheit

Konsolidiert Geschäftsentitäten, verbindet diese und legt Nutzinformationen historisiert ab

Eigenschaften DV ermöglichen Vorzug Datentiefe vor Datenbreite

MART (Stern – Abfrageorientiert)

Fachlicher "Endpunkt" (n-MARTs durch Fokussierung auf Anwender/Anwendung/Auswertung)

Daten in Form konsolidierter Dimensionen und dedizierter Fakten

(Aggregationen, Kumulationen, Redundanz, -alles ablagefähige-)

Architektur

Standardisiert vereinfachte und festgelegte BI-Architektur

16 © BBF GmbH

Agenda

Einleitung

Standardisierung

Architektur

Data Vault

Praxis

Zusammenfassung

17 © BBF GmbH

Dan Linstedt

Ziele

Agil

Flexibel

Erweiterbar

Datengranularität auf Quelldatenebene

Mehrquellfähig

Zeitlinie

1990 – 1999 Entwicklung

1999 – 2001 abschließende Evaluierung durch Projekte

2001 – Veröffentlichung Data Vault 1.0

2014 – Veröffentlichung Data Vault 2.0 (erweiterte Konzepte)

Data Vault – Allgemeines

18 © BBF GmbH

Modellierung

Liste einfacher übersichtlicher und aufgabenorientierter Objekte

Dekomposition von Schlüssels

Separierung der Nutzdaten

Bewirtschaftung

modellierungsgetrieben

Unabhängig in Bezug auf Quelldatenbindungen

Konsolidierung von Entitäten unterschiedlicher Quellen

Betrieb

parallel

Data Vault – Methodik

19 © BBF GmbH

Tabellentypen (Auszug)

Hubs

Links

Satelliten

Referenzen (Optional)

Point-In-Times (Optional)

Bridges (Optional)

Modellierung

20 © BBF GmbH

Modellierung

3NF

DV

STAR

21 © BBF GmbH

Bewirtschaftungstypen (Auszug)

Hubs

Reine Insert Operationen

Hash-Keys basierend auf BKs

Links

Reine Insert Operationen

Hash-Keys basierend auf Hub-Hash-Keys basierend auf BKs

Satelliten

Insert/Update Operationen

Historisierungslogik

Hash-Keys Basierend auf Hub-Hash-Keys basierend auf BKs

Bewirtschaftung

22 © BBF GmbH

Betriebstypen (Auszug)

Vollständig parallel

Eine Zieltabelle darf nur durch einen Bewirtschaftungsprozess bedient werden

Einsatz von Hash-Keys sind Voraussetzung

Sequentiell nach Bewirtschaftungstyp (Keine Link auf Links)

Schritt 1: Alle Hubs

Schritt 2: Alle Links, Alle Satelliten an Hubs

Schritt 3: Alle Satelliten an Links, Alle Referenzen

Schritt 4: Alle Bridges, Alle Point-In-Times

Betrieb

23 © BBF GmbH

Weiteres

Verteilung der Komplexität

Einfach zu modellieren, aber viel

Einfach zu bewirtschaften, aber viel

Erhöhung der Anzahl von Entitäten

Aufwendige Abfrage von Informationen

Virtualisierte oder persistierte Sichten zu Auswertungszwecken notwendig

Weiterführende Informationen

Data Vault auf http://www.DDVUG.de

Geschichte des Data Vault auf

https://www.youtube.com/watch?v=Xx4sdjGRriw&feature=youtu.be&list=UUFN-

i5nthZgdR0xj3UYYqVw

Tiefergehende Einblicke in Blog-Form auf http://www.datavaultmodeling.de/blog

Data Vault

24 © BBF GmbH

Agenda

Einleitung

Standardisierung

Architektur

Data Vault

Praxis

Zusammenfassung

25 © BBF GmbH

BI:G – Komponenten

CORE

STAGE MART

LOGGER

LOADER

CONNECTOR

MODELER

STAGER

26 © BBF GmbH

Zentral

LOGGER

Zentrale Protokollierung

Bestehend aus Tabellen, Prozeduren und Regelwerken

Nachvollziehbarkeit von Datensatzlebenszyklen

Individuell

STAGER

Bildung einer 1:1 Abzugsschicht

Klont Datenbankschnittstellen (Tabellen, Views)

Rollout inklusive Steuerspalten und Tabelleninstanzen

BI:G

27 © BBF GmbH

Instanziiert

CONNECTOR

Tabellen, Prozeduren und Regelwerke

Identifikation geänderter Daten

LOGGER Erhöhung/Verbesserung/Erweiterung der Selektionskriterien

LOADER

Tabellen und Regelwerke

Definition und Konfiguration von Ladeketten

Konkretisierung durch Angabe von Aktivität, Ladeposition, Parallelisierung, Quellen, …

MODELER

Instanziierte Modellierungskomponente (technisch und fachlich)

Angabe von Quell- Zielzuordnungen, zentralisierter Steuerspalten, Bearbeitungsstatus, …

Rollout

BI:G

28 © BBF GmbH

BI:G – Vorlagen

Stage Core

Mart

LOGGER

MO

DE

LE

R

LOADER

CO

NN

EC

TO

R

MASTER

STA 1:1

HUB

SAT

BRI

DIM

FAKT STA 1:X

LNK

REF

29 © BBF GmbH

Modellierung

STAGER

Bildung generischer STAGE-Tabellenausprägungen

Reine DB-Schnittstellen (Tabellen/Views)

Quelldatentyp gleich Zieldatentyp

Keine Constraints

Generische Erweiterung um Steuerspalten

MODELER

Bildung Konkreter STAGE-Tabellenausprägungen

nonDB-Schnittstellen und changeDB-Schnittstellen (Bereinigung, Transformationen, …)

Variabler Zieldatentyp

Dedizierte Constraints

Zentrale Erweiterung um Steuerspalten

Schichten: STAGE

30 © BBF GmbH

Bewirtschaftung

Master-ETL

Stage-ETL basierend auf STAGER

Individual-ETL, basierend auf MODELER

Einsatz mitgelieferter Vorlagen

Zeitstempelorientierte Deltalogik

und Protokollierung

Atomare Abschlussoperation

Eigenschaften

Komfortable Erstellung

Einfache Verarbeitungslogik

Performance

Wartbarkeit, Robustheit und Wiederanlauffähigkeit

Nachvollziehbarkeit

Protokollierend und Deltagebend (prozessorientiert)

Schichten: STAGE

EXTRACT

LOAD PSTA

INSERT STA

I|F

M|A|F

TRUNCATE STA

LOADER

LOGGER | CONNECTOR

Threads

Master

31 © BBF GmbH

Betrieb

Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung

LOADER

Konfiguration der ETL-Strecken

Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)

Einträge dienen dem Master-ETL als Grundlage

Technologieorientierte Laufsteuerung

Aufruf Master-ETL

LOGGER

Einrichtung des JOBs

Überwachung über LOGGER basierte Abfragen

Schichten: STAGE

32 © BBF GmbH

Modellierung

Regelwerke für

Modellierungsformen (hier nach DV)

Namenskonventionen

MODELER

Fachliche Modellierung

Tabellentyp, Tabellen und Spalten

Angabe von Berechnungsvorschriften

Technische Modellierung

Tabellenart, Datentyp (Konsolidierung), Constraints, Schlüsselbeziehungen und -arten

Quell- Zielzuordnung

Zentrale Bildung Konkreter CORE-Tabellenausprägungen

Zentrale Erweiterung um Steuerspalten anhand Tabellenart und -typ

Einfacher Rollout

Schichten: CORE

33 © BBF GmbH

Bewirtschaftung

Master-ETL

Individual-ETL, basierend auf MODELER

Einsatz mitgelieferter Vorlagen

Prozessorientierte Deltalogik

und Protokollierung

Abhängigkeitsparadigma

Atomare Abschlussoperation

Schichten: CORE

TRUNCATE

INSERT

INSERT

LOAD CORE

UPD

L|T|E

H

UPD_SRC|UPD

LOADER | CONNECTOR | LOGGER

LOGGER | CONNECTOR

PID

UPD_SRC

EXTRACT

LOGGER

LOGGER

Threads

Master

34 © BBF GmbH

Betrieb

Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung

LOADER

Konfiguration der ETL-Strecken

Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)

Einträge dienen dem Master-ETL als Grundlage

Technologieorientierte Laufsteuerung

Aufruf Master-ETL

LOGGER

Einrichtung des JOBs

Überwachung über LOGGER basierte Abfragen

Schichten: CORE

35 © BBF GmbH

Modellierung

Regelwerke für

Modellierungsformen (hier nach Stern – Dimensionen und Fakten)

Namenskonventionen

MODELER

Fachliche Modellierung

Tabellentyp, Tabellen und Spalten

Angabe von Berechnungsvorschriften

Technische Modellierung

Tabellenart, Datentyp (Konsolidierung), Constraints, Schlüsselbeziehungen und -arten

Quell- Zielzuordnung

Zentrale Bildung Konkreter MART-Tabellenausprägungen

Zentrale Erweiterung um Steuerspalten anhand Tabellenart und -typ

Einfacher Rollout

Schichten: MART

36 © BBF GmbH

Bewirtschaftung

Master-ETL

Individual-ETL, basierend auf MODELER

Mitgelieferte Vorlagen und

Skriptdimensionen

Prozessbasierte entitätsorientierte

Deltalogik und Protokollierung

Abhängigkeitsparadigma

Atomare Abschlussoperation

Schichten: MART

TRUNCATE

INSERT

INSERT

LOAD MART

UPD

C

L|T|E

UPD_SRC|UPD

LOADER | CONNECTOR | LOGGER

LOGGER | CONNECTOR

EPID

UPD_SRC

EXTRACT

LOGGER

LOGGER

Threads

Master

37 © BBF GmbH

Betrieb

Standardisiertes Regelwerk zur Konfiguration, Aufruf und Überwachung

LOADER

Konfiguration der ETL-Strecken

Angabe dedizierter Eigenschaften (Quellen, Ziel, Paket, Delta, Lademethode, Thread, …)

Einträge dienen dem Master-ETL als Grundlage

Technologieorientierte Laufsteuerung

Aufruf Master-ETL

LOGGER

Einrichtung des JOBs

Überwachung über LOGGER basierte Abfragen

Schichten: MART

38 © BBF GmbH

Agenda

Einleitung

Standardisierung

Architektur

Data Vault

Praxis

Zusammenfassung

39 © BBF GmbH

Standards + Data Vault + Framework Kosten/Nutzen Argumentation

Parallelisierung von Projektaufgaben

Kurze Einarbeitungszeiten für Modellierer

Kurze Einarbeitungszeiten für Entwickler

Geringe Dokumentationskosten

Einfacher Betrieb der ETL-Strecken

Zusammenfassung

Verschiebung des Aufwands zum Wesentlichen – den Anforderungen

Vielen Dank!

BBF GmbH

Erika-Mann-Str. 57

80636 München

Tel. +49 (0) 89 189099 - 0

Web www.bbf-soft.de

eMail [email protected]

Kontakt:

Thomas Mattick

Senior Consultant

Tel. +49 (0) 351 811 954 10

Mobil +49 (0) 176 414 56 427

eMail [email protected]