19
© Fraunhofer-Institut für Angewandte Informationstechnik FIT Data Lakes: Data Lakes: Data Lakes: Data Lakes: Lösung oder neue Herausforderung für Lösung oder neue Herausforderung für Lösung oder neue Herausforderung für Lösung oder neue Herausforderung für Big Big Big Big- - -Data Data Data Data- - -Integration Integration Integration Integration? ? ? ? PD Dr. Christoph Quix Fraunhofer-Institut für Angewandte Informationstechnik FIT Life Science Informatics Abteilungsleiter High Content Analysis & Information-intensive Instruments [email protected] Informatik 5 (Databases & Information Systems) Leiter der Forschungsgruppe Big Data & Model Management RWTH Aachen University

Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Data Lakes: Data Lakes: Data Lakes: Data Lakes: Lösung oder neue Herausforderung für Lösung oder neue Herausforderung für Lösung oder neue Herausforderung für Lösung oder neue Herausforderung für BigBigBigBig----DataDataDataData----IntegrationIntegrationIntegrationIntegration? ? ? ?

PD Dr. Christoph QuixFraunhofer-Institut für Angewandte Informationstechnik FITLife Science InformaticsAbteilungsleiter High Content Analysis & Information-intensive [email protected]

Informatik 5 (Databases & Information Systems)Leiter der Forschungsgruppe Big Data & Model Management

RWTH Aachen University

Page 2: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Die üblichen Probleme eines BigDie üblichen Probleme eines BigDie üblichen Probleme eines BigDie üblichen Probleme eines Big----DataDataDataData----ProjektsProjektsProjektsProjekts

� Welche Datenquellen sind verfügbar?

� Wo sind die Daten, die ich für meine Anwendung brauche?

� Welche Schnittstellen bietet die Datenquelle?

� Mit welchem API kann ich effizient auf die Daten zugreifen?

� Wie kann ich die Daten mit anderen Daten in Beziehung setzen?

� Wie kann ich die Daten in mein gewünschtes Zielsystem und die gewünschte Zielstruktur bringen?

� Wie kann man die Daten kontinuierlich aktualisieren?

� …Datenzugriff & VerfügbarkeitDatenzugriff & VerfügbarkeitDatenzugriff & VerfügbarkeitDatenzugriff & Verfügbarkeit

Data Lakes als universeller Datenspeicher

Page 3: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Quelle des Data LakeQuelle des Data LakeQuelle des Data LakeQuelle des Data Lake

James Dixon (Pentaho) https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/

If you think of a datamart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural statemore natural statemore natural statemore natural state. The contents of the data lake stream in from a source from a source from a source from a source to fill the lake, and various users various users various users various users of the lake can come to examine, dive in, or to examine, dive in, or to examine, dive in, or to examine, dive in, or take take take take samplessamplessamplessamples.

HeterogenitätUnsicherheitKomplexität

Daten-quellen

Daten-nutzer

Page 4: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

AgendaAgendaAgendaAgenda

� Motivation und Einleitung

� Aktueller Stand der Praxis

� Architektur eines Data-Lake-Systems

� Herausforderungen bei der Umsetzung eines Data-Lake-Systems

� Zusammenfassung und Ausblick

Page 5: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

AgendaAgendaAgendaAgenda

� Motivation und Einleitung

� Aktueller Aktueller Aktueller Aktueller Stand der PraxisStand der PraxisStand der PraxisStand der Praxis

� Architektur eines Data-Lake-Systems

� Herausforderungen bei der Umsetzung eines Data-Lake-Systems

� Zusammenfassung und Ausblick

Page 6: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Aktueller Stand der PraxisAktueller Stand der PraxisAktueller Stand der PraxisAktueller Stand der Praxis

� Häufig genannte Eigenschaften eines Data-Lake-Systems

� Speicherung der Daten in ursprünglicher Struktur

� Daten von beliebigen Quellen können hinzugefügt werden

� Ein Data Lake hat mehrere Datenquellen

� Metadaten sind wichtig

� Governance ist erforderlich

� Aber

� Wenig Details zu erforderlichen Funktionen und Datenmodellen

� Keine Referenzarchitekturen

� „Beratungsintensiv“

Page 7: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Abstrakte DLAbstrakte DLAbstrakte DLAbstrakte DL----Architektur von pwcArchitektur von pwcArchitektur von pwcArchitektur von pwc

Quelle: pwc: http://www.pwc.com/us/en/technologyforecast/2014/cloud-computing/assets/pdf/pwc-technologyforecast-data-lakes.pdf

Hadoop stellt nicht die

Architektur für ein Data-Lake-System bereit, es kann aber eine wichtige Komponente

sein.

Page 8: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

DLDLDLDL----Architektur für ein FlightArchitektur für ein FlightArchitektur für ein FlightArchitektur für ein Flight----TrackingTrackingTrackingTracking----SystemSystemSystemSystem

Boci, E. & Thistlethwaite, S.: A novel big data architecture in support of ADS-B data analyticProc. Integrated Communication, Navigation, and Surveillance Conference (ICNS), 2015201520152015, C1-1-C1-8

Page 9: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

AgendaAgendaAgendaAgenda

� Motivation und Einleitung

� Aktueller Stand der Praxis

� Architektur eines DataArchitektur eines DataArchitektur eines DataArchitektur eines Data----LakeLakeLakeLake----SystemsSystemsSystemsSystems

� Herausforderungen bei der Umsetzung eines Data-Lake-Systems

� Zusammenfassung und Ausblick

Page 10: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Vorschlag für eine DLVorschlag für eine DLVorschlag für eine DLVorschlag für eine DL----ArchitekturArchitekturArchitekturArchitektur

Page 11: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Ingestion LayerIngestion LayerIngestion LayerIngestion Layer

� Geringer Aufwand für das Ladenvon Datenquellen (kein ETL!)

� Unterstützung für die Extraktionvon Metadaten und Daten

� Grad der Automatisierung?

� Schema für semi-strukturierte Daten (JSON, XML)

� Schema-on-Read

� Lazy Loading

� Aufgaben des DL-Administrators:

� Konfiguration der Datenquellen

� Überwachung der Datenqualität

Page 12: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Storage LayerStorage LayerStorage LayerStorage Layer

� Welcher Typ von Datenspeicher?

� HDFS? NoSQL? RDBMS?

� Hybrid!

�Einheitliche Schnittstelle für Datenzugriff

�Übersetzung der Anfragen und Transformation der Daten

� Metadatensystem und -modell

� Speicherung von Schemata, Mappings, Datenqualitätsinformationen und Datenherkunft

� Enge Verknüpfung von Daten und Metadaten

� Aufgaben des Data Scientist:

� Verwaltung der Metadaten

� Definition von Data Marts (anwendungsspezifisch oder -unabhängig)

Page 13: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Interaction LayerInteraction LayerInteraction LayerInteraction Layer

� Suche & Navigation im Datenbestand

� Wenig direkte Anfragen (SQL), eher „Google“-ähnliche Anfragen

� Metadaten und Daten

� Nutzerinterkation muss als Metadaten erfasst werden

� Definition von genauen Anfragen

� Erfassen von bisher unbekannten Datenzusammenhängen

� Metadaten-Management

� Exploration des DL-Systems (was gibt es?)

� Semantische Annotationen

� Aufgaben des Nutzers

� Inkrementeller Aufbau von Data Marts (evtl. mit Data Scientist)

� Anreicherung der Metadaten

Page 14: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

HUMITHUMITHUMITHUMIT----AnsatzAnsatzAnsatzAnsatz

� Human‐zentrierte Unterstu ̈tzunginkrementell‐ interaktiver Datenintegration am Beispiel von Hochdurchsatzprozessen in den Life Sciences (BMBF-Projekt 2015-2018)

� Integration nach dem PayPayPayPay----asasasas----youyouyouyou----gogogogo-Prinzip

� Daten werden inkrementellinkrementellinkrementellinkrementell erfasst und integriert integriert integriert integriert

� Interaktive Werkzeuge Interaktive Werkzeuge Interaktive Werkzeuge Interaktive Werkzeuge für die Exploration und Selektion von Daten, für die Definition semantischer Beziehungen und Visualisierung

� Trennung von Speicherung und Verarbeitung, Rohdaten werden mit Rohdaten werden mit Rohdaten werden mit Rohdaten werden mit Metadaten in Data LakeMetadaten in Data LakeMetadaten in Data LakeMetadaten in Data Lake erfasst und sind direkt verfügbar, Integrationsaufgaben nachgelagert http://humit.de

Page 15: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

AgendaAgendaAgendaAgenda

� Motivation und Einleitung

� Aktueller Stand der Praxis

� Architektur eines Data-Lake-Systems

� Herausforderungen bei der Umsetzung eines DataHerausforderungen bei der Umsetzung eines DataHerausforderungen bei der Umsetzung eines DataHerausforderungen bei der Umsetzung eines Data----LakeLakeLakeLake----SystemsSystemsSystemsSystems

� Zusammenfassung und Ausblick

Page 16: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Lazy & PayLazy & PayLazy & PayLazy & Pay----AsAsAsAs----YouYouYouYou----GoGoGoGo

� Laden und Integration der Daten erfordert hohen manuellen und technischen Aufwand

� Wesentliche Aufgaben sollten erst dann erledigt werden, wenn sie wirklich erforderlich sind

� Aufgaben werden evtl. dadurch einfacher, da sie nur für eine bestimmte Anwendung und nicht generell gelöst werden müssen (z.B. Schemaintegration)

� Abwägung zwischen vorherigen „Investitionen“ und späteren „Benutzeraufgaben“

� Nicht alle Aufgaben zum Cleaning, Integration, Transformation der Daten auf Benutzer abwälzen

Page 17: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

SchemaSchemaSchemaSchema----onononon----Read & SchemaRead & SchemaRead & SchemaRead & Schema----EvolutionEvolutionEvolutionEvolution

� Schema-on-Read

� Schemata werden erst bei Zugriff auf die Daten erstellt (� Lazy)

� Methoden zum Ableiten eines Schemas aus semi-strukturierten Daten erforderlich

� Schema-Evolution

� Insbesondere semi-strukturierte Daten können häufig ihr Schema ändern, d.h. bereits erkannte Schemata müssen aktualisiert werden

� Schemata können während der Benutzung mit weiteren Constraints und semantischen Annotationen angereichert werden

Page 18: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

DatenqualitätDatenqualitätDatenqualitätDatenqualität

� Datenqualitäts-management ist ganzheitliches Thema für ein Data-Lake-System

� Schon beim Laden der Daten muss Datenqualität überprüft werden, ansonsten gibt es einen Datensumpf

�Minimale Anforderungen für Datenquellen (z.B. Bereitstellung von bestimmten Datenfeldern oder Metadaten)

�Überprüfen bestimmter Qualitätsmerkmale durch Anfragen oder Sampling

� Qualitätsdaten in Metadatensystem verwalten und für Nutzer verfügbar machen

Page 19: Data Lakes: Lösung oder neue Herausforderung für Big ...dbis.rwth-aachen.de/~quix/papers/bitkom-ak-nov-2015.pdf · Data Lakes: Lösung oder neue Herausforderung für Big----DataDataData-

© Fraunhofer-Institut für Angewandte Informationstechnik FIT

Zusammenfassung und AusblickZusammenfassung und AusblickZusammenfassung und AusblickZusammenfassung und Ausblick

� Data-Lake-Systeme können die DatenDatenDatenDaten----verfügbarkeit und den Datenzugriff verfügbarkeit und den Datenzugriff verfügbarkeit und den Datenzugriff verfügbarkeit und den Datenzugriff ineiner Organisation verbessern

� In Forschung und Praxis bisher noch wenig Arbeiten zu Data Lakes, daher gibt es wenig Referenzarchitekturen oder anerkannte „Best Practices“

� Lösung oder neue Herausforderung? � Sowohl als auch

� Gute Umsetzung mit Metadatenmanagement, Datenqualitätskontrolle und Governance kann Integration von Daten vereinfachen

� Neue Konzepte (nicht unbedingt neue Technologien) sind dafür notwendig

� DLs sind komplexe Systeme aus mehreren Komponenten, nicht nur HDFS

� Klassische Integrationsprobleme bestehen weiterhin, allerdings Verlagerung der Lösung