40
Informationsintegration Ulf Leser

Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Informationsintegration

Ulf Leser

Page 2: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 2

Informationsintegration

Oracle, DB2…

Web Service App

HTML Form

Integriertes Info.-system

Datei- system

Anfrage

Integriertes Informationssystem

Page 3: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 3

Anwendungsgebiet 1: Business [Halevy04]

Page 4: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 4

Anwendungsgebiet 2: Wissenschaft

Page 5: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 5

Anwendungsgebiet 3: Das Web

Page 6: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 6

Ein uraltes Problem

• Seit 50 Jahren auf der Forschungsagenda • Wird immer schwieriger und immer wichtiger

– Web, Internet, Vernetzung – Viele, viele Quellen – Neue Formate und Datenmodelle (EXCEL, XML, GIS, OO,...) – Neue Arten von Anfragen (Ranking, Spatial, Text, Web, Mining ...) – Neue Arten von Nutzern (Laien (Web), Manager, ...) – Neue Anforderungen (24x7x365, schnell, Ad-Hoc, Online) – Neue Anwendungen und Geschäftsmodelle

• Marktplätze, eCommerce, eProcurement • Virtual enterprise, Web services, SOA • Data Markets, Mashups, Web

– etc.

Page 7: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 7

Warum ist es schwer?

• Technische Gründe – Verschiedene Plattformen, Anfragesprachen, Policies, … – Verteilung, Anfragebearbeitung über mehrere Systeme

• Semantische Gründe – Heterogenität auf allen Ebenen (Daten, Schema, Sprachen) – Semantik von Begriffen ist kontextabhängig – Semantik ist schwer zu beschreiben

• Soziologische/psychologische Gründe – Einblick in „fremde“ Datenbanken muss gestattet werden – Menschen zur Zusammenarbeit überreden – Einhalten von Verabredungen und Standards

Page 8: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 8

Definition

• Kurz: Homogener Zugriff aus den Inhalt verschiedener

Datenquellen • Lang: Informationsintegration bezeichnet die korrekte,

vollständige und effiziente Bereitstellung des Inhalts verschiedener, verteilter, autonomer und heterogener Quellen an einer Stelle in Form einer einheitlichen und strukturierten Informationsmenge mit dem Ziel, eine effektiven Nutzung durch Nutzer und Anwendungen zu ermöglichen

Page 9: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 9

Überblick

• Organisatorisches • Zwei Grundprinzipien • Abgrenzung • Ausblick auf das Semester

Page 10: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 10

Modul Informationsintegration

• Modul 4+2, 10SP • Anrechenbar

– Diplom Informatik (Halbkurs Praktische Informatik) – Master Wirtschaftsinformatik – Master Informatik

• Sprechstunde: Nach Vereinbarung – Ulf Leser, Raum IV.105, Tel: (030) 2093 – 3902

• Prüfung: Mündlich oder schriftlich • Voraussetzung: Bestehen aller Übungsaufgaben

Page 11: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 11

Literatur

• Ulf Leser, Felix Naumann: „Informations- integration“, dpunkt.verlag, 2006

• Andere Bücher – Conrad: „Föderierte Datenbanken“, 1997

• Architekturen, Schemaintegration, keine Anfragebearbeitung

– Conrad et al.: „Enterprise Application Integration“, 2006 • Fokus auf EAI und Middleware

– Yu, Meng: „Principles of Database Query Processing“, 1998 • Optimierung verteilter Anfragen

– Özsu, Valduriez: „Principles of Distributed Database Systems“, 1999 • Optimierung, verteilte und parallele Datenbanken

– Halevy, Doan: Principles of Data Integration • Eher theoretisch, sehr umfassend

• Weitere Hinweise in den Vorlesungen

Page 12: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 12

Webseite

Page 13: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 13

Gast

• 13.7. Prof. Adrian Paschke Rule Languages for the Semantic Web

Page 14: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 14

Übung

• Dozent: Yvonne Lichtblau / Mayer • Erster Termin: 27.4.2012, Mittwoch, 13.00, RUD 26, 1'303

– Pflichttermin

• Es gibt vor allem praktische Aufgaben • Sie werden Teams bilden • Alle Übungsblätter müssen bestanden werden • Freiwilliger Wettbewerb: Lösen Sie die Aufgaben möglichst

gut (schnell, hohe Genauigkeit, etc.)

Page 15: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 15

Ihr Feedback SoSe 2012

Page 16: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 16

Kommentare SoSe 12

Besonders gut • Kurze Wiederholungen • Ständige Verbesserung • 4 Anschauliche Beispiele • 2 Gute Reduktion • Datenbankbezug • Hochschulpolitische Gespräche • 2 Sehr anschaulich • Sehr gutes Thema • Anwendung und aktuelle

Forschung • Unterhaltend und kompetent • Roter Faden immer klar

Verbesserungsvorschläge • Hochschulpolitische Themen

nicht übertreiben • 3 Besser mit Übung abstimmen • Klarmachen, das SchemaSQL

keine praktische Relevanz hat • Musterlösungen ausgeben • Weniger Vor/Zurück mit Folien • Beamereinstellung rausfinden • 2 Folien früher ins Netz

Page 17: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 17

Fragen

• Diplominformatiker? • Wirtschaftsinformatiker? • Semester?

• Spezielle Erwartungen?

Page 18: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 18

Überblick

• Organisatorisches • Zwei Grundprinzipien

– Materialisierte Integration – Virtuelle Integration

• Abgrenzung • Ausblick auf das Semester

Page 19: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 19

Materialisierte Integration

• Auch: „Data Warehouse“ (DWH) • Aufbau einer physisch und logisch integrierten Datenbasis • Daten werden aus Quellen kopiert • Homogenisierung / Transformation beim Import in DWH

– Einheiten, Attributnamen, Formate, …

• Post-prozessierung im DWH nötig • Deduplikation, Verknüpfung, …

• Zur Anfragezeit wird nur das Data Warehouse benutzt

Page 20: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 20

Kommerzielle DWH (eigene Vorlesung)

DWH Basisdatenbank

Quelle 2 IMS

Quelle 1 RDBMS

Jahresumsatz: 2334.5565 Pro Monat Januar: 122.004 Februar 023.445

Quelle 3 Textfile

Quellsysteme

Mart 2 Mart 1 Mart 4 Mart 3

Abgeleitete Sichten

Aktualisierungen

Page 21: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 21

Beispiel (SAP BW)

Page 22: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 22

Virtuelle Integration

• Auch: „Föderierung“, „Mediator-basierte Systeme“ • System bildet eine einheitliche Anfrageschnittstelle zu

physisch verteilten und logisch heterogenen Quellen • Daten bleiben in den Quellen • Homogenisierung / Transformation während der

Anfragebearbeitung – Query und Daten

• Daten werden erst zur Anfragezeit bewegt und integriert

Page 23: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 23

Föderierte Systeme

• Aufgabe – Gegeben eine Anfrage q gegen das globale Schema – Gegeben eine Menge von logischen Korrespondenzen zwischen

globalem und lokalen Schemata – Finde alle Antworten auf q

Globales Schema

Lokale Exportschemata

Korrespondenzen

Page 24: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 24

Beispiel (DiscoveryLink, IBM)

Page 25: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 25

Vergleich

DWH – Materialisierung Föderation – Virtuelle Anfragen

Anfrage-geschwindigkeit Schnell (lokal) Langsam (verteilt)

Anfrage- mächtigkeit Alle (SQL) Beschränkt (APIs)

Speicherbedarf Hoch (alle Daten) Minimal (Cache)

Daten ändern Ja (aber Reintegration Nur on-the-fly

Aktualität Veraltet (je nach Updatefrequenz) Aktuellste Daten

Kooperation Quelle

Daten müssen als Download verfügbar sein

Daten müssen über API zugreifbar sein

Art der Integration Prozedurale Integration Deklarative Integration

Page 26: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 26

Virtuelle Integration ist manchmal ein „Muss“

• Fast alles ist schlechter bei virtueller Integration

• Aber… • Datenquellen zu groß (Web) • Datenquellen nicht als Ganzes zugreifbar

– Zugriffsbeschränkung, Copyrights, …

• Inhalt der Datenquellen ändern sich sehr schnell – Börsenkurse, Newsticker, Preise, …

Page 27: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 27

Inhalt dieser Vorlesung

• Organisatorisches • Zwei Grundprinzipien • Abgrenzung

– Enterprise Application Integration – Objektorientierte Middleware – Service Oriented Architectures

• Ausblick auf das Semester

Page 28: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 28

Enterprise Application Integration

• „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

– Geschäftsvorfälle erzeugen Nachrichten – Diese werden an einen Message Broker gesendet – Der erkennt den Inhalt und

wählt interessierte Quellen aus – Transformation der

Nachrichten – Transaktionale

Sicherheit („exactly once“)

SCM

E-Commerce E-Procurement

CRM ERP Message Broker

Page 29: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 29

Unterschiede

• Enterprise Application Integration – Nachrichtenbasiert, keine Anfragen – Informationsverteilung – Aktion beim Eintreten eines Ereignisses – „Business Process Integration“

• Informationsintegration – Anfragebasiert – Annahme eines (praktisch) statischen Datenbestands – Aktion

• Erst bei Anfrage (virtuelle Integration) • In regelmäßigen Zyklen (materialisierte Integration)

– Datenbankintegration, Datenintegration

Page 30: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 30

(OO) Middleware

• „Verteilung von Objekten wird vollkommen transparent“ • Viele Ansätze: DCOM, CORBA, OpenView, J2EE, …

– Weiterentwicklung von Remote Procedure Calls

• Grundidee – Objekte haben weltweit eindeutige ID und Interfaces – Clients programmieren gegen das Interface – Broker finden aufgerufene Objekte zur Laufzeit anhand ID

• Marshalling, RPC, unmarshalling

– Ziel: Plattformunabhängigkeit • Sprache, Betriebssystem, Kodierung, Protokoll

Page 31: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 31

Beispiel: CORBA

• Verteilungstransparenz • Domänenspezifische und generische Dienste

– Namensauflösung, Nachrichtenübermittlung, Persistenz, …

Page 32: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 32

Unterschiede

• Middleware – Werkzeug für die Programmerstellung – Basiert auf Funktionsaufrufen – Versendung programmiersprachlicher Objekte – Vorwiegend transiente Objekte – Fokus auf Methodenaufrufen

• Informationsintegration – Ist eine Aufgabe (Projekt), kein Werkzeug – Basiert auf Anfragen – Arbeiten mit strukturierten Daten – Vorwiegend persistente Objekte – Fokus auf Objektmanipulation und -suche

Page 33: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 33

Service-Oriented Architectures

• Weiterentwicklung der Middleware-Idee • Lose Koppelung, einfache Verknüpfung

– Services sind über einfache Standardschnittstellen erreichbar • HTTP, Web Services, …

– Ungetypte, state-less Kommunikation • REST – put, get

– Keine festen Bindungen (durch Typen, Schemata etc.) • Services können verschoben, ersetzt, verdoppelt … werden

• Ersatz monolithischer Applikationen durch orchestrierte Services – Services bieten Grundfunktionalität (auch Daten) – Anwendungen sind Prozesse über Services – Hohe Bedeutung der Prozessmodellierung (BPMN etc.)

Page 34: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 34

Modularisierte Sicht

Quelle: http://integrella.com/

Page 35: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 35

SOA Infrastrukturkomponenten

Quelle: http://www.urlintegration.com/

Page 36: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 36

Synergien

• SOA: Plattformen zur Entwicklung integrierter Systeme

– Lösung der Verteilungsproblematik – Auflösung von low-level Formatunterschieden (ASCII versus

UniCode, Little Endian versus Big Endian, Datumsformate, …) – Auflösung von Unterschieden im Betriebssystem,

Programmiersprache, …

• Leistet i.A. nicht – Umgang mit strukturierten Daten / Schemata – Übersetzung von Anfragen – Semantische Integration

• EAI wird i.d.R. auf einer Middleware implementiert

Page 37: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 37

Überblick

• Organisatorisches • Informationssysteme • Informationsintegration am Beispiel • Ausblick auf das Semester

Page 38: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 38

Inhalt 1

• Architekturen und Kriterien – Szenarien, Abgrenzung und

Einsatzgebiete – Verteilung, Autonomie,

Heterogenität

• Anfrageplanung

– Multidatenbanksprachen – Local-as-View und Global-as-

View Korrespondenzen – Anfrageplanung mit LaV – Logische Anfrageoptimierung

Oracle, DB2…

Web Service App

HTML Form

Integriertes Info.-system

Datei- system

Anfrage

Integriertes Informations-

system

Datenquelle 1 Datenquelle 2 Datenquelle 3

Integrationssystem

Globale Anfrage

Anfrageübersetzung, -optimierung und -ausführung

Page 39: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 39

Inhalt 2

• Verteilte Anfrageoptimierung – Kostenbasierte verteilte

Optimierung – Semi-Joins – Umgang mit beschränkten

Quellen

• Schemamanagement – Schemaintegration – Schema Matching – Schema Mapping

Datenquelle 1 Datenquelle 2 Datenquelle 3

Integrationssystem

Globale Anfrage

Anfrageübersetzung, -optimierung und -ausführung

Page 40: Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Ulf Leser: Informationsintegration 40

Inhalt 3

• Datenintegration – Informationsqualität – Duplikaterkennung – Datenfusion

• Semantische Integration – Ontologien und

Beschreibungslogiken – Semantic Web

ISBN Author Pages

3442727316 Herman Melville

1056

978-3491960824

Daniel Defoe

644

gespielt_von

film person

schauspieler regisseur

fuehrt_regie_in

rolle

rolle_in

gespielt_von

titel

laenge

name

nationalitaet kritik hat_kritik

hat_nationalitaet

hat_titel

hat_laenge hat_name

spielfilm laenge>79

kurzfilm laenge<11

us_buerger

us_schauspieler hat_nationalitaet

us_rolle us_spielfilm

hat_rolle

ISBN Autorname Year

3491960827 Daniel Defoe 1719

3442727316 H Melville 1851