Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Informationsintegration
Ulf Leser
Ulf Leser: Informationsintegration 2
Informationsintegration
Oracle, DB2…
Web Service App
HTML Form
Integriertes Info.-system
Datei- system
Anfrage
Integriertes Informationssystem
Ulf Leser: Informationsintegration 3
Anwendungsgebiet 1: Business [Halevy04]
Ulf Leser: Informationsintegration 4
Anwendungsgebiet 2: Wissenschaft
Ulf Leser: Informationsintegration 5
Anwendungsgebiet 3: Das Web
Ulf Leser: Informationsintegration 6
Ein uraltes Problem
• Seit 50 Jahren auf der Forschungsagenda • Wird immer schwieriger und immer wichtiger
– Web, Internet, Vernetzung – Viele, viele Quellen – Neue Formate und Datenmodelle (EXCEL, XML, GIS, OO,...) – Neue Arten von Anfragen (Ranking, Spatial, Text, Web, Mining ...) – Neue Arten von Nutzern (Laien (Web), Manager, ...) – Neue Anforderungen (24x7x365, schnell, Ad-Hoc, Online) – Neue Anwendungen und Geschäftsmodelle
• Marktplätze, eCommerce, eProcurement • Virtual enterprise, Web services, SOA • Data Markets, Mashups, Web
– etc.
Ulf Leser: Informationsintegration 7
Warum ist es schwer?
• Technische Gründe – Verschiedene Plattformen, Anfragesprachen, Policies, … – Verteilung, Anfragebearbeitung über mehrere Systeme
• Semantische Gründe – Heterogenität auf allen Ebenen (Daten, Schema, Sprachen) – Semantik von Begriffen ist kontextabhängig – Semantik ist schwer zu beschreiben
• Soziologische/psychologische Gründe – Einblick in „fremde“ Datenbanken muss gestattet werden – Menschen zur Zusammenarbeit überreden – Einhalten von Verabredungen und Standards
Ulf Leser: Informationsintegration 8
Definition
• Kurz: Homogener Zugriff aus den Inhalt verschiedener
Datenquellen • Lang: Informationsintegration bezeichnet die korrekte,
vollständige und effiziente Bereitstellung des Inhalts verschiedener, verteilter, autonomer und heterogener Quellen an einer Stelle in Form einer einheitlichen und strukturierten Informationsmenge mit dem Ziel, eine effektiven Nutzung durch Nutzer und Anwendungen zu ermöglichen
Ulf Leser: Informationsintegration 9
Überblick
• Organisatorisches • Zwei Grundprinzipien • Abgrenzung • Ausblick auf das Semester
Ulf Leser: Informationsintegration 10
Modul Informationsintegration
• Modul 4+2, 10SP • Anrechenbar
– Diplom Informatik (Halbkurs Praktische Informatik) – Master Wirtschaftsinformatik – Master Informatik
• Sprechstunde: Nach Vereinbarung – Ulf Leser, Raum IV.105, Tel: (030) 2093 – 3902
• Prüfung: Mündlich oder schriftlich • Voraussetzung: Bestehen aller Übungsaufgaben
Ulf Leser: Informationsintegration 11
Literatur
• Ulf Leser, Felix Naumann: „Informations- integration“, dpunkt.verlag, 2006
• Andere Bücher – Conrad: „Föderierte Datenbanken“, 1997
• Architekturen, Schemaintegration, keine Anfragebearbeitung
– Conrad et al.: „Enterprise Application Integration“, 2006 • Fokus auf EAI und Middleware
– Yu, Meng: „Principles of Database Query Processing“, 1998 • Optimierung verteilter Anfragen
– Özsu, Valduriez: „Principles of Distributed Database Systems“, 1999 • Optimierung, verteilte und parallele Datenbanken
– Halevy, Doan: Principles of Data Integration • Eher theoretisch, sehr umfassend
• Weitere Hinweise in den Vorlesungen
Ulf Leser: Informationsintegration 12
Webseite
Ulf Leser: Informationsintegration 13
Gast
• 13.7. Prof. Adrian Paschke Rule Languages for the Semantic Web
Ulf Leser: Informationsintegration 14
Übung
• Dozent: Yvonne Lichtblau / Mayer • Erster Termin: 27.4.2012, Mittwoch, 13.00, RUD 26, 1'303
– Pflichttermin
• Es gibt vor allem praktische Aufgaben • Sie werden Teams bilden • Alle Übungsblätter müssen bestanden werden • Freiwilliger Wettbewerb: Lösen Sie die Aufgaben möglichst
gut (schnell, hohe Genauigkeit, etc.)
Ulf Leser: Informationsintegration 15
Ihr Feedback SoSe 2012
Ulf Leser: Informationsintegration 16
Kommentare SoSe 12
Besonders gut • Kurze Wiederholungen • Ständige Verbesserung • 4 Anschauliche Beispiele • 2 Gute Reduktion • Datenbankbezug • Hochschulpolitische Gespräche • 2 Sehr anschaulich • Sehr gutes Thema • Anwendung und aktuelle
Forschung • Unterhaltend und kompetent • Roter Faden immer klar
Verbesserungsvorschläge • Hochschulpolitische Themen
nicht übertreiben • 3 Besser mit Übung abstimmen • Klarmachen, das SchemaSQL
keine praktische Relevanz hat • Musterlösungen ausgeben • Weniger Vor/Zurück mit Folien • Beamereinstellung rausfinden • 2 Folien früher ins Netz
Ulf Leser: Informationsintegration 17
Fragen
• Diplominformatiker? • Wirtschaftsinformatiker? • Semester?
• Spezielle Erwartungen?
Ulf Leser: Informationsintegration 18
Überblick
• Organisatorisches • Zwei Grundprinzipien
– Materialisierte Integration – Virtuelle Integration
• Abgrenzung • Ausblick auf das Semester
Ulf Leser: Informationsintegration 19
Materialisierte Integration
• Auch: „Data Warehouse“ (DWH) • Aufbau einer physisch und logisch integrierten Datenbasis • Daten werden aus Quellen kopiert • Homogenisierung / Transformation beim Import in DWH
– Einheiten, Attributnamen, Formate, …
• Post-prozessierung im DWH nötig • Deduplikation, Verknüpfung, …
• Zur Anfragezeit wird nur das Data Warehouse benutzt
Ulf Leser: Informationsintegration 20
Kommerzielle DWH (eigene Vorlesung)
DWH Basisdatenbank
Quelle 2 IMS
Quelle 1 RDBMS
Jahresumsatz: 2334.5565 Pro Monat Januar: 122.004 Februar 023.445
Quelle 3 Textfile
Quellsysteme
Mart 2 Mart 1 Mart 4 Mart 3
Abgeleitete Sichten
Aktualisierungen
Ulf Leser: Informationsintegration 21
Beispiel (SAP BW)
Ulf Leser: Informationsintegration 22
Virtuelle Integration
• Auch: „Föderierung“, „Mediator-basierte Systeme“ • System bildet eine einheitliche Anfrageschnittstelle zu
physisch verteilten und logisch heterogenen Quellen • Daten bleiben in den Quellen • Homogenisierung / Transformation während der
Anfragebearbeitung – Query und Daten
• Daten werden erst zur Anfragezeit bewegt und integriert
Ulf Leser: Informationsintegration 23
Föderierte Systeme
• Aufgabe – Gegeben eine Anfrage q gegen das globale Schema – Gegeben eine Menge von logischen Korrespondenzen zwischen
globalem und lokalen Schemata – Finde alle Antworten auf q
Globales Schema
Lokale Exportschemata
Korrespondenzen
Ulf Leser: Informationsintegration 24
Beispiel (DiscoveryLink, IBM)
Ulf Leser: Informationsintegration 25
Vergleich
DWH – Materialisierung Föderation – Virtuelle Anfragen
Anfrage-geschwindigkeit Schnell (lokal) Langsam (verteilt)
Anfrage- mächtigkeit Alle (SQL) Beschränkt (APIs)
Speicherbedarf Hoch (alle Daten) Minimal (Cache)
Daten ändern Ja (aber Reintegration Nur on-the-fly
Aktualität Veraltet (je nach Updatefrequenz) Aktuellste Daten
Kooperation Quelle
Daten müssen als Download verfügbar sein
Daten müssen über API zugreifbar sein
Art der Integration Prozedurale Integration Deklarative Integration
Ulf Leser: Informationsintegration 26
Virtuelle Integration ist manchmal ein „Muss“
• Fast alles ist schlechter bei virtueller Integration
• Aber… • Datenquellen zu groß (Web) • Datenquellen nicht als Ganzes zugreifbar
– Zugriffsbeschränkung, Copyrights, …
• Inhalt der Datenquellen ändern sich sehr schnell – Börsenkurse, Newsticker, Preise, …
Ulf Leser: Informationsintegration 27
Inhalt dieser Vorlesung
• Organisatorisches • Zwei Grundprinzipien • Abgrenzung
– Enterprise Application Integration – Objektorientierte Middleware – Service Oriented Architectures
• Ausblick auf das Semester
Ulf Leser: Informationsintegration 28
Enterprise Application Integration
• „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip
– Geschäftsvorfälle erzeugen Nachrichten – Diese werden an einen Message Broker gesendet – Der erkennt den Inhalt und
wählt interessierte Quellen aus – Transformation der
Nachrichten – Transaktionale
Sicherheit („exactly once“)
SCM
E-Commerce E-Procurement
CRM ERP Message Broker
Ulf Leser: Informationsintegration 29
Unterschiede
• Enterprise Application Integration – Nachrichtenbasiert, keine Anfragen – Informationsverteilung – Aktion beim Eintreten eines Ereignisses – „Business Process Integration“
• Informationsintegration – Anfragebasiert – Annahme eines (praktisch) statischen Datenbestands – Aktion
• Erst bei Anfrage (virtuelle Integration) • In regelmäßigen Zyklen (materialisierte Integration)
– Datenbankintegration, Datenintegration
Ulf Leser: Informationsintegration 30
(OO) Middleware
• „Verteilung von Objekten wird vollkommen transparent“ • Viele Ansätze: DCOM, CORBA, OpenView, J2EE, …
– Weiterentwicklung von Remote Procedure Calls
• Grundidee – Objekte haben weltweit eindeutige ID und Interfaces – Clients programmieren gegen das Interface – Broker finden aufgerufene Objekte zur Laufzeit anhand ID
• Marshalling, RPC, unmarshalling
– Ziel: Plattformunabhängigkeit • Sprache, Betriebssystem, Kodierung, Protokoll
Ulf Leser: Informationsintegration 31
Beispiel: CORBA
• Verteilungstransparenz • Domänenspezifische und generische Dienste
– Namensauflösung, Nachrichtenübermittlung, Persistenz, …
Ulf Leser: Informationsintegration 32
Unterschiede
• Middleware – Werkzeug für die Programmerstellung – Basiert auf Funktionsaufrufen – Versendung programmiersprachlicher Objekte – Vorwiegend transiente Objekte – Fokus auf Methodenaufrufen
• Informationsintegration – Ist eine Aufgabe (Projekt), kein Werkzeug – Basiert auf Anfragen – Arbeiten mit strukturierten Daten – Vorwiegend persistente Objekte – Fokus auf Objektmanipulation und -suche
Ulf Leser: Informationsintegration 33
Service-Oriented Architectures
• Weiterentwicklung der Middleware-Idee • Lose Koppelung, einfache Verknüpfung
– Services sind über einfache Standardschnittstellen erreichbar • HTTP, Web Services, …
– Ungetypte, state-less Kommunikation • REST – put, get
– Keine festen Bindungen (durch Typen, Schemata etc.) • Services können verschoben, ersetzt, verdoppelt … werden
• Ersatz monolithischer Applikationen durch orchestrierte Services – Services bieten Grundfunktionalität (auch Daten) – Anwendungen sind Prozesse über Services – Hohe Bedeutung der Prozessmodellierung (BPMN etc.)
Ulf Leser: Informationsintegration 34
Modularisierte Sicht
Quelle: http://integrella.com/
Ulf Leser: Informationsintegration 35
SOA Infrastrukturkomponenten
Quelle: http://www.urlintegration.com/
Ulf Leser: Informationsintegration 36
Synergien
• SOA: Plattformen zur Entwicklung integrierter Systeme
– Lösung der Verteilungsproblematik – Auflösung von low-level Formatunterschieden (ASCII versus
UniCode, Little Endian versus Big Endian, Datumsformate, …) – Auflösung von Unterschieden im Betriebssystem,
Programmiersprache, …
• Leistet i.A. nicht – Umgang mit strukturierten Daten / Schemata – Übersetzung von Anfragen – Semantische Integration
• EAI wird i.d.R. auf einer Middleware implementiert
Ulf Leser: Informationsintegration 37
Überblick
• Organisatorisches • Informationssysteme • Informationsintegration am Beispiel • Ausblick auf das Semester
Ulf Leser: Informationsintegration 38
Inhalt 1
• Architekturen und Kriterien – Szenarien, Abgrenzung und
Einsatzgebiete – Verteilung, Autonomie,
Heterogenität
• Anfrageplanung
– Multidatenbanksprachen – Local-as-View und Global-as-
View Korrespondenzen – Anfrageplanung mit LaV – Logische Anfrageoptimierung
Oracle, DB2…
Web Service App
HTML Form
Integriertes Info.-system
Datei- system
Anfrage
Integriertes Informations-
system
Datenquelle 1 Datenquelle 2 Datenquelle 3
Integrationssystem
Globale Anfrage
Anfrageübersetzung, -optimierung und -ausführung
Ulf Leser: Informationsintegration 39
Inhalt 2
• Verteilte Anfrageoptimierung – Kostenbasierte verteilte
Optimierung – Semi-Joins – Umgang mit beschränkten
Quellen
• Schemamanagement – Schemaintegration – Schema Matching – Schema Mapping
Datenquelle 1 Datenquelle 2 Datenquelle 3
Integrationssystem
Globale Anfrage
Anfrageübersetzung, -optimierung und -ausführung
Ulf Leser: Informationsintegration 40
Inhalt 3
• Datenintegration – Informationsqualität – Duplikaterkennung – Datenfusion
• Semantische Integration – Ontologien und
Beschreibungslogiken – Semantic Web
ISBN Author Pages
3442727316 Herman Melville
1056
978-3491960824
Daniel Defoe
644
gespielt_von
film person
schauspieler regisseur
fuehrt_regie_in
rolle
rolle_in
gespielt_von
titel
laenge
name
nationalitaet kritik hat_kritik
hat_nationalitaet
hat_titel
hat_laenge hat_name
spielfilm laenge>79
kurzfilm laenge<11
us_buerger
us_schauspieler hat_nationalitaet
us_rolle us_spielfilm
hat_rolle
ISBN Autorname Year
3491960827 Daniel Defoe 1719
3442727316 H Melville 1851