61
Informationsintegration Verteilung, Autonomie und Heterogenität 25.10.2004 Felix Naumann

VL Informationsintegration Verteilung, Autonomie und Heterogenität

  • Upload
    tamira

  • View
    26

  • Download
    1

Embed Size (px)

DESCRIPTION

VL Informationsintegration Verteilung, Autonomie und Heterogenität. 25.10.2004 Felix Naumann. Wiederholung: Data Warehouse. Aufbau eines Data Warehouse. Quelle: Ulf Leser, VL Data Warehouses. Wiederholung: Föderierte DBMS. Wiederholung: Redundanz. - PowerPoint PPT Presentation

Citation preview

Page 1: VL Informationsintegration Verteilung, Autonomie und Heterogenität

VL Informationsintegration

Verteilung, Autonomie und Heterogenität

25.10.2004

Felix Naumann

Page 2: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 2

Wiederholung: Data Warehouse

Aufbau eines Data Warehouse

Quelle: Ulf Leser, VL Data Warehouses

Page 3: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 3

Wiederholung: Föderierte DBMS

Page 4: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 4

Wiederholung: Redundanz

Intensionale Redundanz ermöglicht extensionale Komplementierung. Zwei Quellen mit gleichem Schema können zu einer

überdeckenderen Quelle integriert werden Extensionale Redundanz ermöglicht intensionale

Komplementierung. Zwei Quellen, die über gleiche Dinge sprechen können zu

einer dichteren Quelle integriert werden. Insgesamt ist das Ziel der Integration eine

vollständigere Quelle.

Page 5: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 5

Wiederholung: Redundanz

Quelle 1 A(V) B(W) C(X) D(Y) a1 b1 c1 d1

a2 b2 - d2

Quelle 2 A(V) D(W) E(X) F(Z) a2 d2 c2 - a3 d3 e3 f3

Extensionale Komplementierung

Intensionale Komplementierung

Intensionale Redundanz

Extensionale Redundanz

Quelle 1 & 2 A(V) B/D(W) C/E(X) D(Y)F(Z) a1 b1 c1 d1 - a2 f(b2,d2) c2 d2 - a3 d3 e3 - f3

Page 6: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 6

Überblick

Verteilung Autonomie Syntaktische

Heterogenität Strukturelle

Heterogenität

Später: Semantische Heterogenität

Page 7: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 7

Klassifikation von Informationssystemen [ÖV99]

Drei orthogonale Dimensionen Verteilung Autonomie Heterogenität

Page 8: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 8

Klassifikation verteilter DBMS [ÖV91]

Verteilung

Autonomie

Hetero-genität

Verteilte, homogene DBS

Logisch integrierte und homogene DBS

Heterogene, integrierte DBS

Heterogene, föderierte DBS

Homogene, föderierte DBS

Verteilte, heterogene föderierte DBS

Verteilte, föderierte DBS

Verteilte, heterogene DBS

Page 9: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 9

Klassifikation verteilter DBMS nach [ÖV99]

Verteilung/Distribution

Autonomie

Hetero-genität

Peer-to-peer

Enge Integration

Client/Server

Semi-autonom

Isolation

z.B. A2,D1,H0

Page 10: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 10

Zusammenhang mit Föderierten DBMS Verteilung führt zu Autonomie,

Intra-Organisation: Historisch Inter-Organisation: Internet & WWW

und Autonomie führt zu Heterogenität. Verantwortung liegt bei lokalen Administratoren

Systempflege Nutzbarkeit und Nützlichkeit Erweiterungen am Informationssystem Design ...

Diskussion Historischer Entwicklung, aber orthogonale Kriterien!

Page 11: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 11

Verteilung (Distribution)

Ein verteiltes Informationssystem ist eine Sammlung mehrerer, logisch verknüpfter Informationssysteme, die über ein gemeinsames Netzwerk verteilt sind.

[ÖV91]

Page 12: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 12

Physikalische Verteilung Motiviert durch Hardwareanforderungen

(Hardwarebeschränkungen) Server stehen an unterschiedlichen Orten

Gleicher Raum, anderer Raum Anderes Gebäude Andere Stadt, anderes Land

Shared Nothing Server haben keine gemeinsamen, abhängigen

Hardwarekapazitäten Memory Disk CPU

Mit Ausnahme des Netzwerks Im Gegensatz zu shared-disk und shared-memory

Page 13: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 13

Logische Verteilung Motiviert durch Anwendungsanforderungen

Zuverlässigkeit Bei Ausfall eines Servers

Verfügbarkeit Bei Ausfall eines Netzwerkteils

Effizienz Redundanz

Replikation Caching

Partitionierung Vertikal Horizontal

Page 14: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 14

Verteilung – Vor- und Nachteile

Vorteile aus Sicht der Quellen und des IIS Autonomie (gleich genauer) Performance: Kapazität dort, wo sie gebraucht wird Verfügbarkeit: Bei Ausfall eines Standorts Erweiterbarkeit Teilbarkeit (Verantwortung bei anderen Organisationseinheiten)

Nachteile aus Sicht des IIS Komplexität (Verwaltung, Optimierung) Kosten Sicherheit Autonomie

Page 15: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 15

Verteilung – Techniken

HTTP, CORBA, ... nicht hier. Anwendungsentwicklung ohne Spezifikation der

physikalischen Präsenz der Komponenten Annahmen an Transparenz

Datenunabhängigkeit (jedes DBMS) auch Speicherorttransparenz

Netzwerktransparenz Replikationstransparenz Fragmentationstransparenz

auch Partitionierungstransparenz

Page 16: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 16

Überblick

Verteilung Autonomie Syntaktische

Heterogenität Strukturelle

Heterogenität

Später: Semantische Heterogenität

Page 17: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 17

Autonomie (Autonomy)

Der Grad zu dem verschiedene DBMS unabhängig operieren können.

Bezieht sich auf Kontrolle, nicht auf Daten. Klassen nach [ÖV99]

Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie

Page 18: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 18

Design-Autonomie Auch: Entwurfsautonomie Freiheit des lokalen DBMS bezüglich

Datenmodell Relational, hierarchisch, XML

Schema Abdeckung der Domäne (universe of discourse, miniworld) Grad der Normalisierung Benennung

Transaktionsmanagement Sperrprotokolle

Freiheit dies jederzeit zu ändern. Besonders problematisch!

Page 19: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 19

Design-Autonomie – Beispiel

Schema und Datenmodell 1 (Fast)

relational Flach

Schema und Datenmodell 2 XML hierarchisch

Page 20: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 20

Kommunikations-Autonomie DBMS frei bezüglich

Wahl mit welchen Systemen kommuniziert wird Wahl wann mit anderen Systemen kommuniziert wird

Jederzeit Eintritt/Austritt aus integriertem System Wahl was (welcher Teil der Information) kommuniziert wird Wahl wie mit anderen Systemen kommuniziert wird

Anfragesprache Wahl welcher Teil der Anfragemöglichkeiten zur Verfügung

gestellt werden Prädikate Sortierung Write ...

Page 21: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 21

Kommunikations-Autonomie – Beispiel Extrem 1: Voller SQL Zugang

z.B. via JDBC Transaktionen Optimierung Lesend (und Schreibend?) Schemaveränderungen? Antwort als Ergebnisrelation

Extrem 2: HTML Formular Nur ein (oder mehr) Suchfelder Antwort als HTML Text Nur Teile der Daten (public area)

Page 22: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 22

Ausführungs-Autonomie

DBMS frei bezüglich Wahl wann Anfragen ausgeführt werden Wahl wie Anfragen ausgeführt werden Wahl der Scheduling-Strategien Wahl Optimierungs-Strategien Wahl ob globale Transaktionen unterstützt

werden

Page 23: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 23

Ausführungs-Autonomie – Beispiel

Optimierung und Scheduling Behandlung externer vs. lokaler Anfragen Golden customers Garantierte Antwortzeiten

Transaktionen Dirty-read egal?

Page 24: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 24

Autonomie Heterogenität

Verteilung als „Ursache“ für Autonomie Autonomie als Ursache für Heterogenität:

Autonome Systeme Gestaltungsfreiheit Unterschiedliche Entscheidungen Heterogenität

Page 25: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 25

Überblick

Verteilung Autonomie Syntaktische

Heterogenität Strukturelle

Heterogenität

Später: Semantische Heterogenität

Page 26: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 26

Heterogenität (Heterogeneity)

Heterogenität herrscht, wenn sich zwei miteinander verbundene Informationssysteme syntaktisch, strukturell oder inhaltliche unterscheiden. Syntaktische Heterogenität

Auch: „Technische Heterogenität“ Strukturelle Heterogenität Semantische Heterogenität

Heterogenitäten zu überbrücken ist die Kernaufgabe der Informationsintegration.

Page 27: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 27

Heterogenitätsklassen

Auch andere Klassifikationen möglich, z.B. [BKLW99] Syntaktische Heterogenität Datenmodell Heterogenität Logische Heterogenität

Oder nach [SPD92] Semantische Konflikte Beschreibungskonflikte Heterogenitätskonflikte Strukturelle Konflikte Datenkonflikte

Page 28: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 28

Syntaktische Heterogenität

Hardware-Heterogenität Software-Heterogenität Schnittstellen-Heterogenität

Page 29: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 29

Hardware Heterogenität

Bandbreite Hauptspeicher CPU

Art Geschwindigkeit

Nicht hierNicht hier

Page 30: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 30

Software Heterogenität

Betriebssystem Dateisystem Protokolle

HTTP, ODBC, Java API, CORBA, etc.

Zustandsbehaftet vs. zustandsfrei

Sicherheit Security level Log-on Prozedur

Page 31: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 31

Software Heterogenität – Beispiel

String sqlQuery = „SELECT Name, Strasse FROM HerstellerWHERE PLZ = 69115“;...Connection jdbcCon = DriverManager.getConnection(dbURL, ...);Statement stmt = jdbcCon.createStatement();ResultSet table = stmt.executeQuery(sqlQuery);...

String webQuery = „plz=69115“;...URL url = new URL(„http://www.system2.de/cgi-bin/search.cgi“ + „?“ + webQuery);URLConnection urlCon = new url.openConnection();InputStreamReader reader = new InputStreamReader( urlCon.openStream());...

Quelle: VL: Föderierte DatenbanksystemePeter Tomczyk, FZI & Uni Karlsruhe

Nicht hierNicht hier

Page 32: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 32

Schnittstellen Heterogenität

Schnittstellen von Informationssystemen sind im wesentlichen deren Anfragensprache: HTML Formular, „Google“-Sprache (+, - , ...), SQL, XQuery, etc.

Jetzt hier!Jetzt hier!

Page 33: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 33

Schnittstellen Heterogenität Negation vs. keine Negation

Oft zu teuer Gleichheit / Ungleichheit

„=“ oder auch „>,<, , “ Konjunktion (UND)

oder auch Disjunktion (ODER) Prädikate nur mit Konstanten (author = „Melville“)

Oder auch mit anderen Variablen (ResidenceCountry = Nationality)

Gebundene und freie Variablen [RSU95,LC00,YLGU99] später

Andere Einschränkungen Joins über maximal 3 Relationen z.B. Prädikate nur über eine Auswahl von Werten

Page 34: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 34

Schnittstellen Heterogenität - Beispiel

Konjunktion/Disjunktion

Suche

gleich/ungleich

Page 35: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 35

Schnittstellen Heterogenität – Beispiel

Gebundene Variablen

Prädikat nur mit Auswahl von Werten

Page 36: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 36

Schnittstellen Heterogenität

In einzelnen Systemen kein Problem Probleme für integrierte Systeme

1. Globale Anfragesprache ist mächtiger als lokale Anfragesprache

Anfragen eventuell nicht ausführbar Oder globales System muss kompensieren

2. Lokale Anfragesprache ist mächtiger als globale Anfragesprache

Verpasste Chance, lokale (effiziente) Ausführung auszunutzen

3. Gebundene und freie Variablen sind inkompatibel Anfragen eventuell nicht ausführbar

Page 37: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 37

Mächtige globale Anfragesprache

SQL

HTMLForm

SELECT * FROM BooksWHERE Author = „Defoe“AND PubYear = 1979

Page 38: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 38

Mächtige globale Anfragesprache

SELECT * FROM BooksWHERE Author = „Defoe“AND PubYear = 1979

Defoe

Daniel Defoe, Robinson Crusoe, 1986Daniel Defoe, Robinson Crusoe, 1979Daniel Defoe, Moll Flanders, 1933

PubYear = 1979

Daniel Defoe, Robinson Crusoe, 1979

Page 39: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 39

Mächtige globale Anfragesprache

SELECT * FROM BooksWHERE Author = „Defoe“AND PubYear > 1979

Defoe

Daniel Defoe, Robinson Crusoe, 1986Daniel Defoe, Robinson Crusoe, 1979Daniel Defoe, Moll Flanders, 1933

PubYear = 1979

Daniel Defoe, Robinson Crusoe, 1979

Year: 1979 ?

Page 40: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 40

Mächtige lokale Anfragesprache

SQL

HTMLForm

SELECT * FROM BooksWHERE Author = „Defoe“

Verpasste Chancen.

Page 41: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 41

Gebundene & Freie Variablen

Gebundene Variablen müssen bei einer Anfrage gebunden werden. z.B.: „Search“-Feld bei Google

Freie Variablen müssen nicht gebunden werden. z.B. „Autor“-Feld bei Amazon.de, falls Titel

gebunden ist.

Page 42: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 42

Gebundene & Freie Variablen – Beispiel & Ausblick

SONGS Song CD

Friends Life

Friends Love

CDs CD Künstler Preis

Love Lucy 15

Story Snoopy 14

Bastelaufgabe 1:Wie teuer ist die billigste CDmit einem Song namens “Friends”?

Quelle: [LC00]

Künstler CD Künstler Preis

Story Lucy 13

Love Snoopy 10

Life Charlie 8

Page 43: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 43

Gebundene & Freie Variablen – Beispiel & Ausblick

Bastelaufgabe 2:Welches ist die billigste CD mit einem Song namens “Friends”, die Sie anfragen können?

SONGS Song CD

Friends Life

Friends Love

CDs CD Künstler Preis

Love Lucy 15

Story Snoopy 14

Künstler CD Künstler Preis

Story Lucy 13

Love Snoopy 10

Life Charlie 8

Unterstrichen = gebundene

Variable

Mehr nächste Woche!

Page 44: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 44

Syntaktische Heterogenität - Zusammenfassung

Hardware Heterogenität Bandbreite, CPU, ...

Software Heterogenität Protokolle, Sicherheit, ...

Schnittstellen Heterogenität Mächtigkeit der Anfragesprachen Gebundene & freie Variablen

Page 45: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 45

Überblick

Verteilung Autonomie Syntaktische

Heterogenität Strukturelle

Heterogenität

Später: Semantische Heterogenität

Page 46: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 46

Strukturelle Heterogenität

Datenmodell-Heterogenität Unterschiedliche Semantik Unterschiedliche Struktur

Schematische Heterogenität Integritätsbedingungen, Schlüssel,

Fremdschlüssel, etc. Schema (Attribut vs. Relation etc.) Struktur (Gruppierung in Tabellen)

Page 47: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 47

Datenmodell-Heterogenität

Datenmodelle Relationales Modell XML Modell OO Modell Hierarchisches Modell

PersonNameAlter

AdresseStrasseHausnr.PLZStadt

Person( Id, Name, Alter)

Adresse(PersonId, Strasse, Hausnr., PLZ, Stadt)

1

n

Page 48: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 48

Schematische Heterogenität

Sprachregelung hier:

Alt-Griechisch wird ignoriert...

Schemas statt SchemataSchemas statt Schemata

Page 49: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 49

Schematische Heterogenität Struktur

Modellierung Relation vs. Attribut Attribut vs. Wert Relation vs. Wert

Benennung Relationen Attribute Jeweils Homonyme und Synonyme

Normalisiert vs. Denormalisiert Geschachtelt vs. Fremdschlüssel

Diese Probleme sogar bei gleichem Datenmodell!

Page 50: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 50

Schematische Heterogenität

Person( Id, Vorname, Nachname,männlich,

weiblich)

Männer( Id, Vorname, Nachname)Frauen( Id, Vorname, Nachname)

Person( Id, Vorname, Nachname, Geschlecht)

Attribut vs. Wert

Relation vs. Wert

Relation vs. Attribut

Page 51: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 51

Schematische Heterogenität

Tabellen-Tabellen Konflikte Namenskonflikte

Semantisch gleiche Tabellen mit verschiedenen Namen (Synonym)

Verschiedene Tabellen mit gleichem Namen (Homonym)

Strukturkonflikte fehlende Attribute fehlende, aber ableitbare Attribute

IC-Konflikte (Integrity-Constraint = Integritätsbedingungen)

Page 52: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 52

Schematische Heterogenität – Beispiel

p_id vorname nachname funktion

1 Peter Müller Sachbearb.

5 Petra Weger Sekr.

... ... ... ...

mitarbeiter

p_id vorname name

2 Stefanie Meier

2 Petra Weger

2 Andreas Zwickel

... ... ...

mitarbeiter (leitend)

IC Konflikt (Eindeutigkeit)

Fehlendes (ableitbares)

Attribut

Homonym

Page 53: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 53

Schematische Heterogenität

Attribut-Attribut Konflikte Namenskonflikte

Verschiedene Namen für gleiche Attribute (Synonyme)

Gleiche Namen für verschiedene Attribute (Homonyme)

Default-Wert-Konflikte IC-Konflikte

Datentypkonflikte Bedingungskonflikte

Page 54: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 54

Schematische Heterogenität – Beispiel

p_id Vorname VARCHAR(35) nachname alter

1 Wolfgang Meyer 33

5 Klaus Schmidt NULL

... ... ... ...

mitarbeiter

p_id Vorname VARCHAR(20) name alter

1 Peter Müller 0

5 Petra Weger 17

... ... ... ...

mitarbeiter

Datentypkonflikt

IC: alter > 18

Synonym

Default Werte

Page 55: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 55

Schematische Heterogenität - Beispiel

Normalisiert vs. Denormalisiert 1:1 Assoziationen zwischen Werten wird

unterschiedlich dargestellt Durch Vorkommen im gleichen Tupel Durch Schlüssel-Fremdschlüssel Beziehung

•ARTICLE•artPK•title

•AUTHOR•artFK•name

•PUBLICATION•pubID•title•author

Page 56: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 56

Schematische Heterogenität - Beispiel

Geschachtelt vs. Flach 1:n Assoziationen werden unterschiedlich

dargestellt Als geschachtelte Elemente Als Schlüssel-Fremdschlüssel Beziehung

•ARTICLE•artPK•title•pages•AUTHOR

•name

•PUBLICATION•pubID•title•author

ID?

Page 57: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 57

Schematische Heterogenität - Lösungen Problem

Einheitlich auf beide Schemas zugreifen Auf Schemaebene: Schema Mapping und Schema-Sprachen Auf Datenebene: Virtuelle Integration

Beide Schemas in eine gemeinsames neues Schema integrieren Auf Schemaebene: Schemaintegration Auf Datenebene: Materialisierte Integration

Für die materialisierte Integration Schemaintegration ETL

Für die virtuelle Integration Schema-Sprachen

Z.B. SchemaSQL, MSQL, CPL Schema Mapping

Z.B. Clio, RONDO, u.a.

Page 58: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 58

Schematische Heterogenität – Lösungen (Ausblick)

SchemaSQL [LSS96] Erweiterung von SQL Daten und Metadaten werden gleich behandelt Umstrukturierungen innerhalb der Anfrage Dynamische Sicht-Definition Horizontale Aggregation

SELECT RelAFROM uniA->RelA, uniA::RelA A, uniB::grundgehalt BWHERE RelA = B.institutAND A.Kategorie = „Student“AND A.grundgehalt > B.Student

High-order Join

Page 59: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 59

Schematische Heterogenität – Lösungen (Ausblick)

Schema Mapping

•ARTICLE•artPK•title•pages

•AUTHOR•artFK•name

•PUBLICATION•pubID•title•date•author

SELECT artPK AS pubIDtitle AS titlenull AS datename AS author

FROM ARTICLE, AUTHORWHERE ARTICLE.artPK = AUTHOR.artFK

Page 60: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 60

Zusammenfassung Verteilung Autonomie

Design-Autonomie Kommunikations-Autonomie Ausführungs-Autonomie

Heterogenität Syntaktische Heterogenität

Hardware Heterogenität Software Heterogenität Schnittstellen Heterogenität

Strukturelle Heterogenität Datenmodell-Heterogenität Schematische Heterogenität

Physikalisch

„Verursacht durch Autonomie“

Hardwarekauf Protokolle Anfragesprachen

Schema geschachtelt, flach,

objektorientiert Attribute, Wert; Relation SchemaSQL und Schema

Mapping

Page 61: VL Informationsintegration Verteilung, Autonomie und Heterogenität

25.10.2004 Felix Naumann, VL Informationsintegration, WS 05/06 61

Literatur Wichtigste Literatur für heute

[BKLW99] Busse, Kutsche, Leser, Weber, Federated Information Systems: Concepts, Terminology and Architectures. Forschungsbericht 99-9 des FB Informatik der TU Berlin, 1999.Online: http://www.informatik.hu-berlin.de/~leser/publications/tr_terminology.ps

[ÖV99] Principles of Distributed Database SystemsM. Tamer Özsu, Patrick Valduriez, Prentice Hall, (1991/)1999.Kapitel 1 und 4

Weitere Literatur [Con97] Föderierte Datenbanksysteme. Konzepte der

Datenintegration Stefan Conrad, Springer Verlag, 1997