58
Informationsintegra tion Heterogenität 27.10.2004 Felix Naumann

Informationsintegration Heterogenität 27.10.2004 Felix Naumann

Embed Size (px)

Citation preview

Page 1: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

InformationsintegrationHeterogenität

27.10.2004

Felix Naumann

Page 2: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 2

Überblick

Semantische Heterogenität Namenskonflikte Identität Datenkonflikte

Gebundene und Freie Variablen (link) Adornments Anfrageplanung

Page 3: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 3

Semantik

Fremdwörterduden “Semantik”1. Teilgebiet der Linguistik, das sich mit den Bedeutungen

sprachlicher Zeichen und Zeichenfolgen befasst

2. Bedeutung, Inhalt eines Wortes, Satzes oder Textes

„Semantische Heterogenität ist ein überladener Begriff ohne klare Definition. Er bezeichnet die Unterschiede in Bedeutung, Interpretation und Art der Nutzung.“ [ÖV91]

Page 4: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 4

Semantik vs. Struktur

Strukturelle Heterogenität Betrifft Schemas Bedeutung der Labels im Schema egal Annahme bisher: Gleiche Label -> Gleiche Semantik

Semantische Heterogenität Betrifft Daten Betrifft „Bedeutung“

Person( Id, Vorname, Nachname, Männlich, weiblich)

Männer( Id, Vorname, Nachname)

Frauen( Id, Vorname, Nachname)

A( Id, X, Y)

B( Id, X, Y)

P( Id, X, Y, a, b)

Page 5: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 5

Unterschiedliche Namen

Die Probleme Konzept (z.B. Gen)

Definition des Konzepts Synonyme (z.B. surname vs. last name) Homonyme (z.B. biweekly) Einheiten (z.B. cm vs. inch) Werte (z.B. „manager“)

Eher auf Schema Ebene

Page 6: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 6

Konzept

Definition eines Konzepts Noch nicht einmal hier sind sich immer alle einig. Gen, Transaktion, Bestellung, Mitarbeiter

Semantisch überlappende Weltausschnitte mit einander entsprechenden Klassen

Korrespondenzarten zwischen Klassenextensionen: A=B Äquivalenz AB Inklusion AB Überlappung AB Disjunktion

Page 7: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 7

Konzept

Definition Mitarbeiter: temporäre MA Diplomanden Berater Studentische Mitarbeiter Stellen oder Köpfe?

Definition IBM Welche Region? Welcher Geschäftsbereich? Informix? PWC?

Welcher Zeitpunkt? Definition der Zählung:

Doppelte Zählung bei mehreren Anstellungen?

Page 8: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 8

Synonyme

Verschiedene Worte mit gleicher Bedeutung Im Kontext der zu integrierenden

Datenbanken

DB2:

Person( Id, Vorname, Nachname, Geschlecht)

DB1:

Angestellter( Id, Vorname, Name,männlich,weiblich)

Page 9: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 9

Homonyme

Gleiche Worte verschiedener Bedeutung Andere Domäne Andere Bedeutung

DB2:

Person( Id, Vorname, Nachname, Titel, Geschlecht)

DB1:

Angestellter( Id, Vorname, Name, m, w, Titel)

Sekr., Sachbearbeiter, Bereichsleiter, etc.

Herr, Frau, Dr,. Dipl.Ing., etc.

Page 10: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 10

-nym Wörter Synonym

Verschiedene Wörter, gleiche Semantik Homonym

Gleiche Wörter, verschiedene Semantik Antonym

Verschiedene Wörter, gegenteilige Semantik Auto-Antonym:

Gleiche Wörter, gegenteilige Semantik Transparenz Overlook

Heteronym Gleiche Schreibung, verschiedene Aussprache, verschiedene Semantik

Autonym (selbstbeschreibend, Wort = Semantik, „Substantiv“) Pseudonym u.v.a.m.

http://www.fun-with-words.com/nym_words.html

Page 11: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 11

Einheiten

Gleiche „Bedeutung“ aber anderes Maß. Werden auch als Homonym bezeichnet, da

anderes Maß eine andere Bedeutung erzeugt.

DB2 (Spanien):

Person( Id, Vorname, Nachname, gehalt)

DB1 (USA):

Angestellter( Id, Vorname, Name,gehalt)

USD

EUR

Page 12: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 12

Überblick

Semantische Heterogenität Namenskonflikte Identität Datenkonflikte

Gebundene und Freie Variablen Adornments Anfrageplanung

Page 13: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 13

Identität Drei zentrale Fragen

Was ist ein Objekt? XML: Über mehrere Schachtelungsebenen hinweg Relationales Modell: Über mehrere Relationen hinweg

Repräsentiert Objekt A die gleiche Entität wie Objekt B? Wie finde ich effizient gleiche Repräsentationen?

Namen des Problems Duplikaterkennung Objektidentifikation Record Linkage Data Cleansing ...

Auf Datenebene

Page 14: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 14

Typische Anwendungen Personen- und Adressdaten

Volkszählungen Werbeaktionen Kundenpflege

Molekularbiologische Daten Bibliographische Daten

Zentrale Register Typische Merkmale zur Entstehung:

Gleiches Objekt mehrfach beobachtet Manuelle Erfassung der Daten Objekt ändert Eigenschaften von Zeit zu Zeit Keine global konsistente ID

ISBN, IBAN, URL, ISO, EAN, SSN, etc.

Page 15: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 15

Duplikaterkennung

Duplikate in Relationen Zwei Tupel, die das gleiche real-world Objekt

repräsentieren Semantik! Attributwerte dürfen sich unterscheiden.

Formales Problem Eine Tabelle (der Größe N), potentiell mit Duplikaten Erzeuge für jedes Tupel einen Identifier, so dass Duplikate

gleiche Identifier erhalten Problemerweiterungen

Zwei Tabellen mit unterschiedlichem Schema Ein XML Dokument mit Duplikaten

Page 16: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 16

Duplikaterkennung

Praktisches Problem Wie entscheide ich, ob zwei Tupel das gleiche

Objekt repräsentieren? Ähnlichkeitsmaße und Klassifikation

Edit-Distance N-grams IDs Wahrscheinlichkeitstheoretische Ansätze Maschinelles Lernen Augenschein

Page 17: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 17

Duplikaterkennung Praktisches Problem

Sehr große Datenmenge Millionen Tupel

Kein quadratischer Algorithmus Kein Hauptspeicher-Algorithmus

Als SQL Anfrage Sei R die Relation mit Duplikaten SELECT C1.*, genID(C1,C2)

FROM R as C1, R as C2WHERE M(C1,C2)

Schwieriger als normaler Join Ähnlichkeitsmaß ist nicht nur Gleichheit

Algorithmen zur Objektidentifikation in VL „Duplikaterkennung“

ID ErzeugungKreuzprodukt

Ähnlichkeit

Page 18: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 18

Überblick

Semantische Heterogenität Namenskonflikte Identität Datenkonflikte

Gebundene und Freie Variablen Adornments Anfrageplanung

Page 19: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 19

Datenkonflikte

Datenkonflikt: Zwei Duplikate haben unterschiedliche Attributwerte für ein

semantisch gleiches Attribut. Im Gegensatz zu Konflikten mit Integritätsbedingungen

Datenkonflikte entstehen innerhalb eines Informationssystems (intra-source) und bei der Integration mehrerer Informationssysteme (inter-

source). Voraussetzung:

Duplikat! d.h. Identität schon festgestellt.

Page 20: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 20

Datenkonflikte - Beispiel

amazon.deamazon.de

bol.debol.de

IDID

$5.99Moby DickHerman Melville0766607194

$3.98H. Melville0766607194

Konflikt kann auch mit NULL-Wert herrschen

Page 21: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 21

Datenkonflikte – Entstehung Innerhalb eines Informationssystems

Mangels Integritätsbedingungen oder Konsistenz-Checks Bei redundanten Schemata Bei Entstehung von Duplikaten Nicht korrekte Einträge

Tippfehler, Übertragungsfehler Falsche Rechenergebnisse

obsolete Einträge div. Aktualisierungszeitpunkte

ausreichende Aktualität einer Quelle verzögerte Aktualisierung

vergessene Aktualisierung

Page 22: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 22

Datenkonflikte – Entstehung

Innerhalb eines Informationssystems bei div. Datentypen (mit/ohne Codierung)

1,2,...,5 bzw. "sehr gut", "gut", ..., mangelhaft" bei gleichem Datentyp

Schreibvarianten Kantstr. Kantstrasse Kant Str. Kant Strasse Kolmogorov Kolmogoroff Kolmogorow

Typische Verwechslungen U<->V,0<->o, usw. (OCR)

Page 23: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 23

Datenkonflikte – Behebung

Referenztabellen für exakte Wertabbildung Z.B. Städte, Länder, Produktnamen, Codes...

Ähnlichkeitsmaße bei Tippfehlern bei Sprachvarianten (Meier, Mayer,...)

Standardisieren und transformieren Nutzung von Hintergrundwissen (Metadaten)

bzgl. von Konventionen (landestypische Schreibweisen) Ontologien zur Behandlung von Zusammenhängen Thesauri, Wörterbücher zur Behandlung von Homonymen,

Synonymen, ...

Page 24: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 24

Datenkonflikte – Entstehung

Bei der Integration von Informationssystemen Lokal konsistent aber global inkonsistent Duplikate (extensionale Redundanz) Andere Datentypen Lokale Schreibweisen/Konventionen

Page 25: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 25

Datenkonflikte – Behebung

Präferenzordnung über Datenquellen nach Aktualität, Trust (Vertrauen), Öffnungszeiten

usw. Informationsqualität Konfliktlösungsfunktionen

Wie implementieren?

Page 26: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 26

Relationale Objektintegration

Union (Vereinigung) Duplikat-Eliminierung

Minimum Union Eliminierung sub-

summierter Tupel

... Aber keine

Duplikatintegration Konfliktlösung

Mehr dazu in VL „Datenfusion“

Page 27: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 27

Überblick

Semantische Heterogenität Namenskonflikte Identität Datenkonflikte

Gebundene und Freie Variablen Adornments Anfrageplanung

Page 28: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 28

Gebundene & Freie Variablen

Gebundene Variablen müssen bei einer Anfrage spezifiziert werden. z.B.: „Search“-Feld bei Google

Freie Variablen müssen nicht gebunden werden. z.B. „Autor“-Feld bei Amazon.de, falls Titel gebunden ist.

Einordnung: Heterogenität

Syntaktische Heterogenität Schnittstellenheterogenität

Page 29: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 29

Gebundene und Freie Variablen – Adornments

Jede Quelle exportiert eine oder mehrere relationale Sichten.

IIS erlaubt Anfragen auf diese Sichten mittels Join, Union, Selektion und Projektion.

Quelle: [YLGU99]

Page 30: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 30

Gebundene und Freie Variablen – Adornments

5 Quellen (für später):R1(X,Y,Z)R2(X,Y,Z)R3(X,Y,Z)R4(Z,U)R5(U,V,W)

Quelle: [YLGU99]

Beispiel Quelle 1:R1(X,Y,Z)

Daten:(x1,y1,z1)(x1,y2,z1)(x2,y2,z2)

Beispiel Anfrage 1:Q1(X,Y,z1)

Beispiel Ergebnis:(x1,y1,z1)(x1,y2,z1)

Beispiel Anfrage 2:Q2(X,y1,Z)

Beispiel Ergebnis:(x1,y1,z1)

Z gebunden

Page 31: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 31

Gebundene und Freie Variablen – Adornments Anfragefähigkeiten der Quellen als templates

Wie ein WWW Formular Templates bestehen aus einem adornment für jedes Attribut

Anhänge (adornments = Verzierungen) an Attribute schränken ein: f: free

Frei: Kann in Anfrage spezifiziert werden, muss aber nicht. u: unspecifiable

Unbestimmbar: Kann nicht spezifiziert werden. Ist aber Teil des Ergebnisses.

b: bound Gebunden: Muss spezifiziert werden.

c[s]: constant Auswahl aus einer Menge s von Konstanten Implizit bound: muss spezifiziert werden

o[s]: optional Auswahl aus einer Menge s von Konstanten Implizit free: Muss nicht spezifiziert werden.

Quelle: [YLGU99]

Page 32: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 32

Adornments - BeispieleBeispiel Quelle 1:

R1(X,Y,Z)Anfragemöglichkeit 1:

X muss spezifiziert werdenY kann nicht spezifiziert werdenZ kann spezifiziert werden

Anfragemöglichkeit 2:X kann nicht spezifiziert werden Y kann spezifiziert werdenZ ist entweder z1 oder z2

Template:buf

Template:ufc[z1, z2]

Page 33: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 33

Adornments – Anfragebearbeitung Anfragebearbeitung

R1(X,Y,Z): bff, ffb R2(X,Y,Z): fbf Sei M = R1 R2 eine integrierte Sicht des IIS, gegen die

man Anfragen stellen kann. Annahme über Anfragebearbeitung:

Anfragen werden übersetzt in je eine Anfrage pro Quelle (gebundene Variablen werden weitergereicht)

Ergebnisse werden entsprechen der Sicht verknüpft (hier )

Frage: Was ist das Template der Sicht M?

Quelle: [YLGU99]

bff fbf= bbf

ffb fbf= fbb

Page 34: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 34

Adornments – Verknüpfung durch UNION

3 Sichten und deren Adornments:R1(X,Y,Z): bff, ffbR2(X,Y,Z): fbfR3(X,Y,Z): ffc[s1], c[s2]ff

R1 R2:bff fbf = bbfffb fbf = fbb(R1 R2) R3:bbf ffc[s1] = bbc[s1] usw.

Quelle: [YLGU99]

Page 35: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 35

Adornments – Verknüpfung durch Join (⋈)

Unterschied zu UNION Nicht jedes Attribut der integrierten Sicht ist auch

Attribut jeder beteiligten Quelle. Beispiel: R1(X,Y,Z) und R4(Z,U) Sicht: M(X,Y,Z,U) = R1(X,Y,Z) ⋈ R4(Z,U)

Berechnung des Templates der Sicht Adornments der nicht-Join-Attribute werden

kopiert. Adornments der Join-Attribute werden gemäß der

UNION Tabelle vereint.

Page 36: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 36

Adornments – Selektion und Projektion

Selektion Sicht im IIS selektiert mit Prädikaten.

X = `Test´ oder U > 1999 Prädikate werden auf Ergebnisse der Quellen angewandt. Deshalb: Kein Einfluss auf adornments

Projektion Einfach projizierte Attribute weglassen. Aber: Falls Attribut mit b oder c adornment durch Projektion

wegfallen soll => Sicht des IIS nicht ausführbar Sonst: Adornments bleiben erhalten

Page 37: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 37

Adornments – Anfragebearbeitung

Problem UNION-Matrix

zu restriktiv

Idee: Erhöhung der Menge beantwortbarer Anfragen durch Post-Processing durch Passing Bindings

Page 38: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 38

Adornments und Postprocessing

R1(X,Y,Z): bfuR2(X,Y,Z): bufR1 R2 = buu

Anfrage 1: (x1,Y,Z) beantwortbar?Anfrage 2: (x1,y1,z1) beantwortbar?

Quelle: [YLGU99]

Idee: (x1,y1,Z) an R1

(x1,Y,z1) an R2

Dann im Mediator filtern: Z=z1 bzw. Y=y1

Was ist neu? u = f : durch nachträgliches Filtern (postprocessing) o[s] = f : falls Bindung nicht in s, weglassen und später Filtern Zusammen: R1 R2 = bff

Page 39: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 39

Adornments – Verknüpfung durch UNION

Quelle: [YLGU99]

Vorher:

Nachher:

Page 40: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 40

Adornments und Passing Bindings

JOIN über templates ohne passing bindingsR1(X,Y,Z) : fbfR5(Z,U) : bfR1 ⋈ R2 = fbbf

Passing Bindings: Ergebnisse einer Sicht werden vom Mediator in die gebundene Variable der nächsten Sicht eingetragen.

Quelle: [YLGU99]

JOIN über templates mit passing bindings:R1 R5 = fbff

Anfrage 1: (X,y1,z1,U) beantwortbar?Anfrage 2: (X,y1,Z, U) beantwortbar?

Idee: (X,y1,Z) an R1

(z1,U)…(zn,U) an R5

Page 41: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 41

Adornments und Passing Bindings

Quelle: [YLGU99]

Vorher:

Nachher:

Erste Quelle

Zweite Quelle

Page 42: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 42

Adornments – Selektion mit Postprocessing

Variante 1: R1(X,Y,Z), X < x1: bfu Q(x2, Y, Z) beantwortbar?Q(x2, Y, z1) beantwortbar?Q(X, y1, z1) beantwortbar?

Variante 2: R1(X,Y,Z), X = x1: bfu

bfu wird zu bff mit postprocessing

Q(X, y1, z1) beantwortbar?

Q(X, y1, z1) = Q(x1, y1, z1)wegen Prädikatbfu wird zu bff wird zu fff

Quelle: [YLGU99]

Page 43: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 43

Adornments – Selektion mit Postprocessing

Vorher Nachher

Quelle: [YLGU99]

Page 44: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 44

Viele Templates

Problem: Quellen exportieren oft mehrere templates Beispiel: Amazon (Autor Titel, Schlagwort, ISBN, Verlag) bffff, fbfff, ffbff, fffbf, ffffb Beispiel: Verlage(Verlag, Ort) bf, fb Sicht im IIS: Amazon ⋈Verlag Verlage Templates der Sicht aus jeder Kombination:

bfffff, fbffff, ffbfff, fffbff, ffffbf bffffb, fbfffb, ffbffb, fffbfb, ffffbb + fffffb (ffffb ⋈ fb mit passing binding)

Lösung: Einige templates sind redundant

Quelle: [YLGU99]

Page 45: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 45

Redundanz in Templates

c

f

ob

u

Weniger restriktiv

Weniger restriktivfalls AuswahllistenTeilmengen sind

• bfffff, fbffff, ffbfff, fffbff, ffffbf• bffffb, fbfffb, ffbffb, fffbfb, ffffbb

Quelle: [YLGU99]

Algorithmus zur Entfernung redundanter templates.

Page 46: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 46

Adornments – Fallbeispiel Amazon

Formular 1: Mindestens eine Spezifikation aus author, title, subject, format (format aus Auswahlliste)

Formular 2: ISBN spezifizieren Formular 3: Mindestens eine Spezifikation aus keyword,

publisher, date Antwortrelation: author, title, ISBN, publisher, date, format,

price, shipping info Barnes & Noble

Formular 1: Mindestens eine Spezifikation aus author, title, keywords; optionale Spezifikation in format subject, price, age (alles aus Auswahllisten)

Formular 2: ISBN spezifizieren

Quelle: [YLGU99]

Page 47: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 47

Adornments - Fallbeispiel

Amazon

Barnes & Noble

IIS

Quelle: [YLGU99]

Page 48: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 48

Adornments - Fallbeispiel

IIS

Ableiten von 4 Formularen im IIS nach [YLGU99]- Spezifikation der ISBN (template 1)- Spezifikation des keyword (template 2)- Mindestens author oder title spezifizieren (templates 3 und 4)- Mindestens author oder title und mindestens publisher oder date spezifizieren (templates 5-8)

Quelle: [YLGU99]

Page 49: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 49

Überblick

Semantische Heterogenität Namenskonflikte Identität Datenkonflikte

Gebundene und Freie Variablen Adornments Anfrageplanung

Page 50: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 50

Gebundene & Freie Variablen – Beispiel

Quelle: [LC00]

Page 51: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 51

Gebundene & Freie Variablen – Beispiel

Bastelaufgabe 1:Wie teuer ist die billigste CDmit einem Song namens “Friends”?

Quelle: [LC00]

Page 52: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 52

Gebundene & Freie Variablen – Beispiel

Bastelaufgabe 2:Welches ist die billigste CDmit einem Song namens “Friends”, die Sie anfragenkönnen?

Page 53: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 53

Gebundene & Freie Variablen – Beispiel

Quelle: [LC00]

Page 54: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 54

Gebundene & Freie Variablen – Beispiel

Idee 1:(v1 ⋈CD v2)⋈Artist v3

Ergibt zusätzlich:<Story, Lucy, $13> ^---PECH

1

2

Page 55: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 55

Gebundene & Freie Variablen – Beispiel

Idee 2:(((v1⋈v2)⋈v3)⋈v2)⋈v3)⋈v1

Ergibt zusätzlich:<Love, Snoopy, $10> ^--- Glück, weil auch in v1!

1

23 4

5

Page 56: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 56

Gebundene & Freie Variablen – Beispiel: Semantik

1

23 4

5

Ziel: Maximale AntwortAnnahme: Universal Relation mit globalen Attributen.Semantik: Relationale Algebra

Page 57: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 57

Gebundene & Freie Variablen – Beispiel: Semantik

1

23 4

5

Schon Schritt 1 macht eineAnnahme.Schritte 2-5 überwinden nurBinding-Muster. Direkter Joinüber v1⋈v3 hätte gleichesResultat.Wichtig deshalb: Data Lineage und Visualisierung

Page 58: Informationsintegration Heterogenität 27.10.2004 Felix Naumann

27.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 58

Literatur

Wichtige Literatur [YLGU99] Ramana Yerneni, Chen Li, Hector

Garcia-Molina, Jeffrey D. Ullman, „Computing Capabilities of Mediators“, SIGMOD 1999

Weitere Literatur [LC00] Chen Li, Edward Chang „Query Planning

with Limited Source Capabilities“, ICDE 2000