31
Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Embed Size (px)

Citation preview

Page 1: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 1Klemens Böhm

Interoperable Informationssysteme

Page 2: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 2Klemens Böhm

Aufbau der heutigen Sitzung Motivation für die Vorlesung als Ganzes

in eher abstrakter Form, “roter Faden”, Interoperabilität, Heterogenität, semistrukturierte Datenmodelle, XML.

Auflistung der Inhalte der Vorlesung, Beginn des ersten Teils.

Page 3: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 3Klemens Böhm

Einleitung Was ist Interoperabilität? Was sind semistrukturierte Datenmodelle? Zusammenhang Interoperabilität –

semistrukturierte Datenmodelle?

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 4: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 4Klemens Böhm

Problem Grosse Datenmengen sind verfügbar. Daten werden unterschiedlich modelliert. Systeme zur Datenverwaltung

haben unterschiedliche Fähigkeiten. Informationssysteme existieren nebeneinander

innerhalb einer Organisation/Firma, teilweise innerhalb,

teilweise ausserhalb der Organisation(z.B. Vergleich Kundenliste - Top500-Liste),

sämtlich ausserhalb des Unternehmens“Information Brokering”, “Virtual Enterprises”, z.B. Dienst, der verschiedene Auctioning-Angebote zusammenfasst.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 5: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 5Klemens Böhm

Problem Man will integrierten Zugriff. Jene Unterschiede/Charakteristika der

Sourcen sollten transparent sein; Benutzer soll sich nicht darum kümmern müssen wie Daten modelliert sind, welches System verwendet wird, wo Daten gespeichert sind.

Integrierter Zugriff -Anfragen über mehrere Sourcen, Überbrückung der Heterogenität.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 6: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 6Klemens Böhm

Interoperable Datenbanken Definition gemäss ‘Computing Dictionary’:

“A database front-end which communicates with multiple heterogeneous databases and makes them appear as a single homogeneous entity with semantic calls.”

Hier jedoch keine Beschränkung auf Datenbanken bzw. relationales Datenmodell, sondern Betrachtung von beliebigen Sourcen, z.B. auch Dokument-Server, File-Systeme, Web-Server.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 7: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 7Klemens Böhm

‘Integrierter Zugriff’ Benutzeroberfläche,

die das Absetzen von Anfragen erlaubt, die für alle Komponenten bestimmt ist,

Transformation der Daten in einheitliches Datenmodell, Entwicklung von Anwendungen gegen diese Modellierung.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 8: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 8Klemens Böhm

Interoperabilität und XML Notwendigkeit, möglichst allgemeines Datenmodell

zu verwenden. XML hat sich als universelles

Daten-Austauschformat etabliert, Verwendung von XML

als Modell für den integrierten Zugriff.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 9: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 9Klemens Böhm

Heterogenität Warum sprechen wir über Heterogenität?

Heterogenität ist der Grund dafür, dass unser Problem schwierig ist; wären Systeme nicht heterogen, hätte man das Problem nicht.

Heterogenität –Motivation für semistrukturierte Datenmodelle,herkömmliche Datenmodelle sind z.T. ‘lästiges Korsett’.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 10: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 10Klemens Böhm

Heterogenität Anwendungsunabhängige Unterschiede:

Datenmodell (z.B. relational vs. objektorientiert), Anfragesprache.

Unterschiede bei der Modellierung (im gleichen Modell): Weglassen von Information, explizite Strukturierung,

z.B. ‘Name’ vs. ‘Vorname - Nachname’, unterschiedliche Bedeutung der Attribute

(trotz gleicher Bezeichnung, z.B. Preis - netto oder brutto?)

Unterschiede auf Instanzenebene, z.B.Beträge in CHF - Beträge in Lira.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 11: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 11Klemens Böhm

Heterogenität - BeispielKlemens Bruno Böhm Bad Homburg, Zürich 65000 CHF

Wigbert F. Böhm Stuttgart 35000 DM Prof. Stein

Hans JörgJörg Schek Zürich > 100000 CHF

Mohan Almaden

Torsten Grabs Zürich < 100000 CHF

Unterschiedliche Zahl von Wohnorten Unterschiedliche Darstellung des Zweitnamens Unterschiedliche Währung beim Jahreseinkommen

(Konvertierung = Informationsverlust) Uneinheitliche Darstellung zusammengesetzter

Vornamen Jahreseinkommen nicht immer als exakter Wert Fehlende/nicht bekannte Werte

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 12: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 12Klemens Böhm

Datenmodell, Schema, Typ (1) Diese Folie – Begriffe für Erklärung

semistrukturierter Datenmodelle. Definition Datenmodell laut Ullman:

Formalismus und Notation zur Beschreibung von Datenstrukturen und eine Menge von Operationen, die zum Manipulieren und Validieren der Daten verwendet werden.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 13: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 13Klemens Böhm

Datenmodell, Schema, Typ (2) Typ - Menge von Werten, mit denen

eine Variable oder eine Konstante belegt sein darf; Schema laut Ullman:

Spezifikation der Typen von Entities in Datenbank und der Beziehungen zwischen Instanzen dieser Typen;Art, wie Entities und Beziehungen auf einer Abstraktionsebene auf der nächstniedrigeren ausgedrückt werden.Beispiel: Array Konzeptionelles Schema:

integer array A[1..n; 1..m] Physisches Schema:

A[i, j] ist an Position a0 + 4(m(i-1)+j-1)

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 14: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 14Klemens Böhm

Semistrukturierte Daten Verallgemeinerung bekannter Datenmodelle, Motivation:

kein explizites Schema vorhanden,(implizites) Schema kann sich (im Laufe der Zeit) ändern,

keine starke Typisierung, d.h. Attribut kann (für unterschiedliche Objekte) unterschiedlichen Typ haben,

Reihenfolge, z.B. Reihenfolge der Kapitel eines Dokuments.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 15: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 15Klemens Böhm

Semistrukturierte Daten - Fortsetzung Semistrukturierte Daten sind allgegenwärtig:

Dokumentez.B. Gesetzestexte, Wörterbucheinträge, HTML-Dokumente,

Daten universelles Austauschformat,

z.B. für E-Commerce. Welche Rolle spielt XML?

Zahlreiche Tools, zahlreiche DTDs, Standard des W3C, Grundlage zahlreicher weiterer Standards.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 16: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 16Klemens Böhm

Semistrukturierte Daten (3) Zusammenhang ‘Querying- und

Transformationsmechanismen’ und ‘Interoperabilität’,

Indexierung semistrukturierter Daten: Beschleunigung des deklarativen Zugriffs,

viele Anfragen ohne Indexstrukturen praktisch nicht evaluierbar,

Index ist verkürzte Beschreibung des Datenbank-Inhalts (aus einer bestimmten Sicht).

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 17: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 17Klemens Böhm

Markup Zusätzliche Information,

die in Dokumenttext eingefügt wird. Jedes Textverarbeitungssystem

generiert Markup, z.B. \par (in RTF) identifiziert Anfang

eines neuen Absatzes, \sb240 spezifiziert 12-pt Space.

Benutzer gibt Markup nur in seltenen Fällen selbst ein, z.B. mit LaTeX.

Generalized Markup: spezifiziert nicht das Aussehen des Dokuments,

identifiziert Strukturbestandteile des Dokuments, \sb240 ist kein Generalized Markup.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 18: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 18Klemens Böhm

Markup - HTML als Beispiel<html>

<div>

<h3>The Autobiography of Benjamin Franklin</h3>

Benjamin Franklin&nbsp; &nbsp; &nbsp;

<i>8.99</i>

<div>

</html>

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 19: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 19Klemens Böhm

<?xml version='1.0’?> <bookstore> <book genre="autobiography"> <title>The Autobiography of Benjamin Franklin</title> <author> <first-name>Benjamin</first-name> <last-name>Franklin</last-name> </author> <price>8.99</price> </book> <book genre="novel"> … </book></bookstore>

Logischer Markup mit XML

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 20: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 20Klemens Böhm

Warum will man mit Generalized Markup arbeiten? (1)

Trennung zwischen logischer und Layout-Struktur führt zu höherer Flexibilität, insbesondere kann man unterschiedliche Darstellungen

für unterschiedliche Benutzer und unterschiedliche Anforderungen erzeugen,Beispiel: Lektor soll alle Eigennamen im Wörterbuch ueberpruefen.

hat man bessere Strukturierungsmöglichkeiten(Strukturierung muss nicht immer explizit dargestellt werden, feinere Typisierung).Beispiel: Differenzierung Vorname – Nachname.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 21: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 21Klemens Böhm

Warum will man mit Generalized Markup arbeiten? (2)

Dokument mit logischem Markup enthält i.a. mehr Information, leichteres kooperatives Arbeiten bzw. bessere Dokumentation eigener Arbeitsschritte.

Konsistenz der Dokumente: 'intra-document consistency', 'inter-document consistency'.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 22: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 22Klemens Böhm

Was leistet XML? (1) Ziel von XML –

nicht Standardisierung des Generalized Markups. Man will unterschiedliche Dokumenttypen haben,

mit jeweils unterschiedlichem Markup. Beispiele:

Inventarliste Buchhandlung, Kochrezept.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 23: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 23Klemens Böhm

Was leistet XML? (2) Ziel von XML:

der Darstellung von Generalized Markup im Dokument (Syntaxebene),

Festlegung, welcher Markup wo im Dokument zulässig,z.B. Kochrezept muss Zutaten enthalten,Zutaten müssen vor der Zubereitung kommen.Nicht obligatorisch, solche Festlegungen zu treffen.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 24: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 24Klemens Böhm

DokumenttypdefinitionDokumenttypdefinition (DTD) ist im wesentlichen Menge von Regeln/

Grammatik, DTD gibt vor, was für Markup (an welcher

Stelle genau im Dokument des Typs) vorkommen darf.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 25: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 25Klemens Böhm

Beispiel: Bookstore DTD

<!ELEMENT bookstore (book)*>

<!ELEMENT book (title,author+,price?)>

<!ATTLIST book genre CDATA #REQUIRED>

<!ELEMENT title (#PCDATA)>

<!ELEMENT author ( name |(firstname,lastname))>

<!ELEMENT price (#PCDATA)>

<!ELEMENT name (#PCDATA)>

<!ELEMENT firstname (#PCDATA)>

<!ELEMENT lastname (#PCDATA)>

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 26: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 26Klemens Böhm

Logische Dokumentstruktur

...

The Autobio-graphy of ...

bookstore

book

title

book

author price title author price

first- name

last- name name

Benjamin Franklin

8.99

Plato

9.99The Gorgias

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 27: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 27Klemens Böhm

Inhalt der Vorlesung (1) Datenmodell 1: OEM Queries 1: Deklarativer Zugriff auf semistrukturierte

DatenAnforderungen, Flexibilität, zwei Sprachen

Datenmodell 2: XMLAbgrenzung zum relationalen Modell,Zusammenhang XML – Dokumente,‘Praxis-Features’: Kodierung von Chars, Entities, vordefinierte Typen

Datenmodell 3: XML und verwandte StandardsDOM, SAX, XPointer, XLink

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 28: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 28Klemens Böhm

Inhalt der Vorlesung (2) Schema und Typen

Motivation, DataGuides, Datalog, Simulationen Systeme 1: Indexstrukturen für semistrukturierte

Datenunterschiedliche Indices unterstützen unterschiedliche Anfragen,DataGuides, PAT-Trees, STORED, XML-Features von SQL Server,Evaluierung von XML-Queries

Datenmodell 4: MetadatenMPAA,Dublin Core, RDF

Queries 2: Transformationsmechanismen für semistrukturierte DatenXSLT, YAT

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 29: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 29Klemens Böhm

Inhalt der Vorlesung (3) Systeme 2: Query Processing in verteilten,

heterogenen UmgebungenQuery-Evaluierung, Queryoptimierung

Systeme 3: Infrastrukturen für die Integration heterogener InformationssystemeHarmony – was bekommt man, was muss man selbst leisten?A0-Algorithmus

Systeme 4: Erweiterbare Query-Optimierung

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 30: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 30Klemens Böhm

Abgrenzung gegenüber anderen Lehrveranstaltungen

Zusammenhang zu ‘Data Warehousing’: Data Warehouse - Materialisierung integrierter

Sicht bzw. Teilen davon, insbes. Aggregate, bzw. historischer Entwicklung der Daten,

multidimensionales Datenmodell(Datenmodell wurde nicht entworfen, um mit Heterogenität gut umzugehen.)

Konsistenzerhaltung, effiziente Berechnung der materialisierten Sicht, physischer Entwurf,

neue Operatoren auf höherem Abstraktionsniveau.

Zusammenhang zu ‘Objekten höherer Ordnung’ -Mechanismen zum Kommunikationsaufbau zwischen Informationsobjekten.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung

Page 31: Interoperable Informationssysteme - 1 Klemens Böhm Interoperable Informationssysteme

Interoperable Informationssysteme - 31Klemens Böhm

Abgrenzung gegenüber anderen Lehrveranstaltungen

Materialisierungen, physischer Entwurf - hier kein Thema, alle Sichten sind virtuell.

Anderes Datenmodell. Hier vorgestellte Konzepte

sind orthogonal zu den Mechanismen zur Verwaltung von Objekten höherer Ordnung.

Inter-operabilität

Hetero-genität

Semistrukt.Daten-modelle

XML

Inhalt derVorlesung