Informationsintegration. © Prof. T. Kudraß, HTWK Leipzig 2 Einführung Traditionelle...

Informationsintegration

Einführung Traditionelle Datenbankverarbeitung zentralisiert

Administrationsvorteile Leistungs- und Verfügbarkeitsproblem

Entwicklung verteilter Informationssysteme Hohe Leistungsfähigkeit Skalierbarkeit Hohe Verfügbarkeit Verteilungstransparenz Unterstützung dezentraler Organisationsstrukturen Integrierter Zugriff auf heterogene Datenbanken

– Data Warehousing– Unternehmensportale

Einfache Systemadministration, Hohe Kosteneffektivität

Einführung (2) Zusammenführung von Daten und Inhalten aus

verschiedenen Quellen zu einer einheitlichen Menge von Informationen

Aufnahme zusätzlicher Komponenten, um Angebot zu vergrössern und zu verbessern

Randbedingungen Einbindung soll integriert erfolgen Systeme der eingebundenen Partner bleiben autonom Für die Einbindung keine grossen Änderungen

Integrierte vs. Föderative Mehrrechner-DBS

Überblick Grundbegriffe Integrationsansätze

Materialisierte Integration Virtuelle Integration

Architektur föderierter Systeme Integrationskonflikte Schemaintegration Integration mittels Mashups Zusammenfassung

(Knoten)-Autonomie Grad, zu dem verschiedene DBMS unabhängig

kooperieren können Hoher Grad an Autonomie Föderiertes System (oft

lose gekoppelt) Arten der Autonomie

Design-Autonomie (Wahl des DBMS, Wahl der Ablaufumgebung) Ausführungsautonomie (vs. globales Transaktionsmanagement) Kooperationsautonomie / Kommunikationsautonomie

Autonomie als organisatorisches Problem – Beschneidung von Kompetenzen und Verantwortungen

einzelner Systemverantwortlicher

Begriff Föderation Vgl. Beispiel Bundesrepublik Deutschland

– Bundesländer bedingt autonom– Konflikte durch konkurrierende Gesetzgebung

Weitere Föderationen– Europäische Union– Vereinigte Staaten von Amerika– Vereinte Nationen (UNO)

Charakter einer Föderation– Grad der verbleibenden Autonomie– Heterogenität der beteiligten (Teil-)Staaten

Übertragbarkeit auf Informationssysteme ?

Architekturvarianten

Heterogenität Hoher Grad an Autonomie führt zu einer wachsenden

Heterogenität Unterschiedlichkeit von miteinander verbundenen Informationssystemen

Dimension Heterogenität– Technische Heterogenität (syntaktische Ebene)– Datenmodellbasierte Heterogenität– Logische Heterogenität

Semantische Heterogenität (Synonyme, Homonyme) Schemabasierte Heterogenität Strukturelle Heterogenität

Heterogenitäten zu überbrücken ist die Kernaufgabe der Integration!

Integrations-Beispiel Starke Heterogenität der Systeme

Quelle 1: Oracle-Datenbank Zugriff über JDBC

Quelle 2: CORBA Schnittstelle, über die auf den Informationsbestand zugegriffen werden kann

Quelle 3: XML-Datenbanksystem Zugriff mittels XML-Standards (XPath, XQuery)

Quelle 4: Angebot von statischen HTML-Seiten Zugriff via HTTP-Protokoll

Alle Quellen verwenden unterschiedliche Schemata

Entkopplung durch eine Zwischenschicht, die eine integrierte Sicht zur Verfügung stellt

Anbindung: virtuell vs. materialisiert

Systeme zur Datenintegration

Materialisierte Integration Virtuelle Integration

(Semi-) Strukturierte Daten

Mediatoren-SystemeFöderierte DBS(Meta-)SuchmaschinenData Warehouses

Updates,Transaktionen Leseoperationen

Strukturierte Anfragen

Unstrukturierte Anfragen

Verteilte AnfragebearbeitungKopieren der

Materialisierte Integration

Anwendung

Für Anfragen wird nur die zentrale Datenbasis benutzt

(periodischer) ImportIn die zentrale Datenbasis

Zentrale Datenbasis

Quellen

Virtuelle Integration: Mediatorbasierte Informationssysteme

Anwendung 1Anwendung 1 Anwendung 2Anwendung 2

MediatorMediator

WrapperWrapper WrapperWrapper WrapperWrapper

Quelle 1 Quelle 2 Quelle 3

Daten aus verschiedenen Quellen müssen zusammengefasst werden

Schema Mapping

Schaffung leicht-gewichtiger, verwaltbarer Mediatoren

Kopplung verschiedener Mediatoren zu einer

mehrschichtigen Föderationsarchitektur

Mediatorbasierte IS - Beispiel

Anwendung

Mediator Mediator

Wrapper Wrapper Wrapper

Handwerkermarkt Verbraucherportal Öffentliche Verwaltung

Benutzer wählt aus Kategorie>>Bohrmaschinen<< unter € 250,-

Benutzer wählt aus Kategorie>>Bohrmaschinen<< unter € 250,- Generierung der Anfrage:

SELECT Name, Preis, Bewertung WHERE Preis < 250 ANDKategorie = BohrmaschineWelche Quellen sind für

diese Anfrage relevant?-Handwerkermarkt-Verbraucherportal

Mediatorbasierte IS – Beispiel (2)

Anwendung

Mediator Mediator

AnfragezerlegungÜbersetzung ins Schema der Quellen

SELECT Hersteller, Artikel, RatingWHERE Artikelkategorie = „Bohrmaschine“

SELECT Artikelname, EinzelpreisWHERE Artikelkategorie = „Bohrmaschine“ AND Preis <250

Anwendung

Mediator Mediator

Übersetzung in QuellenanfragenAbsetzen der Anfragen

SQL-Anfrage über JDBC

HTTP-Anfragen

Anwendung

Mediator Mediator

Zusammenführung der Ergebnisse einer QuelleTransformation in das gemeinsame Datenmodell und Ausführung von

Filteroperationen

JDBC – Result Set

HTML-Seite

Quellen liefern Ergebnis zurück

Anwendung

Mediator Mediator

Aufbereitung der Ergebnisse für den Benutzer

Sammeln der Ergebnisse

Übersetzung ins Informationsmodell des Portales

z.Bsp.: Artikelname -> NameVerschmelzen der Ergebnismengen

Typen von föderierten IS

Föderierte Informationssysteme

Föderiertes SchemaKein Föderiertes Schema

Komponenten sind nicht nur Datenbanken

Komponenten sind Datenbanken

Lose gekoppelte Informationssysteme

Föderierte Datenbanksysteme

Mediator-basierteInformationssysteme

Systemarchitektur föderierter DBS

Föderierungsdienst

Globale AnwendungenGlobale Anwendungen Globale AnwendungenGlobale Anwendungen

Lokale Anwendungen

Föderiertes DBS

Datenbanksystem Datenbanksystem

KomponentensystemKomponentensystem

Datenbank Datenbank

Metadaten

5-Ebenen-Schema-Architektur

Externes Schema

Föderiertes (globales) SchemaFöderiertes (globales) Schema

ExportschemaExportschema

KomponentenschemaKomponentenschema

Lokales Schema

Externes Schema

ExportschemaExportschema

KomponentenschemaKomponentenschema

Lokales Schema

Integration Anfragebearbeitung

Datenbank Datenbank

Übersetzung in gemeinsames Datenmodell

Auswahl der zu integrierenden Teile

Schemaintegration

Föderiertes Datenbanksystem

Global-As-View Beispiel

CREATE VIEW NeuerFilm ASSELECT * FROM IMDBWHERE Jahr > 2000UNIONSELECT * FROM MyMoviesWHERE Jahr > 2000

Globales Schema

NeuerFilm(Titel, Regie, Jahr, Genre)Programm(Kino, Titel, Zeit)Nebenbedingung: Jahr > 2000

Globales Schema

NeuerFilm(Titel, Regie, Jahr, Genre)Programm(Kino, Titel, Zeit)Nebenbedingung: Jahr > 2000

Lokale Schemata

V1: IMDB(Titel, Regie, Jahr, Genre)V2: MyMovies(Titel, Regie, Jahr, Genre)

Lokale Schemata

V1: IMDB(Titel, Regie, Jahr, Genre)V2: MyMovies(Titel, Regie, Jahr, Genre)

Bekannte Nebenbedingung auf dem globalen Schema kann modelliert werden.

Bottom-Up-Integration

Local-As-View Beispiel

CREATE VIEW V3 ASSELECT Programm.Kino, Film.GenreFROM Film, ProgrammWHERE Film.Titel = Programm.Titel

Globales Schema

Film(Titel, Regie, Jahr, Genre)Programm(Kino, Titel, Zeit)

Globales Schema

Film(Titel, Regie, Jahr, Genre)Programm(Kino, Titel, Zeit)

Lokales Schema

V3: KinoDB(Kino, Genre)

Lokales Schema

V3: KinoDB(Kino, Genre)

Assoziationen des globalen Schemas können in der Sicht hergestellt werden.

Top-Down-Integration

Anwendungsgebiete föderierter DBS Meta-Suchmaschinen

Digitale Bibliotheken

Unternehmensfusionen Kundendatenbanken Personaldatenbanken

Krankenhausinformationssysteme Krankheitsverlauf (Akte) Verwaltung Krankenkasse

Geo-Informationssysteme

Integrationsprozess (virtuelle Integration)

Bildung eines globalen Schemas (Schemaintegration) Generierung von Wrappern für jede Datenquelle

Softwarekomponente Mapping von lokalen Schemata auf globales Schema Kennt Anfragefähigkeiten der Quellen

Daten bleiben vor Ort Informationsquellen sind autonom

für die Durchführung der Integration vorhanden 5 Phasen des Integrationsprozesses:

1. Analyse der zu integrierenden Datenquellen2. Transformation der gegebenenfalls heterogenen Beschreibungen

der Daten (Datenbankschemata) in ein gemeinsames Datenmodell

3. Feststellung der sich semantisch entsprechenden Daten (Angabe sogenannter Korrespondenzen)

4. Ableitung eines integrierten Schemas5. Integration der Daten

Binäre vs. n-äre Integration

Probleme beim Integrationsprozess Datenbankschemata oft nicht vollständig Datenquellen oft "semistrukturiert", oder es gibt

überhaupt kein Datenbankschema In Altsystemen: Semantik der Daten in der Datenbank

nicht vollständig bekannt Korrespondenzen und Abhängigkeiten zwischen Daten

aus verschiedenen Quellen sind nicht bekannt Wie ist die Heterogenität zu überwinden?

Kriterien für Integrationsmethoden Vollständigkeit (Completeness)

– Alle Informationen aus lokalen Schemata erhalten

Korrektheit (Correctness)– Neue Beziehungen dürften vorhandene Schemata

konsistent ergänzen

Minimalität (Minimality)– Vermeidung von Redundanz

Verständlichkeit (Understandability)– Bekanntes aus lokalem Schema ins föderierte

Schema übernehmen

Vergleich mit traditionellem DB-Entwurf?

Klassifizierung von Integrationskonflikten

Datenmodell-Heterogenität Unterschiedliche Semantik Unterschiedliche Struktur

Schema- oder Modellierungsheterogenität Strukturelle Konflikte Extensionale Konflikte Beschreibungskonflikte

Heterogenität auf Datenebene (Datenkonflikt)

Datenmodellkonflikte Vielzahl an Datenmodellen mit unterschied-

lichen Modellierungskonstrukten– objektorientiert, relational, XML, hierarchisch,

objektrelational

Beispiele:– Mengenwertige Attribute (objektrelational) vs.

Fremdschlüsselbeziehung (relational)– Modellierung von Spezialisierung im relationalen

Modell (mindestens 3 Varianten)

Konstrukte eines Datenmodells werden oft nicht vollständig oder falsch verwendet

Schematische Heterogenität Unterschiedliche Modellierung gleicher Sachverhalte Strukturelle Konflikte

Modellierung: Relation vs. Attribut, Attribut vs. Wert, Relation vs. Wert

Benennung: Relationen, Attribute Geschachtelt vs. Fremdschlüssel

Männer (Id, Vorname, Nachname)Frauen (Id, Vorname, Nachname)

Person ( Id, Vorname, Nachname,Männlich, Weiblich )

Schematische Heterogenität (2) Tabellen – Tabellen Konflikte

Namenskonflikte (gleiche Namen aber unterschiedliche Tabellen)

Strukturkonflikte (fehlende Attribute)

Attribut – Attribut Konflikte Namenskonflikte (gleiche Namen aber unterschiedliche

Attribute) Default-Wert Konflikte IC-Konflikte (Datentypkonflikte, Bedingungskonflikte)

Beschreibungskonflikte Unterschiedliche Auswahl an erfassten

Objekteigenschaften Homonyme und synonyme Bezeichnungen

– bei Attributen, Klassen, Relationen, Beziehungen

Datentypkonflikte Wertebereichskonflikte Skalierungskonflikte (Maßeinheiten) Genauigkeitskonflikte Konflikte durch Integritätsbedingungen Konflikte der Manipulationsoperationen

Beispiele für Beschreibungskonflikte

Homonyme Schloss → Türschloss Schloss → Gebäude

Synonyme Personal Angestellte

Datentypen int string (für Zahlen)

Skalierungen 0,153 (Meter) 153,0 (Millimeter)

Genauigkeiten 0,543 kg 0,54321 kg

Integritäts-bedingungen

Gehalt < 6000 Gehalt < 7000

Synonyme Verschiedene Worte mit gleicher Bedeutung

PUBLIKATION (Pubnr, Titel, Typcode)BUCHPUB (Pubnr, Verlag, Ejahr, Exemplare, ISBN)VERFASSER (Pubnr, Vname)SCHLAGWORT (Pubnr, Sname)

BUCH (ISBN, Titel, Autor, Vnr, Jahr, Preis, Standort)VERLAG (Vnr, Vname, Adresse)

Quelle 1 - UNIBIB:

Quelle 2 - STADTBIB:

Homonyme Gleiche Worte mit unterschiedlicher Bedeutung

Quelle 1 - UNIBIB:

Hauptproblem: Semantische Heterogenität

Bezeichnet Unterschiede in Bedeutung, Interpretation und Art der Nutzung

Annahme bisher gleiche Bezeichnung, gleiche Semantik

Repräsentiert Objekt A die gleiche Entität wie Objekt B? (Identifikationskonflikte)

Datenkonflikt: Zwei Duplikate haben unterschiedliche Attributwerte für semantisch gleiches Attribut

Genauigkeitskonflikte

Datenkonflikte Inkorrekte Einträge

– Tippfehler bei der Eingabe von Werten– Falsche Einträge aufgrund von Programmierfehlern

Veraltete Einträge– Unterschiedliche Aktualisierungszeitpunkte– Vergessene Aktualisierungen

Verschiedene Ausdrücke / Repräsentation von Werten– Verschiedene Datentypen (numerisch vs. nicht-

numerisch)– Unterschiedliche Schreibweisen, Genauigkeit,

Skalierung (bei gleichem Datentyp)

Behebung von Datenkonflikten Angabe expliziter Werteabbildungen Einführung von Ähnlichkeitsmaßen Bevorzugung der Werte aus einer lokalen

Quelle Verwendung von Hintergrundwissen

– Konventionen hinsichtlich Schreibweisen– Behandlung von Homonymen und Synonymen auf

Datenebene: Wörterbücher, Thesauri, Ontologien

Wissensbasierte Verfahren

Integrationspotential Wann ist eine Informationsintegration möglich?

Intensionale Redundanz

Wann ist eine Informationsintegration schwierig? Extensionale Redundanz

Wann ist eine Informationsintegration nützlich? Extensionale Komplementierung Intensionale Komplementierung

Intension und Extension Intension Menge der Schemainformationen

und deren Semantik Extension Menge aller zur Intension

gehörigen Daten

ISBN Titel Autor

123456 Mobby Dick

Herman Melville

789101 Robinson

Crusoe

Daniel Defoe

122222 XML-DB

Karl May

Intension

Extension

Intensionale Redundanz Liegt vor, wenn das Entfernen von Teilen der Intension

die Gesamtintension nicht verändert. Intensionale Redundanz auch über mehrere

Relationen und Quellen.

ISBN ID Titel Autor

3442727316 3442727316 Moby Dick Herman Melville

3491960827 3491960827 Robinson Crusoe

Daniel Defoe

3462032283 3462032283 Zwölf Nick McDonell

3883891606 3883891606 Timbuktu Paul Auster

Intensionale Komplementierung

Informationen mehrerer (sich komplementierender) Quellen werden zu einem größeren Ganzen integriert

Intensionale Komplementierung liegt vor, wenn von zwei Intensionen mindestens eine Differenz nicht leer ist, und deren Schnittmenge nicht leer ist.

ISBN Autor

123456 Herman Melville

789101 Daniel Defoe

122222 Karl May

Mobby Dick

Robinson Crusoe

XML-DB

ISBN Autor

789101 Daniel Defoe

122222 Karl May

ISBN Titel

122222 XML-DB

123456 Mobby Dick

789101 Robinson Crusoe

Extensionale Redundanz Liegt vor, wenn die Menge der von zwei Quellen

gemeinsam repräsentierten Objekte nicht leer ist.

ISBN Autor

122222 Karl May

ID Autor

122222 Karl Mai

Extensionale RedundanzExtensionale Redundanz DatenkonfliktDatenkonflikt

Zusammenfassung Redundanz* Extensionale Redundanz ermöglicht

intensionale Komplementierung Zwei Quellen, die über gleiche Dinge sprechen, können zu

einer dichteren Quelle integriert werden (Density)

Intensionale Redundanz ermöglicht extensionale Komplementierung

Zwei Quellen mit gleichem Schema können zu einer überdeckenderen Quelle integriert werden (Coverage)

Schemaintegration Ziel: aus mehreren Export-Schemata ein

globales konzeptionelles Schema erstellen Unterstützung durch geeignete Tools Umfasst 3 Phasen:

Vorintegration Erkennung und Behebung von Konflikten Mischen und Restrukturierung der Schemaangaben

Schemaintegration – Beispiel

Quelle 1 - UNIBIB:

1. Vorintegration

2. Konflikterkennung +Behebung

3. Mischen + Restrukturierung

Schemaintegration – Beispiel (2)

PUBLIKATION (Pubnr, Titel, Typcode)BUCHPUB (Pubnr, Vname, Jahr, Exemplare, ISBN)VERFASSER (Pubnr, Autor)SCHLAGWORT (Pubnr, Sname)

Quelle 1 - UNIBIB:

1. Vorintegration

Schwierigkeit Integritätsbedingungen

- „Pubnr“ nur in der ersten und „Vnr“ nur in der zweiten Datenbank bekannt

- Unterschiedliche Behandlung von Autoren

- Annahme zu BUCH-ISBN kann ein „Pubnr“ Wert und zu einem Verlagsname ein „Vnr“ Wert bestimmt werden

- Liegen der ISBN bzw. Vname Wert bereits in BUCHPUB bzw. VERLAG vor ergibt sich die Zuordnung aus dem Inhalt

- Gegebenfalls neue Nummern generieren

- Attribut Autor aus BUCH extrahieren und in VERFASSER überführen

PUBLIKATION (Pubnr, Titel, Typcode)BUCHP (Pubnr, Vnr, Jahr, Preis, Standort-STADT, Ex-UNI, ISBN)VERFASSER (Pubnr, Autor)SCHLAGWORT (Pubnr, Sname)VERLAG (Vnr, Vname, Adresse)

1. Vorintegration

- Attribute der BUCH Relation auf BUCHP, PUBLIKATION und VERFASSER abgebildet

- Angaben von BUCHPUB befinden sich weitgehend in BUCHP, lediglich Verlagsname nun in VERLAG

Prinzipien der Schemaintegration Korrespondenzen

– Element-Korrespondenzen (z.B. Klassen, Relationen)– Attribut-Korrespondenzen– Pfad-Korrespondenzen

Korrespondenzen auf Basis von Mengenbeziehungen– Äquivalenz– Teilmengenbeziehung / Einschluß– Überlappung– Disjunktheit

Integrationsregeln (1)

Regel 1: Unabhängige ElementeJedes Schemaelement, zu dem es keine Korrespondenz mit einem Schemaelement des anderen Schema gibt, wird unverändert ins föderierte Schema übernommen.

Regel 2: Äquivalente ElementeSind 2 Schemaelemente der zu integrierenden Schemata über eine Element-Korrepondenz als äquivalent bestimmt, so werden diese beiden Schemaelemente im föderierten Schema durch genau ein Schemaelement repräsentiert.

Integrationsregeln für Attribute– Attribute ohne Korrespondenz unverändert übernehmen– 2 Attribute mit Gleichheits-Korrespondenz → zu einem Attribut im

föderierten Schema zusammenfassen– Bei Teilmengen-Korrespondenz → Attribut, das Obermenge

repräsentiert, ins föderierte Schema übernehmen– Bei Überlappungs-Korrespondenz → neues Attribut anlegen, das die

Vereinigung der beiden Wertemenge repräsentiert, andere Form der Zusammenführung bei Disjunktheit (z.B. Summe, Mittelwertbildung)

Regel 3: Pfad-IntegrationIn der Regel müssen die beiden zueinander in Korrespondenz stehenden Pfade im föderierten Schema jeweils durch einen semantisch äquivalenten Pfad abgebildet sein. Nur falls eine Pfad-Äquivalenz als Korrespondenz vorliegt, reicht es, wenn einer der beiden Pfade im föderierten Schema abgebildet ist.Sind beide Pfade vollständig im integrierten Schema enthalten, liefert die Pfad-Korrespondenz eine Integritätsbedingung, die auf Ebene des föderierten Schemas zu überwachen ist.

Beispiel– KUNDE – bestellt – WARE = ABNEHMER – versorgt– WARE – produziert – Hersteller = versorgt – PRODUZENT– abgeleitet: KUNDE – bestellt – WARE – produziert – HERSTELLER =

ABNEHMER – versorgt – PRODUZENT

Mashup-Ansatz zur Datenintegration besondere Art von Anwendungen zur

Datenintegration neuer Ansatz gegenüber „klassischen“

Datenintegrationsansätzen wie Data Warehouses oder Query-Mediatoren

Entwicklung– potenzieller Kreis der Mashup-Entwickler viel größer

(evtl. ohne Programmierkenntnisse)– kurze Entwicklungszeit, frühzeitige Evaluierung und

Anpassung (Stunden, Tage)– Geeignet für Prototyping und agile

Entwicklungsmethoden

Arten von Mashups Mapping-Mashups

– Integrieren Daten aus online verfügbaren Karten (maps)– Hohe Verbreitung durch Mapping-APIs (Google, Yahoo, Microsoft)

Foto- und Video-Mashups– motiviert durch Foto-Hosting-Sites (flickr) und Videoportale (YouTube) – Integration externer Daten mit Hilfe von Metadaten (z.B. für aktuelle

Nachrichten) Such- und Shopping-Mashups

– Anbieter: Google Froogle, PriceGrabber– Vergleichsinformationen zu Produkten verschiedener Anbieter– Heute Webschnittstellen zum Zugriff auf Produktinformationen (z.B.

Amazon, eBay) Nachrichten-Mashups

– Kombinieren Agenturmeldungen mit Beiträgen in Web (Blogs, Foren u.ä.)

Mashups und Datenintegration

Datenextraktion– Verschiedene Schnittstellen von Datenprovidern– Standardisierte Protokolle und Formate

Datenfluss– extrahierte Daten transformieren und miteinander kombinieren– Benötigte Logik in Mashup-Anwendung (Servlets, PHP o.ä.)

Präsentation– Webbrowser visualisiert Mashup-Ergebnis für Client– Generieren von (X)HTML-Code, ggf. Feed-Format )RSS, Atom)

für Newsreader

Mashup-Gesamtarchitektur

Daten-/Service-Provider (WWW, Web-APIs, Feeds)

Mashup-Anwendung

Daten-extraktio

Daten-fluss

Präsen-tation

Client(Webbrowser,Feedreader)

(X)HTML, RSS, Atom, CSV, JSON

(X)HTML, JavaScript, RSS, Atom

Mashup vs. „klassische“ Datenintegration Entwicklungsprozess

– Mashup = prototyp. Entwicklung von DI-Anwendungen– Klassische DI erfordert Vorlaufzeit (Data Cleaning, Schema

Integration) Integrationsart

– Zugriff auf Datenquellen mittels Wrapper ähnlich klassische DI– „Low-Level-Integration“: keine explizite semantische

Beschreibung der Quellen und ihrer Verbindung, stattdessen fest codierter Datenfluss

– virtuelle Integration (d.h. Extraktion und Kombination der Daten zur Laufzeit)

– geeignet eher für kleine Datenvolumina Verwendung

relativ starre Verknüpfung der Daten eher aufgabenspezifische Anwendungen (anders als ein DWH für

beliebige Analysen) Kürzere Lebensdauer

Werkzeuge zur Mashup-Erstellung Tools zur Datenextraktion von Informationen aus

Websites Tools zur Modellierung und Ausführung von Datenflüssen

– Komponenten zur Datenverarbeitung (z.B. Transformation und Aggregation von Datenwerten und –objekten)

Anwendungen zur Unterstützung der Präsentation, d.h. zur integrierten Darstellung innerhalb eines Frontends und Interaktion mit Benutzer

Beispiele:– Extraktion: Dapper, OpenKapow Robomaker (frei verfügbar)– Datenrepräsentation: Google Mashup Editor– Datenflussmodellierung: Apatar, Microsoft Popfly, IBM Damia,

Yahoo! Pipes Literatur:

D. Aumüller, A. Thor: Mashup-Werkzeuge zur Ad-hoc-Datenintegration im Web, in: Datenbank-Spektrum 26/2008

Zusammenfassung und Ausblick

Weiterentwicklung bestehender Schemaintegrationsverfahren

Theoretisch wohlüberlegte Ansätze häufig qualitativ unbefriedigende Ergebnisse

Berücksichtigung von Unsicherheiten bei der Datenbankintegration

Informationsintegration grosse Herausforderung Suchmaschinen im Web liefern „nur“ Dokumente, welche

Suchbegriffe enthalten Vorgestellte Systeme auf Unterstützung strukturierter

Anfragen ausgerichtet

Literatur E. Rahm – „Mehrrechner-Datenbanksysteme“, Addison

Wesley 1994. Datenbank Spektrum (Heft 6 / Juni 2003) S. Conrad, W. Hasselbring, A. Koschel, R. Tritsch –

„Enterprise Application Integration: Grundlagen – Konzepte – Entwurfsmuster – Praxisbeispiele“, Elsevier Spektrum Akademishcer Verlag 2006.

U. Leser, F. Naumann – „Informationsintegration: Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen“, dpunkt.verlag 2007.

Informationsintegration. © Prof. T. Kudraß, HTWK Leipzig 2 Einführung Traditionelle...

Documents

Business Intelligence (BI) Innovative Ansätze zur ...€¦ · Business Intelligence als eigenständiger Ordnungsrahmen! Abgrenzung von herkömmlichen Ansätzen ! Vertikale Informationsintegration

Schwerpunktprogramm (SPP) Netzbasierte Wissenskommunikation in Gruppen Gefördert von der Deutschen Forschungsgemeinschaft Computervermittelte Informationsintegration

Informationsintegration Heterogenität 27.10.2004 Felix Naumann

Distributionspolitik DirektSonderformen zentralisiert dezentralisiert -Verkaufs /Ausstellungsräume -E-Commerce -Schriftlich z.B. Katalogverkauf -Telefonverkauf

Informationsintegration - hu-berlin.de · Enterprise Application Integration • „Integration ist ein Produkt, kein Projekt“ • Viele kommerzielle Produkte und Anbieter • Grundprinzip

Informationsintegration Der Bucket-Algorithmus 17.1.2006 Felix Naumann

Architektur von Web- Datenbanksystemen. © Prof. T. Kudraß, HTWK Leipzig 2 Schichtenarchitektur Aufteilung einer Web-DB-Anwendung in verschiedene Schichten

Computervermittelte Informationsintegration und Entscheidungsverhalten

Informationsintegration - informatik.hu-berlin.de · Ulf Leser: Informationsintegration 5 • Gleiche Worte verschiedener Bedeutung – Treten oft bei Überschreitung von Domänengrenzen

SOLIDWORKS PDMfiles.solidworks.com/pdf/SW2016_EPDM_DS_DEU.pdf · SOLIDWORKS PDM kümmert sich um Ihre Daten SOLIDWORKS PDM zentralisiert die Speicherung Ihrer Konstruktionsdaten und

VL Informationsintegration Verteilung, Autonomie und ... · Felix Naumann | VL Informationsintegration | SS 2008. Mächtige globale Anfragesprache 33 SELECT * FROM Books WHERE Author

XML-Anfragesprachen (Schwerpunkt XQuery). © Prof. T. Kudraß, HTWK Leipzig Übersicht Anforderungen an XML-Anfragesprachen Stand der Entwicklung XPath Anfragesprache

Anwenderbeispiel: Magna International Inc. “Solve Problems ... · “Solve Problems – don´t manage them” Magna Exteriors & Interiors zentralisiert im Headoffice und den Engineering

Informationsintegration Materialisierte vs. Virtuelle Integration 1.11.2005 Felix Naumann

Informationsintegration - informatik.hu-berlin.de

Informationsintegration und mobile Web- Anwendungen · 2015. 9. 22. · Informationsintegration und mobile Web-Anwendungen Wintersemester 2014/2015 2 Termine und Themenüberblick

Operations Research I - inf.h-brs.depbecke2m/or1/vorbemerkungen.pdf · Operations Research Springer 2011 umfassend, alle Themen der Vorlesung werden zentralisiert behandelt “gleichermaßen

NanoRepro AG München 18. Juli 2019 · 2019-07-30 · Online Shop · Design. CRM · Marketing · IT. Neuentwicklung aller Produkte. Produktion. zentralisiert. in Deutschland. Direkter

Informationsintegration Das Verborgene Web (Hidden Web) 09.02.2006 Felix Naumann

Vergleichende Untersuchungen zur Verwaltung von XML- Dokumenten in Datenbanken Prof. Dr. Thomas Kudraß HTWK Leipzig Datenbanken-Stammtisch HTW Dresden,