View
10
Download
0
Category
Preview:
Citation preview
InformationsintegrationEinführung
10.4.2012Felix Naumann
Integrierte Informationssysteme
Felix Naumann | Informationsintegration | Sommer 2012
2
Oracle,DB2…
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
Integriertes Informations-system
Überblick
Felix Naumann | Informationsintegration | Sommer 2012
3
■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester
Katrin Heinrich
Alexander Albrecht
Data Fusion
Matching
Service-Oriented Systems
Prof. Felix Naumann
Information Integration
Information Quality
Information Systems Team
Felix Naumann | Informationsintegration | Sommer 2012
Christoph Böhm
Schufa
IBM
HPI Research School
Data Profiling
Tobias Vogel
Johannes Lorey
Entity Search
Duplicate Detection Dustin Lange
Arvid Heise
RDF Data Mining
ETL Management
project M.ETL
project DuDe
project Stratosphere
Data as a Service
Ziawasch Abedjan
Opinion Mining
Dr. Saeedeh Momtazi
bbf
Uwe Draisbach
Data Scrubbingproject GovWILD
Dependency Detection
Linked Open Data
Data Cleansing
DFG
Dr. Gjergji Kasneci Toni Grütze
Web Data
4
Other courses in this semester
Felix Naumann | Informationsintegration | Sommer 2012
5
Lectures■ DBS I■ Natural Language Processing■ Data Mining and
Probabilistic Reasoning■ Information Integration
Seminars■ Bachelor: Beauty is our Business■ Master: Algorithms for Pattern Mining
Bachelorprojects■ A Cloud Platform for On-Demand
Access to Open Data■ CelebDB: Harvesting Celebrity Data
Proseminar
Beauty is our Business
„Wenn wir uns klarmachen, daß der Kampf gegen Chaos, Durcheinander und unbeherrschte Kompliziertheit eine der größten Herausforderungen der Informatik ist, müssen wir zugestehen: Beauty is our Business.“ Edsger W. Dijkstra, 1978
Felix Naumann | Informationsintegration | Sommer 2012
6
SE Algorithms for Pattern Mining
■ 2 SWS, implementation, presentation, evaluation report■ Elaborate algorithms for large scale data analysis■ Discover co-occurring items and relationships in large
transactional data sets
Felix Naumann | Informationsintegration | Sommer 2012
7
TID transaction… …1003 beer, diaper, bread1004 tea, coffee, bread… …..
VL Data Mining and Probabilistic Reasoning
“…every two days we create as much information as we did from the dawn of civilization up until 2003! … 5 Exabytes of data”Eric Schmidt
Data Mining Analyzing data, finding
patterns, detecting outliers Learning predictive models Discovering knowledge
Probabilistic Reasoning Representing and quantifying
uncertainty in data Predicting likely outcomes of
random variables, occurrence of events
Choosing the right model Application areas
Web mining (e.g. find documents for a given topic) Bioinformatics (e.g. analyze protein-protein interactions) Stock market analysis (e.g. predict value of a given stock asset) Physics (e.g. modeling Brownian motion of particles) …
Felix Naumann | Informationsintegration | Sommer 2012
8
Natural Language Processing
■ What are the main techniques and applications for processing human languages by computers?□ How search engines can find the most relevant pages for input
queries?□ How a machine translator can translate a text from one
language to another?□ How online shopping sites can summarize opinions about the
products?□ How Watson can answer the Jeopardy questions?
In this lecture, we will learn how to make a machine able to understand the human language.
Felix Naumann | Informationsintegration | Sommer 2012
9
Überblick
Felix Naumann | Informationsintegration | Sommer 2012
10
■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester
Termine und Leistungserfassung
Felix Naumann | Informationsintegration | Sommer 2012
11
■ Vorlesung□ Dienstags 9:15 – 10:45
■ Praktikum□ begleitend
■ Erste Vorlesung□ 10.4.2012
■ Letzte Vorlesung□ 10.7.2012
■ Feiertag(e)□ 1.5. Maifeiertag
■ Prüfung□ Mündlich, 30 Minuten□ Erste Woche nach
Vorlesungszeitraum■ Voraussetzungen
□ Zur Teilnahme◊ Datenbankkenntnisse
(z.B. DBS I)□ Zur Prüfung
◊ Besuch der Vorlesung◊ Aktive Teilnahme an
den Praktikumsterminen
◊ „Bestehen“ des Praktikums
Feedback
■ Evaluation am Ende des Semesters■ Fragen bitte jederzeit!
□ In der VL□ Sprechstunde: Dienstags 15-16□ Email: naumann@hpi.uni-potsdam.de
■ Anregungen zur Verbesserung: □ Z.B. zu
◊ Gebrauch der Folien◊ Infos im WWW
□ Jeweils nach der VL oder in der Sprechstunde□ Oder per Email: naumann@hpi.uni-potsdam.de
Felix Naumann | Informationsintegration | Sommer 2012
12
Lehrbuch
■ Informationsintegration■ Ulf Leser und Felix
Naumann□ dpunkt Verlag, 2006
■ 42 Euro■ n-mal in Bibliothek
Felix Naumann | Informationsintegration | Sommer 2012
13
Weitere Literatur
■ Themen u.a. aus□ Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan
Conrad, 1997, ISBN: 3540631763 □ Principles of Distributed Database Systems
M. Tamer Özsu, Patrick ValduriezISBN: 0136597076
■ Jeweils Literaturhinweise in den Vorlesungen■ Alle genannten Artikel können von mir per Email angefragt werden. Oder:
□ Google Scholar: http://scholar.google.com/
□ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html□ CiteSeer: http://citeseer.ist.psu.edu/□ ACM Digital Library: www.acm.org/dl/□ Homepages der Autoren
Felix Naumann | Informationsintegration | Sommer 2012
14
Übung: Integrationsprojekt
Felix Naumann | Informationsintegration | Sommer 2012
15
Vorstellung – Hörer
■ Welches Semester?■ HPI oder IfI?■ Erasmus o.ä.?
□ English?■ Datenbankkenntnisse?
□ Andere relevante Lehrveranstaltungen?■ Ihre Motivation?
□ Schon mal integriert?□ DWH?
Felix Naumann | Informationsintegration | Sommer 2012
16
Überblick
Felix Naumann | Informationsintegration | Sommer 2012
17
■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester
Integrierte Informationssysteme
Felix Naumann | Informationsintegration | Sommer 2012
18
Integriertes Informations-system
Oracle,DB2…
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
Felix Naumann | Informationsintegration | Sommer 2012
19
Felix Naumann | Informationsintegration | Sommer 2012
20
Felix Naumann | Informationsintegration | Sommer 2012
21
Felix Naumann | Informationsintegration | Sommer 2012
22
Felix Naumann | Informationsintegration | Sommer 2012
23
Felix Naumann | Informationsintegration | Sommer 2012
24
Was ist Informationsintegration?
Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge.
Informationsintegration ist die korrekte, vollständige und effizienteZusammenführung von Daten und Inhalt verschiedener, heterogenerQuellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen.
Felix Naumann | Informationsintegration | Sommer 2012
25
Wo herrscht Informationsintegration?
■ Im weiteren Sinne□ Business-Integration□ Application-Integration□ Prozess-Integration (Workflow-Integration)
■ Im engeren Sinne□ Datenbanken und Informationssysteme
◊ Verteilt◊ Autonom◊ Heterogen
Felix Naumann | Informationsintegration | Sommer 2012
26
Felix Naumann | Informationsintegration | Sommer 2012
27
Amazon Suchformular
Felix Naumann | Informationsintegration | Sommer 2012
28
XMethods
Felix Naumann | Informationsintegration | Sommer 2012
29
StrikeIron
Felix Naumann | Informationsintegration | Sommer 2012
30
Programmable Web
Felix Naumann | Informationsintegration | Sommer 2012
31
Google FusionTables
Felix Naumann | Informationsintegration | Sommer 2012
32
Integrierte Informationssysteme
Felix Naumann | Informationsintegration | Sommer 2012
33
Integriertes Informations-system
Oracle,DB2…
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
Integrierte Suchmaschinen
Felix Naumann | Informationsintegration | Sommer 2012
34
Meta-Suchmaschine
IntranetIndex
Thesaurus
Anfrage
Integration = Abstraktion
1. Logisches DB-Design abstrahiert von physischem DB-Design□ Datenunabhängigkeit□ Anfragen: Prozedural vs. deklarativ
2. Informationsintegration abstrahiert von logischen DB Design□ Quellenunabhängigkeit (Speicherort)□ Datenmodell- und Syntaxunabhängigkeit□ Unabhängigkeit von semantischen Unterschieden
(hoffentlich!)
Felix Naumann | Informationsintegration | Sommer 2012
35
Anwendungsgebiet 1: Business[Halevy04]
Felix Naumann | Informationsintegration | Sommer 2012
36
Anwendungsgebiet 2: Wissenschaft [Halevy04]
Felix Naumann | Informationsintegration | Sommer 2012
37
Anwendungsgebiet 3: Das Web[Halevy04]
Felix Naumann | Informationsintegration | Sommer 2012
38
Informationsintegration: Ein altes Problem
■ Seit 50 Jahren auf der Forschungsagenda■ Frühe Systeme in den 70ern■ Integration per Hand natürlich noch früher■ Neue Probleme
□ Viele, viele Quellen□ Heterogenität□ Neue Arten von Daten (XML, GIS, OO,...)□ Neue Arten von Anfragen (Search, UDFs,...)□ Neue Arten von Ergebnissen (Ranking, Visualisierung, ...)□ Neue Arten von Nutzern (Laien, Manager, Admins, ...)
■ Alon Halevy: „It‘s plain hard!“ [Halevy04]
Felix Naumann | Informationsintegration | Sommer 2012
39
Warum ist es so schwer? [Halevy04]
■ System-bedingte Gründe□ Verschiedene Plattformen□ Anfragebearbeitung über mehrere Systeme
■ Soziale Gründe□ Finden relevanter Daten in Unternehmen□ Beschaffen relevanter Daten in Unternehmen□ Menschen zur Zusammenarbeit überreden□ „Data fiefdoms“
■ Logik-bedingte Gründe□ Schema- und Datenheterogenität□ Dies ist unabhängig von der jeweiligen
Integrationsarchitektur.
Felix Naumann | Informationsintegration | Sommer 2012
40
Überblick
Felix Naumann | Informationsintegration | Sommer 2012
41
■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester
Informationsintegration
Felix Naumann | Informationsintegration | Sommer 2012
42
Fusion Optimierung VisualisierungIdentifizierungIntegration
Web Service
B
Web Service
A
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub>
<publication><title> Federated Database
Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>
<auth> Scheth & Larson </auth><year> 1990 </year>
</publication>
Informationsintegration
Felix Naumann | Informationsintegration | Sommer 2012
43
<pub><Titel> </Titel><Autoren>
<Autor> </Autor><Autor> </Autor>
</Autoren><year> </year>
</pub>
Web Service
B
Web Service
A
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub>
<publication><title> Federated Database
Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>
<auth> Scheth & Larson </auth><year> 1990 </year>
</publication>
Fusion Optimierung VisualisierungIdentifizierungIntegration
Schema Integration
Schema Mapping
Informationsintegration
Felix Naumann | Informationsintegration | Sommer 2012
44
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub><pub>
<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>
<Autoren><Autor> Scheth & Larson </Autor>
</Autoren><year> 1990 </year></pub>
Web Service
B
Web Service
A
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub>
<publication><title> Federated Database
Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>
<auth> Scheth & Larson </auth><year> 1990 </year>
</publication>
Fusion Optimierung VisualisierungIdentifizierungIntegration
XQuery
XQuery
Schema IntegrationSchema Mapping
Informationsintegration
Felix Naumann | Informationsintegration | Sommer 2012
45
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub><pub>
<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>
<Autoren><Autor> Scheth & Larson </Autor>
</Autoren><year> 1990 </year></pub>
Web Service
B
Web Service
A
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub>
<publication><title> Federated Database
Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>
<auth> Scheth & Larson </auth><year> 1990 </year>
</publication>
Fusion Optimierung VisualisierungIdentifizierungIntegration
Informationsintegration
Felix Naumann | Informationsintegration | Sommer 2012
46
Web Service
B
Web Service
A
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub>
<publication><title> Federated Database
Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>
<auth> Scheth & Larson </auth><year> 1990 </year>
</publication>
Fusion Optimierung VisualisierungIdentifizierungIntegration
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub><pub>
<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>
<Autoren><Autor> Scheth & Larson </Autor>
</Autoren><year> 1990 </year></pub>
Informationsintegration
Felix Naumann | Informationsintegration | Sommer 2012
47
Web Service
B
Web Service
A
Fusion Optimierung VisualisierungIdentifizierungIntegration
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub><pub>
<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>
<Autoren><Autor> Scheth & Larson </Autor>
</Autoren><year> 1990 </year></pub>
<pub><Titel> Federated Database Systems for
Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>
<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren><year> 1990 </year></pub>
Informationsintegration
Felix Naumann | Informationsintegration | Sommer 2012
48
Web Service
B
Web Service
A
Fusion Optimierung VisualisierungIdentifizierung
1sec.
5sec.
Integration
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub><pub>
<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>
<Autoren><Autor> Scheth & Larson </Autor>
</Autoren><year> 1990 </year></pub>
<pub><Titel> Federated Database Systems for
Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>
<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren><year> 1990 </year></pub>
Informationsintegration
Felix Naumann | Informationsintegration | Sommer 2012
49
Web Service
B
Web Service
A
Fusion Optimierung VisualisierungIdentifizierung
1sec.
5sec.
Integration
<pub><Titel> Federated Database
Systems </Titel><Autoren>
<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren></pub><pub>
<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>
<Autoren><Autor> Scheth & Larson </Autor>
</Autoren><year> 1990 </year></pub>
<pub><Titel> Federated Database Systems for
Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>
<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>
</Autoren><year> 1990 </year></pub> WS A
WS B
WS B
Überblick
Felix Naumann | Informationsintegration | Sommer 2012
50
■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester
Integrierte Informationssysteme
Felix Naumann | Informationsintegration | Sommer 2012
51
Integriertes Informations-system
Oracle,DB2…
Design time
Web Service
Anwen-dung
HTML Form
IntegriertesInfo.-system
Datei-system
Anfrage
Architekturen
Anfragesprachen
Schemamanagement
Wrapper
Run time
Anfrageausführung
Optimierung
Anfrageplanung
Datenfusion / ETL
Zeitplan
■ Introduction (1)■ Architectures (2)■ Schema mapping (2)■ Global-as-view modeling and query processing (1)■ Lokal-as-view modeling and query processing (3)■ Duplicate detection (2)■ Data fusion (1)■ Data warehouses and ETL (1)
Felix Naumann | Informationsintegration | Sommer 2012
52
Was fehlt?
Felix Naumann | Informationsintegration | Sommer 2012
53
■ 4 SWS□ Distribution, autonomy,
and heterogeneity□ Materialized and virtual
integration□ SchemaSQL□ Data Lineage□ Information Quality
■ 6 SWS□ Distributed query
processing andoptimization
□ Top-N queries□ Peer data management□ Hidden Web□ Semantic Web□ Data Streams□ Research projects
Recommended