31
30. Mai 2013 Semantic Enrichment of Ontology Mappings 1 Semantic Enrichment of Ontology Mappings: Detecting Relation Types and Complex Correspondences Patrick Arnold, Universität Leipzig

Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 1

Semantic Enrichment of Ontology Mappings:Detecting Relation Types and Complex Correspondences

Patrick Arnold, Universität Leipzig

Page 2: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 2

1. Motivation

Datenintegration: Zentrales Thema im Bereich Datenbanken

Gegenstand: Mehrere Datenbanken oder Ontologien zusammenführen

● Integration einer Datenbank A in eine Datenbank A'● Ableiten einer Datenbank B aus Quelldatenbanken A, A' (Merging)● Zugriff auf mehrere Datenbanken D1, ..., Dn über ein Interface (Federated

Databases / Mediator)

Page 3: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 3

1. Motivation

Lösungen:● Schema Matching für Datenbankschemas● Ontology Matching für Ontologien

Input: 2 Datenbankschemas resp. Ontologien S, T Output: Liste an Korrespondenzen (Alignment, Mapping)

● Korrespondenz: (c1, c2) mit c1 ∊ S, c2 ∊ T Verfahren: stringbasiert (lexikographisch), strukturell, lernbasiert,

mit Hintergrundwissen, auf Instanzdaten etc.

Page 4: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 4

1. Motivation

Probleme:● Bisherige Lösungen betrachten nur einzelne Links zwischen Konzepten

– Beispiel: (red wine, wine)● Informationen über die genaue Art der Beziehung werden nicht erläutert

– Wichtig für präzises Merging und Datentransformation– Relevanz auch für Textmining, Object Matching, LoD u.ä.

Page 5: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 5

1. Motivation

Unsere Ziele:● Beziehungstypen zwischen Konzepten bestimmen● Komplexe Korrespondenzen bestimmen

Page 6: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 6

1. Motivation

Page 7: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 7

Agenda

1. Motivation2. Related Work3. Enrichment Engine Architecture4. Bestimmung des Beziehungstyps

4.1 Compounds4.2 Background Knowledge

5. Komplexe Korrespondenzen6. Ausblick und Zusammenfassung

Page 8: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 8

2. Related Work

Relation Type● Bei manchen Tools mit angegeben

– SMatch, TaxoMap, LogMap● Nicht Hauptfokus der Arbeit

– Oft bei Benchmarks nicht weiter berücksichtigt– Am häufigsten noch Unterteilung in equal und is-a (bzw. strong und weak)

Komplexe Korrespondenzen● Bisher wenig betrachtet, prototypische Anwendungen

– iMap, theoretische Ansätze

Page 9: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 9

3. Enrichment Engine Architecture

Zweistufiges Verfahren1. Schema/Ontology Matching2. Enrichment, d.h. Annotation von Semantik

Enrichment Engine● Input: Klassisches Mapping● Output: Mapping mit zusätzlichen Informationen

– Relation Type (implementiert)– Komplexe Korrespondenzen (in Planung)

● Verfahren: Linguistische Erkenntnisse, Background Knowledge

Page 10: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 10

3. Enrichment Engine Architecture

Page 11: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 11

3. Enrichment Engine Architecture

Vorteile der 2-Schritt-Architektur:● Geringe Zeitkomplexität, da Mapping bereits vorhanden● Sehr hohe Unabhängigkeit

– Es wird nur ein Match Result benötigt– Daher mit jedem Matching Tool anwendbar

● Vielfältig in anderen Gebieten verwendbar– Nicht Bestandteil eines Matching Systems

Nachteile:● Hohe Abhängigkeit zum Input Mapping („Garbage in, Garbage out“)

– Starke Neigung zu Equivalenz-Mappings

Page 12: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 12

4. Bestimmung des Beziehungstyps

Die klassischen Beziehungen:

Bezeichnung Kürzel BeispielEquivalence equal (Geige, Violine)

(Rad, Fahrrad)Subset is-a

inv. is-a(Birke, Baum)(Fahrzeug, Auto)

Aggegration part-ofhas-a

(Dach, Haus)(Universität, Student)

Relatedness related (Zahn, Zahnpaste)(Stuhl, Tisch)(Schraube, Mutter)

Page 13: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 13

4. Bestimmung des Beziehungstyps4.1 Compounds

Compound (Kompositum): Zwei Wörter A, B bilden ein neues Wort AB:

● apple + tree → apple tree● local + area + network → local area network● Abwasser + Behandlung + Anlage → Abwasserbehandlungsanlage

Bestehen aus Modifier und Head● Head: Eigentlicher Informationsträger (Stamm)● Modifier: Bestimmt den Head näher, Spezifizierer

Page 14: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 14

4. Bestimmung des Beziehungstyps4.1 Compounds

Lokalisierung des Heads:● In germanischen Sprachen: rechts

– high school student● In romanischen Sprachen: links

– Rio de las palmas (palm river)

Bedeutung der Compounds für das Mapping: Drücken in vielen Fällen is-a relations aus

– high school is-a school– database conference is-a conference– airport is-a port ?

Page 15: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 15

4. Bestimmung des Beziehungstyps4.1 Compounds

Arten von Compounds● Endocentric: Drücken is-a Beziehung aus

– bus driver, door handle, sailboat, rain forest

● Exocentric: Drücken is-a Beziehung nicht aus– saw tooth, computer mouse, redhead, nightmare

● Copulative / appositional: Gleichrangig (inv. is-a)– Bosnia-Herzegowina, bitter-sweet, twenty-one

Page 16: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 16

4. Bestimmung des Beziehungstyps4.1 Compounds

Unser Ansatz:● Prüfe in jeder Korrespondenz (c1, c2), ob c1 mit c2 endet oder vice versa● Falls ja: Schließe auf Compound und suggeriere is-a relation

Beispiel:● (database conference, conference)

Page 17: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 17

4. Bestimmung des Beziehungstyps4.1 Compounds

Vorteile:● Compounds relativ häufig, v.a. im technischen Bereich

– Compounds extrem produktiv– Endozentrische Compounds überwiegen

● Compounds einfach zu verarbeiten● Universal verwendbar, selbst in spezifischen Domänen

Page 18: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 18

4. Bestimmung des Beziehungstyps4.1 Compounds

Nachteile: ● Verfahren auf is-a relations beschränkt● is-a Relations können anderweilig ausgedrückt werden

– Recall von Grund auf beschränkt– car is-a vehicle, Leipzig is-a city, whale is-a mammal, ...

Page 19: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 19

4. Bestimmung des Beziehungstyps4.1 Compounds

Probleme und Lösungen● Offensichtlich falsche Compounds

– stable is-a table, broom is-a room– Lösung: Prüfe, ob Modifier wenigstens 3 Zeichen lang ist

● Pseudo-Modifiers– nausea, marriage, ...– Lösung: Wörterbuch-Check

● Pseudo-Compounds (2 unabhängige Wörter, keine Beziehung)– wither (wit + her), question (quest + ion), justice (just + ice), ...– Lösung: ?

Unser Fazit: Viele Beispiele, wenige Auftreten

Page 20: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 20

4. Bestimmung des Beziehungstyps4.2 Hintergrundwissen

WordNet: Umfangreiches Thesaurus für englische Sprache● Etwa 160.000 Wörter, zahlreiche Beziehungen● Deckt alle Beziehungstypen ab

– Hypernyme/Hyponyme (is-a), Meronyme/Holonyme (part-of), Cohyponyme (related)● Zugewinn an Recall

– Precision sehr gut (manuell angelegt)– „Greift“ da, wo andere Strategien fehlschlagen– z.B. vehicle vs. car

Page 21: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 21

4. Bestimmung des Beziehungstyps4.2 Hintergrundwissen

Nachteile:● Begrenzter Umfang

– Ungeeignet für domain-spezifische Match Tasks● Auf Englische Sprache beschränkt● z.T. Zweifelsfälle

– street is-a road– strawberry is-a berry

Page 22: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 22

5. Komplexe Korrespondenzen

Meiste Tools betrachten lediglich (1:1)-Korrespondenzen● (employees, staff)● (first name, name)● (last name, name)

Page 23: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 23

5. Komplexe Korrespondenzen

Wünschenswert:● Komplexe Korrespondenzen (1:n) ermitteln● Voraussetzung für Datentransformation

Page 24: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 24

5. Komplexe Korrespondenzen

Komplexe Korrespondenzen schwierig, da...● Größerer Suchraum (mehr Kombinationen)● Transformator-Funktion notwendig

– Strings: split / concat– Numerische Werte: arithmetische Funktionen

Ansätze:● Struktureller Ansatz● Linguistischer Ansatz

Page 25: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 25

5. Komplexe Korrespondenzen

Struktureller Ansatz● Annahme: Daten liegen in den Blättern● Voraussetzung: Einfaches Mapping liegt vor● Verfahren

– Zusammenfassen von Blattelementen– Zusammenfassen von mehreren Knoten A1, ..., An, die einen Knoten B matchen.

Page 26: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 26

5. Komplexe Korrespondenzen

Beispiel 1

Beispiel 2

Page 27: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 27

5. Komplexe Korrespondenzen

Linguistischer Ansatz● Voraussetzung: Erweitertes Mapping (Enrichment)● Verfahren: Zusammenfassen von part-of Beziehungen

Page 28: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 28

5. Komplexe Korrespondenzen

Transformator-Funktionen● Automatische Bestimmung schwierig, Heuristiken möglich

Page 29: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 29

6. Zusammenfassung und Ausblick

Relation Type Detection● Hauptfokus statt Nebenkriterium● Neue Methoden und Aspekte

– Compounds, Itemizations– Hintergrundwissen für zusätzlichen Recall

Komplexe Korrespondenzen● Bisher kaum berücksichtigt● Schwierig aufzuspüren, insbesondere Transformatorfunktion● Unabdingbar für Datentransformation

Page 30: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 30

6. Zusammenfassung und Ausblick

Ausblick (Relation Type Detection):● Weiteres Hintergrundwissen ausschöpfen● Nutzung von Compounds für part-of Beziehungen?● Nutzung von Kookkurrenzen● Mapping Repair durch...

– Prefix-Derivations: agreement ≠ disagreement– Arbitrarität: flower ≠ power, setting ≠ letting

● Instanzdaten untersuchen● Nochmaliges (Teil-) Matching im Enrichment Schritt

Page 31: Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf · Transformator-Funktion notwendig – Strings: split / concat – Numerische Werte: arithmetische

30. Mai 2013 Semantic Enrichment of Ontology Mappings 31

Diskussion