Semantic Enrichment of Ontology Mappingsdbs.uni-leipzig.de/file/presentation.pdf ·...

Preview:

Citation preview

30. Mai 2013 Semantic Enrichment of Ontology Mappings 1

Semantic Enrichment of Ontology Mappings:Detecting Relation Types and Complex Correspondences

Patrick Arnold, Universität Leipzig

30. Mai 2013 Semantic Enrichment of Ontology Mappings 2

1. Motivation

Datenintegration: Zentrales Thema im Bereich Datenbanken

Gegenstand: Mehrere Datenbanken oder Ontologien zusammenführen

● Integration einer Datenbank A in eine Datenbank A'● Ableiten einer Datenbank B aus Quelldatenbanken A, A' (Merging)● Zugriff auf mehrere Datenbanken D1, ..., Dn über ein Interface (Federated

Databases / Mediator)

30. Mai 2013 Semantic Enrichment of Ontology Mappings 3

1. Motivation

Lösungen:● Schema Matching für Datenbankschemas● Ontology Matching für Ontologien

Input: 2 Datenbankschemas resp. Ontologien S, T Output: Liste an Korrespondenzen (Alignment, Mapping)

● Korrespondenz: (c1, c2) mit c1 ∊ S, c2 ∊ T Verfahren: stringbasiert (lexikographisch), strukturell, lernbasiert,

mit Hintergrundwissen, auf Instanzdaten etc.

30. Mai 2013 Semantic Enrichment of Ontology Mappings 4

1. Motivation

Probleme:● Bisherige Lösungen betrachten nur einzelne Links zwischen Konzepten

– Beispiel: (red wine, wine)● Informationen über die genaue Art der Beziehung werden nicht erläutert

– Wichtig für präzises Merging und Datentransformation– Relevanz auch für Textmining, Object Matching, LoD u.ä.

30. Mai 2013 Semantic Enrichment of Ontology Mappings 5

1. Motivation

Unsere Ziele:● Beziehungstypen zwischen Konzepten bestimmen● Komplexe Korrespondenzen bestimmen

30. Mai 2013 Semantic Enrichment of Ontology Mappings 6

1. Motivation

30. Mai 2013 Semantic Enrichment of Ontology Mappings 7

Agenda

1. Motivation2. Related Work3. Enrichment Engine Architecture4. Bestimmung des Beziehungstyps

4.1 Compounds4.2 Background Knowledge

5. Komplexe Korrespondenzen6. Ausblick und Zusammenfassung

30. Mai 2013 Semantic Enrichment of Ontology Mappings 8

2. Related Work

Relation Type● Bei manchen Tools mit angegeben

– SMatch, TaxoMap, LogMap● Nicht Hauptfokus der Arbeit

– Oft bei Benchmarks nicht weiter berücksichtigt– Am häufigsten noch Unterteilung in equal und is-a (bzw. strong und weak)

Komplexe Korrespondenzen● Bisher wenig betrachtet, prototypische Anwendungen

– iMap, theoretische Ansätze

30. Mai 2013 Semantic Enrichment of Ontology Mappings 9

3. Enrichment Engine Architecture

Zweistufiges Verfahren1. Schema/Ontology Matching2. Enrichment, d.h. Annotation von Semantik

Enrichment Engine● Input: Klassisches Mapping● Output: Mapping mit zusätzlichen Informationen

– Relation Type (implementiert)– Komplexe Korrespondenzen (in Planung)

● Verfahren: Linguistische Erkenntnisse, Background Knowledge

30. Mai 2013 Semantic Enrichment of Ontology Mappings 10

3. Enrichment Engine Architecture

30. Mai 2013 Semantic Enrichment of Ontology Mappings 11

3. Enrichment Engine Architecture

Vorteile der 2-Schritt-Architektur:● Geringe Zeitkomplexität, da Mapping bereits vorhanden● Sehr hohe Unabhängigkeit

– Es wird nur ein Match Result benötigt– Daher mit jedem Matching Tool anwendbar

● Vielfältig in anderen Gebieten verwendbar– Nicht Bestandteil eines Matching Systems

Nachteile:● Hohe Abhängigkeit zum Input Mapping („Garbage in, Garbage out“)

– Starke Neigung zu Equivalenz-Mappings

30. Mai 2013 Semantic Enrichment of Ontology Mappings 12

4. Bestimmung des Beziehungstyps

Die klassischen Beziehungen:

Bezeichnung Kürzel BeispielEquivalence equal (Geige, Violine)

(Rad, Fahrrad)Subset is-a

inv. is-a(Birke, Baum)(Fahrzeug, Auto)

Aggegration part-ofhas-a

(Dach, Haus)(Universität, Student)

Relatedness related (Zahn, Zahnpaste)(Stuhl, Tisch)(Schraube, Mutter)

30. Mai 2013 Semantic Enrichment of Ontology Mappings 13

4. Bestimmung des Beziehungstyps4.1 Compounds

Compound (Kompositum): Zwei Wörter A, B bilden ein neues Wort AB:

● apple + tree → apple tree● local + area + network → local area network● Abwasser + Behandlung + Anlage → Abwasserbehandlungsanlage

Bestehen aus Modifier und Head● Head: Eigentlicher Informationsträger (Stamm)● Modifier: Bestimmt den Head näher, Spezifizierer

30. Mai 2013 Semantic Enrichment of Ontology Mappings 14

4. Bestimmung des Beziehungstyps4.1 Compounds

Lokalisierung des Heads:● In germanischen Sprachen: rechts

– high school student● In romanischen Sprachen: links

– Rio de las palmas (palm river)

Bedeutung der Compounds für das Mapping: Drücken in vielen Fällen is-a relations aus

– high school is-a school– database conference is-a conference– airport is-a port ?

30. Mai 2013 Semantic Enrichment of Ontology Mappings 15

4. Bestimmung des Beziehungstyps4.1 Compounds

Arten von Compounds● Endocentric: Drücken is-a Beziehung aus

– bus driver, door handle, sailboat, rain forest

● Exocentric: Drücken is-a Beziehung nicht aus– saw tooth, computer mouse, redhead, nightmare

● Copulative / appositional: Gleichrangig (inv. is-a)– Bosnia-Herzegowina, bitter-sweet, twenty-one

30. Mai 2013 Semantic Enrichment of Ontology Mappings 16

4. Bestimmung des Beziehungstyps4.1 Compounds

Unser Ansatz:● Prüfe in jeder Korrespondenz (c1, c2), ob c1 mit c2 endet oder vice versa● Falls ja: Schließe auf Compound und suggeriere is-a relation

Beispiel:● (database conference, conference)

30. Mai 2013 Semantic Enrichment of Ontology Mappings 17

4. Bestimmung des Beziehungstyps4.1 Compounds

Vorteile:● Compounds relativ häufig, v.a. im technischen Bereich

– Compounds extrem produktiv– Endozentrische Compounds überwiegen

● Compounds einfach zu verarbeiten● Universal verwendbar, selbst in spezifischen Domänen

30. Mai 2013 Semantic Enrichment of Ontology Mappings 18

4. Bestimmung des Beziehungstyps4.1 Compounds

Nachteile: ● Verfahren auf is-a relations beschränkt● is-a Relations können anderweilig ausgedrückt werden

– Recall von Grund auf beschränkt– car is-a vehicle, Leipzig is-a city, whale is-a mammal, ...

30. Mai 2013 Semantic Enrichment of Ontology Mappings 19

4. Bestimmung des Beziehungstyps4.1 Compounds

Probleme und Lösungen● Offensichtlich falsche Compounds

– stable is-a table, broom is-a room– Lösung: Prüfe, ob Modifier wenigstens 3 Zeichen lang ist

● Pseudo-Modifiers– nausea, marriage, ...– Lösung: Wörterbuch-Check

● Pseudo-Compounds (2 unabhängige Wörter, keine Beziehung)– wither (wit + her), question (quest + ion), justice (just + ice), ...– Lösung: ?

Unser Fazit: Viele Beispiele, wenige Auftreten

30. Mai 2013 Semantic Enrichment of Ontology Mappings 20

4. Bestimmung des Beziehungstyps4.2 Hintergrundwissen

WordNet: Umfangreiches Thesaurus für englische Sprache● Etwa 160.000 Wörter, zahlreiche Beziehungen● Deckt alle Beziehungstypen ab

– Hypernyme/Hyponyme (is-a), Meronyme/Holonyme (part-of), Cohyponyme (related)● Zugewinn an Recall

– Precision sehr gut (manuell angelegt)– „Greift“ da, wo andere Strategien fehlschlagen– z.B. vehicle vs. car

30. Mai 2013 Semantic Enrichment of Ontology Mappings 21

4. Bestimmung des Beziehungstyps4.2 Hintergrundwissen

Nachteile:● Begrenzter Umfang

– Ungeeignet für domain-spezifische Match Tasks● Auf Englische Sprache beschränkt● z.T. Zweifelsfälle

– street is-a road– strawberry is-a berry

30. Mai 2013 Semantic Enrichment of Ontology Mappings 22

5. Komplexe Korrespondenzen

Meiste Tools betrachten lediglich (1:1)-Korrespondenzen● (employees, staff)● (first name, name)● (last name, name)

30. Mai 2013 Semantic Enrichment of Ontology Mappings 23

5. Komplexe Korrespondenzen

Wünschenswert:● Komplexe Korrespondenzen (1:n) ermitteln● Voraussetzung für Datentransformation

30. Mai 2013 Semantic Enrichment of Ontology Mappings 24

5. Komplexe Korrespondenzen

Komplexe Korrespondenzen schwierig, da...● Größerer Suchraum (mehr Kombinationen)● Transformator-Funktion notwendig

– Strings: split / concat– Numerische Werte: arithmetische Funktionen

Ansätze:● Struktureller Ansatz● Linguistischer Ansatz

30. Mai 2013 Semantic Enrichment of Ontology Mappings 25

5. Komplexe Korrespondenzen

Struktureller Ansatz● Annahme: Daten liegen in den Blättern● Voraussetzung: Einfaches Mapping liegt vor● Verfahren

– Zusammenfassen von Blattelementen– Zusammenfassen von mehreren Knoten A1, ..., An, die einen Knoten B matchen.

30. Mai 2013 Semantic Enrichment of Ontology Mappings 26

5. Komplexe Korrespondenzen

Beispiel 1

Beispiel 2

30. Mai 2013 Semantic Enrichment of Ontology Mappings 27

5. Komplexe Korrespondenzen

Linguistischer Ansatz● Voraussetzung: Erweitertes Mapping (Enrichment)● Verfahren: Zusammenfassen von part-of Beziehungen

30. Mai 2013 Semantic Enrichment of Ontology Mappings 28

5. Komplexe Korrespondenzen

Transformator-Funktionen● Automatische Bestimmung schwierig, Heuristiken möglich

30. Mai 2013 Semantic Enrichment of Ontology Mappings 29

6. Zusammenfassung und Ausblick

Relation Type Detection● Hauptfokus statt Nebenkriterium● Neue Methoden und Aspekte

– Compounds, Itemizations– Hintergrundwissen für zusätzlichen Recall

Komplexe Korrespondenzen● Bisher kaum berücksichtigt● Schwierig aufzuspüren, insbesondere Transformatorfunktion● Unabdingbar für Datentransformation

30. Mai 2013 Semantic Enrichment of Ontology Mappings 30

6. Zusammenfassung und Ausblick

Ausblick (Relation Type Detection):● Weiteres Hintergrundwissen ausschöpfen● Nutzung von Compounds für part-of Beziehungen?● Nutzung von Kookkurrenzen● Mapping Repair durch...

– Prefix-Derivations: agreement ≠ disagreement– Arbitrarität: flower ≠ power, setting ≠ letting

● Instanzdaten untersuchen● Nochmaliges (Teil-) Matching im Enrichment Schritt

30. Mai 2013 Semantic Enrichment of Ontology Mappings 31

Diskussion

Recommended