11
Datenbank Spektrum (2013) 13:77–87 DOI 10.1007/s13222-013-0124-z SCHWERPUNKTBEITRAG Extraktion, Mapping und Verlinkung von Daten im Web Phasen im Lebenszyklus von Linked Data Sören Auer · Jens Lehmann · Axel-Cyrille Ngonga Ngomo · Claus Stadler · Jörg Unbehauen Eingegangen: 24. Februar 2013 / Angenommen: 7. Mai 2013 / Online publiziert: 31. Mai 2013 © Springer-Verlag Berlin Heidelberg 2013 Zusammenfassung In diesem Artikel geben wir einen Überblick über verschiedene Herausforderungen des Ma- nagements von Linked Data im Web. Mit der DBpedia Wis- sensextraktion aus Wikipedia, dem skalierbaren Linking von Wissensbasen und dem Mapping relationaler Daten nach RDF stellen wir drei Ansätze vor, die zentrale Phasen des Lebenszyklus von Daten im Web ausmachen. Schlüsselwörter RDF · Linked Data · Semantic Web 1 Einführung Linked (Open) Data ist eine auf Web-Standards basieren- de Methode zur einheitlichen Speicherung, Publikation und Verknüpfung von Daten unterschiedlicher Art und Herkunft im RDF-Format. Seit der Prägung des Begriffs im Jah- re 2006 wurden bereits hunderte von Datenquellen bzw. Wissensbasen unterschiedlicher Domänen als Linked Open Data (LOD) veröffentlicht und miteinander vernetzt. Auch viele Unternehmen (u.a. Google [8], Yahoo! [20], Oracle S. Auer ( ) · J. Lehmann · A.-C. Ngonga Ngomo · C. Stadler · J. Unbehauen Agile Knowledge Engineering and Semantic Web (AKSW), Institut für Informatik, BIS, Universität Leipzig, 04109 Leipzig, Deutschland e-mail: [email protected] J. Lehmann e-mail: [email protected] A.-C. Ngonga Ngomo e-mail: [email protected] C. Stadler e-mail: [email protected] J. Unbehauen e-mail: [email protected] [6, 35]), Organisationen (u.a. BBC [15], New York Times) und wissenschaftliche Projekte haben begonnen Linked Da- ta zu veröffentlichen und zu nutzen. Die standardisierte und generische Repräsentation der Informationen ermöglicht ei- ne einfache Zugänglichkeit und Nutzung heterogener In- formationen in vielzähligen Anwendungen. Weiterhin ver- spricht man sich durch eine zunehmende Verlinkung der Da- tenquellen signifikante Vorteile in Bezug auf deren semanti- sche Integration, die insbesondere für Webdaten mit tradi- tionellen Ansätzen (Data Warehouses, Mediator/Wrapper- Architekturen) nur mit hohem Realisierungsaufwand und geringer Skalierbarkeit realisierbar ist [19, 29]. Linked Da- ta verspricht effektive Datenintegrationsmöglichkeiten u.a. durch die generische Repräsentation und Verwaltung hetero- gener Daten, die semantische Beschreibung der Daten mit- tels Ontologien sowie die explizite semantische Verlinkung von Objekten verschiedener Quellen, insbesondere durch sameAs-Äquivalenzbeziehungen. Solche Links ermögli- chen die Zusammenführung von sich entsprechenden Infor- mationen, die zur Anreicherung und Verknüpfung mit weite- ren Informationen nutzbar ist. Somit könnten etwa zum Au- tor einer Publikation weitere Informationen gewonnen wer- den, z.B. zu seinem Institut, seinen Kollegen etc. Über Pro- duktverlinkungen können Preise unterschiedlicher Anbieter sowie Produktbeschreibungen und Nutzerbewertungen aus verschiedenen Quellen aggregiert und ausgewertet werden. Bisherige Arbeiten im Bereich Linked Data fokussierten zunächst auf die Basisaufgaben der Generierung bzw. Ex- traktion von RDF-Daten sowie die effiziente Speicherung und Nutzung einzelner Datenquellen. Abbildung 1 stellt ver- schiedene Phasen des Lebenszyklus von Linked Data im Web dar [37], die wir im Folgenden detaillierter beschrei- ben. (a) Extraktion. In vielen Fällen werden RDF-Daten nicht manuell erstellt, sondern aus bestehenden Quellen ex-

Extraktion, Mapping und Verlinkung von Daten im Web

  • Upload
    joerg

  • View
    218

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Extraktion, Mapping und Verlinkung von Daten im Web

Datenbank Spektrum (2013) 13:77–87DOI 10.1007/s13222-013-0124-z

S C H W E R P U N K T B E I T R AG

Extraktion, Mapping und Verlinkung von Daten im Web

Phasen im Lebenszyklus von Linked Data

Sören Auer · Jens Lehmann ·Axel-Cyrille Ngonga Ngomo · Claus Stadler ·Jörg Unbehauen

Eingegangen: 24. Februar 2013 / Angenommen: 7. Mai 2013 / Online publiziert: 31. Mai 2013© Springer-Verlag Berlin Heidelberg 2013

Zusammenfassung In diesem Artikel geben wir einenÜberblick über verschiedene Herausforderungen des Ma-nagements von Linked Data im Web. Mit der DBpedia Wis-sensextraktion aus Wikipedia, dem skalierbaren Linking vonWissensbasen und dem Mapping relationaler Daten nachRDF stellen wir drei Ansätze vor, die zentrale Phasen desLebenszyklus von Daten im Web ausmachen.

Schlüsselwörter RDF · Linked Data · Semantic Web

1 Einführung

Linked (Open) Data ist eine auf Web-Standards basieren-de Methode zur einheitlichen Speicherung, Publikation undVerknüpfung von Daten unterschiedlicher Art und Herkunftim RDF-Format. Seit der Prägung des Begriffs im Jah-re 2006 wurden bereits hunderte von Datenquellen bzw.Wissensbasen unterschiedlicher Domänen als Linked OpenData (LOD) veröffentlicht und miteinander vernetzt. Auchviele Unternehmen (u.a. Google [8], Yahoo! [20], Oracle

S. Auer (�) · J. Lehmann · A.-C. Ngonga Ngomo · C. Stadler ·J. UnbehauenAgile Knowledge Engineering and Semantic Web (AKSW),Institut für Informatik, BIS, Universität Leipzig, 04109 Leipzig,Deutschlande-mail: [email protected]

J. Lehmanne-mail: [email protected]

A.-C. Ngonga Ngomoe-mail: [email protected]

C. Stadlere-mail: [email protected]

J. Unbehauene-mail: [email protected]

[6, 35]), Organisationen (u.a. BBC [15], New York Times)und wissenschaftliche Projekte haben begonnen Linked Da-ta zu veröffentlichen und zu nutzen. Die standardisierte undgenerische Repräsentation der Informationen ermöglicht ei-ne einfache Zugänglichkeit und Nutzung heterogener In-formationen in vielzähligen Anwendungen. Weiterhin ver-spricht man sich durch eine zunehmende Verlinkung der Da-tenquellen signifikante Vorteile in Bezug auf deren semanti-sche Integration, die insbesondere für Webdaten mit tradi-tionellen Ansätzen (Data Warehouses, Mediator/Wrapper-Architekturen) nur mit hohem Realisierungsaufwand undgeringer Skalierbarkeit realisierbar ist [19, 29]. Linked Da-ta verspricht effektive Datenintegrationsmöglichkeiten u.a.durch die generische Repräsentation und Verwaltung hetero-gener Daten, die semantische Beschreibung der Daten mit-tels Ontologien sowie die explizite semantische Verlinkungvon Objekten verschiedener Quellen, insbesondere durchsameAs-Äquivalenzbeziehungen. Solche Links ermögli-chen die Zusammenführung von sich entsprechenden Infor-mationen, die zur Anreicherung und Verknüpfung mit weite-ren Informationen nutzbar ist. Somit könnten etwa zum Au-tor einer Publikation weitere Informationen gewonnen wer-den, z.B. zu seinem Institut, seinen Kollegen etc. Über Pro-duktverlinkungen können Preise unterschiedlicher Anbietersowie Produktbeschreibungen und Nutzerbewertungen ausverschiedenen Quellen aggregiert und ausgewertet werden.

Bisherige Arbeiten im Bereich Linked Data fokussiertenzunächst auf die Basisaufgaben der Generierung bzw. Ex-traktion von RDF-Daten sowie die effiziente Speicherungund Nutzung einzelner Datenquellen. Abbildung 1 stellt ver-schiedene Phasen des Lebenszyklus von Linked Data imWeb dar [37], die wir im Folgenden detaillierter beschrei-ben.

(a) Extraktion. In vielen Fällen werden RDF-Daten nichtmanuell erstellt, sondern aus bestehenden Quellen ex-

Page 2: Extraktion, Mapping und Verlinkung von Daten im Web

78 Datenbank Spektrum (2013) 13:77–87

Abb. 1 Phasen des Lebenszyklus von Linked Data im Web

trahiert. Extraktions-Ansätze werden in der Regel ent-sprechend des Strukturierungsgrades der zugrundelie-genden Datenquellen klassifiziert: unstrukturierte, semi-strukturierte und strukturierte Quellen. Die Extrak-tion von Fakten aus den Klartext umfassenden un-strukturierten Quellen erfordern Methoden des Na-tural Language Processing. Mit dem Natural Lan-guage Interchange Format (NIF) wurde dafür eineInteroperabilitäts-Schnittstelle entworfen, die Linked-Data-Konzepte zur Referenzierung und Annotation vonTexten und Textteilen nutzt [12]. Semi-strukturierteQuellen, z.B. Wiki-Markup, können mit anwendungs-spezifischen Extraktionsmethoden, wie dem DBpedia-Extraktionsframework [17], erschlossen werden. DBpe-dia nutzt eine Reihe von semi-strukturierten Elementenin Wikipedia (wie z.B. Infoboxen, Kategorien und Linkszwischen verschiedenen Spracheditionen) zur Extrakti-on und Repräsentation von Faktenwissen in RDF. Durchdie Abdeckung einer Vielzahl von Informationsdomä-nen, die Verfügbarkeit in verschiedenen Sprachen undden Gemeinschafts-Konsens, den Wikipedia/DBpediawiderspiegelt, hat sich DBpedia zu einem zentralenKnotenpunkt im Linked Data Web entwickelt, der imMoment mehr als eine Milliarde Fakten umfasst. Ei-ne Vielzahl von Forschungsansätzen [26] und kommer-ziellen Anwendungen (z.B. Zemanta.com, OpenCal-ais.com) nutzen DBpedia inzwischen als Basistechno-logie. Strukturierte Quellen umfassen insbesondere re-lationale Datenbanken, für welche bereits mehrere An-sätze zum RDF-Mapping existieren (insbesondere Tri-

plify/Sparqlify [3, 36], D2RQ [5]), deren Standardisie-rung Ziel der W3C RDB2RDF Arbeitsgruppe1 ist.

(b) Speicherung/Abfragen. Das starke Wachstum vonLinked-Data-Quellen lieferte wichtige Impulse zur Ent-wicklung von Datenbank-Techniken für die native Ver-waltung von RDF-Daten. Wenngleich relationale Da-tenbanken bei vergleichbaren Datenstrukturen noch ei-ne wesentlich höhere Leistung als native RDF-Da-tenbanken aufweisen, konnte auch deren Skalierbar-keit durch die Entwicklung effizienter Speicher- undClustering-Lösungen deutlich verbessert werden. Na-tive RDF-Datenbanken eignen sich vor allem in Situa-tionen mit sehr heterogenen Daten, die nicht leicht ineinem relationalen Schema erfasst werden können.

(c) Klassifizierung/Anreicherung. Aufgrund der noch oftschwach ausgeprägten oder fehlenden Strukturinforma-tionen bzw. Ontologiebezüge in LOD-Quellen ist derenAnreicherung um solche Strukturen für viele Anwen-dungen wesentlich, insbesondere zur Datenintegrationund für fortgeschrittene Ansätze zur Link Discovery. Dasowohl OWL als auch RDF auf Beschreibungslogikenberuhen, kommen prinzipiell korrekt und vollständigeingestufte Reasoner-Implementierungen (z.B. ElVira,Pellet, FACT++, HermiT, KAON und Racer) zur Wis-sensanreicherung in Frage. Allerdings machen derenLeistungsanforderungen sie für die Anwendung auf fürWissensbasen der Größenordnung der LOD-Datenquel-len ohne Anpassungen und Preprocessing unbrauchbar.Deshalb wurden mehrere unvollständige Inferenz-Me-thoden entwickelt, u.a. innerhalb des LarKC-Projekts[7]. Anreicherungs-Methoden basieren unter anderemauf induktiver logischer Programmierung und forma-ler Konzeptanalyse. Vielversprechende Ansätze in die-sem Bereich sind ORE [18], DL-Learner [16] und On-toComp [32].

(f) Qualitätsanalyse. Linked Data Anbieter im Web unter-stützen die Repräsentation von Wissen auf verschie-denen Abstraktions-Ebenen, verschiedene Ansichtenund unterschiedliche Absichten. Informationen könnenfalsch, tendenziös, widersprüchlich oder veraltet sein.Für die Filterung und Bewertung von Informationen ausverschiedenen Quellen wurden daher verschiedene Me-triken entwickelt, die z.B. Inhalt, Kontext, Reputationund Bewertung berücksichtigen. Von besonderer Be-deutung und aktuelles Forschungsthema ist die Bewer-tung ob bestimmte Daten für einen bestimmten Anwen-dungsfall geeignet sind.

(d) Evolution und Reparatur. Es gibt eine Vielzahl von wis-senschaftlichen Arbeiten im Bereich Ontologie-Evolu-tion, die sich zunächst vor allem auf Schema-Evolution

1http://www.w3.org/2001/sw/rdb2rdf/.

Page 3: Extraktion, Mapping und Verlinkung von Daten im Web

Datenbank Spektrum (2013) 13:77–87 79

konzentrierten, zunehmend jedoch auch die Daten-Evolution mit leichtgewichtigeren Evolutions-Musternunterstützen. Die effiziente und effektive Unterstützungder verteilten Evolution von Linked Data im Web istebenfalls Gegenstand aktueller Forschung.

In den letzten Jahren hat sich der Grad der Automatisie-rung in den einzelnen Phasen als Ergebnis der Grundlagen-forschung und reifer Software-Implementierungen erhöht.In den folgenden Abschnitten stellen wir mit der DBpediaWissensextraktion aus Wikipedia (Abschn. 2), dem skalier-baren Linking von Wissensbasen (Abschn. 3) und dem Map-ping relationaler Daten nach RDF (Abschn. 4) drei Ansätzevor, die zentrale Bausteine des Web der Daten ausmachen.

2 DBpedia

Das Ziel des DBpedia-Projektes (siehe [2, 17, 21]) ist esWissen aus Wikipedia, der größten Web-Enzyklopädie, zuextrahieren und es mit Hilfe von semantischen Technologienfrei zur Verfügung zu stellen. Wikipedia ist eine der popu-lärsten Webseiten überhaupt2 mit vielen Millionen Nutzern.Allein innerhalb eines Monats editieren über 100 000 ver-schiedene Nutzer Artikel.3 Seit der Gründung von Wikipe-dia im Jahr 2001 ist es zu einer der am weitesten verbreitetenWissensbasen weltweit angewachsen und ist ein Musterbei-spiel für die gemeinschaftliche Erstellung von Inhalten.

Trotz aller Vorteile von Wikipedia bietet es nur begrenz-te Möglichkeiten für Abfragen und Suche an und ist nichtgut mit anderen Wissensbasen verknüpft. Zum Beispiel istes schwierig mit Hilfe von Wikipedia Bürgermeister zu fin-den, die zu einer bestimmten Partei gehören und Kleinstädte(< 50.000 Einwohner) verwalten. Die Information um sol-che und unzählige weitere Abfragen zu beantworten sind inWikipedia vorhanden, aber über viele Artikel verstreut undnicht einheitlich zugreifbar.4 Das DBpedia-Projekt erlaubtdurch Extraktion von Informationen aus Wikipedia genausolche Abfragen.

Durch die Unterstützung und Integration von DBpedia inalle Phasen des Linked Data Lebenszyklus erlangte das Pro-jekt große Bedeutung in Forschung und Praxis. Es wurde zueinem der Stützpfeiler der Linked Open Data Initiative undein wichtiger Knotenpunkt zur Verknüpfung mit zahlreichenweitere Wissensbasen. DBpedia unterstützt inzwischen über100 verschiedene Sprachen und extrahierte in seiner aktuel-len Version 3.8 mehr als 1,8 Milliarden RDF-Tripel.

2Siehe http://www.alexa.com/topsites.3http://en.wikipedia.org/wiki/Special:Statistics.4Für wichtige Abfragen erstellen Wikipedia-Nutzer eigene Listen, aberdas deckt nur populäre Abfragen ab und solche Listen müssen manuellverwaltet werden.

DBpedia arbeitet mit einer Reihe von Extraktoren umaus vielen Bereichen eines Wikipedia-Artikels Informatio-nen zu extrahieren, z.B. Geo-Daten, Personen-Daten, Bilder,Verknüpfungen zu anderen Sprachversionen, Disambiguier-ungs-Informationen und vieles mehr. Der Kern von DB-pedia besteht jedoch in der Extraktion von Infoboxen inWikipedia, die meistens rechts oben in Artikeln darge-stellt werden. Deren Extraktion wurde erstmals in [4] be-schrieben. In Abb. 2 ist ein Beispiel einer Infobox darge-stellt, einschließlich des Wiki-Markups, welches zu die-ser Infobox gehört. Infoboxen fassen wichtige Fakten zumbetrachteten Objekt zusammen und eigenen sich deshalbhervorragend zur Extraktion von Fakten. Nachteilig ist je-doch, dass sich das Infobox-System in Wikipedia über Jah-re hinweg ohne zentrale Koordination entwickelt hat. Da-durch werden viele verschieden Infobox-Typen für gleicheoder ähnliche Arten von Objekten verwendet, zum Beispielinfobox_city_japan, infobox_swiss_town alsauch infobox_town_de. Innerhalb der Infoboxen gibtes verschiedene Möglichkeiten Attribute zu spezifizieren, sogibt es Dutzende Varianten um das Geburtsdatum einer Per-son festzulegen, beispielsweise die Attribute birthplaceund placeofbirth. Ähnliche Probleme betreffen dieDatentypen. Ein Herzstück von DBpedia besteht deshalb ausAbbildungen (Mappings) von Infoboxen-Typen, -Attributenund -Datentypen auf eine zentrale DBpedia-Ontologie.Mappings für über 2.500 Infobox-Typen werden derzeit vonder DBpedia-Gemeinschaft gepflegt.5 Diese Mappings er-lauben die Übersetzung von Infoboxen in RDF-Tripel, so-wie die Typisierung von Resourcen und die Integration übermehrere Wikipedia-Sprachversionen hinweg.

Die Gesamtarchitektur des Extraktionsframeworks ist inAbb. 3 dargestellt. Wikipedia-Artikel werden entweder überDatenbankdumps oder einen Datenstrom aktueller Änderun-gen eingelesen und zur weiteren Bearbeitung abgelegt. DasExtraktionsframework lädt diese Seiten und führt zahlrei-che Extraktoren auf deren Inhalt, d.h. dem Wiki Mark-Up,aus. Dabei können die Extraktoren auf verschiedene Par-ser zur Unterstützung von unterschiedlichen Datentypen zu-rückgreifen. Jeder Extraktor liefert eine Menge von RDF-Tripeln. Diese können dann entweder in Dateien geschrie-ben oder in einen Triple Store eingelesen werden. Basierendauf dem Triple Store können die Daten anschließend abge-fragt und als Linked Data publiziert werden.

Die resultierenden Daten wurden bereits in zahlreichenKontexten verwenden, zum Beispiel im DeepQA-Projekt,welches im IBM Watson System resultierte. Dieses Systemerzielt in Jeopardy bessere Ergebnisse als menschliche Spie-ler. Für die Daten wurden weiterhin facettenbasierte Brow-ser entwickelt [9], die eine einfache Navigation und die Be-antwortung einfacher Abfragen erlauben. Für DBpedia wur-

5Siehe http://mappings.dbpedia.org.

Page 4: Extraktion, Mapping und Verlinkung von Daten im Web

80 Datenbank Spektrum (2013) 13:77–87

Abb. 2 MediaWiki infoboxSyntax für Algarve (links) undgenerierte Wikipedia Infobox(rechts) aus [21]

Abb. 3 Illustration der DBpedia-Architektur

den zahlreiche weitere Visualisierungswerkzeuge wie gFa-cet [10] und RelFinder [11]. Die extrahierten Daten werdendarüber hinaus in zahlreichen Unternehmen, z.B. Zemanta,Neofonie, BBC und Thomson Reuters eingesetzt.

3 Linking

Das vierte Linked Data Grundprinzip ist die Bereitstellungvon Links zwischen Wissensbasen. Solche Links sind vongenauso zentraler Bedeutung für das Linked Data Web wieHyperlinks für das heutige Internet und erlauben die inte-grierte Verwendung von Daten aus unterschiedlichen Daten-quellen für Zwecke wie die Beantwortung komplexer Fra-gen [33], Datenintegration [22] und die Abarbeitung vonWissensbasis-übergreifende (engl. federated) SPARQL An-fragen [30]. In diesem Abschnitt gehen wir zunächst auf

zwei der Herausforderungen ein, die bei der Generierungvon Links zwischen Wissensbasen auftreten. Wir gehen an-schließend auf existierende Lösungen für beide Problemeein.

3.1 Komplexität und Linking

Formal betrachtet zielt Linking (auch Link Discovery ge-nannt) darauf ab, Verknüpfungen zwischen Elementen zwei-er Mengen S und T von RDF Ressourcen zu generieren.Diese Mengen könnten zum Beispiel Filme aus der LinkedMovie Database (LinkedMDB) und Filme aus DBpedia ent-halten. Die Generierung der Links erfolgt indem berechnetwird, welche Paare (s, t) von Elementen aus S × T gewis-sen Ähnlichkeitskriterien genügen. Die formale Beschrei-bung dieser Mengen und Kriterien wird Link Spezifikationgenannt. In unserem Beispiel könnten die Namen der Filmesowie die Namen ihrer Direktoren miteinander verglichenwerden. Naive Ansätzen würden nun die Eigenschaften je-des Films aus LinkedMDB mit denen von jedem Film ausDBpedia vergleichen. Da jede dieser Wissensbasen ca. 85Tsd. Filme umfasst, würden naive Ansätze ca. 14 Mrd. Ähn-lichkeitsberechnungen durchführen müssen, um diese zweiDatensätze miteinander zu verknüpfen. Folglich würde dieBerechnung von Links zwischen diesen im Vergleich zu üb-lichen Mengen von Ressourcen kleinen Datensätzen ca. einhalbes Jahr dauern, wenn 1 ms pro Berechnung erforderlichwäre. Die Entwicklung von Vergleichsalgorithmen, welchedie Laufzeitkomplexität von Linking reduzieren, ist die ersteHerausforderung in diesem Forschungsgebiet.

Page 5: Extraktion, Mapping und Verlinkung von Daten im Web

Datenbank Spektrum (2013) 13:77–87 81

Abb. 4 Grafische Darstellungeiner Link Spezifikation zumVerknüpfen von Filmen inLinkedMDB und DBpedia

Die zweite Herausforderung ist die Erstellung von hoch-wertigen Link Spezifikation für die zu berechnende Mengean Links. Dabei gilt eine Spezifikation als hochwertig, wennihre Ausgabe möglichst genau (Precision) und vollständig(Recall). Abbildung 4 zeigt ein Beispiel einer hochwertigenLink Spezifikation für das deklarative Framework LIMES[23–25]. Diese Link Spezifikation nutzt zwei Eigenschaf-ten von Filmen aus LinkedMDB und DBpedia zum Linking.Die Auswahl der zu verwendenden Eigenschaften erfordertexplizites Wissen über die Struktur der zu verknüpfendenDatenquellen. Zudem ist die korrekte Einstellung der Spezi-fikationsparameter für die Generierung korrekter Links kei-ne triviale Aufgabe. Hier werden maschinelle Lernverfah-ren erforderlich, welche eine (semi-)automatische Auswahlin der Spezifikation genutzten Eigenschaften und der Spezi-fikationsparameter ermöglichen.

3.2 Zeiteffizientes Linking

Die Grundidee hinter zeiteffizientem Linking ist die Reduk-tion der Anzahl von durchgeführten Vergleichen. Dies wirdmeistens durch eine Partitionierung des Problems, den Ein-satz von zeiteffizienten Approximationen oder eine Kom-bination der Partitionierung und Approximationen erreicht.Einer der ersten Ansätzen für die effiziente Berechnung vonLinks ist der in [25] vorgestellte LIMES Ansatz. Das Lin-king Problem wird hier auf die Berechnung der Distanz zwi-schen allen Paaren von Elementen aus zwei Mengen vonPunkten in einem metrischen Raum reduziert. LIMES ver-wendet die in metrischen Räumen geltende Dreiecksunglei-chung um pessimistische Approximationen von Distanzen

zeiteffizient zu berechnen. Dazu wird zunächst eine Parti-tion des metrischen Raums durch Exemplare durchgeführt.Die Verteilung der Exemplare erfolgt indem eine festgelegteAnzahl von möglichst weit von einander entfernten Punk-ten aus der Menge S von Ressourcen berechnet wird. JedesExemplar gilt dann als Repräsentant für die Punkte in sei-ner Umgebung. Aus der Distanz zwischen jedem Exemplarund den Punkten in seiner Umgebung kann die Distanz zwi-schen allen Punkten aus S und allen Punkten aus T appro-ximiert werden. Die genaue Distanz zwischen zwei Punktens resp. t aus S resp. T wird nur dann berechnet wenn dieApproximation dieser Distanz fehlschlägt, d.h., wenn keineVerletzung der von der Spezifikation geforderten maxima-len Distanz zwischen s und t aus der Approximation herausfestgestellt werden kann. Eine Evaluation dieses Ansatzeszeigt, dass er mehr als 80% der unnötigen Distanzberech-nungen in metrischen Räumen verwerfen kann.

Der später im gleichen Framework implementierte HR3-Algorithmus [23] nutzt genauso die Eigenschaften von Me-triken und zielt darauf ab, einer Partitionierung des Raumeszu erzielen. Hier werden jedoch keine Exemplare verwen-det. Stattdessen wird eine Diskretisierung des Raumes durchHyperwürfel durchgeführt. Anhand dieser Diskretisierungwird anschließend errechnet, welche Teilmengen von S undT miteinander zu vergleichen sind. Dabei wird ausgenutzt,dass Spezifikationen in metrischen Räumen Hyperkugelnbeschreiben. Ziel der Diskretisierung ist es dementspre-chend, eine Hyperkugel möglichst genau zu approximie-ren. Die Genauigkeit der Approximation kann durch denGranularitäts-Parameters α von H R3 festgelegt werden.Eine Erhöhung von α führt dazu, dass die Anzahl der un-

Page 6: Extraktion, Mapping und Verlinkung von Daten im Web

82 Datenbank Spektrum (2013) 13:77–87

Abb. 5 Approximation von H R3 für verschiedene Werte von α

in einem zwei-dimensionalen euklidischen Raum. Mit steigendem α

steigt die Genauigkeit der Approximation aber auch die Anzahl derHyperwürfel

nötigen Distanzberechnungen reduziert wird (siehe Abb. 5)aber auch dazu, dass die Anzahl der Hyperwürfel (und somitdie Größe des Index von H R3) wächst. Der Hauptvorteilvon H R3 liegt insbesondere darin, dass er reduction-ratio-optimal ist, d.h., dass die Anzahl der unnötigen Distanzbe-rechnungen gegen 0 strebt wenn α gegen +∞ strebt.

Andere Ansätze basieren auf multi-dimensionalem Block-ing (siehe z.B. [14]). Hier ist die Idee, dass die gesamteSpezifikation in einem (nicht notwendigerweise metrischen)Raum abgebildet wird. Dieser Raum wird dann in über-lappende Blöcke geteilt. Alle Berechnungen werden aus-schließlich innerhalb der vorberechneten Blöcke durchge-führt. Auch dieser Ansatz ist in der Lage, eine Vielzahl un-nötiger Berechnungen zu verwerfen. Die zeiteffiziente Be-rechnung von Links garantiert jedoch nicht, dass die Ergeb-nisse vollständig oder gar genau sind. Zu diesem Zweckewerden maschinelle Lernverfahren eingesetzt.

3.3 Genaues und vollständiges Linking

Die Genauigkeit und Vollständigkeit (Recall) einer Spezi-fikation sind von entscheidender Bedeutung für ihren Ein-satz bei der Verknüpfung von Wissensbasen im Linked DataWeb. Die meisten Verfahren, die darauf abzielen, Spezifi-kationen mit einer hohen Precision und einem hohen Re-call zu errechnen, basieren auf maschinellem Lernen. DieGrundidee hinter diesen Verfahren besteht darin, die best-mögliche Kombination von atomaren Metriken, Gewichten

und Schwellwerten zu finden, welche zu maximalen Preci-sion und Recall führt. Formal ist dies dazu äquivalent, eineKlassifikationsfunktion in einem vorgegebenen Raum zu er-rechen. Zu diesem Zweck werden überwachte [13, 26, 27]und neuerdings auch unüberwachte Lernverfahren [28] ver-wendet.

Einfache überwachte Lernverfahren [13] erwarten ei-ne Menge von positiven und negativen Beispielen für diezu berechnenden Links. Sie versuchen dann anhand die-ser Beispiele Spezifikationen zu errechnen, welche mög-lichst alle positiven und keins der negativen Beispiele er-zeugen. Das Hauptproblem dieser Ansätze ist, dass siegroße Mengen positiver und negativer Beispiele benöti-gen, um hochwertige Linkspezifikationen zu errechnen.Eine Lösung für dieses Problem liegt in der Verwendungvon neugierigen Algorithmen (engl.: curious classifiers)[26, 27]. Diese sind in der Lage, vom Nutzer zu erfra-gen, ob ein Link als positives oder negatives Beispiel zuverwenden ist. Durch die selbständige Auswahl von mög-lichst informativen Links benötigen solche Klassifikations-verfahren wesentlich weniger positive und negative Bei-spiele, um gleichwertige Spezifikationen zu errechnen. DerVorteil der oben genannten Ansätze ist, dass sie für dieBerechnung aller Arten von Links eingesetzt werden kön-nen.

In neuen Arbeiten wurden die oben vorgestellten Pa-radigmen erweitern. Zum Beispiel wurde gezeigt, dassunüberwachte Verfahren im Falle der Berechnung vonowl:sameAs Links verwendet werden können [28]. Hierwird eine Approximation der Precision und des Recalls vonSpezifikationen ohne Nutzerfeedback errechnet. Diese Ap-proximation wird sukzessiv optimiert bis sie einen maxima-len Wert erreicht hat oder festgelegte Anzahl von Iterationendurchlaufen wurde. Manche Linking-Ansätze verabschie-den sich ebenso vom Lernen in einem vorgegebenen Raum[34] und versuchen den Raum so anzupassen, dass einfa-che Klassifikationsfunktionen zeiteffizient gefunden wer-den können. Während die ersten Ergebnisse in diesem For-schungsbereich vielversprechend sind, wirft die Transfor-mation von Räumen neue Effizienzfragen auf, da existieren-de Verfahren nur teilweise in solchen modifizierten Räumeneingesetzt werden können.

4 RDF-Mapping relationaler Daten

In diesen Abschnitt erläutern wir den Ansatz des Mappingsvon relationalen Daten nach RDF (RDB2RDF) als einen in-tegralen Bestandteil einer Linked Data basierten Integration.Zudem werden verschiedene Ansätze vorgestellt und aktuel-le Herausforderungen am Beispiel von LinkedGeoData er-läutert.

Page 7: Extraktion, Mapping und Verlinkung von Daten im Web

Datenbank Spektrum (2013) 13:77–87 83

Abb. 6 Einsatzszenarien von RDB2RDF Mappings. RDF Daten wer-den mittels Mapping aus einer relationalen Datenbank erstellt (1) undabgefragt (2). Alternative wird die SPARQL Anfrage in SQL übersetztund das Anfrageergebnis rückübersetzt (3)

4.1 Motivation und Szenario

Das relational Datenmodell ist der vorherrschende Ansatzstrukturierte Daten zu speichern, sowohl im Unternehmenals in Webanwendungen. Für den Einsatz eines relationalenDatenbankmanagementsystems anstelle eines Triple Storessprechen, abhängig vom Einsatzszenario, oft folgende Grün-de. Zum einen ist die Ausführungsgeschwindigkeit von Ab-fragen bei relationalen Datenbanken durch die effizientereIndizierung höher. Zudem bieten relationale DatenbankenFunktionen wie Transaktionen oder Integritätsbedingungen.Darüber hinaus verwenden die meisten Anwendungen, seies im Unternehmen oder im Web, eine oder mehrere rela-tionale Datenbanken zur Datenhaltung; eine Migration zueinem Triple Store wäre aufwendig. Daher ist das Ziel desMappings relationaler Datenbanken diese als Linked Da-ta bereit zu stellen und in den Lebenszyklus zu integrie-ren. RDB2RDF Mapping-Werkzeuge fungieren daher alsein Bindeglied zwischen relationalen Datenbanken und demData Web. Zahlreiche große, offene Datensammlungen wieOpenStreetMap6 oder MusicBrainz7 konnten mit Hilfe vonRDB2RDF Mapping-Werkzeugen wie Triplify [3] mit ei-ner RDF-Schnittstelle versehen werden und dadurch in dasLinked-Data-Web integriert werden.

Beim RDB2RDF-Mapping können zwei Ansätze unter-schieden werden die in Abb. 6 dargestellt sind. Zum einenkann mit Hilfe eines Mappings RDF materialisiert werdenund beispielsweise in einen Triple Store geladen werden (1).Diese materialisierten Daten können dann mittels SPARQLabgefragt werden (2), als Linked Data bereit gestellt werdenund mit anderen Datenquellen verknüpft werden. Der zweiteAnsatz ist die direkte Übersetzung von SPARQL Abfragenin SQL. Diese Szenario benötigt keinen zusätzlichen TripleStore und die Daten werden nicht dupliziert. Ebenso ist ei-ne Nutzung der bestehenden, effizienten Indexstrukturen desDatenbankmanagementsystems möglich.

6http://www.openstreetmap.org/.7http://musicbrainz.org/.

Abb. 7 Beispielhaftes Mapping der Tabellen “employee” und “depart-ment”

4.2 Mappings und Ansätze

Mit der Standardisierung der RDB to RDF Mapping Lan-guage (R2RML)8 wurde im September 2012 eine Basis fürInteroperabilität zwischen den zahlreichen RDB2RDF Map-ping Tools gelegt. Beispiele für diese Mapping Tools sindetablierte Werkzeuge wie Triplify, D2RQ [5] oder Virtuo-so RDF Views,9 aber auch neuere Ansätze wie Ultrawrap[31], SparqlMap [36] oder Sparqlify.10 Während Triplify di-rekt RDF aus der Datenbank erzeugt und dieses als LinkedData oder als materialisierten Graphen zur Verfügung stellt,sind die anderen Tools SPARQL-to-SQL Rewriter und ba-sieren auf einem virtuellen Graph. Die dieser Transformati-on zu Grunde liegenden Mappings bedienen sich trotz syn-taktischer Unterschiede des selben Prinzips. Beispielhaft istsolch ein Mapping in einer an R2RML angelehnten Struk-tur in Abb. 7 dargestellt. Die TripleMap (1) verknüpft dieTupel einer Datenbanksicht mit TermMaps. TermMaps er-zeugen RDF Terme (IRIs, Blank Nodes oder Literale) ausden Tupeln oder aus konstanten Werten. In der in Abb. 7dargestellte TermMap (2) ist die Bildungsvorschrift für ei-ne IRI aus der id Spalte der employee-Sicht definiert, diezur Erzeugung des Subjekt-RDF-Terms verwendet wird. Ei-ne Materialisierung des Graphen ist möglich in dem für al-le TripleMaps alle verknüpften Datenbanksichten dement-sprechend ausgewertet werden. Durch die in [1] bewieseneGleichheit der Ausdrucksstärke von SQL und SPARQL istes möglich beliebige SPARQL Anfragen in äquivalente SQL

8http://www.w3.org/TR/r2rml/.9http://virtuoso.openlinksw.com/whitepapers/relational%20rdf%20views%20mapping.html.10http://sparqlify.org.

Page 8: Extraktion, Mapping und Verlinkung von Daten im Web

84 Datenbank Spektrum (2013) 13:77–87

Anfragen umzusetzen. Die effiziente Implementierung die-ses Vorgangs ist Gegenstand aktueller Forschung. Ein Bei-spiel für eine solche Umsetzung wird im nachfolgenden Ab-schnitt vorgestellt.

4.3 Mapping großer Datenbanken am Beispiel vonLinkedGeoData

Im Rahmen des LinkedGeoData11 (LGD) Projekts werdenOpenStreetMap12 (OSM) Daten nach RDF konvertiert. Zielvon OSM ist die Erstellung einer freien Karte der Welt, wo-bei die Modellierung über drei Entitäten geschieht, welchein folgender Häufigkeit bei OSM auftreten:

– Knoten: Punktobjekte mit Latitude und Longitude, ca.1.78 Mrd. Vorkommen.

– Wege: Geordnete Sequenz an Knotenreferenzen, ca. 171Mio. Vorkommen.

– Relationen: Jede Entität kann als Mitglied mit einer be-stimmten Rolle in einer Relation auftreten, ca. 1.8 Mio.Vorkommen.

Allen Entitäten ist gemein, dass sie durch eine Menge vonSchlüssel-Wert Paaren, genannt Tags, ausgezeichnet wer-den können. Die daraus in LGD generierten RDF Daten-sätze sind als Linked Data, Downloads und per SPARQLEndpunkte frei zugänglich. Zu dessen Erzeugung wird einSPARQL-to-SQL Rewriter eingesetzt, da dadurch Werkzeu-ge der OSM Community zur Synchronisation mit relationa-len Datenbanken wiederverwendet werden können. Die Ar-chitektur von LGD ist in Abb. 7 dargestellt, und wird imFolgenden kurz erläutert.

OSM bietet die Daten des gesamten Planeten zum Dow-nload an.13 Des weiteren werden sogenannte Changeset Da-teien veröffentlicht, welche zeitliche Änderungen an denDaten enthalten und in Minuten-, Stunden-, Tages- und Wo-chenintervallen generiert werden. Mittels der Software Os-mosis14 können die Quelldaten in eine mit PostGIS15 er-weiterten PostgreSQL16 Datenbank geladen, und in weitererFolge mit den Changesets synchronisiert werden (Abb. 8).

Bei der RDF Konvertierung von OSM wurde großer Wertdarauf gelegt, keine Schemamodifikationen vorzunehmen,welche die Kompatibilität mit den OSM Tools beeinträchti-gen, vor allem mit Hinblick auf das Synchronisationswerk-zeug. Zunächst wurde die OSM Datenbank mit Hilfstabel-len (Tag Mappings) angereichert, welche beschreiben, wiedie Tags nach RDF zu überführen sind. Schließlich wurden

11http://linkedgeodata.org.12http://openstreetmap.org13http://planet.openstreetmap.org.14http://wiki.openstreetmap.org/wiki/Osmosis.15http://postgis.net/.16http://www.postgresql.org/.

Abb. 8 Architektur des LinkedGeoData Projekts

node_tagsid k v21068295 population “3132463”

lgd_map_datatypek datatypepopulation int

Abb. 9 Eine Tabelle aus dem OSM Schema und eine Hilfstabelle ausLGD

manuell RDB-RDF Mappings angelegt, um aus den OSMDaten in Kombination mit den Tag Mappings die RDF Da-ten zu generieren. Für LGD kommt dabei der SPARQL-to-SQL Rewriter Sparqlify zum Einsatz, welcher basierend aufRDB-RDF Mappings in Form von Sichtdefinitionen einenSPARQL Endpoint und ein Linked Data Interface zur Ver-fügung stellt. Aufgrund der großen Datenmengen kommenbei LGD zwei Instanzen von Sparqlify zum Einsatz: Eine öf-fentliche Instanz, mit begrenzten Anfragezeiten und Ergeb-nismengengrößen, und eine interne Instanz, ohne Restrik-tionen, zur Materialisierung der Graphen zwecks Erstellungder Downloads. Es folgt ein Beispiel, wie OSM Daten an-hand der Tabellen in Abb. 9 nach RDF überführt werden.

Listing 1 zeigt das Anlegen eines Funktionsindex um ef-fizienten Zugriff auf Tags mit ganzzahligen Werten zu ge-währleisten und die Erstellung einer SQL Sicht, welche denZugriff auf die kombinierten Daten vereinfacht. Die SQLSicht hat die selben Spalten wie die Tabelle node_tags,allerdings ist die Spalte v nun ganzzahlig.

Page 9: Extraktion, Mapping und Verlinkung von Daten im Web

Datenbank Spektrum (2013) 13:77–87 85

Listing 1 Erweiterungen des OSM Schemas

Listing 2 Sichtdefinition in der Sparqlify Mapping Sprache

Die Sichtdefinition in Listing 2 beschreibt die Erzeugungvon RDF Tripel. Dabei ist zu beachten, dass die Variablenauf der rechten Seite der Ausdrücke in der WITH Klauselsich auf die Spaltennamen der in der FROM Klausel ange-gebenen Tabelle beziehen.

Die RDF Daten werden erzeugt, indem für jede Zeile derTabelle die Ausdrücke ausgewertet werden, um die Varia-blen der Tripel Mustern in der CONSTRUCT Klausel zubelegen. Umgekehrt lassen sich SPARQL Filter-Ausdrückeueber solche Sichtdefinitionen zu Bedingungen im SQL um-schreiben, sodass intuitiv die Tripel nur für bestimmte Zei-len erzeugt werden.

Zur Beantwortung von SPARQL Anfragen auf einerMenge an Sichtdefinitionen gibt es etliche Herausforderun-gen:

– Kandidatensichtauswahl Bei einer SPARQL Anfragemuss für jedes in ihr vorkommende Tripel eine passendeMenge an Tripel in den Kandidatensichten gefunden wer-den. Ein naiver Ansatz swählt für jedes Anfrage-Tripelalle Sicht-Tripel, welches z.B. bei 5 Anfrage-Tripel über10 Sichten mit je 4 Tripel (10 · 4)5 = 102.4 Mio. Kombi-nationen ergibt.

– Durch SPARQL-to-SQL Rewriter generierte SQL An-fragen bestehen meistens aus der Vereinigung mehrererUnteranfragen (siehe Listing 3). Durch das Optimierenvon gemeinsamen Teilausdrücken über die Unteranfragen(hier die Bereichsselektion) ließen sich Performanzver-bessungen erzielen.

– PostgreSQL unterstützt keine Mehrspaltenindexstatisti-ken. Dies führt dazu, dass der Anfrageoptimierer in Anbe-tracht solcher Indexe die Ergebnismengen großzügig Un-terschätzt und oftmals Fehlentscheidungen trifft.17

17http://wiki.postgresql.org/wiki/Cross_Columns_Stats.

Listing 3 Generiertes SQL bei der Anfrage nach allen Tags von Kno-ten in einem bestimmten Bereich

– Um effiziente Antworten auf SPARQL Anfragen zu er-möglichen, muss eventuell Aufwand betrieben werdenum die Daten entsprechend aufzubereiten und indizieren.Im Falle von LGD war das mittels Funktionsindexe leichtmöglich, dennoch hat dies Datenduplikation und Perfor-manzeinbußen beim Schreiben zur Folge.

In Bezug auf allgemeine SPARQL Anfragen ist aufgrundder Herausforderungen bzgl. Geschwindigkeit die Materia-lisierung der RDF Daten und das Laden in einen TripleStore immer noch die zuverlässigste Variante. Jedoch bie-ten SPARQL-to-SQL Rewriter Vorteile bei der Datenaktua-lität, vorallem bei großen Datenbeständen: Hier können dieRDF Daten eingesehen werden, noch bevor ein zeit- undplatzintensiver Materialisierungsprozess angestoßen wurde.Linked Data Anfragen resultieren in der Regel in einfachenSQL Anfragen, welche direkt auf der Datenbank ausgeführtwerden können, sofern die entsprechenden Indexe vorhan-den sind. Während bei Triple Stores der Fokus eher auf demPublizieren von Daten liegt, liegt der Fokus bei RDBMs eherbeim Verwalten der Daten für konkrete Anwendungsfälle.Im Rahmen des semantischen Datenmanagements leistenSPARQL-to-SQL Rewriter einen wertvollen Beitrag zumÜberbrücken beider Bereiche.

5 Zusammenfassung und Ausblick

In diesem Artikel haben wir einen kurzen Überblick überverschiedene Aspekte des Managements von Linked Dataim Web gegeben. Mit DBpedia haben wir ein Wikipedia-Wissensextraktionsprojekt vorgestellt, welches sich inzwi-schen zu einem zentralen Verknüpfungs-Knotenpunk imDaten-Web entwickelt hat. Wir haben das Problem des Link-Discovery eingeführt und verschiedenen Ansätze zur Stei-gerung der Skalierbarkeit sowie von Genauigkeit und Voll-ständigkeit vorgestellt. Eine weitere zentrale Herausforde-rung ist die effiziente Anbindung relationaler Daten an dasLinked Data Web mittels RDB2RDF-Mapping, welches wirim letzten Abschnitt gemeinsam mit dem AnwendungsfallLinkedGeoData vorgestellt haben.

Gemeinsame Herausforderungen in allen Phasen des Le-benszyklus sind die LOD-Daten Heterogenität, Skalierbar-

Page 10: Extraktion, Mapping und Verlinkung von Daten im Web

86 Datenbank Spektrum (2013) 13:77–87

keit sowie die synergetische, phasenübergreifende Integrati-on von Lösungsansätzen. Einige Aspekte wir Datenqualitätund Evolution, sind bislang noch nicht umfassend erforschtund reife Werkzeuge zu deren Unterstützung fehlen. Nebendem Einsatz von Linked Data zur Integration von Daten imWeb ist besonders die Datenintegration in Intranets großerOrganisationen und Unternehmen ein aussichtsreiches An-wendungsszenario. In Ergänzung zu dienst-orientierten Ar-chitekturen kann Linked Data die Vernetzung und Integra-tion von Daten aus den hunderten (oder sogar tausenden)Informationssystemen im Intranet großer Unternehmen un-terstützen. Ähnlich wie DBpedia einen Kristallisationspunktim Daten-Web darstellt können Unternehmensthesauri die-se Funktion in Unternehmens-Daten-Intranets übernehmen.RDB2RDF-Mapping und Werkzeuge zur Verlinkung spielteine zentrale Rolle um existierende, auf relationalen Daten-banken basierende Informationssysteme an die entstehendenDaten-Intranets anzubinden und zu verknüpfen.

Danksagung Wir danken den Mitgliedern der Arbeitsgruppe AKSWund den Projektpartnern der EU RP7 Projekte LOD2 (GA no. 257943),GeoKnow (GA no. 318159) und BIG (GA no. 318062), welche die indiesem Artikel vorgestellten Arbeiten unterstützt haben.

Literatur

1. Angles R, Gutierrez C (2008) The expressive power of SPARQL.In: Sheth AP et al (Hrsg) Proc 7th international semantic web con-ference. Lecture notes in computer science, Bd 5318. Springer,Berlin, S 114–129

2. Auer S, Bizer C, Kobilarov G, Lehmann J, Cyganiak R, Ives Z(2007) DBpedia: a nucleus for a web of open data. In: Aberer K etal (Hrsg) Proc 6th international semantic web conference. Lecturenotes in computer science, Bd 4825. Springer, Berlin, S 722–735

3. Auer S, Dietzold S, Lehmann J, Hellmann S, Aumueller D(2009) Triplify: light-weight linked data publication from rela-tional databases. In: Quemada J et al (Hrsg) Proc 18th interna-tional conference on world wide web. ACM, New York, S 621–630

4. Auer S, Lehmann J (2007) What have innsbruck and Leipzig incommon? Extracting semantics from wiki content. In: Proc 4thEuropean semantic web conference, S 503–517

5. Bizer C, Cyganiak R (2006) D2r server—publishing relationaldatabases on the semantic web. Poster at the 5th internationalsemantic web conference. http://www4.wiwiss.fu-berlin.de/bizer/pub/Bizer-Cyganiak-D2R-Server-ISWC2006.pdf (15.01.2013)

6. Chong EI, Das S, Eadon G, Srinivasan J (2005) An efficient SQL-based rdf querying scheme. In: Böhm K et al (Hrsg) Proc 31st in-ternational conference on very large data bases. ACM, New York,S 1216–1227

7. Fensel D, van Harmelen F, Andersson B, (2008) Towards LarKC:a platform for web-scale reasoning. In: Proc 2nd IEEE interna-tional conference on semantic computing. IEEE Comp Soc, LosAlamitos, S 524–529

8. Goel K, Guha RV, Hansson O (2009) Introducing rich snippets.Google webmaster central blog. http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html.(15.01.2013)

9. Hahn R, Bizer C, Sahnwaldt C, Herta C, Robinson S, BürgleM, Düwiger H, Scheel U (2010) Faceted wikipedia search. In:Abramowicz W, Tolksdorf R (Hrsg) Proc 13th international con-ference business information systems. Lecture notes in businessinformation processing, Bd 47. Springer, Berlin, S 1–11

10. Heim P, Ertl T, Ziegler J (2010) Facet graphs: complex semanticquerying made easy. In: Aroyo L et al (Hrsg) Proc 7th extendedsemantic web conference. Lecture notes in computer science, Bd6088. Springer, Berlin, S 288–302

11. Heim P, Hellmann S, Lehmann J, Lohmann S, Stegemann T(2009) RelFinder: revealing relationships in RDF knowledgebases. In: Chua TS et al (Hrsg) Proc 3rd international conferenceon semantic and media technologies. Lecture notes in computerscience, Bd 5887. Springer, Berlin, S 182–187

12. Hellmann S, Lehmann J, Auer S (2012) Linked-data aware urischemes for referencing text fragments. In: ten Teije A et al (Hrsg)Proc 18th international conference on knowledge engineering andknowledge management. Lecture notes in computer science, Bd7603. Springer, Berlin

13. Isele R, Bizer C (2011) Learning linkage rules using genetic pro-gramming. In: Shvaiko P et al (Hrsg) Proc 6th international ontol-ogy matching workshop, CEUR workshop proceedings, Bd 814,S 13–24, CEUR-WS.org,

14. Isele R, Jentzsch A, Bizer C (2011) Efficient multidimensionalblocking for link discovery without losing recall. In: Marian A,Vassalos V (Hrsg) Proc 14th international workshop on the weband databases

15. Kobilarov G, Scott T, Raimond Y, Oliver S, Sizemore C,Smethurst M, Bizer C, Lee R (2009) Media meets semantic web—how the bbc uses dbpedia and linked data to make connections. In:Aroyo L et al (Hrsg) Proc 6th European semantic web conference.Lecture notes in computer science, Bd 5554. Springer, Berlin, S723–737

16. Lehmann J (2009) DL-learner: learning concepts in descriptionlogics. J Mach Learn Res 10:2639–2642

17. Lehmann J, Bizer C, Kobilarov G, Auer S, Becker C, Cyganiak R,Hellmann S (2009) DBpedia—a crystallization point for the webof data. J Web Semant 7(3):154–165

18. Lehmann J, Bühmann L (2010) Ore—a tool for repairing and en-riching knowledge bases. In: Patel-Schneider PF et al (Hrsg) Proc9th international semantic web conference. Lecture notes in com-puter science, Bd 6496. Springer, Berlin

19. Leser U, Naumann F (2007) Informationsintegration – Architek-turen und Methoden zur Integration verteilter und heterogenerDatenquellen. dpunkt.verlag, Heidelberg

20. Mika P (2009) Year of the monkey: lessons from the first year ofsearchmonkey. In: GI jahrestagung. LNI, Bd 154, S 387, GI

21. Morsey M, Lehmann J, Auer S, Stadler C, Hellmann S (2012)DBpedia and the live extraction of structured data from wikipedia.In: Program: Electronic library and information systems, Bd 46,S 27

22. Ngonga Ngomo AC Learning conformation rules for linked dataintegration. In: Franconi E et al (Hrsg) Proc 7th internationalworkshop on ontology matching

23. Ngonga Ngomo AC (2012) Link discovery with guaranteed reduc-tion ratio in affine spaces with minkowski measures. In: Proc 11thinternational semantic web conference

24. Ngonga Ngomo AC (2012) On link discovery using a hybrid ap-proach. J Data Semant 1:203–217

25. Ngonga Ngomo AC, Auer S (2011) Limes—a time-efficient ap-proach for large-scale link discovery on the web of data. In: WalshT (Hrsg) Proc 22nd international joint conference on artificial in-telligence. IJCAI/AAAI

26. Ngonga Ngomo AC, Heino N, Lyko K, Speck R, KaltenböckM (2011) Scms—semantifying content management systems. In:Aroyo L et al (Hrsg) Proc 10th international semantic web con-ference. Lecture notes in computer science, Bd 7031. Springer,Berlin

Page 11: Extraktion, Mapping und Verlinkung von Daten im Web

Datenbank Spektrum (2013) 13:77–87 87

27. Ngonga Ngomo AC, Lyko K (2012) Eagle: efficient active learn-ing of link specifications using genetic programming. In: Cudré-Mauroux P et al (Hrsg) Proc 9th extended semantic web con-ference. Lecture notes in computer science, Bd 7649. Springer,Berlin

28. Nikolov A, D’Aquin M, Motta E (2012) Unsupervised learningof data linking configuration. In: Simperl E et al (Hrsg) Proc 9thextended semantic web conference. Lecture notes in computer sci-ence, Bd 7295. Springer, Berlin, S 119–133

29. Rahm E, Thor A, Aumueller D, Do HH, Golovin N, Kirsten T(2005) Ifuice—information fusion utilizing instance correspon-dences and peer mappings. In: Doan A et al (Hrsg) Proc 8th in-ternational workshop on the web and databases, S 7–12

30. Schwarte A, Haase P, Hose K, Schenkel R, Schmidt M (2010)Fedx: optimization techniques for federated query processing onlinked data. In: Patel-Schneider PF et al (Hrsg) Proc 10th inter-national semantic web conference. Lecture notes in computer sci-ence, Bd 6496. Springer, Berlin, S 601–616

31. Sequeda JF, Miranker DP Ultrawrap: SPARQL Execution onRelational Data. Poster at the10th international semantic web con-ference (2011). https://files.ifi.uzh.ch/ddis/iswc_archive/iswc/ab/2011pre/iswc2011.semanticweb.org/fileadmin/iswc/Papers/PostersDemos/iswc11pd_submission_94.pdf. (15.01.2013)

32. Sertkaya B, OntocomP A protégé plugin for completing OWL on-tologies. In: Proc 6th European semantic web conference

33. Shekarpour S, Auer S, Ngonga Ngomo AC (2013) Question an-swering on interlinked data. In: Proc 22nd international confer-ence on world wide web

34. Soru T, Ngonga Ngomo AC (2012) Active learning of domain-specic distances for link discovery. In: Hideaki T et al (Hrsg) Proc2nd joint international semantic technology conference. Lecturenotes in computer science, Bd 7774. Springer, Berlin

35. Sundara S, Atre M, Kolovski V, Das S, Wu Z, Chong EI, Srini-vasan J (2010) Visualizing large-scale rdf data using subsets, sum-maries, and sampling in oracle. In: Li F et al (Hrsg) Proc 26thinternational conference on data engineering. IEEE Press, NewYork, S 1048–1059

36. Unbehauen J, Stadler C, Auer S (2012) Accessing relational dataon the web with sparqlmap. In: Hideaki T et al (Hrsg) Proc 2ndjoint international semantic technology conference. Lecture notesin computer science, Bd 7774. Springer, Berlin

37. Auer S, Bühmann L, Lehmann J, Hausenblas M, Tramp S, vanNuffelen B, Mendes P, Dirschl C, Isele R, Williams H, Erling O(2012) Managing the life-cycle of linked data with the lod2 stack.In: Proc. 11th International Semantic Web Conference