Author
ansgar-scherp
View
478
Download
0
Embed Size (px)
DESCRIPTION
Released my (German language) habilitation talk slides on Linked Open Data under CC-BY license. Download the slides to enjoy full animations.
Entwurfsprinzipien und Muster für vernetzte Daten
Ansgar ScherpHabilitationskolloquiumUniversität Koblenz-Landau
9. November 2011 CC-BY
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 2 of 42
Motivation
Dave plant eine Reise
von London
zum Kunden in Köln
Wie geht er vor?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 3 of 42
Webseite der Deutschen Bahn
Funktioniert, aber …
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 4 of 42
Versuchen wir andere Anfragen
Engpässe im öffentlichen Personenverkehr
Visualisierung der Route auf einer Karte
Vergleich mit Flugverbindungen
Verknüpfung mit anderen Daten
Anfragen können nicht beantwortet werden
Denn im Internet von heute sind die Daten …
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 5 of 42
… eingeschlossen in Silos!
Hoher Integrationsaufwand
Nicht wiederverwendbarB. Jagendorf, http://www.flickr.com/photos/bobjagendorf/, CC-BY
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 6 of 42
Lösung: vernetzte Daten
Vernetzte Daten (engl. Linked Data)
Veröffentlichung und Verknüpfung von Daten
unterschiedlicher Qualität und Zweck
aus verschiedenen Quellen im Internet
Web Linked Data
Entitäten Dokumente Daten
Relationen Hyperlinks Typisierte Links
Format HTML RDF
Identität / Protokoll URI / HTTP URI / HTTP
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 7 of 42
Linked Data: Mai „07
< 31 Milliarde Triple
Medien
Geographisch
Publikationen
Web 2.0
Government
Cross-Domain
Lebenswissen-
schaften
Sept. „11
Quelle: http://lod-cloud.net
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 8 of 42
Facettierte, interaktiveExploration
Daten verschiedener Qualität und Herkunft:
DBpedia, GeoNames, WordNet, FOAF und Flickr
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 9 of 42
Übersicht
Motivation
Prinzipien
1. Identifikation
2. Verknüpfung
3. Dereferenzierung
4. Beschreibung
Muster
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 10 of 42
Beispiel: Big Lynx
Big Lynx
Firma
Matt Briggs
Scott Miller
?
Quelle: http://lod-cloud.net< 31 Milliarde Triple
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 11 of 42
1. Verwende URIs für Dinge
B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY
http://biglynx.co.uk/
people/matt-briggs
http://biglynx.co.uk/
people/scott-miller
Matt Briggs
Scott Miller
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 12 of 42
Beispiel: Big Lynx
Big Lynx
Firma
Matt Briggs
Scott Miller
Was ist mit Relationen wie z.B. kennt ?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 13 of 42
Beschreibung von Ressourcen mit RDF-Triple
Spiegelt die Struktur einfacher Sätze wider, z.B.
Matt Briggs ist eine Person
ResourceDescriptionFramework(RDF)
Subjekt Prädikat Objekt
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 14 of 42
@prefix rdf:<http://w3.org/1999/02/22-rdf-syntax-ns#>.
@prefix foaf:<http://xmlns.com/foaf/0.1/> .
<http://biglynx.co.uk/people/matt-briggs>rdf:type foaf:Person .
Beispiel in Turtle Syntax<http://biglynx.co.uk/people/matt-briggs>
<http://w3.org/1999/02/22-rdf-syntax-ns#type>
<http://xmlns.com/foaf/0.1/Person> .
Namensräume zum Abkürzen von URIs
Etablierte Namensräume: rdf, foaf, …
Präfix ist im aktuellen Dokument gültig
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 15 of 42
1. Verwende URIs für Relationen
B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY
http://biglynx.co.uk/
people/matt-briggs
http://biglynx.co.uk/
people/scott-miller
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 16 of 42
Beispiel: Big Lynx
Big Lynx
Firma
DBpedia
Matts private
Webseite
„dieselbe Person“
Matt Briggs
„lebt hier“
Dave Smith
London
…
Matt Briggs
Scott Miller
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 17 of 42
2. Verknüpfungen herstellen
Verknüpfen von Ressourcen mit RDF-Links
Beziehungslinks
Identitätslinks
Vokabularlinks
Ermöglichen es weitere Ressourcen zu finden
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 18 of 42
Beziehungslinks in RDF
Definieren Beziehungen zwischen Ressourcen
Beispiel
<http://biglynx.co.uk/people/dave-smith>foaf:based_near<http://dbpedia.org/resource/London> .
Externe Beziehungslinks: Subjekt und Objekt
kommen aus verschiedenen Namensräumen
Interne Beziehungslinks: gleicher Namensraum
biglynx:matt-briggs foaf:knows biglynx:dave-smith .
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 19 of 42
Identitätslinks
URI-Aliase zur Verknüpfung von Datenquellen,
die dieselben Dinge der realen Welt beschreiben
Beispiel
<http://biglynx.co.uk/people/matt-briggs>
<http://www.w3.org/2002/07/owl#sameAs> <http://www.matt-briggs.eg.uk#me> .
Dienst für Identitätslinks: .org
Wann sind zwei Ressourcen identisch?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 20 of 42
Gleichheit von Entitäten Problem bekannt aus Datenbanken und
Datamining
K. Mayer und K. M. Mayer dieselbe Person?
Auflösen von Name, Koautoren, Titel und
Veranstaltungsort oftmals nicht ausreichend
413.000 DBpedia Orte mit GeoNames abgleichen
Werkzeuge zur Formulierung von Heuristiken
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 21 of 42
Vokabularlinks
Verweise auf Definitionen in eigenen und
existierenden Vokabularen
Ziel: Daten werden selbstbeschreibend
Spezifikation eigener Vokabulare mit
RDF Vocabulary Description Language (RDFS)
Simple Knowledge Organization System (SKOS)
Web Ontology Language (OWL):
typischerweise nur owl:sameAs
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 22 of 42
Existierende Vokabulare Friend-of-a-Friend (foaf): Personen
und Beziehungen
Dublin Core (dc): Metadaten wie Titel,
Ersteller, Datum und Thema
Programmontologie der BBC
Schema.org Web-Seiten-Markup
von Google, Bing und Yahoo!
Facebook Graph API
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 23 of 42
Abgleich von Vokabularen
Integration von Vokabularen
Ähnlich zum Problem der Identität
Beispiel: foaf:name vs. vcard:family-name
Nicht trivial, selbst für ähnliche Vokabulare
Domänenontologien können sehr groß sein
Methoden zum Abgleich von Vokabularen und
Re-Engineering
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 24 of 42
Beispiel: Big Lynx
DBpedia
Big Lynx
Firma
Matts private
Webseite
foaf:based_near
owl:sameAs
Matt Briggs
Dave Smith
London
Matt Briggs
„dieselbe Person“
„lebt hier“
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 25 of 42
Nachschlagen von URIs mittels HTTP GET
Anwendbar für Dokumente und digitale Inhalte
Nachschlagen von Dingen der realen Welt ?
Verschiedene URIs für Dinge und Beschreibung
3. Dereferenzierung von URIs
Web Browser /
http://biglynx.co.uk/
people/matt-briggs
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 26 of 42
Variante 1: 303 See Other
- Höhere Netzwerklatenz
+ Geeignet für große Datensätze, z.B. DBpedia
Linked
Data
Client
Big
Lynx
Server
HTTP GET (Accept: appl./rdf+xml)http://biglynx.co.uk/people/matt-briggs
303 See Otherhttp://biglynx.co.uk/people/matt-briggs.rdf
HTTP GEThttp://biglynx.co.uk/people/matt-briggs.rdf
200 OK(Dokument in RDF)
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 27 of 42
Variante 2: Hash URIs
URI enthält einen mit # getrennten Teil, z. B.
http://biglynx.co.uk/vocab/sme#Team
Abschneiden des #<…>-Fragmentes
Verbleibende URI dereferenzieren
Beschreibung mehrerer Ressourcen, u. A. Team
- Höhere Datenübertragung
+ Geeignet zum Empfang ganzer Vokabulare
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 28 of 42
Beispiel: Big Lynx
DBpedia
Big Lynx
Firma
Matts private
Webseite
foaf:based_near
owl:sameAs
Matt Briggs
Dave Smith
London
Matt Briggs
Beschreibung
von Matt?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 29 of 42
4. Beschreibung von URIs
Dereferenzierung einer Ressource
Liefert eine Beschreibung in RDF zurück
Was ist eine sinnvolle Beschreibung?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 30 of 42
Beispiel: Beschreibung von Matt
biglynx:matt-briggs
foaf:Person
biglynx:dave-smith
dp:Birmingham
rdf:type
foaf:knows
foaf:based_near
_:point
wgs84:lat
wgs84:long
dp:London
foaf:based_near
……
…
…
ex:loc
…
“-0.118”
“51.509”
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 31 of 42
Concise Bounded Description
Gegeben ein RDF-Graph G = (V, P, E) mit
V = R B L endliche Knotenmenge aus
Ressourcen R, Blank-Nodes B und Literale L
P endliche Menge an Prädikaten
E R B x P x V Menge typisierter Kanten
Startknoten n R
∩ ∩
∩
Blank-Node: eindeutige Ressource, ohne URI
Literal: XSD-typisiertes Objekt (z. B. string, int)
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 32 of 42
Concise Bounded Description
SimpleCBD(n) = I mit
∩∞
j = 0
I 0 = { (s, p, o) | (s, p, o) E s = n }
I = { (o, p‘, o‘) E | (s, p, o) I : o B
j
jj+1
Einfache Concise Bounded Description (CBD)
Standard CBD erweitert die einfache CBD um
∩
k = 0k
j
(o, p‘, o‘) I }
Weitere CBDs berücksichtigen bspw. noch
RDF-Reifikation, Symmetrie und RDF-Label
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 33 of 42
Beispiel: Beschreibung von Matt
biglynx:matt-briggs
foaf:Person
biglynx:dave-smith
dp:Birmingham
rdf:type
foaf:knows
foaf:based_near
_:point
wgs84:lat
wgs84:long
“-0.118”
“51.509”dp:London
foaf:based_near
……
…
…
ex:loc
…
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 34 of 42
Datensätzebeschreibenmit voiD
Profile der Mitarbeiter sind gebündelt zu einem
großen Datensatz
<http://biglynx.co.uk/datasets/people>rdf:type void:Dataset;
dc:hasPart <http://biglynx.co.uk/people/dave-smith.rdf>;
dc:isPartOf <http://biglynx.co.uk/datasets/all>.
…
voiD hat keine explizite Schemainformation
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 35 of 42
Schemaextraktion
Finde Quellen mit bestimmten Datentypen
Erkenne die Verknüpfung von Datenquellen
Präzise Indexstrukturen benötigt
Beispielsweise für RDF-Typen, Typ-Cluster und
prädikatsbasierte Äquivalenzklassen
Ermöglicht verteilte Anfragen
auf der Linked-Data-Wolke
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 36 of 42
Übersicht
Motivation
Prinzipien
1. Identifikation
2. Verknüpfung
3. Dereferenzierung
4. Beschreibung
Muster
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 37 of 42
Muster in vernetzten Daten
Generische Lösung für ein wiederkehrendes
Modellierungsproblem
Klare Kommunikation durch festgelegte Begriffe
(Oft) eher Best Practices als Muster
[Dodds und Davis, 2011]
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 38 of 42
Problem
Web-Seiten handeln oft von einem
bestimmten Thema
Lösung
Einbetten eines <link>-Elements
<link rel="primarytopic"
href="http://dbpedia.org/resource/London"/>
Muster: Topic Autodiscovery
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 39 of 42
Muster: Reified Statement
Problem
Modellierung von „Aussagen über Aussagen“
Triple annotieren mit Autor, Datum der
Erstellung usw.
Lösung
Beschreibung von Graphänderungen mit
herkömmlicher RDF-Reifikation
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 40 of 42
Beispiel: Reified Statement
_:ex1
rdf:Statement
ex:/book/1
foaf:maker
biglynx:matt-briggs
"2011-10-28"
rdf:type
dc:created
rdf:predicate
rdf:subject rdf:object
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 41 of 42
Muster: Qualified Relation
Relation mit zwei gleichberechtigen Ressourcen
Spezieller Fall des Musters N-ary Relation
Beispiel
_:mattMaryMarriage rdf:type ex:Marriage;
ex:partner biglynx:matt-briggs;
ex:partner ex:mary;
ex:date "2010-08-06"^^xsd:date .
Warum nicht als Reified Statement?
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 42 of 42
Zusammenfassung
Veröffentlichung und Verknüpfung von Daten
Einheitliches Datenmodell RDF
Beschreiben und Auffinden von Daten
Web-Standards wie URI und HTTP
Herausforderungen
Identität und Verknüpfung von Ressourcen
Abgleich von Vokabularen
Extrahieren von Schemata
Intuitiv benutzbare Anwendungen
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 43 of 42
Literatur
http://linkeddatabook.com/ http://patterns.dataincubator.org/
Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 44 of 42
Weitere Literatur T. Berners-Lee: Linked Data, June, 2009.
URL: http://www.w3.org/DesignIssues/LinkedData.html
T. Berners-Lee: Cool URIs don't change, 1998.
URL: http://www.w3.org/Provider/Style/URI
M. Janik, A. Scherp, and S. Staab. The Semantic Web: Collective
Intelligence on the Web. In: Informatik Spektrum, Springer, 2011.
F. Manola, E. Miller, B. McBride (eds.): RDF Primer, 2004. URL:
http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#reification
L. Sauermann, R. Cyganiak, D. Ayers, M. Völkel: Cool URIs for the
Semantic Web, 2008. URL: http://www.w3.org/TR/cooluris/
P. Stickler: CBD - Concise Bounded Description, 2005.
URL: http://www.w3.org/Submission/CBD/
Talis Systems Ltd.: Bounded Descriptions In RDF, 2011. URL:
http://docs.api.talis.com/getting-started/bounded-descriptions-in-rdf
J. Volz, C. Bizer, M. Gaedke, G. Kobilarov: Discovering and
Maintaining Links on the Web of Data. ISWC, Westfields, USA, 2009.