44
Entwurfsprinzipien und Muster für vernetzte Daten Ansgar Scherp Habilitationskolloquium Universität Koblenz-Landau 9. November 2011 CC-BY

Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Embed Size (px)

DESCRIPTION

Released my (German language) habilitation talk slides on Linked Open Data under CC-BY license. Download the slides to enjoy full animations.

Citation preview

Page 1: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Entwurfsprinzipien und Muster für vernetzte Daten

Ansgar ScherpHabilitationskolloquiumUniversität Koblenz-Landau

9. November 2011 CC-BY

Page 2: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 2 of 42

Motivation

Dave plant eine Reise

von London

zum Kunden in Köln

Wie geht er vor?

Page 3: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 3 of 42

Webseite der Deutschen Bahn

Funktioniert, aber …

Page 4: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 4 of 42

Versuchen wir andere Anfragen

Engpässe im öffentlichen Personenverkehr

Visualisierung der Route auf einer Karte

Vergleich mit Flugverbindungen

Verknüpfung mit anderen Daten

Anfragen können nicht beantwortet werden

Denn im Internet von heute sind die Daten …

Page 5: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 5 of 42

… eingeschlossen in Silos!

Hoher Integrationsaufwand

Nicht wiederverwendbarB. Jagendorf, http://www.flickr.com/photos/bobjagendorf/, CC-BY

Page 6: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 6 of 42

Lösung: vernetzte Daten

Vernetzte Daten (engl. Linked Data)

Veröffentlichung und Verknüpfung von Daten

unterschiedlicher Qualität und Zweck

aus verschiedenen Quellen im Internet

Web Linked Data

Entitäten Dokumente Daten

Relationen Hyperlinks Typisierte Links

Format HTML RDF

Identität / Protokoll URI / HTTP URI / HTTP

Page 7: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 7 of 42

Linked Data: Mai „07

< 31 Milliarde Triple

Medien

Geographisch

Publikationen

Web 2.0

Government

Cross-Domain

Lebenswissen-

schaften

Sept. „11

Quelle: http://lod-cloud.net

Page 8: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 8 of 42

Facettierte, interaktiveExploration

Daten verschiedener Qualität und Herkunft:

DBpedia, GeoNames, WordNet, FOAF und Flickr

Page 9: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 9 of 42

Übersicht

Motivation

Prinzipien

1. Identifikation

2. Verknüpfung

3. Dereferenzierung

4. Beschreibung

Muster

Page 10: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 10 of 42

Beispiel: Big Lynx

Big Lynx

Firma

Matt Briggs

Scott Miller

?

Quelle: http://lod-cloud.net< 31 Milliarde Triple

Page 11: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 11 of 42

1. Verwende URIs für Dinge

B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY

http://biglynx.co.uk/

people/matt-briggs

http://biglynx.co.uk/

people/scott-miller

Matt Briggs

Scott Miller

Page 12: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 12 of 42

Beispiel: Big Lynx

Big Lynx

Firma

Matt Briggs

Scott Miller

Was ist mit Relationen wie z.B. kennt ?

Page 13: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 13 of 42

Beschreibung von Ressourcen mit RDF-Triple

Spiegelt die Struktur einfacher Sätze wider, z.B.

Matt Briggs ist eine Person

ResourceDescriptionFramework(RDF)

Subjekt Prädikat Objekt

Page 14: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 14 of 42

@prefix rdf:<http://w3.org/1999/02/22-rdf-syntax-ns#>.

@prefix foaf:<http://xmlns.com/foaf/0.1/> .

<http://biglynx.co.uk/people/matt-briggs>rdf:type foaf:Person .

Beispiel in Turtle Syntax<http://biglynx.co.uk/people/matt-briggs>

<http://w3.org/1999/02/22-rdf-syntax-ns#type>

<http://xmlns.com/foaf/0.1/Person> .

Namensräume zum Abkürzen von URIs

Etablierte Namensräume: rdf, foaf, …

Präfix ist im aktuellen Dokument gültig

Page 15: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 15 of 42

1. Verwende URIs für Relationen

B. Gazen,http://www.flickr.com/photos/bayat/, CC-BY

http://biglynx.co.uk/

people/matt-briggs

http://biglynx.co.uk/

people/scott-miller

Page 16: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 16 of 42

Beispiel: Big Lynx

Big Lynx

Firma

DBpedia

Matts private

Webseite

„dieselbe Person“

Matt Briggs

„lebt hier“

Dave Smith

London

Matt Briggs

Scott Miller

Page 17: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 17 of 42

2. Verknüpfungen herstellen

Verknüpfen von Ressourcen mit RDF-Links

Beziehungslinks

Identitätslinks

Vokabularlinks

Ermöglichen es weitere Ressourcen zu finden

Page 18: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 18 of 42

Beziehungslinks in RDF

Definieren Beziehungen zwischen Ressourcen

Beispiel

<http://biglynx.co.uk/people/dave-smith>foaf:based_near<http://dbpedia.org/resource/London> .

Externe Beziehungslinks: Subjekt und Objekt

kommen aus verschiedenen Namensräumen

Interne Beziehungslinks: gleicher Namensraum

biglynx:matt-briggs foaf:knows biglynx:dave-smith .

Page 19: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 19 of 42

Identitätslinks

URI-Aliase zur Verknüpfung von Datenquellen,

die dieselben Dinge der realen Welt beschreiben

Beispiel

<http://biglynx.co.uk/people/matt-briggs>

<http://www.w3.org/2002/07/owl#sameAs> <http://www.matt-briggs.eg.uk#me> .

Dienst für Identitätslinks: .org

Wann sind zwei Ressourcen identisch?

Page 20: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 20 of 42

Gleichheit von Entitäten Problem bekannt aus Datenbanken und

Datamining

K. Mayer und K. M. Mayer dieselbe Person?

Auflösen von Name, Koautoren, Titel und

Veranstaltungsort oftmals nicht ausreichend

413.000 DBpedia Orte mit GeoNames abgleichen

Werkzeuge zur Formulierung von Heuristiken

Page 21: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 21 of 42

Vokabularlinks

Verweise auf Definitionen in eigenen und

existierenden Vokabularen

Ziel: Daten werden selbstbeschreibend

Spezifikation eigener Vokabulare mit

RDF Vocabulary Description Language (RDFS)

Simple Knowledge Organization System (SKOS)

Web Ontology Language (OWL):

typischerweise nur owl:sameAs

Page 22: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 22 of 42

Existierende Vokabulare Friend-of-a-Friend (foaf): Personen

und Beziehungen

Dublin Core (dc): Metadaten wie Titel,

Ersteller, Datum und Thema

Programmontologie der BBC

Schema.org Web-Seiten-Markup

von Google, Bing und Yahoo!

Facebook Graph API

Page 23: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 23 of 42

Abgleich von Vokabularen

Integration von Vokabularen

Ähnlich zum Problem der Identität

Beispiel: foaf:name vs. vcard:family-name

Nicht trivial, selbst für ähnliche Vokabulare

Domänenontologien können sehr groß sein

Methoden zum Abgleich von Vokabularen und

Re-Engineering

Page 24: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 24 of 42

Beispiel: Big Lynx

DBpedia

Big Lynx

Firma

Matts private

Webseite

foaf:based_near

owl:sameAs

Matt Briggs

Dave Smith

London

Matt Briggs

„dieselbe Person“

„lebt hier“

Page 25: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 25 of 42

Nachschlagen von URIs mittels HTTP GET

Anwendbar für Dokumente und digitale Inhalte

Nachschlagen von Dingen der realen Welt ?

Verschiedene URIs für Dinge und Beschreibung

3. Dereferenzierung von URIs

Web Browser /

http://biglynx.co.uk/

people/matt-briggs

Page 26: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 26 of 42

Variante 1: 303 See Other

- Höhere Netzwerklatenz

+ Geeignet für große Datensätze, z.B. DBpedia

Linked

Data

Client

Big

Lynx

Server

HTTP GET (Accept: appl./rdf+xml)http://biglynx.co.uk/people/matt-briggs

303 See Otherhttp://biglynx.co.uk/people/matt-briggs.rdf

HTTP GEThttp://biglynx.co.uk/people/matt-briggs.rdf

200 OK(Dokument in RDF)

Page 27: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 27 of 42

Variante 2: Hash URIs

URI enthält einen mit # getrennten Teil, z. B.

http://biglynx.co.uk/vocab/sme#Team

Abschneiden des #<…>-Fragmentes

Verbleibende URI dereferenzieren

Beschreibung mehrerer Ressourcen, u. A. Team

- Höhere Datenübertragung

+ Geeignet zum Empfang ganzer Vokabulare

Page 28: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 28 of 42

Beispiel: Big Lynx

DBpedia

Big Lynx

Firma

Matts private

Webseite

foaf:based_near

owl:sameAs

Matt Briggs

Dave Smith

London

Matt Briggs

Beschreibung

von Matt?

Page 29: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 29 of 42

4. Beschreibung von URIs

Dereferenzierung einer Ressource

Liefert eine Beschreibung in RDF zurück

Was ist eine sinnvolle Beschreibung?

Page 30: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 30 of 42

Beispiel: Beschreibung von Matt

biglynx:matt-briggs

foaf:Person

biglynx:dave-smith

dp:Birmingham

rdf:type

foaf:knows

foaf:based_near

_:point

wgs84:lat

wgs84:long

dp:London

foaf:based_near

……

ex:loc

“-0.118”

“51.509”

Page 31: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 31 of 42

Concise Bounded Description

Gegeben ein RDF-Graph G = (V, P, E) mit

V = R B L endliche Knotenmenge aus

Ressourcen R, Blank-Nodes B und Literale L

P endliche Menge an Prädikaten

E R B x P x V Menge typisierter Kanten

Startknoten n R

∩ ∩

Blank-Node: eindeutige Ressource, ohne URI

Literal: XSD-typisiertes Objekt (z. B. string, int)

Page 32: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 32 of 42

Concise Bounded Description

SimpleCBD(n) = I mit

∩∞

j = 0

I 0 = { (s, p, o) | (s, p, o) E s = n }

I = { (o, p‘, o‘) E | (s, p, o) I : o B

j

jj+1

Einfache Concise Bounded Description (CBD)

Standard CBD erweitert die einfache CBD um

k = 0k

j

(o, p‘, o‘) I }

Weitere CBDs berücksichtigen bspw. noch

RDF-Reifikation, Symmetrie und RDF-Label

Page 33: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 33 of 42

Beispiel: Beschreibung von Matt

biglynx:matt-briggs

foaf:Person

biglynx:dave-smith

dp:Birmingham

rdf:type

foaf:knows

foaf:based_near

_:point

wgs84:lat

wgs84:long

“-0.118”

“51.509”dp:London

foaf:based_near

……

ex:loc

Page 34: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 34 of 42

Datensätzebeschreibenmit voiD

Profile der Mitarbeiter sind gebündelt zu einem

großen Datensatz

<http://biglynx.co.uk/datasets/people>rdf:type void:Dataset;

dc:hasPart <http://biglynx.co.uk/people/dave-smith.rdf>;

dc:isPartOf <http://biglynx.co.uk/datasets/all>.

voiD hat keine explizite Schemainformation

Page 35: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 35 of 42

Schemaextraktion

Finde Quellen mit bestimmten Datentypen

Erkenne die Verknüpfung von Datenquellen

Präzise Indexstrukturen benötigt

Beispielsweise für RDF-Typen, Typ-Cluster und

prädikatsbasierte Äquivalenzklassen

Ermöglicht verteilte Anfragen

auf der Linked-Data-Wolke

Page 36: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 36 of 42

Übersicht

Motivation

Prinzipien

1. Identifikation

2. Verknüpfung

3. Dereferenzierung

4. Beschreibung

Muster

Page 37: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 37 of 42

Muster in vernetzten Daten

Generische Lösung für ein wiederkehrendes

Modellierungsproblem

Klare Kommunikation durch festgelegte Begriffe

(Oft) eher Best Practices als Muster

[Dodds und Davis, 2011]

Page 38: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 38 of 42

Problem

Web-Seiten handeln oft von einem

bestimmten Thema

Lösung

Einbetten eines <link>-Elements

<link rel="primarytopic"

href="http://dbpedia.org/resource/London"/>

Muster: Topic Autodiscovery

Page 39: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 39 of 42

Muster: Reified Statement

Problem

Modellierung von „Aussagen über Aussagen“

Triple annotieren mit Autor, Datum der

Erstellung usw.

Lösung

Beschreibung von Graphänderungen mit

herkömmlicher RDF-Reifikation

Page 40: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 40 of 42

Beispiel: Reified Statement

_:ex1

rdf:Statement

ex:/book/1

foaf:maker

biglynx:matt-briggs

"2011-10-28"

rdf:type

dc:created

rdf:predicate

rdf:subject rdf:object

Page 41: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 41 of 42

Muster: Qualified Relation

Relation mit zwei gleichberechtigen Ressourcen

Spezieller Fall des Musters N-ary Relation

Beispiel

_:mattMaryMarriage rdf:type ex:Marriage;

ex:partner biglynx:matt-briggs;

ex:partner ex:mary;

ex:date "2010-08-06"^^xsd:date .

Warum nicht als Reified Statement?

Page 42: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 42 of 42

Zusammenfassung

Veröffentlichung und Verknüpfung von Daten

Einheitliches Datenmodell RDF

Beschreiben und Auffinden von Daten

Web-Standards wie URI und HTTP

Herausforderungen

Identität und Verknüpfung von Ressourcen

Abgleich von Vokabularen

Extrahieren von Schemata

Intuitiv benutzbare Anwendungen

Page 43: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 43 of 42

Literatur

http://linkeddatabook.com/ http://patterns.dataincubator.org/

Page 44: Linked Open Data (Entwurfsprinzipien und Muster für vernetzte Daten)

Ansgar Scherp – Entwurfsprinzipien und Muster für vernetzte Daten 44 of 42

Weitere Literatur T. Berners-Lee: Linked Data, June, 2009.

URL: http://www.w3.org/DesignIssues/LinkedData.html

T. Berners-Lee: Cool URIs don't change, 1998.

URL: http://www.w3.org/Provider/Style/URI

M. Janik, A. Scherp, and S. Staab. The Semantic Web: Collective

Intelligence on the Web. In: Informatik Spektrum, Springer, 2011.

F. Manola, E. Miller, B. McBride (eds.): RDF Primer, 2004. URL:

http://www.w3.org/TR/2004/REC-rdf-primer-20040210/#reification

L. Sauermann, R. Cyganiak, D. Ayers, M. Völkel: Cool URIs for the

Semantic Web, 2008. URL: http://www.w3.org/TR/cooluris/

P. Stickler: CBD - Concise Bounded Description, 2005.

URL: http://www.w3.org/Submission/CBD/

Talis Systems Ltd.: Bounded Descriptions In RDF, 2011. URL:

http://docs.api.talis.com/getting-started/bounded-descriptions-in-rdf

J. Volz, C. Bizer, M. Gaedke, G. Kobilarov: Discovering and

Maintaining Links on the Web of Data. ISWC, Westfields, USA, 2009.