30
rdf2wp - Publikation von Daten als RDF mittels WordPress-Blogs Johannes Frey Universität Leipzig, Bachelorstudiengang Informatik [email protected]

rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

rdf2wp

-

Publikation von Daten als RDF mittels

WordPress-Blogs

Johannes Frey

Universität Leipzig, Bachelorstudiengang Informatik

[email protected]

Page 2: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Agenda

Einleitung und Motivation

Grundlagen

Anforderungen und Ziele

Systemübersicht

Import

Edit

Output

Widget

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 2

Page 3: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

E INLEITUNG UND MOTIVATION

Page 4: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Statistiken von WordPress.com

Über 12 Mio. Downloads von WordPress 3.2

rund 17.000 verfügbare Plugins

mehr als 67 Mio. WordPress Seiten

rund 500.000 Posts pro Tag

rasch wachsende Menge unstrukturierter Daten

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 4

Page 5: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Motivation

Warum Blogeinträge strukturiert publizieren?

bisher nur bei wenigen häufig genutzten Diensten strukturiertes Publizieren

Blogs jedoch haben beachtlichen Anteil an Daten im Web 2.0

in Blogs breites Spektrum (Long Tail) von Daten möglich

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 5

Page 6: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

GRUNDLAGEN

Page 7: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Semantic Web vs. Web 2.0

Web 2.0:

Nutzer nicht nur Konsumenten sondern auch Produzenten

Daten miteinander verlinkt, jedoch kaum maschinelle Verarbeitung möglich, da

Bedeutung nicht klar

Semantic Web:

Ziel: Bedeutung von Informationen maschinenlesbar machen

Informationen anhand ihrer Bedeutung miteinander vernetzt

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 7

Page 8: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

RDF – Resource Description Framework

Angabe von Metainformationen für Web-Ressourcen

URIs (Uniform Ressource Identifier) dienen zur weltweit eindeutigen Bezeichnung

von Ressourcen

Tripeldarstellung: Subjekt (zu beschreibendes Ding),

Prädikat (Eigenschaft),

Objekt (Wert)

Subjekt und Prädikat immer durch URIs repräsentiert,

Objekt Literal oder URI (anderes Subjekt)

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 8

Page 9: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Blogeintrag als Ressource

Blogeintrag ist ein Subjekt

URI eines Blogeintrags ist Permalink

besitzt Eigenschaften wie Autor, Datum, Thema usw. mit entsprechenden Werten

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 9

Blogeintrag

hatAutor

Autor 2 Autor 1

hatVornamen

Max

Page 10: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

ANFORDERUNGEN UND Z IELE

Page 11: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Ziele von rdf2wp

Semantifizierung eines WordPress-Blogs durch:

Import von semantischen Daten

Anlegen und Editieren von semantischen Daten

Bereitstellung dieser Daten via Linked Data

menschenlesbare Präsentation dieser Daten

möglichst benutzerfreundliche Umsetzung der o.g. Punkte

möglichst wenig fachliche Vorkenntnisse des Nutzers

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 11

Page 12: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Vorstellung Anwendungsfälle - 1

Catalogus Professorum Lipsiensis der Universität Leipzig

Professorenkatalog in Form eines Triplestore

Einsatzziel rdf2wp:

Import der Daten in ein WordPress

Editiermöglichkeit der Daten

menschenlesbare Publikation der Daten

„Stöberfunktionen“ wie Sortieren nach Kategorien usw.

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 12

Page 13: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Vorstellung Anwendungsfälle - 2

Klappstuhlclub

Social Community, hält Treffen in verschiedenen Städten und Orten ab

Organisation des Themas, Orts u.a. über WordPress

Einsatzziel rdf2wp:

o.g. Daten sollen strukturiert publiziert werden

Benutzerfreundlichkeit durch Verschleierung der techn. Konzepte

Bereitstellung der Daten mittels Linked Data

Anreizschaffung für Aufwand durch Statistiken

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 13

Page 14: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

SYSTEMÜBERSICHT

Page 15: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Einteilung in Pakete

4 Pakete: Import, Edit, Output, Widget

zusätzlich: PHP RDF Library ARC2 als separates Paket

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 15

Parser

ARC2-Tripeldarstellung

Editor

Importer HTML-View Widgets

Linked Data Interface

SPARQL-Endpunkt(e)

WP-DB

Exporter

Text Infobox Turtle

Templates

Turtle

NTriples

Tripel

Turtle JSON

RDF/XML NTriples

Query

RDF/XML

Infobox

Tripel

Query NTriples

RDF/XML

WP-DB: WordPress-Datenbank : mit entsprechendem Parseraufruf

Tripel Tripel

Page 16: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Import Paket

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 16

Parser

ARC2-Tripeldarstellung

Editor

Importer HTML-View Widgets

Linked Data Interface

SPARQL-Endpunkt(e)

WP-DB

Exporter

Text Infobox Turtle

Templates

Turtle

NTriples

Tripel

Turtle JSON

RDF/XML NTriples

Query

RDF/XML

Infobox

Tripel

Query NTriples

RDF/XML

WP-DB: WordPress-Datenbank : mit entsprechendem Parseraufruf

Tripel Tripel

Page 17: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Importfunktion

Import von RDF Ressourcen aus beliebigen SPARQL-Endpunkten

frei definierbare SPARQL-Anfrage

Speichern des Ergebnisses im Turtle-Format im Text des Blogeintrags

Features für Professorenkatalog:

jeder Professor erscheint als einzelner Post

Kategorisierung nach Klassen

Anlegen von Unterkategorien nach Attributwert

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 17

Page 18: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Importfunktion

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 18

HTML Anzeige eines importierten Professors

Automatisiertes Kategorisieren der importierten Professoren

Page 19: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Edit Paket

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 19

Parser

ARC2-Tripeldarstellung

Editor

Importer HTML-View Widgets

Linked Data Interface

SPARQL-Endpunkt(e)

WP-DB

Exporter

Text Infobox Turtle

Templates

Turtle

NTriples

Tripel

Turtle JSON

RDF/XML NTriples

Query

RDF/XML

Infobox

Tripel

Query NTriples

RDF/XML

WP-DB: WordPress-Datenbank : mit entsprechendem Parseraufruf

Tripel Tripel

Page 20: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Edit Paket

nutzt integrierten WordPress-Editor

semantische Daten werden in gewöhnlichen Blogtext eingebettet

definierbare Templates unterstützen Erstellen von Einträgen und vermeiden

Syntaxfehler

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 20

Template-Dialog mit Buttons für verschiedene Templates oben rechts

Page 21: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Infobox Syntax

eigens entwickelte RDF-Repräsentationssprache

Vorteile:

gute Lesbarkeit

kurze, einfache und intuitive Darstellung

Nachteil: verringerte Ausdrucksstärke

Merkmale:

Subjekt ist stets Permalink des Posts

Einträge sind Paare aus Prädikat und Objekt

Präfixe zur Verkürzung definierbar

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 21

Page 22: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Infobox Syntax Beispiel

[semantics format="infobox"]

| nummer = "300"^^xsd:int

| stadt = "Leipzig"

| anwesend = :Wolf, :Claus, be:Joerg

| bild = <http://www.ksc.de/pics/bild.jpg>

[/semantics]

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 22

Kennzeichnungsbereich semantischer Daten

Kennzeichnung der Syntax

Prädikat (mit implizitem Präfix)

Datentyp des Literals (mit Präfix)

URI-Objekt (mit Präfix be)

URI-Objekt

Literal -Objekt

Aufzählung von Objekten

Page 23: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Output Paket

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 23

Parser

ARC2-Tripeldarstellung

Editor

Importer HTML-View Widgets

Linked Data Interface

SPARQL-Endpunkt(e)

WP-DB

Exporter

Text Infobox Turtle

Templates

Turtle

NTriples

Tripel

Turtle JSON

RDF/XML NTriples

Query

RDF/XML

Infobox

Tripel

Query NTriples

RDF/XML

WP-DB: WordPress-Datenbank : mit entsprechendem Parseraufruf

Tripel Tripel

Page 24: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Export und Linked Data

Export semantischer Daten aus allen Posts (z.B. in einen Triplestore)

Download Links unterhalb der Blogansicht in 4 Formaten

Unterstützung von Linked Data

Bereitstellung aller Tripel eines Posts durch Aufruf des Permalinks mittels HTTP-

Request (Content Negotiation)

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 24

Page 25: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

HTML Ansicht

Darstellung der semantischen Daten direkt im Fließtext

Tabellendarstellung (links Prädikat, rechts Objekt)

URIs als Hyperlink

Aktionen bei bestimmten Prädikaten (z. B. Einbindung eines Bildes)

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 25

HTML Anzeige der Daten mit Export Links

Page 26: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Parser

Parser wandeln die verschiedenen RDF-Formate ineinander um

rdf2wp nutzt für alle Pakete als Schnittstelle das interne ARC2 Tripelformat, sodass

Erweiterungen einfach zu realisieren sind

unterstützend zum Editieren existiert eine RDF-Parser Konsole

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 26

Baumansicht der RDF-Parser Konsole mit Fehlermeldung (rot)

Page 27: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Widget Paket

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 27

Parser

ARC2-Tripeldarstellung

Editor

Importer HTML-View Widgets

Linked Data Interface

SPARQL-Endpunkt(e)

WP-DB

Exporter

Text Infobox Turtle

Templates

Turtle

NTriples

Tripel

Turtle JSON

RDF/XML NTriples

Query

RDF/XML

Infobox

Tripel

Query NTriples

RDF/XML

WP-DB: WordPress-Datenbank : mit entsprechendem Parseraufruf

Tripel Tripel

Page 28: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Widgets

dynamische Darstellung von SPARQL-

Anfragen in Tabellenform in WordPress

Sidebar

frei konfigurierbar für verschiedene

Kategorien, Endpunkte und Anfragen

ermöglichen nach Export aller Daten globale

Sicht

möglicher Anreiz für den Mehraufwand

strukturierte Daten zu publizieren

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 28

Widgets für Mitgliederseiten

Page 29: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

Ausblick - Präsentationsmöglichkeiten

02.12.2011 SKIL 2011: Johannes Frey, rdf2wp Seite 29

Fokus bei rdf2wp primär auf Editieren und Publizieren von semantische Daten als

auf Präsentation

Fazit Klappstuhlclub: Widgets zwar flexibel, jedoch komplizierte Konfiguration

(SPARQL) und zu schlichte Präsentation wenig Motivation

bessere Präsentation mit anderen Tools möglich

semantische Daten aus Triplestore konvertiert und mit Exhibit visualisiert

Page 30: rdf2wp Publikation von Daten als RDF mittels WordPress-Blogsskill.informatik.uni-leipzig.de/blog/wp-content/uploads/2011/12/SKIL2011_Frey.pdfrdf2wp nutzt für alle Pakete als Schnittstelle

?

FRAGEN ? ?

?