1114 sasaki-metadata

Preview:

Citation preview

Sasaki – Markupforum 2014

Tools, offene Daten, Vokabulare und Anwendungsszenarien für

semi-automatische Metadatengenerierung

Felix Sasaki

DFKI / W3C Fellow

1

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

2

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

3

Sasaki – Markupforum 2014

Metadaten

• Häufige Anwendung im Publikationsbereich: Indexierung

– Automatisch

– Manuell

– Kombiniert

4

Sasaki – Markupforum 2014

Metadaten

• Häufige Anwendung im Publikationsbereich: Indexierung

• Standardisierte Vokabulare für manuelle Indexierung

– Bibliothek: Gemeinschaftliche Normdatei

– Verlage, Buchhändler, ....: ONIX

5

Sasaki – Markupforum 2014

Anwendungsszenario:Suche erleichtern

• „Finde alle Bücher über Stuttgart“

• „Stuttgart“ abbildbar auf Metadaten in bibliothekarischen Normdaten

– DNB http://d-nb.info/gnd/4058282-6

– LOChttp://id.loc.gov/authorities/names/n79110280

– VIAF http://viaf.org/viaf/153084910/

– ...

6

Sasaki – Markupforum 2014

WAS HABEN GEGENWÄRTIGE METADATENANWENDUNGENGEMEINSAM?

7

Sasaki – Markupforum 2014

Metadaten = Containerlabel

8

http://d-nb.info/gnd/4058282-6

http://id.loc.gov/authorities/names/n79110280

http://viaf.org/viaf/153084910/

Sasaki – Markupforum 2014

Metadaten – der nächste Schritt:Vom Container in die Inhalte

9

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

10

Sasaki – Markupforum 2014

Schritt 1: AutomatischeErkennung von Eigennamen

• <p>Welcome to Stuttgart.</p>

Input

• <p>Welcome to <span its-ta-ident-ref="http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p>

Output (als ITS 2.0 “Text Analysis” Markup)

11

Sasaki – Markupforum 2014

Schritt 2: Anreicherung der Inhalte durch Zugriff auf DBpedia via SPARQL

Nutzt DBpedia URIs aus Schritt 1.

• SELECT ?wikiURI ...WHERE{ http://dbpedia.org/resource/Stuttgartrdf:type <http://schema.org/Place>.... }

Beispielabfrage, prüft ob Entität ein Ort (place) ist

12

Sasaki – Markupforum 2014

Schritt 3: Generierung von Schema.orgMarkup und Inhalten

• Teil 1: SPARQL Query Ausgabe und

• Teil 2: Dokument

• <p>Welcome to <span its-ta-ident-ref="http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p>

Input

• <p>Welcome to <span ... Itemscope=""

itemtype="http://schema.org/Place">… Stuttgart</span>! Population: 600038</p>

Output: Dokument mit Schema.org Markup

13

Sasaki – Markupforum 2014

Outputtest mit„Structured Data Testing Tool“

14

http://www.google.com/webmasters/tools/richsnippets

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten:Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

15

Sasaki – Markupforum 2014

1) Tooling für Content Authors

• Beispiel oXygen Editor Modifikation

• Informationsquellen aus dem Web holen

– Autor muss Quellen und Abfragen auswählen können

– Strukturgenerierung muss konfigurierbar sein

16

Sasaki – Markupforum 2014

1) Tooling für Content Authors• Abfrage von Datenquellen macht Inhalte

dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“– Beispiel: Einwohnerzahl für Orte aus DBpedia

17

Sasaki – Markupforum 2014

1) Tooling für Content Authors• Abfrage von Datenquellen macht Inhalte

dynamisch – Inhalte werden intelligent und „fragen die Datenquellen ab“– Beispiel: Geburtsdatum für Personen aus DBpedia

18

Sasaki – Markupforum 2014

2) Wissen umDatenquellen und Technologien

• Technologien In a Nutshell– RDF um Daten zu repräsentieren

– SPARQL zur Abfrage

– ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu Speichern > Link zur Linked Data Cloud

• Relevante Datenquellen– Allgemein: DBpedia

– Speziell: Abhängig von der Domäne + dem Anwendungsfall

– (Potential): die eigenen, angereicherten Inhalte selbst

– Beispiel: Reiseführer über Stuttgart

19

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

20

Sasaki – Markupforum 2014

WAS IST LINKED DATA?KURZEINFÜHRUNG …

21

Sasaki – Markupforum 2014

Bausteine für das Web

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

22

Sasaki – Markupforum 2014

Inhalt

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

23

Sasaki – Markupforum 2014

Links (oder “Identifier”)

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

24

Sasaki – Markupforum 2014

Einfach: “Finde alle Seiten mit Links zu http://creativecommons.org/licenses/by/3.0/“

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

25

Sasaki – Markupforum 2014

Noch schwierig: “Finde alle Inhalte die unter einer Creative Commons Lizenz stehen“

<p>All content on this site is licensed under<a

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

26

?

Sasaki – Markupforum 2014

Linked Data =maschinenlesbare Information im Web

<p>All content on this site is licensed under<a property="http://creativecommons.org/ns#license"

href="http://creativecommons.org/licenses/by/3.0/">a Creative Commons License</a>. </p>

27

?

Sasaki – Markupforum 2014

Linked Data =maschinenlesbare Information im Web

28

Web der Dokumente Web der Daten

Sasaki – Markupforum 2014

AUFGABEN & TECHNOLOGIEN

29

Sasaki – Markupforum 2014

Aufgaben …

Linked Data erzeugen

Linked Data Vokabulare definieren

Abfrage

30

Sasaki – Markupforum 2014

Technologien

• Linked Data erzeugen: RDF (Resource Description Framework)

• Vokabulare definieren: RDFS, SKOS, OWL (für komplexe wissensbasierte Modellierung -Ontologien)

• Abfrage: SPARQL

31

Sasaki – Markupforum 2014

Linked Data = RDF „Aussagen“

32

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

http://creativecommons.org/licenses/by/3.0/

http://creativecommons.org/ns#license

Referenz zu einer Lizenz als RDF Aussage (Visualisierung):

Sasaki – Markupforum 2014

Turtle Syntax

33

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

http://creativecommons.org/licenses/by/3.0/

http://creativecommons.org/ns#license

Referenz zu einer Lizenz als RDF Aussage (Visualisierung) + Turtle Syntax:

@prefix cc: <http://creativecommons.org/ns#>.@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.<http://www.w3.org/Talks/2014/1114-sasaki-metadata/>

cc:license<http://creativecommons.org/licenses/by/3.0/>.

Sasaki – Markupforum 2014

RDF Aussagen …

34

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

http://creativecommons.org/licenses/by/3.0/

http://creativecommons.org/ns#license

Sasaki – Markupforum 2014

… auf der Basis vonVokabularien

35

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

http://creativecommons.org/licenses/by/3.0/

cc:license rdf:Propertyrdf:Type

ex:Presentationsrdf:Type

RDF Schema- Definition von Classes (example “Presentations”) und properties (like “cc:license”)OWL (Web Ontology Language)- Definition weiterer (logischer) Constraints für VokabulareSKOS- Beschreibung von Thesauri, Taxonomien, Klassifikationen

Sasaki – Markupforum 2014

Query - SPARQL

• Query Sprache für RDF

• Muster in Linkstrukturen

• Z.B. „Finde Präsentationen mit CC ... Lizenz“

Ergebnis:

http://www.w3.org/Talks/2014/1114-sasaki-metadata/

36

PREFIX cc: <http://creativecommons.org/ns#>SELECT ?presentation WHERE {?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>.}

Sasaki – Markupforum 2014

SPARQL Abfrage mit Dbpedia: „Personen die in Stuttgart vor 1900 geboren wurden“:

http://tinyurl.com/dbpedia-bsp

37

Sasaki – Markupforum 2014

Q/A in Suchmaschinen heute

38

Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014

Sasaki – Markupforum 2014

Potential: Q/A selbstgemacht

• Suche traditional

– Volltextindexierung, Linkgewichtung

• Metadaten heute

– Zugang zu Containern

• Metadaten morgen: Linked Data

– Neue Anwendungsszenarien, z.B. Q/A selbst gemacht

39

Sasaki – Markupforum 2014

Wiederholung:Metadaten = Containerlabel

40

http://d-nb.info/gnd/4058282-6

http://id.loc.gov/authorities/names/n79110280

http://viaf.org/viaf/153084910/

Sasaki – Markupforum 2014

Potential: Buchproduktionsprozess für Anwendung „Q/A via Metadaten in Inhalten“

41

Sasaki – Markupforum 2014

Potential: Buchauslieferung = Inhalte + Anreicherung

42

Sasaki – Markupforum 2014

Potential: Buchauslieferung = Inhalte + Anreicherung + Service Linked Data Abfrage über die Anreicherungen!

43

Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“• Ergebnis ist anders als Abfrage gegenüber DBpedia

„Gustav Schwab“• Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich• Linked Data Anreicherung + Anfragen: spezifisch für Markt

Reiseführer, Technische Dokumentation, ...

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

44

Sasaki – Markupforum 2014

Linked Data 1/3

Sasaki – Markupforum 2014

Linked Data 2/3

Linked Open Data Cloud

Sasaki – Markupforum 2014

Linked Data 2/3

Linked Open Data Cloud

Umfasst DNB, Library of Congress Subject Headings, VIAF, ...

Sasaki – Markupforum 2014

Linked Data 3/3

Linguistic Linked Open Data Cloud

Sasaki – Markupforum 2014

Linked Open Data Clouds –Datensätze und Themen

Linked Open Data LinguisticLinked Open Data

Öffentliche Daten 183 18.05%Publikations(Meta)daten 96 9.47%Medizin, Biologie 83 8.19%User-generated Content 48 4.73%Domänenübergreifend 41 4.04%Multimedia 22 2.17%Geoinformationen 21 2.07%Soziales Web 520 51.28%

Total 1014

LexikaThesauriEinzelsprachlichMehrsprachig…

Sasaki – Markupforum 2014

Überblick

• Metadaten: Was und warum?

• Demo zu neuen Metadaten: Tooling für Inhaltsanreicherung

• Was fehlt für Content Authors?

• Was ist Linked Data? – Kurzeinführung ...

• Offene Datenquellen im Web

• Nächste Schritte

50

Sasaki – Markupforum 2014

Nächste Schritte(und Herausforderungen)

• Datenquellen finden– Zugangspunkt

http://datahub.io/dataset?tags=lod

• Datenqualität

• Vereinfachen: Linked Data erzeugen– Z.B. CSV als Linked Data verarbeiten

• Linked Data Tooling zur Inhaltsanreicherung in Authoring Prozesse einbauen

• Abfrage + Services für Endnutzer bereit stellen

51

Sasaki – Markupforum 2014

Einstieg/Loslegen

W3C LD4LT (Linked Data for Language Technology) Community Group

• http://www.w3.org/community/ld4lt/

• https://www.w3.org/community/ld4lt/join

• https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities

• Teilnahme ist frei

LIDER: EU Projekt, November 2013 – Oktober 2015

• Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen

• Anwendungsszenarien und Anforderungen von … Ihnen

Sasaki – Markupforum 2014

Zusammenfassung

• Metadaten zur Anreicherung von Inhalten ist möglich• Prototypen Tools für Content Authors existieren• Externe, offene Linked Data Datenquellen wie DBpedia

sind wichtiger Bestandteil der Anreicherung• Angereicherte Inhalte können Basis für neue

Anwendungen wie SEO sein• Angereicherte Inhalte können selbst zur Datenquelle

werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben

• Nächste Schritte u.a.: Bereitstellung einfacher Toolkomponenten für die Markupwelt

53

Sasaki – Markupforum 2014

Tools, offene Daten, Vokabulare und Anwendungsszenarien für

semi-automatische Metadatengenerierung

Felix Sasaki

DFKI / W3C Fellow

54

Recommended