23
Linked Open Data :: ZBIW-Seminar :: Hans-Georg Becker Semantic Web in Bibliotheken mal praktisch

Semantic Web in Bibliotheken mal praktisch

Embed Size (px)

Citation preview

Page 1: Semantic Web in Bibliotheken mal praktisch

technische universität

dortmund

Universitätsbibliothek

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Semantic Web in Bibliotheken mal praktisch

Page 2: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Eine kleine Erinnerung

2

Page 3: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Resource Description Framework (RDF)

3

Formale Sprache zur Darstellung von

strukturierten Daten -> XML

Formale Sprache zur Darstellung von

strukturierten Informationen mit Hauptaugenmerk auf

der Erhaltung der Semantik der Information und der

Verknüpfung von Ressourcen untereinander -> RDF

Jede Ressource wird eindeutig und dauerhaft

beschrieben -> URI

Page 4: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Die Bibliothek als Organisation

4

- benötigt ein URI

- hbz-Service: lobid.org/organisation prägt solche URIs

auf Basis des Online-ISIL-Verzeichnisses und der

MARC Organization Code Database

- Beispiel:

http://lobid.org/organisation/DE-290

- Also bitte nichts neues erfinden! Das hbz hat das für

uns schon gemacht

Page 5: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Semantische Anreicherung und Annotation von

HTML mit RDFa

5

RDFa ist ein Ansatz, bei dem in (X)HTML eingebettet wird.

Dazu wurde die (X)HTML-Syntax geringfügig erweitert. RDFa ist ausdrucksstark, da

man nicht auf bestimmte Themengebiete beschränkt ist, sondern mittels geeigneter

Ontologien Dinge aus allen Gebieten beschreiben kann.

<div about="http://lobid.org/organisation/DE-290" typeof="foaf:Organization"

class="Organisation">

<h1 property="foaf:name">Universitätsbibliothek Dortmund</h1>

<h2>ISIL: <span property="dcterms:identifier">DE-290</span></h2>

<div rel="geo:location" class="location">

<div typeof="rdf:Description“>

<span property="geo:lat" content="51.4943000"/>

<span property="geo:long" content="7.4154900"/>

</div>

</div>

</div>

Page 6: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Ein weiteres Beispiel mit RDFa

6

Online-Findbücher des Universitätsarchivs der TU Dortmund (im Aufbau, geht im Januar 2011

online)

<div xmlns:foaf="http://xmlns.com/foaf/0.1/"

xmlns:dcterms="http://purl.org/dc/terms/"

xmlns:pvn="http://purl.org/archival/provenance/0.1#"

xmlns:bibo="http://purl.org/ontology/bibo/"

xmlns:vcard="http://www.w3.org/2006/vcard/ns#">

<div about="#collection" typeof="pvn:Collection">

<div property="dcterms:title" content="Nachlass Ulrich Freyhoff"></div>

<div property="dcterms:creator" content="Dr. Stephanie Marra"></div>

<div property="dcterms:extent" content="Nachlass Prof. Dr. Ulrich Freyhoff (&gt;

Teilnachlass im Rara-Raum: YQ 274)</emph><lb/><lb/>Ulrich Freyhoff wurde am [ttt]. [mm].1923 in

Oranienburg geboren. [...]"></div>

<div rel="pvn:heldBy">

<div about="http://lobid.org/organisation/DE-290" typeof="foaf:Organization">

<span property="foaf:name" content="Archiv der TU Dortmund"></span>

</div>

</div>

</div>

</div>

Page 7: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

HTML-Attribute für RDFa

7

• „about“ identifiziert Subjekt

• „property“ identifiziert Prädikat

• „content“ identifiziert Objekt

• Wenn kein „content“ Attribut angegeben ist wird der Textknoten

benutzt

• „datatype“ identifiziert den Datentyp für das Objekt

• „rel“ gibt Informationen über den Gebrauch der Ressource

• „href“ identifiziert das Ressourcen Objekt

• „rev“ = „rel“ Rückwärts

Page 8: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Kleiner Exkurs: Prägen von URIs

8

- Wie wähle ich den URI? Möglichst Standards

z.B. LoC- oder OCLC-Nummer, OpenLibrary-ID, ISBN,

ISSN …

- Baut man Daten und deren URIs automatisch bei

Veränderung der Daten immer wieder neu auf, so muss

die Erzeugung der URIs reproduzierbar sein! -> nicht

trivial

- Wie definiert man eine stabile Domain? Z.B.

http://www.purl.org

Page 9: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Weitere Technik: Mikroformate

9

Mikroformate sind ein Markup-Format zur semantischen

Annotation von HTML oder XHTML.

Mikroformat-Annotationen können leicht aus Webseiten

extrahiert werden und machen weiteren Programmen

(etwa Suchmaschinen) die Bedeutung des Seiteninhalts

verständlich.

Jedes Mikroformat wurde für ein spezielles Themen-

oder Wissensgebiet entwickelt.

(vgl. Seite „Mikroformate“. In: Wikipedia, Die freie Enzyklopädie. Bearbeitungsstand: 23. September 2010, 07:37

UTC. URL: http://de.wikipedia.org/w/index.php?title=Mikroformate&oldid=79440500 (Abgerufen: 28. November

2010, 09:01 UTC) )

Page 10: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Mikroformate für Termine: hCalendar

10

hCalendar basiert auf dem Standard iCalendar / iCal

(RFC2445)

Die Definition des Mirkroformats wird durch ein link-Tag

im Header der HTML-Datei angegeben:

<link rel="profile"

href="http://microformats.org/profile/hcalendar"

/>

Page 11: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Beispiel für hCalendar: Programm InetBib-Tagung

11

<div id="i-head" class="vevent">

<img src="http://www.ub.uni-dortmund.de/inetbib2010/logos/logo2010.jpg"

alt="Logo Inetbib-Tagung" height="98" width="430" class="i-logo" />

<br />

<span class="summary">11. InetBib-Tagung</span>

vom <abbr title="20100414T1230" class="dtstart">14.</abbr>

bis <abbr title="20100416T1300" class="dtend">16. April 2010</abbr>

in <span class="location">R&auml;mistrasse 101, Z&uuml;rich</span>

</div>

Page 12: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Mikroformate für Kontaktinformationen: hCard

12

hCard basiert auf dem Standard vCard (RFC2426)

Hier lautet der Eintrag im HTML-Header:

<head

profile="http://microformats.org/profile/hcard">

Oder

<link rel="profile"

href="http://microformats.org/profile/hcard">

Page 13: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Beispiel für hCard: Ansprechpartner der UB Do

13

<tr class="vcard" id="hcard-Hans-Georg-Becker">

<td headers="name" class="fn n">

<span class="given-name">Hans-Georg</span>

<span class="family-name">Becker</span>

</td>

<td headers="tele" class="tel">

<span class="type unsichtbar">work </span>0231 / 755 – 4036

</td>

<td headers="mail">

<a class="email" href="mailto:[email protected]

dortmund.de">[email protected]</a>

</td>

</tr>

Page 14: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Mikroformate für bibliographische Daten

14

COinS – ContextObjects in Spans

Basiert auch dem Standard Open URL / Z39.88

Keine Definition im Header der HTML-Datei notwendig.

Ermöglich die Übernahme von bibliographischen

Informationen z.B. in Literaturverwaltungssysteme wie

Zotero oder Citavi

Page 15: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Beispiel für COinS: Neuerwerbungslisten

15

<a href="http://www.ub.tu-dortmund.de/katalog/titel/1302773">

<strong>Casters, Matt</strong></a><br>

Pentaho Kettle solutions : building open source ETL solutions with Pentaho Data

Integration<br>

Indianapolis, Ind.: Wiley, 2010<br>

ISBN: 978-0-470-63517-9<br>

Zweigstelle: BI | Abteilung: BI | Signatur: 3331/Cast

<span class="Z3988" title="ctx_ver=Z39.88-

2004&amp;rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Abook&amp;rft.genre=book&amp;rf

t.btitle=Pentaho+Kettle+solutions&amp;rft.title=Pentaho+Kettle+solutions&amp;rft.a

u=Casters,+Matt&amp;rft.date=2010&amp;rft.pub=Wiley&amp;rft.place=Indianapolis,+In

d.&amp;rft.isbn=978-0-470-63517-9&amp;rft.edition=">

<br>

</span>

...

</p>

Page 16: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Beispiele für COinS:

16

… gibt es reichlich

-Blogbeiträge werden mittlerweile mit COinS versehen

-Die Neuerwerbungslisten der UB Dortmund

-Unser Katalog (ja, geht sogar mit SISIS ;-) )

-Und unser Zeitschrifteninformationsdienst ZID

-…

Page 17: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Was passiert nun mit den so veröffentlichten

Informationen?

17

Es gibt derzeit drei interessante Anwendungsformen:

- Der Browser als „Agent“

- Aggregation:

- Crawling, z.B. durch Google & Co.

- Wahrscheinlicher: Verwendung von GRDDL

Page 18: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Anwendung: User Agents, Browser Add-Ons

18

Browser als „Information broker“ kommt der Idee der intelligenten Softwareagenten

des Semantic Web schon sehr nahe.

Beispiele für Firefox: Plugins „Operator“ & „Tails“

Page 19: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Das Projekt GRDDL

19

- GRDDL ist eine Methode, um RDF-Tripel aus XML-, also auch

aus XHTML-Dokumenten, zu extrahieren, um mittels Semantic

Web Technologien, wie der Abfragesprache SPARQL auf die

Daten zugreifen zu können.

- W3C bezeichnet GRDDL auch als „Bridge Between

HTML/Microformats and Semantic Web“ .

- GRDDL nutzt dabei den XSLT-Standard zur Transformation von

XML-Dialekten.

Page 20: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Ein Beispiel: Transformation von XHTML-Dokumenten

20

Referenzierung des XSLT-Skripts im <head>-Tag

- entweder das XSLT-Skript direkt referenziert

[...]

<head profile="http://www.w3.org/2003/g/data-view">

<title>Webseite mit hcalender-Informationen</title>

<link rel="transformation" href="http://www.w3.org/2002/12/cal/glean-hcal"/>

</head>

[...]

- oder indirekt über ein spezielles Metadatenprofil, in dem sich das Skript befindet

[...]

<head profile="http://purl.org/NET/erdf/profile">

<title>Webseite mit eRDF</title>

</head>

[...]

Page 21: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

User Agent: W3C GRDDL Service

21

Page 22: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

Tools für GRDDL

22

• Online Demo für Transformationen mittels GRDDL

vom W3C (http://www.w3.org/2004/01/rdxh/grddl-xml-

demo )

• GleanPy (http://www.w3.org/2003/g/glean.py )

Python Script für GRDDL Transformationen

• Raptor RDF Parser Toolkit (http://librdf.org/raptor/ )

Open Source C Bibliothek zum auslesen von RDF

Trippeln

Page 23: Semantic Web in Bibliotheken mal praktisch

Linked Open Data :: ZBIW-Seminar ::

Hans-Georg Becker

23

Let‘s do it!