50
DYNAMISCHE KATALOGANREICHERUNG AUF BASIS VON LINKED OPEN DATA 101. Deutscher Bibliothekartag Hamburg, 24.05.2012 Heiko Jansen / Pascal Christoph

Dynamische Kataloganreicherung auf Basis von Linked Open Data

  • Upload
    hjansen

  • View
    531

  • Download
    0

Embed Size (px)

DESCRIPTION

Vortrag auf dem 101. Deutschen Bibliothekartag, Hamburg, 24.05.2012 Heiko Jansen, Pascal Christoph Hochschulbibliothekszentrum des Landes NRW

Citation preview

Page 1: Dynamische Kataloganreicherung auf Basis von Linked Open Data

DYNAMISCHEKATALOGANREICHERUNG AUF BASIS VON LINKED OPEN DATA101. Deutscher BibliothekartagHamburg, 24.05.2012

Heiko Jansen / Pascal Christoph

Page 2: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Dieser Vortrag - inklusive der durch die Autoren erstellten Grafiken auf den Folien 17, 18 und 22 - steht unter einer Creative Commons Namensnennung 3.0 Deutschland Lizenzhttp://creativecommons.org/licenses/by/3.0/de/

Davon ausgenommen sind die übrigen verwendeten Grafiken, Bilder und Screenshots, deren individuelle Rechte und Lizenzbedingungen fortgelten.

Page 3: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

ÜBERSICHT

Definition Methoden Projekt-Praxis

TechnikMatchingVerlinkung

Mögliche Weiterentwicklung Fazit & Anwendungsbeispiel

3

24.05.2012

Page 4: Dynamische Kataloganreicherung auf Basis von Linked Open Data

KATALOGANREICHERUNG?

Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…

Page 5: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

DEFINITION

Jegliche Ergänzung vorhandener Datensätze um zusätzliche InformationenLinks zum VolltextSchlagwörterUmschlagbilder ...

Herkunft egal (Benutzer, Bibliotheken, Firmen...)

Neue Funktionen: nur mittelbar

5

24.05.2012

Page 6: Dynamische Kataloganreicherung auf Basis von Linked Open Data

„INSTANT GRATIFICATION“

Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…

Page 7: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Die verwendete Grafik wurde aus lizenzrechtlichen Gründen (vgl. http://www.istockphoto.com/license.php) zunächst entfernt, bis wir Klarheit über die Nutzungsbedingungen haben…

Page 8: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

TYPISCHE ANREICHERUNGSMETHODEN8

24.05.2012

http://findicons.com/pack/1014/ivista

Page 9: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

VOR- UND NACHTEILE

Dynamisches Mashup:

+Aktuell

+Relativ geringer Aufwand je Quelle

Benötigt (performante) API

Keine Recherche über die Daten

Lokale DB:

+Aufwendigere Zusammenführungen möglich

+Daten nutzbar für Recherche und weitere Funktionen

Hoher kontinuierlicher Aufwand für jede Quelle

9

24.05.2012

Page 10: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

GRUNDIDEE DES PROJEKTS

Aggregation von LOD aus verteilten Quellen

Daten für beide Wege verfügbar machen Lokalen Aufwand minimieren

Homogenisierte Daten zum ImportEine API für viele Bestände

10

24.05.2012

Page 11: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

INFRASTRUKTUR

RDF-basierte Speicherung mit SPARQL Endpoint

Einfaches Hinzufügen neuer Daten Nachnutzbar „Selbst-beschreibender“ Dump „API“ inbegriffen

11

24.05.2012

Page 12: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Praxis12

Page 13: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

AUSGANGSLAGE – LOBID.ORG RDF Store mit SPARQL Endpoint: 4store Open Data aus dem Verbundkatalog „hbz01“ 10 M Titeldatensätze <=> 300 M Triple Bereits bestehende Verknüpfungen des

Katalogs: 58.000 zu b3kat 103.000 zur Dewey DC 192.000 zu DNB Titeldaten 702.886 zur ZDB 5.500.000 zur LOC Iso-639-2 9.600.000 zur GND Normdatei 18.000.000 zu lobid-organisation

13

24.05.2012

Page 14: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

VERLINKUNGSSOFTWARE

Silk Culturegraph Google Refine TEL: „Unified Ingestion Manager“

(Service) ... eigene einfache Programme

14

24.05.2012

Page 15: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

MATCHINGALGORITHMEN

Abhängig von DatenSpannende Daten liegen „woanders“

=> andere Regelwerke

Beispiel DBpedia:Autor, ISBN usw. fehlt meistens => bleibt

TitelEingrenzungen:

deutsche DBpedia category:Literarisches_Werk ,

category:Lexikon,_Enzyklopädie

15

24.05.2012

Page 16: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

PROBLEME: DISAMBIGUIERUNG

Matching zu ungenau Postprozessierung:

nur Bündel mit gleichem Autor zulassen

16

24.05.2012

Page 17: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

BÜNDEL MIT GLEICHEM AUTOR

17

24.05.2012

Page 18: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

BÜNDEL MIT VERSCHIEDENEN AUTOREN

18

24.05.2012

Page 19: Dynamische Kataloganreicherung auf Basis von Linked Open Data

LOW-HANGING FRUIT

Kai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0

Page 20: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

TRIPLIFIZIERUNG

Properties finden oder selber prägen rdrel:workManifested=> Triple:

<lobid-resource> rdrel:workManifested <dbpedia-resource>

20

24.05.2012

Page 21: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

INDEXIERUNG

Lizenzfragen klären Triples importieren in SPARQL-Endpoint Eigener „named Graph“ bietet Vorteile:

Leicht löschbar/veränderbarProvenienz verfolgbarEingrenzung von Abfragen auf Named

Graphs

21

24.05.2012

Page 22: Dynamische Kataloganreicherung auf Basis von Linked Open Data

NAMED GRAPHS

Page 23: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

WAS WURDE ERREICHT?

12.000 „sichere“ Links zu 4.000 DBpedia Ressourcen => 4000 neue „Work“-Ebenen (von 33.000 möglichen)

Durchschnittliche Bündelgröße: 3 Links nach freebase: 3.000 1 Link zur linkedmdb 0,1 % Anreicherung

23

24.05.2012

Page 24: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

WAS WURDE ERREICHT?

5.500 Links zu 400 Project Gutenberg Ressourcen (Volltexte) => 0,05% Anreicherung

1.200.000 Links zur Work-Ebene der Open Library=> 12,5% Anreicherung

24

24.05.2012

Page 25: Dynamische Kataloganreicherung auf Basis von Linked Open Data

LOW-HANGING FRUIT

Kai Schreiber, „Reiche Ernte” 7. August 2005 via Flickr CC BY-SA 2.0

Page 26: Dynamische Kataloganreicherung auf Basis von Linked Open Data

BEISPIEL

DBpedia:

„Die Heilige Johanna der Schlachthöfe“

Page 27: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 28: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 29: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 30: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 31: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

BEISPIEL

Open Library

„Der Herr der Ringe“

31

24.05.2012

Page 32: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 33: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 34: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 35: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

INTEGRATION IN KATALOGE

Was darf übernommen werden, was nicht? Was sollte übernommen werden, was

nicht? Menschen-lesbare Anzeige der Links/URIs (Manche) Daten sollten lokal indexiert

werden (zur Recherche) ...

35

24.05.2012

Page 36: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

WARUM LINKED OPEN DATA ?

Richtig ist: „Warum nicht LOD?“ Gute Tools wie SILK basieren auf SPAQRL Linked Data impliziert kontrolliertes

Vokabular, Identifier, weitere Links … <= ideal!

Linked Open Data: Daten lassen sich nachnutzen/zwischenspeichern/verändern … <= ideal!

36

24.05.2012

Page 37: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

HINTERGRUND

Prefix-Auflösung: http://prefix.cc/rdrel Blog Beitrag mit SILK

Konfigurationsbeispielhttps://wiki1.hbz-nrw.de/display/SEM/2012/05/03/First+results+using+SILK+to+link+to+DBpedia

49 bibliographische Datenquellen als LODhttp://thedatahub.org/group/bibliographic?tags=lod

37

24.05.2012

Page 38: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Weiterentwicklung38

Page 39: Dynamische Kataloganreicherung auf Basis von Linked Open Data

39

Jewish Historical Society of the Upper Midwest; http://www.flickr.com/photos/jhsum-commons/4419490136/

Page 40: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

POTENTIALE

Mehr Datenquellen Vokabular-Mapping Mehr Verknüpfungen

(FRBR-Werke oder coref oder ...)

40

24.05.2012

Page 41: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

AUSBAUSTUFEN / A

Sammlung von Informationen zu nicht im NRW-VK nachgewiesenen Titeln => Dienstleistung für Dritte

(Stabile) APIAbstraktionsebene für Datenhaltung und

SucheEinfacher für Anwender

41

24.05.2012

Page 42: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

AUSBAUSTUFEN / B42

24.05.2012

Page 43: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Jansen / Christoph - Kataloganreicherung mit LOD

AUSBAUSTUFEN / C

Sammelstelle für kollaborativen Content,

z. B. Tagging?Upload von Identifier/Tag Informationen aus

verteilten Systemen„Kritische Masse“ gemeinsam erreichbar

43

24.05.2012

Page 44: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Fazit44

Page 45: Dynamische Kataloganreicherung auf Basis von Linked Open Data

45

The Library of Congress, http://www.flickr.com/photos/library_of_congress/4037490394/

Page 46: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 47: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 48: Dynamische Kataloganreicherung auf Basis von Linked Open Data
Page 49: Dynamische Kataloganreicherung auf Basis von Linked Open Data

http://app.cheezburger.com/TemplateView.aspx?ciid=1131803

Page 50: Dynamische Kataloganreicherung auf Basis von Linked Open Data

Vielen Dank!50

Rückfragen jederzeit:

[email protected]+49 221 400 75 – 150

[email protected]+49 221 400 75 – 139