32
Jetzt kommt zusammen, was zusammen gehört Verbundübergreifende Datenkonsolidierung und wie man damit große Bestände effizient retroklassifiziert Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart [email protected]

Jetzt kommt zusammen, was zusammen gehört

Embed Size (px)

DESCRIPTION

Verbundübergreifende Datenkonsolidierung und wie man damit große Bestände effizient retroklassifiziert. Vortrag vom 22. Mai 2012 auf dem 101. Bibliothekartag in Hamburg.

Citation preview

Page 1: Jetzt kommt zusammen, was zusammen gehört

Jetzt kommt zusammen,was zusammen gehört

Verbundübergreifende Datenkonsolidierung und wie man damit große Bestände effizient retroklassifiziert

Prof. Magnus PfefferHochschule der Medien, [email protected]

Page 2: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 2

Ausgangslage

Konsolidierung von Erschließungsdaten

Softwaregestützte Retroklassifikation

Ausblick

Überblick

Page 3: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 3

Ausgangslage

Page 4: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 4

Retroklassifikation Freihandbestand UB Mannheim Seit 2001 5 große Bibliotheksbereiche statt 11 kleine

Bereichsbibliotheken RVK als einheitliche Klassifikation Wunsch nach mehr Fremddaten

2004: Weniger als 50% der Titel mit RVK

Anlass

Page 5: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 5

Herzfeld, Hans: Der erste Weltkrieg

18 Titelsätze im BVB davon 11 mit RSWK, 8 mit RVK

Friedell, Egon: Kulturgeschichte der Neuzeit

31 Titelsätze im BVB davon 21 mit SWD, 17 mit RVK

Tanenbaum, Andrew S.: Computer Networks

44 Titelsätze im BVB davon 19 Deutsch, 15 Englisch, 1 Chinesisch davon 38 mit RSWK, 31 mit RVK

Inkonsistente Erschließung

Page 6: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 6

Tanenbaum, Andrew S.: Computer Networks

RVK Notationen ST 200: 31 Titel

Informatik-Monografien-Vernetzung, verteilte Systeme-Allgemeines, Netzmanagement

ST 205: 3 Titel Informatik-Monografien-Vernetzung, verteilte Systeme-Internet

allgemein

QH 500: 2 Titel Wirtschaftswissenschaften-Mathematik. Statistik. Ökonometrie.

Unternehmensforschung-Wirtschaftsinformatik. Datenverarbeitung

MS 7965: 1 Titel Soziologie-Spezielle Soziologien-Soziologie der

Massenkommunikation und öffentlichen Meinung, Mediensoziologie-Internet, neue Medien

Inkonsistente Erschließung

Page 7: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 7

Konsolidierung von Erschließungsdaten

Page 8: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 8

Grundidee: Übernahme von SWD und RVK aus Vorauflagen Parallelausgaben Übersetzungen

Ausgangsdaten Verbunddatenbank Südwestverbund und Hebis MAB2 Format

Projekt 2010-2011

Page 9: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 9

Umsetzung Vergleich auf Basis von

Einheitssachtitel Feld 304_

Titel und Untertitel Felder 331_, 335_

Autoren und Urheber Felder 100_, 104a, 108a, 200_, 204a, 208a

beteiligte Personen und Körperschaften Felder 100b, 104b, 108b, 200b, 204b, 208b

Übernahme beiidentischem (Einheitsach-)Titel UND einer Übereinstimmung

bei Person/Körperschaft

Page 10: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 10

Algorithmus Berechne für alle Titel

Wenn Feld 304_ vorhanden Suche Titel mit identischem Feld 304_ Vergleiche Autoren, Urheber und beteiligte

MATCH, wenn eine Übereinstimmung vorhanden Sonst (nur Feld 331_ und 335_ vorhanden)

Suche Titel mit identischen Feldern 331_ und 335_ Vergleiche Autoren, Urheber und beteiligte

MATCH, wenn eine Übereinstimmung vorhanden

Technische Umsetzung Perl unter Linux Indexstrukturen im Hauptspeicher (>4GB)

Umsetzung

Page 11: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 11

5.809.349 Titel mit mindestens einem Match Davon

3.269.340 ohne SWD 3.627.017 ohne RVK

Anreicherung durch Übernahme möglich bei 636.462 mit SWD 959.419 mit RVK

Ergebnisse: SWB

Page 12: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 12

4.535.618 Titel mit mindestens einem Match Davon

3.068.968 ohne SWD 3.071.022 ohne RVK

Anreicherung durch Übernahme möglich bei 1.179.133 mit SWD 992.046 mit RVK

Ergebnisse: Hebis

Page 13: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 13

Daten zum Download Textformat, bz2-Archiv Titel-ID und gefundene Matches

Linked Open Data RDF-Tripel der Form ID-equalsForClassification-ID http://data.bib.uni-mannheim.de

Daten an die Verbundzentralen Titel und gefundene SWD-IDs und RVK-Notationen

Nachnutzung

Page 14: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 14

Prüfung Online im Linked-Data Web

Verbünde erlaubten Titeldarstellung Matches untereinander verlinkt Wer: Externe Interessierte

Testdatenbanken der Verbünde Einspielung der gelieferten Daten in Auszügen Stichproben und Recherchen möglich Wer: Sacherschließer und interessierte Verbundnutzer

→ Hohe Qualität der Ergebnisse bestätigt

Page 15: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 15

Beispiel Schlagwörter im SWB 451.677 angereicherte Titel bei Daten nur aus SWB 636.462 bei SWB plus Hebis

Mehr Quellen – mehr Daten?

Page 16: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 16

Mehr Quellen – mehr Daten? Beispiel RVK UB Mannheim

Bibliotheksbereich A5, Sozialwissenschaften 63.300 Titel zu bearbeiten 44.991 Titel mit RVK-Notationen im SWB 45.610 Titel mit Übernahme aus SWB und Hebis 48.454 Titel mit Übernahme aus SWB, Hebis, BVB

(Nur experimentell; Suchen der Titel über den BVB-Verbundkatalog)

Page 17: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 17

Softwaregestützte Retroklassifikation

Page 18: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 18

Software-Tool Anforderungen

Aggregation möglichst vieler Fremddaten Einfache Auswahl bereits vorhandener Notationen Bearbeiten großer Datenbestände (>100.000 Titel) Intuitive Bedienung Keine aufwändige Installation

Page 19: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 19

Software-Tool Umsetzung

Datenkonsolidierung wie beschrieben Einschränken der Metadaten auf relevante Felder Eigene, lokale Datenbank

Schneller Zugriff Optimiert auf eine Anwendung

Programmiersprache Java Alle Elemente für die GUI vorhanden Plattformunabhängig Einfache Installation des Programms

Page 20: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 20

Hauptfenster

Spalten=Metadatenelemente

Sortierung auf- und absteigend

Zeilenhöhe einstellbar

RVK Notationen

Mouseover: RVK-HierarchieAnklicken: Auswahl

Page 21: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 21

Schnellfilter

Page 22: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 2229. März 2012 Seminar RVK

Erweiterte Filter

Page 23: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 23

Farbige Hervorhebung

Page 24: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 24

Strategie: Inhaltlich homogene Liste

Page 25: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 25

Strategie: Eindeutige RVK

Page 26: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 26

Links zu externen Quellen Dynamische Links

Suche in Katalogen und anderen Quellen

Anpassbar

Page 27: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 27

Praktischer Einsatz Referent 1

Bestand etwa 57.000 Titel 123 Sitzungen an 56 Tagen über 8 Monate 176 Stunden, Durchschnitt 324 Titel pro Stunde

Referent 2 Bestand etwa 12.500 Titel 28 Sitzungen an 21 Tagen über 6 Monate 29 Stunden, Durchschnitt 430 Titel pro Stunde

Page 28: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 28

Lernkurve

Page 29: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 29

Selber ausprobieren Entwickler: Kai Eckert, UB Mannheim

http://www.kaiec.org/reclassification.html

Page 30: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 30

Ausblick

Page 31: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 31

Stand Datenkonsolidierung SWB und Hebis

Projekt abgeschlossen Ergebnisse wurden in Produktivdatenbank eingespielt

HBZ und BVB Verbundabzüge vorhanden Aktuell: Datenaufbereitung und Abgleich Datenlieferung voraussichtlich Juli oder August Ergänzungslieferung an SWB und Hebis geplant

Page 32: Jetzt kommt zusammen, was zusammen gehört

22. Mai 2012 101. Bibliothekartag, Hamburg 32

??

Fragen und Diskussion