13

Click here to load reader

Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

Embed Size (px)

DESCRIPTION

Vortrag auf Einladung der Deutschen Nationalbibliothek zum Workshop des "Petrus" Projekts zur automatischen Erschließung am 21. und 22.3.2011 in Frankfurt.

Citation preview

Page 1: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

Fallbasierte automatische Klassifikation nach der RVK-

k-nearest neighbour auf bibliografischen Metadaten

Magnus Pfeffer (Dipl.-Inform., M.A. LIS)

Universität Mannheim, Universitä[email protected]

Page 2: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

2Autmatische Klassifikation nach der RVK

Themen

Hintergrund und Motivation

Ähnlichkeitsmaße

Experimente und Ergebnisse

User Feedback

Aktuelle Entwicklungen

Page 3: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

3Autmatische Klassifikation nach der RVK

Hintergrund und Motivation

Zusammenführung kleinerer Bereichsbibliotheken (2001)Einführung der RVK als Aufstellungssystematik

Geringer Anteil an Fremddaten im Verbund

ZieleBeschleunigung des Erschließungsvorgangs durch Vorschlagssystem

Virtuelles Bücherregal im KatalogVisualisierung der reklassifizierten Bestände

Grundlage für die Regalplanung

MethodeFallbasiertes Schließen

Übernahme der Klasse(n) der 1-nearest-neighbour

Datenbasis Südwestverbund

Page 4: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

4Autmatische Klassifikation nach der RVK

Nur MetadatenTitel

Personen und Körperschaften

Schlagwörter

TitelvergleichZählen übereinstimmender Wörter

Pro: Schnell, einfach

Contra: gleiche Ähnlichkeitswerte bei identischen und erweiterten Titelnz.B. “Einführung in Perl” maximal ähnlich zu “Einführung in den Compilerbau mit Perl”

Alternative: Jaccard-Index Arbeitet auf Wortmengen

Schnittmenge geteilt durch VereinigungsmengeIdentität = 1, Nicht-ähnliche Titel = 0

jaccard (“Einführung in Perl”,“Einführung in den Compilerbau mit Perl”)= 3/5

Ähnlichkeitsmaß

Page 5: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

5Autmatische Klassifikation nach der RVK

GewichteStoppwortliste und Gleichgewichtung

Überraschend gute Ergebnisse

Lange Stoppwortliste verhindert falsch positive Ähnlichkeiten

Alternative: tf-idfÄhnliche Ergebnisse

Stoppwortliste überflüssig

NormalisierungStemming englischer Wörter

Teilwortzerlegung und Stammformreduzierung deutscher Wöter

Alternative: N-gramme

Ähnlichkeitsmaß

Page 6: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

6Autmatische Klassifikation nach der RVK

Experimentelle Ergebnisse

Automatische Klassifikation bereits klassifizierter TitelTitel wird für den Vorgang aus der Fallbasis ausgeblendet

Gewählte Variante: Jaccard mit Stoppwortliste und Gleichgewichtung, Stemming und Teilwortzerlegung

BewertungBestehende Klassifikation als “Goldstandard”

Ideal: Identische Notation wird gefunden

Noch gut: Nächste gefundene Notation ist nur wenige Knoten entfernt

Ergebnisse (2008)Je nach Fachgebiet zwischen 65 und 80% gute oder bessere Treffer

Aber: Pro Titel werden recht viele Notationen geliefert

Keine Korellation der Güte mit den Ähnlichkeitsmaßen

Page 7: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

7Autmatische Klassifikation nach der RVK

User Feedback

Anwender: Sacherschließer, Fachreferenten

Nutzung: Retroklassifikation

ErfahrungenZu viele “falsche” Notationen, Verwirrend

Starke Unterschiede in den FächernInformatik: Gut nutzbar

Jura: Nahezu nicht verwendbar

AnpassungenReduktion der gelieferten Notationen

In der 1nn-Menge häufig auftetende Notationen werden präferiert“Bester” Vorschlag oft nicht der häufigste

Keine wirkliche Verbesserung

Page 8: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

8Autmatische Klassifikation nach der RVK

Aktueller Ansatz

Höhere Anforderungen an ÄhnlichkeitMaß

Eine Übereinstimmung bei Autoren / Verfasser

Identischer Titel

Berücksichtigung des Einheitssachtitels (MAB Feld 304)

Ziel: unterschiedliche Ausgaben eines Werks zusammenführenUnterschiedliche Auflagen und Drucke

Parallelausgaben in anderen Formaten

Nachdrucke (Verlagswechsel)

UmsetzungDatenbasis Südwestverbund und HeBIS

Berücksichtigung von RVK und SWD-Schlagwörtern

Prüfung durch Sacherschließer der beteiligten Verbünde

Page 9: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

Ausgaben zusammenführen

AusgangsdatenSWB: 12,78 Mio. Berücksichtigte Titelaufnahmen, davon

3,24 Mio. Titelaufnahmen mit RVK-Notation(en)

3,98 Mio. Titelaufnahmen mit SWD-Schlagwörtern

Hebis: 8,84 Mio. Berücksichtigte Titelaufnahmen, davon1,93 Mio. Titelaufnahmen mit RVK-Notation(en)

2,24 Mio. Titelaufnahmen mit SWD-Schlagwörtern

Ergebnis (neuster Lauf 2011)SWB

959.419 Titel neu mit RVK

636.462 Titel neu mit SWD

Hebis992.046 Titel neu mit RVK

1.179.133 Titel neu mit SWD

Page 10: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

Real world example

Freihandbestand Jura55.445 Titel noch nicht reklassifiziert

Ähnlichkeitsmaß wie beschrieben

DatenquellenSWB

Hebis

BVB (über z39.50)

Ergebnis: 47649 mit RVK, 7796 ohne (86% Abdeckung)

Zahlen für Mathematik und Geschichte ähnlich

Aufbereitung für den FachreferentenBilden von kleinen Teilmengen mit inhaltlicher Kohärenz

Alte Systematik

Stichwörter

Schlagwörter

Autoren

Lücken in den Vorschlägen werden durch Kontext schließbar

Page 11: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

Aufbereitung

Page 12: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

Weiteres Vorgehen

Systematische Ausweitung des VerfahrensDeutsche und internationale Quellen

Weitere ErschließungsystemeDDC

LOCC

LOC-SH

Ausnutzung von KonkordanzenVorhandene aus diversen Projekten

Auswertung von Korrelationen

Ergänzung der Lücken1-nearest neighbour, Jaccard, tf-idf, 4-gramme

Umsetzung in Java für Cluster (Hadoop / Mahout)

Page 13: Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour auf bibliografischen Metadaten

13Autmatische Klassifikation nach der RVK

Fragen und Diskussion