Automatisches Generieren von Konkordanzen

Automatisches Generieren von Konkordanzen

Prof. Magnus PfefferHochschule der Medien, [email protected]

13. März 2013 5. Kongress Bibliothek und Information

Grundidee

Optimierung durch Clustering

Projekt: Konkordanz RVK ↔ DDC

Überblick


Grundidee


Instanzbasierter Vergleich Datenbasis:

Mehrfach erschlossene Einträge in Katalogen


Instanzbasierter Vergleich Annahmen

Inhaltlich überlappende Klassen treten zusammen auf Häufigkeit des Auftretens ist ein Indiz für die Stärke des

Zusammenhangs

Aufbereitung Extraktion aller Paare aus zwei Erschließungssystemen Aufsummieren der vorkommenden Paare


Beispiel


Beispiel Titel 1

DDC: 179.9 RVK: CC 7200 RVK: CC 7250

Titel 2 DDC: 179.9 RVK: CC 7200

Paare 179.9 / CC 7200 179.9 / CC 7250 179.9 / CC 7200


Instanzbasierter Vergleich Auswertung

am Beispiel zweier Klassifikationen A und B Zwei Klassen treten ausschließlich als Paar auf

1:1 Zuordnung = exakte Übereinstimmung

Klasse aus A hat immer denselben Partner aus B, der hat aber auch andere Partner aus A

N:1 Zuordnung = Klasse aus A ist engeres Konzept

Klasse aus A tritt mit mehreren Partnern auf 1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept

Aber: Klasse tritt nicht auf Keine Folgerung möglich


Beispiel Auswertung für DDC

2 mal 179.9 / CC 7200 1 mal 179.9 / CC 7250

Ergebnis 179.9 narrowMatch CC 7200 179.9 narrowMatch CC 7250


Beispiel Auswertung für RVK

2 mal CC 7200 / 179.9 1 mal CC 7250 / 179.9

Ergebnis CC 7200 broadMatch 179.9 CC 7250 broadMatch 179.9


Optimierung durch Clustering


Titeldaten sind anders Mehrere Auflagen

Mehrere Ausgaben


Titeldaten Mehrere Ausgaben und Auflagen verfälschen die

Statistik Paare werden mehrfach erfasst Keine Vergleichbarkeit der absoluten Häufigkeiten

Lösung: Auswertung der Cluster anstelle der einzelnen Titel Häufigkeiten werden direkt vergleichbar „Stärke“ der Korrelationen können ermittelt werden „Ausreißer“ können sicher erkannt und entfernt werden


Projekt:Konkordanz RVK ↔ DDC


Datenbasis Alle deutschen Verbundkataloge

SWB BVB GBV HeBIS HBZ

DNB


Umsetzung Metafactory

Aufbereiten von MAB2 und MARC21 Daten Clustering auf Werksebene

Keygenerierung für Matching-Prozess Matching und Clusterbildung (transitive Hülle) Sammeln der Erschließungsinformationen im Cluster

Statistik Auszählen des gemeinsamen Auftretens von Klassen

Ausgabe Mappings einzelner Klassen Beide Richtungen


Offene Fragen Enthalten die Titeldaten nach dem Clustering

genügend auswertbare Erschließungen?

Macht es Sinn, einen globalen Cut-Off zu verwenden, um Ausreißer zu verwerfen? Oder ist es besser, jede Klasse gesondert

auszuwerten?

Wie kann eine effiziente Qualitätssicherung betrieben werden?


Danke für Ihre Aufmerksamkeit!

Folien online unterhttp://www.slideshare.net/MagnusPfeffer/

Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.

http://www.slideshare.net/MagnusPfeffer/

http://creativecommons.org/licenses/by-sa/3.0/deed.de

Technology

Automatisches Generieren von Konkordanzen