18
Automatisches Generieren von Konkordanzen Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart [email protected]

Automatisches Generieren von Konkordanzen

Embed Size (px)

DESCRIPTION

Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.

Citation preview

Page 1: Automatisches Generieren von Konkordanzen

Automatisches Generieren von Konkordanzen

Prof. Magnus PfefferHochschule der Medien, [email protected]

Page 2: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Grundidee

Optimierung durch Clustering

Projekt: Konkordanz RVK ↔ DDC

Überblick

Page 3: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Grundidee

Page 4: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Instanzbasierter Vergleich Datenbasis:

Mehrfach erschlossene Einträge in Katalogen

Page 5: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Instanzbasierter Vergleich Annahmen

Inhaltlich überlappende Klassen treten zusammen auf Häufigkeit des Auftretens ist ein Indiz für die Stärke des

Zusammenhangs

Aufbereitung Extraktion aller Paare aus zwei Erschließungssystemen Aufsummieren der vorkommenden Paare

Page 6: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Beispiel

Page 7: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Beispiel Titel 1

DDC: 179.9 RVK: CC 7200 RVK: CC 7250

Titel 2 DDC: 179.9 RVK: CC 7200

Paare 179.9 / CC 7200 179.9 / CC 7250 179.9 / CC 7200

Page 8: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Instanzbasierter Vergleich Auswertung

am Beispiel zweier Klassifikationen A und B Zwei Klassen treten ausschließlich als Paar auf

1:1 Zuordnung = exakte Übereinstimmung

Klasse aus A hat immer denselben Partner aus B, der hat aber auch andere Partner aus A

N:1 Zuordnung = Klasse aus A ist engeres Konzept

Klasse aus A tritt mit mehreren Partnern auf 1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept

Aber: Klasse tritt nicht auf Keine Folgerung möglich

Page 9: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Beispiel Auswertung für DDC

2 mal 179.9 / CC 7200 1 mal 179.9 / CC 7250

Ergebnis 179.9 narrowMatch CC 7200 179.9 narrowMatch CC 7250

Page 10: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Beispiel Auswertung für RVK

2 mal CC 7200 / 179.9 1 mal CC 7250 / 179.9

Ergebnis CC 7200 broadMatch 179.9 CC 7250 broadMatch 179.9

Page 11: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Optimierung durch Clustering

Page 12: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Titeldaten sind anders Mehrere Auflagen

Mehrere Ausgaben

Page 13: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Titeldaten Mehrere Ausgaben und Auflagen verfälschen die

Statistik Paare werden mehrfach erfasst Keine Vergleichbarkeit der absoluten Häufigkeiten

Lösung: Auswertung der Cluster anstelle der einzelnen Titel Häufigkeiten werden direkt vergleichbar „Stärke“ der Korrelationen können ermittelt werden „Ausreißer“ können sicher erkannt und entfernt werden

Page 14: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Projekt:Konkordanz RVK ↔ DDC

Page 15: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Datenbasis Alle deutschen Verbundkataloge

SWB BVB GBV HeBIS HBZ

DNB

Page 16: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Umsetzung Metafactory

Aufbereiten von MAB2 und MARC21 Daten Clustering auf Werksebene

Keygenerierung für Matching-Prozess Matching und Clusterbildung (transitive Hülle) Sammeln der Erschließungsinformationen im Cluster

Statistik Auszählen des gemeinsamen Auftretens von Klassen

Ausgabe Mappings einzelner Klassen Beide Richtungen

Page 17: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Offene Fragen Enthalten die Titeldaten nach dem Clustering

genügend auswertbare Erschließungen?

Macht es Sinn, einen globalen Cut-Off zu verwenden, um Ausreißer zu verwerfen? Oder ist es besser, jede Klasse gesondert

auszuwerten?

Wie kann eine effiziente Qualitätssicherung betrieben werden?

Page 18: Automatisches Generieren von Konkordanzen

13. März 2013 5. Kongress Bibliothek und Information

Danke für Ihre Aufmerksamkeit!

Folien online unterhttp://www.slideshare.net/MagnusPfeffer/

Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.