21
Universität Innsbruck Christoph-Probst-Platz, Innrain 52 6020 Innsbruck http://info.uibk.ac.at Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im Umfeld digitalisierter Zettelkataloge Günter Mühlberger Günter Mühlberger Abteilung für Digitalisierung und elektronische Archivierung Archivierung Universitäts- und Landesbibliothek Tirol

Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Universität InnsbruckChristoph-Probst-Platz, Innrain 52

6020 Innsbruckhttp://info.uibk.ac.at p //

Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im Umfeld digitalisierter Zettelkataloge

Günter MühlbergerGünter MühlbergerAbteilung für Digitalisierung und elektronische

Archivierung Archivierung

Universitäts- und Landesbibliothek Tirol

Page 2: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Agenda

1. Vorstellung und kurze Bilanz2. Online Verbesserungg3. Digitalisierung/eBook on Demand4 Abgleich mit Worldcat4. Abgleich mit Worldcat5. Autorenregistrierung für nicht mehr lieferbare Bücher

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation2

Page 3: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Digitalisierung und elektronische Archivierung

S it 2002 Abt il d ULB Ti l• Seit 2002 Abteilung an der ULB Tirol– 3 fest angestellte MitarbeiterInnen– 10 Vollzeitäquivalente über Drittmittel10 Vollzeitäquivalente über Drittmittel– Mehrere hundert Aufträge pro Jahr– 2009: ca. 500.000 Seiten manuell gescannte Bücher

7 Mill S it it D k t– ca. 7 Mill. Seiten mit Dokumentenscannern• 2004

– Digitalisierte Kataloge gehen onlineDigitalisierte Kataloge gehen online– Derzeit 16 Kataloge online

• 2010– EU Projekte: ARROW, EuropeanaTravel, EuropeanaConnect, EOD

Network, IMPACT, PrestoPRIME– Abschluss des Digitalisierungsprojekts „Deutsche Dissertationen“ (216.000

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation

Abschluss des Digitalisierungsprojekts „Deutsche Dissertationen (216.000 Dissertationen, 22 Mill. Seiten)

3

Page 4: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Digitalisierte Kataloge

A b t• Angebot– Bieten volltes Programm; diverse Institute haben bereits Gebrauch gemacht: Institute

der Uni Innsbruck, UB Graz, Landesbibliothek OÖ, Theologische PrivatuniversitätLinz MedUni Wien Piaristen Wien Jesuitenkolleg Innsbruck etcLinz, MedUni Wien, Piaristen Wien, Jesuitenkolleg Innsbruck, etc.

• Anwendung– Scannen der Kärtchen mit Dokumentenscanner

OCR Erkenn ng– OCR Erkennung– Blättern in der ursprünglichen Struktur– Suche über Metadaten (z.b. jedes 20igte Kärtchen)

S h üb V llt t– Suche über Volltext– Gehostete Version

• Mengen– 19 Kataloge, ca. 2,5 Mill. Kärtchen online, ca. 1,5 Mill. in der Pipeline (UB Bratislava)

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation4

Page 5: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation5

Page 6: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation6

Page 7: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation7

Page 8: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation8

Page 9: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Benutzung

B h• Besuche– Zw. 4000 und 6000 pro Monat = 150 bis 200 pro Tag– Ca 20 000 bis 30 000 Seitenaufrufe d h 4-6 Seiten pro BesuchCa. 20.000 bis 30.000 Seitenaufrufe, d.h. 4 6 Seiten pro Besuch– Ca. 3 Minuten pro Besuch– Ca. 50% der Zugriffe kommen direkt von Google, ca. 40% von

verweisenden Websites nur 10% sind direkte Zugriffeverweisenden Websites, nur 10% sind direkte Zugriffe• Wichtigste Suchbegriffe des letzten Monats

– "ephemerides vindobonenses“p– sanctorum brixinensis 1832– physica plinii

"nicolaus de prettis" innsbruck– "nicolaus de prettis" innsbruck– michalke j. rudolf

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation9

Page 10: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Google Index

• Wichtigste Suchbegriffe des letzten Monats, davon an 2. Stellebei Google Suche

" h id i d b “– "ephemerides vindobonenses“– sanctorum brixinensis 1832

physica plinii– physica plinii– "nicolaus de prettis" innsbruck

michalke j rudolf– michalke j. rudolf• Google Indexierung

Bis 2009 über Website seither SiteXML– Bis 2009 über Website, seither SiteXML– Abhängigkeit von der Geschäftspolitik Googles

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation10

Page 11: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Feature: Online-Verbesserung

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation11

Page 12: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Online-Verbesserung

J dü f ‘ d d ?• Ja, dürfen‘s denn das?– Keine Registrierung, kein Captcha,...– Verbesserung wird sofort übernommen– Bei der nächsten Suche profitiert der Benutzer bereits davon– In 5 Jahren ca. 30.000 Kärtchen korrigiert worden (bei ca. 10% aller Besuche wird

davon Gebrauch gemacht – einige wenige machen viel!)All Ä d d i h t d Z it Z it d h h W – Alle Änderungen werden gespeichert und von Zeit zu Zeit durchgesehen: Wenn Missbrauch geschieht, kann alter Zustand wieder hergestellt werden, bzw. der Benutzer gesperrt werden

– Ein einziger bekannter Missbrauch in 6 Jahren!Ein einziger bekannter Missbrauch in 6 Jahren!• Effekte

– Benutzer lernen Fehler der OCR kennen und damit umzugehen• Schluss• Schluss

– Bibliotheken sollten viel mehr Vertrauen in Benutzer haben – und ihnen auf Augenhöhe entgegenkommen

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation12

Page 13: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Digitalisierung on Demand – eBooks on Demand

• Books2u! – gescheitert• Katalog 2004

f– Neuer Anlauf– Button: Dieses Buch als PDF bestellen!– Sofort Bestellungen (aus dem Ausland aus 20 verschiedenen Ländern im– Sofort Bestellungen (aus dem Ausland, aus 20 verschiedenen Ländern im

ersten Jahr)• EOD

– Zentrale Infrastruktur für Workflow, eBook Erzeugung, Auslieferung, Kundenbetreuung, elektronische Abrechnung,...Noch heuer 30 Bibliotheken online– Noch heuer 30 Bibliotheken online

– Netzwerk erhält sich bereits teilweise selbst, soll in 2-3 Jahren auf eigenenFüßen stehen

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation13

Page 14: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Neue Ideen: Abgleich mit sauberen Beständen

• WorldCat– Größter Katalog der Welt– Wahrscheinlich mehr als 90% aller Bücher in Innsbruck sind dort

enthalten– API vorhanden (allerdings lizensiert für OCLC Mitgliedsbibliotheken)– Research Zugang für DEA

• Idee– OCR Text nehmen, gegen den WorldCat laufen lassen und die beste, g g

Übereinstimmung automatisch heraussuchen und bewerten– Prototyp

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation14

Page 15: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Ansatz

• Projekt– Umgesetzt zusammen mit Inst. für Informatik, Univ. Prof. Günter Specht und

Robert Pinna durchgeführt von Markus RueppRobert Pinna, durchgeführt von Markus Ruepp– Laufende Betreuung durch DEA

• ErgebnisseErgebnisse– Query (= die Wörter, die an WorldCat übergeben werden) zusammenstellen

ist am schwierigsten: Geht in ca. 30% der Fälle schiefW Q h d i d di E b i h i l h d– Wenn Query steht, dann sind die Ergebnisse sehr vielversprechend

– Algorithmus muss robust gegen Längenverhältnisse und OCR Fehler sein– Es wird daher zuerst ein allgemeiner Vergleich angestellt und dann die – Es wird daher zuerst ein allgemeiner Vergleich angestellt und dann die

strukturierten Daten aus dem WorldCat innerhalb der unstrukturierten Dateneinzeln gematcht

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation15

Page 16: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Field guessing

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation16

Page 17: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Möglicher Einsatz

• Batch-Prozess– Alle Kärtchen in einem großen Projekt gegen WorldCat laufen lassen– Benchmarks festlegen– Die gut erkannten Kärtchen automatisch mit Record ersetzen (aber

Link auf Kärtchen beibehalten in den Metadaten)Link auf Kärtchen beibehalten in den Metadaten)• Korrektur durch Benutzer

Benutzer führt selbst Abfrage durch Button– Benutzer führt selbst Abfrage durch – Button– Benutzer vergleicht das Kärtchen mit den Ergebnisse und bestätigt

die Richtigkeitg– Vorteil: durch die OCLC ID ist dieser Eintrag mit allen derzeitigen und

künftigen Services von OCLC automatisch verknüpft!

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation17

Page 18: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Neueste Idee: “Ich-bin-der-Autor Button”

P bl l• Problemlage– Nicht mehr lieferbare Bücher vor 1995: Die Rechte für Online-Verfügbarkeit

liegen in der Regel bei den Autoren, da diese Nutzungsart nicht bekanntg g , gwar.

– Verwertungsgesellschaften haben noch kein Mandat, dass sie z.B. Bibliotheken die Digitalisierung “erlauben” könnten – gegen Lizenzgebührg g g g g

• Lösung– Den Autoren (oder ihren Erben) die einfache Möglichkeit geben, ihre

Wünsche in Bezug auf Digitalisierung zu äußernWünsche in Bezug auf Digitalisierung zu äußern.– Der Katalog als Ausgangspunkt– Google Settlement als Vorbild, allerdings nicht opt-out, sondern opt-in– Ziel: Möglichst viele Autoren überzeugen, dass sie ihre (alten) Bücher für

Open Access oder zumind. für digitalen Zugang in Bibliotheken freigeben

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation18

Page 19: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Voraussichtlicher Ablauf

B tt i K t l “Si d Si di A t i d A t di W k d k• Button im Katalog: “Sind Sie die Autorin, der Autor dieses Werkes oder kennenSie die Person, die dieses Werk verfasst hat?”

– Wenn ja, dann Klick auf den Button.I f ti U h b ht d d B d t d A t fü di Di it li i / – Informationen zum Urheberrecht und der Bedeutung des Autors für die Digitalisierung / Online-Verfügbarkeit

– Argumente für Open Access und warum dies für Bibliotheken und ihre Benutzer wichtigistist

– Bitte sich zu registrieren und bekannt zu geben, welche Optionen man bevorzugt• Registrierung

Online aber mit unterschriebenem Formular– Online, aber mit unterschriebenem Formular– Dieses wird automatisch erzeugt und per E-Mail zugesendet. – mit eindeutigem

Barcode versehen– Retour unterschrieben per Post– Retour unterschrieben per Post– Bei uns eingescannt und automatisch in die Datenbank integriert– Verlinkung mittels OCLC würde die Weitergabe dieser Information an alle anderen

Biblitoheken ermöglichen

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation

Biblitoheken ermöglichen

19

Page 20: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Weitere Überlegungen

Id lf ll• Idealfall– Benutzer erklärt, dass das Buch mittels Open Access zur Verfügung stehen soll– Bibliothek digitalisiert das Buch – durch OCLC Identifier werden auch alle anderen

Bibliotheken da on in Kenntnis geset t b Ben t er erhalten a s dem lokalenBibliotheken davon in Kenntnis gesetzt, bzw. Benutzer erhalten aus dem lokalenKatalog einen Link auf die digitalisierte Version

• VorteileFür den Ben t er transparent Opt in ist fairer als opt o t– Für den Benutzer transparent, Opt-in ist fairer als opt-out

– Andere Benutzer können selbst auf die Suche nach dem Autor gehen– Bibliotheken haben guten Ruf und können glaubwürdig als Repräsentanten der

Interessen ihrer Benutzer auftretenInteressen ihrer Benutzer auftreten– Werk steht online und frei zur Verfügung

• NachteileFü di W k i h i d ld t b ht t t d i R l– Für die Werke, wo sich niemand meldet, braucht man trotzdem eine Regelung(=Orphan works)

– Manche Rechteinhaber haben ev. Scheu, dass ihr altes Werk weltweit verfügbar ist

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation20

Page 21: Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im

Vi l D k fü Vielen Dank für Ihre Aufmerksamkeit!Ihre Aufmerksamkeit!

Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation21