19
Digitalisierte Zeitungen & die Digital Humanities – Probleme und Chancen Europeana Newspapers Information Day 16. Oktober 2014, Wien, ÖNB Clemens Neudecker, Staatsbibliothek zu Berlin @cneudecker

Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

Embed Size (px)

DESCRIPTION

Europeana Newspapers Information Day, 16 October 2014, Vienna, Austria

Citation preview

Page 1: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

Digitalisierte Zeitungen &

die Digital Humanities –

Probleme und Chancen

Europeana Newspapers Information Day

16. Oktober 2014, Wien, ÖNB

Clemens Neudecker, Staatsbibliothek zu Berlin

@cneudecker

Page 2: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 2

“Big data?”

Immer größere Mengen an digitalisierten Zeitungen stehen in digitaler Form für die Forschung bereit.

• Chronicling America: 8,148,101 Seiten

• Trove (Australien): 137,247,947 Zeitungsartikel

• ANNO: 13 Millionen Seiten

• Europeana Newspapers: • > 10 Millionen Seiten (Volltexte) • > 18 Millionen Seiten (Metadaten)

Page 3: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 3

Europeana Newspapers: Drei Portale

• Europeana Newspapers Content Browser:http://www.theeuropeanlibrary.org/tel4/newspapers

• Europeana Portal:http://europeana.eu/portal/

• Zeitschriftendatenbank:http://www.zeitschriftendatenbank.de/suche/

Page 4: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 4

Neu! Objektpräsentation direkt in der Europeana

• http://europeana.eu/portal/record/9200300/BibliographicResource_3000095593453.html

Public domain

Neues Interface

für die Objektanzeige

Anzeige in der Digitalen

Bibliothek

Page 5: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 5

ABER…

Page 6: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 6

Nur die Spitze des Eisbergs

Quelle: Enumerate Report, http://www.enumerate.eu/en/surveys/thematic_survey/

Page 7: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 7

Wieviel ist insgesamt schon digitalisiert?

Page 8: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 8

Digitalisierte Zeitungen

Quelle: European Newspapers Survey Report http://www.europeana-newspapers.eu/wp-content/uploads/2012/04/D4.1-Europeana-newspapers-survey-report.pdf

Page 9: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 9

Mission impossible?

Page 10: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 10

Ein kleiner Vergleich…

Geschätzte Kosten für die Digitalisierung sämtlicher Objekte in Bibliotheken, Archiven und Museen:€100 Milliarden

Oder €10 Milliarden/Jahr für die nächsten 10 Jahre!

Das Gesamtbudget für die Entwicklung des „Joint Strike Fighter“ wird auf €40 Milliarden geschätzt. Für die Digitalisierung des Kulturerbes Europas würden ca. 40% der Entwicklungskosten des JSF benötigt.

Quelle: Nick Poole, Collections Trust, http://nickpoole.org.uk/wp-content/uploads/2011/12/digiti_report.pdf

Page 11: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 11

Problemfelder

• Unvollständigkeit von Digitalen (Zeitungs-)Sammlungen

• Keine ausreichenden Ressourcen für die vollständige Digitalisierung

• Fehler und Probleme bei der Digitalisierung, z.B.• Schlechte Qualität der OCR• Unvollständige oder fehlerhafte Metadaten• Unterschiedliche Lizenzmodelle• “Copyright Cliff of Death” (@wragge)• Unterschiedliche Granularität der Digitalisate (z.B. Artikel vs. Seiten)• Unterschiedliche Anreicherung (z.B. mit/ohne Named Entities)

Page 12: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Wie also damit umgehen?

• Ist es überhaupt möglich auf dieser Datengrundlage eine repräsentative Aussagen z.B. durch ein „random sample“ zu treffen?

12

Quelle: http://dilbert.com/strips/comic/2001-10-25/

Page 13: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 13

Labs to the rescue?

Pieter Francois, Gewinner der British Library Labs competition 2013 hat sich genau diese Frage gestellt:

“How representative are the historical texts digital humanities scholars study of the overall body of ‘surviving’ texts that are held in the various library collections?”labs.bl.uk/Sample+Generator

Page 14: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 14

Was ist “gut genug”?

Digging into Data Project “Trading Consequences”

“Welche Auswirkungen haben OCR Fehler beim Text Mining einer großen Sammlungen von digitalisierten Beständen?”

Page 15: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 15

Statistik, Statistik, Statistik

10 Millione Seiten, 7 Milliarden Wörter – welchen Anteil des Korpus ignoriert man wenn man nur mit “guter” OCR arbeitet?http://homepages.inf.ed.ac.uk/balex/publications/slides-DATeCH.pdf

Page 16: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Vorbild Trove

API (Anwendungs-Programmier-Schnittstelle) ermöglicht diverse statistische Anwendungen & Präsentationsmöglichkeiten:

16

Trove newspapers word count app

Page 17: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp

Das „Hathi Trust Model“

Hathi Trust Digital Library/Research Center (Aggregator aller US Google-Partner) stellt für durch Copyright geschütze Materialien nur extrahierte „Features“ bereit wie z.B.:

• Wortfrequenz (pro Seite/Überschriften/Fußnoten)

• Anzahl Zeilen/Sätze

• Zeichenanzahl

Darüber hinaus gibt es auch die Möglichkeit über eine geschützte virtuelle Forschungsumgebung (HTRC Sandbox Portal) direkt auf den Servern des HTRC Algorithmen auf den Daten auszuführen.

17

Page 18: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

This project is partially funded under the ICT Policy Support Programme (ICT PSP) as part of the Competitiveness and Innovation Framework Programme by the European Community http://ec.europa.eu/ict_psp 18

Es gibt viel zu tun…packen wir es an!

Page 19: Digitalisierte Zeitungen und Digital Humanities - Probleme und Chancen

Danke für Ihre Aufmerksamkeit!

@eurnews

http://www.europeana-newspapers.eu

http://www.theeuropeanlibrary.org/tel4/newspapers

http://www.europeana.eu/