29
Metadaten für Zeitungen AG Metadaten 2009-09-02 Carsten Schulze

Metadaten und Zeitungen

Embed Size (px)

Citation preview

Page 1: Metadaten und Zeitungen

Metadaten für Zeitungen

AG Metadaten 2009-09-02

Carsten Schulze

Page 2: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 2

Inhalt

Hintergrund Struktur von Zeitungen Unterschiede zu anderen Publikationsformen Welche Metadaten können entstehen? Volltexte und die Besonderheiten bei Zeitungen TEI vs. ALTO

state of the art in der SBB Projekte und Umsetzungen

state of the art in der Welt Vorbild Historic Australian Newspapers

Ausblick Wie kommen Wir dort hin? (Der wirkliche Sinn von METS)

Unsere Fragen

Page 3: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 3

Struktur von Zeitungen

Merkmale: Erscheinungsweise „in kurzen periodischen Zeitspannen,

mindestens einmal wöchentlich, öffentlich erscheint“

Aktualität (zeitnahe Berichterstattung) Periodizität (regelmäßiges Erscheinen) Publizität (öffentlich für alle Leser zugänglich) Universalität (inhaltliche Vielfalt)

Page 4: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 4

Struktur von Zeitungen II

Typen

regionale überregionale

generisch Berliner Zeitung DIE ZEIT

regionale Ausgaben TAZ „Hamburg“ Neues Deutschland „Berlin-Ausgabe“

mit Regionalteil / Lokalteil

Märkische Allgemeine FAZ

Page 5: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 5

Struktur von Zeitungen III

Inhalt Kopf "erste" Seite Buch (kann durch MD schlecht beschrieben werden) Rubrik (z.B. "aus aller Welt") Subrubriken (z.B. "Brasilien") Fließtext (zumeist Artikel) Bilder / Grafiken, Tabellen Impressum

Page 6: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 6

Unterschied zu anderen Publikationsformen

Muss nicht sequentiell gelesen werden

Mehrere nicht zusammenhänge Texte auf einer Seite

Texte unter Umständen auf nicht aufeinander folgenden Seiten verteilt

Autoreninitialien werden zumeist nicht aufgelöst

Werbung

Page 7: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 7

Welche Metadaten können entstehen?

Page 8: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 8

Welche Metadaten können entstehen? II

Weitere Metadaten: Subrubriken Zusätze zur Artikelüberschrift Kategorien von Inhalten: News (aus Politik, Kultur, Sport usw. auch Leserbriefe) Anzeigen (z.B. Todes- und Geburtsanzeigen etc.) Werbung Listen, Resultate und Programme (z.B. Aktienstände,

Fernsehprogramm oder Kreuzworträtsel) Bilder und Grafiken (auch Cartoons)

Was sind die „Significant Properties“? Was ist (in zweihundert Jahren) wichtig? Wie tief soll erschlossen werden? Was können wir uns leisten?

Page 9: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 9

Page 10: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 10

Volltexte und die Besonderheiten bei Zeitungen

Page 11: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 11

TEI vs. ALTO

TEI ALTO

Beschreibung Framework bestehend aus unterschiedlichen Modulen für bestimmte Einsatzzwecke.

XML-Schema zur Beschreibung von Layout und Inhalt von OCR-generiertem Text

enthält deskriptive Metadaten im TEI-Header

Text-Markup bis auf Zeilenebene

Links auf Images des enstprechenden Textes

und vieles, vieles mehr...

Technische Metadaten im des OCR-Prozesses

Fonts und Schriftgrößen

Text-Markup mit Koordinaten bis auf Wortebene

das war‘s

Page 12: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 12

TEI vs. ALTO II

Page 13: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 13

TEI vs. ALTO III

Page 14: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 14

TEI vs. ALTO IV

STYLESFonts,

Schriftgrößen

ALTO

Layout

Description (technische

MD)

Page TextBlock I

TextLine I

String

TextLine II

String

String

String

String

String

String

String

String

TextBlock II TextLine I

TextLine II

ComposedBlock

ComposedBlock

Page 15: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 15

TEI vs. ALTO

ALTOnlaImageSeq-33386-b.xml

METS

MODS

Page 16: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 16

Projekte und Umsetzung I

Zeitungsinformationssystem ZEFYS

zwei Digitalisierungsprojekte1. Zeitungsdigitalisierung durch DoD

2. Digitalisierung durch externe + Volltexterkennung durch BIT Alpha

dadurch zwei verschiedene Ausgangslagen:1. METS ohne inhaltliche Strukturierung

2. Inhaltliche Struktur ohne METS

Page 17: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 17

Projekte und Umsetzung II

Page 18: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 18

Projekte und Umsetzung III

Page 19: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 19

Projekte und Umsetzung IV

Page 20: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 20

Projekte und Umsetzung V

Page 21: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 21

Projekte und Umsetzung VI

ABERohne METS ist keine

Artikelsegmentierung möglich

Page 22: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 22

Vorbild Historic Australian Newspapers

Page 23: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 23

Vorbild Historic Australian Newspapers II

Page 24: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 24

Vorbild Historic Australian Newspapers III

Page 25: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 25

Wie kommen Wir dort hin?

Zaubertwort: Repository Aufbau von Fez/Fedora durch Frau Lange

Wir brauchen METS nicht zum Selbstzweck METS als SIP und DIP für Repositorien KANN zur Darstellung von Digitalisaten verwendet werden (DFG-

Viewer) Ist aber eher zum Austausch oder als internes Verwaltungsformat

gedacht!!! Ich brauche keinen komplizierten METS-Container mit PREMIS-

Daten, um im Volltext zu recherchieren und ein Image anzuzeigen URI, die auf einzelne Zeitungsseiten/Artikel verweisen, sind nur

schwer mit METS zu vereinbaren -> Repository liefert das gleich mit

ABER: Wir brauchen METS für die LZA und den Transport zwischen Systemen

Page 26: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 26

Wie kommen Wir dort hin? II

Digitalisierungsprojekte laufen JETZT!

Wir müssen JETZT wissen, welche Metadaten wir brauchen Metadatenformate wir brauchen

Wir müssen JETZT wissen, was wir mit unseren Metadaten machen wollen!

Wir brauchen JETZT ein Repository!

Repository, Metadaten und Formate sind eine Einheit, die zusammen geplant werden müssen

Page 27: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 27

Unsere Fragen

Welches Repository verwenden wir? Wir sollten nur eins verwenden

Wie müssen unsere METS-Container aufgebaut sein, um unsere Daten ohne Verlust in das Repository einzuspielen Brauchen wir ein METS-SBB-Profil? oder halten wir uns an das ZVDD-Profil? Profil muss zum Repository kompatibel sein (z.B. Fedora METS)

METS/ALTO oder TEI? Durch laufende Projekte werden schnell Tatsachen geschaffen, die

schwer wieder rückgängig zu machen sind

Was sind die Significant Properties?

Page 28: Metadaten und Zeitungen

04/13/23 |Carsten Schulze | Zeitungsinformationssystem ZEFYS S. 28

Page 29: Metadaten und Zeitungen

Vielen Dank für Ihre Aufmerksamkeit!

Carsten Schulze

[email protected]