39
»Arme Nachlassverwalter…« – Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen Weimar, 11. März 2014 [email protected] [email protected]

»Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Embed Size (px)

Citation preview

Page 1: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

»Arme Nachlassverwalter…« –

Herausforderungen, Erkenntnisse

und Lösungsansätze bei der Aufbereitung

komplexer digitaler Datensammlungen

Weimar, 11. März 2014

[email protected]@dla-marbach.de

Page 2: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

D-Archiv 1.0: ca. 2003 bis 2013

Digitale Nach- und Vorlassteile insgesamt bis 2013 (ohne Friedrich Kittler):

• 35 Bestände, 281 Disketten, 15 CD-Rs etc., 14 Zugänge via E-Mail/USB-Stick etc.

• 26.700 Originaldateien mit 14 GB

Page 3: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

D-Archiv 1.0: ca. 2003 bis 2013

Digitale Nach- und Vorlassteile insgesamt bis 2013 (ohne Friedrich Kittler):

• 35 Bestände, 281 Disketten, 15 CD-Rs etc., 14 Zugänge via E-Mail/USB-Stick etc.

• 26.700 Originaldateien mit 14 GB

Adler, Hans Günther; Berbig, Roland;Claudius, Hermann; Delius, FriedrichChristian; Domin, Hilde; Elias, Norbert;Gadamer, Hans-Georg; Goldschmidt,Georges-Arthur; Gumbrecht, Hans Ulrich;Hentig, Hartmut von; Iser, Wolfgang; Jauss,Hans Robert; Kaufmann, Hans; Koselleck,Reinhart; Kronauer, Brigitte; Lengemann,Jochen ; Lübbe, Hermann; Mattenklott, Gert;Mickel, Karl; Naumann, Manfred; Novak,Helga M.; Olden, Balder; Pastior, Oskar;Richartz, Walter Erich; Ritter, Henning;Rowohlt-Verlag; Rüegg, Walter; Rühmkorf,Peter; Schlöndorff, Volker; Schnabel, Ernst;Schumann, Michael; Schwarz, Egon;Schwenger, Hannes; Strittmatter, Thomas;Zimmer, Heinrich;

Page 4: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Friedrich Kittler: Mengen

- Fünf (sieben?) PCs

- Sechs Festplatten(-Images) mit 10 Partitionen (»hd«)

- 336 Disketten (»fd«)

- 104 optische Medien (CD-R, »od«)

- 4 Dateisammlungen auf externen [DLA-]Medien, »xd«)

- ca. 250 Dateien mit Video-Mitschnitten (DV, AVI)

Ca. 1,7 Mio. Dateien, ca. 1,1 TB

Page 5: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

»arme Nachlaßverwalter…«

Page 6: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

FK: Anzahl Datenträger

FK: 444

Bisher: 281

Page 7: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

FK: Anzahl Dateien (ohne Mediendok.)

FK: ca. 1,7 Millionen

Bisher: ca. 26.700

Page 8: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

DLA Workflow 1.0: Grenzen

Der bisherige Workflow skaliert nicht:

1. Eine implizite Relevanzzuschreibung für das gesamte digitale Material existiert nicht.

2. Kittlers unkonventionelle Arbeitsweise (root) und kreative Benennungsschemata lassen einfache Schlüsse jedoch nicht zu (so ist z.B. /home idR. irrelevant, /usr/ich aber sehr relevant).

3. Eine Dateiformatmigration für alle Dateien ist wegen des Umfangs unmöglich, eine Auswahl muss getroffen werden.

Page 9: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Lösungsansatz

Ironmaiden»Intelligent Read-Only Media Identification Engine«

»Intelligent Recursive Online Metadata and Indexing Engine«

(aka »Indexer«)

Autor: Jürgen Enge, ZIMT (HAWK Hildesheim/Holzminden/Göttingen)

Status: reifer Prototyp auf VM des DLA, alle (ca. 300) mountbaren Datenträger-Images als Loopback-Devices im Zugriff, Dateianalyse und Volltext-Indexierung nahezu abgeschlossen; nur (sehr) interner Zugang wg. sehr privater Dokumente.

Page 10: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Ziel

Werkzeug zur Erfassung unstrukturierter digitaler Datenbestände in der Vorstufe zur Archivierung

• Niederschwelliger Zugang

• Hoher Automatisierungsgrad

• Leichte Erweiterbarkeit

• Performanz

• Transparente Systematik

Page 11: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Niederschwelliger Zugang

• Webfrontend

• Einfacher Zugang

• Nutzbarkeit mit verschiedenen Komplexitätsebenen

Page 12: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Niederschwelliger Zugang

Page 13: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Niederschwelliger Zugang

Page 14: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Hoher Automatisierungsgrad /

Leichte Erweiterbarkeit

• Logisches Vorgehen

• Dateistruktur in Datenbank einlesen

• Prüfsummen erstellen

• Identifizieren

• Libmagic

• Gvfs-info

• Tika

• Detex

Page 15: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Dateisystem / Prüfsumme

Page 16: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

libmagic

Page 17: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Gvfs-info

application/octet-stream

Page 18: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Apache Tika

Page 19: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Image Magick

Page 20: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

avconv/ffmpeg

Page 21: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Weitere Volltexte

Page 22: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Erkennungs-resultate(MySQL)

IndexerIndexerErkennungs-

kaskade

Dateisystem-indizierung

Volltextindex(SOLR)

Webserver

Webclient

Autonomes

Subsystem

Systemarchitektur

Sektor-Images(Quelle)

Mountpoints(Ordner)

Cache

Page 23: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Webfrontend

AutocompleteFacette

Page 24: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Webfrontend

Page 25: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Webfrontend

Anzahl DauerSOLR Query

Paging

Page 26: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Webfrontend

MIME-Type

Dateigröße

Dateiname

Interne SignaturDatenträger

Änderungs-datum

Gefundene Textstelle(n)

Page 27: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Webfrontend

#4078.1749383, text/x-csrc (1990-07-06T02:00:00Z). CALLTEST.C,

in: Bestand A:Kittler/DLA Marbach. fd077:// [fd, 389 B].

Page 28: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Webfrontend

Page 29: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

National Software Reference Library

sessionid 4078 = Floppy 077, 3,5“, vfat,

ca. 1992

Page 30: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Mögliche Fragestellungen (Beispiele)

- Welche Dateien sind binäridentisch (lt. Prüfsumme) und können als Dubletten ausgeschieden werden?

- Welche Dateien haben die Größe 0 Bytes und können/müssen nicht weiter bearbeitet werden? [live]

- Welche Bilder gibt es im Datenträger-Nachlass? Audio-Dateien? Videos? [live1, live2, live3]

- Welche Textverarbeitungsprogramme hat Kittler benutzt?

- Auf welchen Datenträgern gibt es Ordner des Namens »ich«? [live]

- Welche Dateien sind MS-Word-Dateien, obwohl sie nicht den Typ ».doc« tragen? [live]

- Welche E-Mails vom, an das oder über das DLA Marbach hat Kittler aufgehoben? [live]

Page 31: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Mögliche Fragestellungen (Beispiele)

- Welche Quelltexte tragen typische Kittler-Spuren (z.B. das Kürzel »FAK« im Volltext), obwohl sie in typischen Systemordnern liegen? [live]

- In welchen Varianten kommt die Datei »komment« in den verschiedenen Backup-Medien und Festplattengenerationen vor? [live]

- Ist die SGI-Workstation-Festplatte hd06 wirklich komplett irrelevant?

- (Wann) hat Kittler einen Vortrag beim Chaos Computer Club Hamburg gehalten? (Und worüber hat er gesprochen? Ist der Text erhalten?) [live1, live2, live3, weiter]

Page 32: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Download

Page 33: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen
Page 34: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen
Page 35: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Download

Page 36: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen
Page 37: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Destillation der relevanten Dateien

Page 38: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Fazit

Ironmaiden aka Indexer

• Einfach erweiterbar

• Robust

• Skalierbar

• Benötigt einfaches Refactoring

• Einfacher Zugriff auf Inhalte

• Ist KEIN Archiv

Page 39: »Arme Nachlassverwalter…« Herausforderungen, Erkenntnisse und Lösungsansätze bei der Aufbereitung komplexer digitaler Datensammlungen

Zusammenfassung und Ausblick

Bitstream Preservation:

Dateiformatanalyse:

Bewertung, Erschließung:

Dateiformat-Migration:

Emulation:

Benutzung: