Archivierung von digitalen Forschungs- daten der ......6 1. IANUS Dienstleistungen »...

Preview:

Citation preview

IANUS — ForschungsdatenzentrumArchäologie & Altertumswissenschaften

http://www.ianus-fdz.de Maurice Heinrich

Archivierung von digitalen Forschungs-daten der Altertumswissenschaften – Kosten- und Finanzierungskonzepte

21. Tagung des Arbeitskreises „Archivierung von Unterlagen aus digitalen Systemen“

28. Februar 2017, Basel

CCSABY

AGENDA

2

1. Das Projekt „IANUS“

2. Altertumswissenschaften

3. Kostenmodell

4. Zeitaufwände Kuratierung

5. Ausblick

3

1. IANUS

» DFG-finanziertes Projekt, am DAI-Berlin für die Fachcommunity koordiniert

» 1. Phase / 2011–2014: Bedarfsanalyse, Begehungen, Konzeption 2. Phase / 2015–2017: Umsetzung, Testbetrieb, erste Archivierung

» Regelbetrieb: ab 2018 (angestrebt)

» Etablierung einer nationalen, fachspezifischen Adresse für alle Archäologien & Altertumswissenschaften in Deutschland,

› die beim nachhaltigen Umgang mit Forschungsdaten unterstützt

› die langfristige Lösungen anbietet

› die dauerhaft eine technische Infrastruktur betreibt

4

1. IANUS

Verband der Landesarchäologenin der Bundesrepublik

Deutschland

5

1. IANUS

6

1. IANUS

Dienstleistungen

» Langzeitarchivierung und Kuratierung von digitalen Daten

» (Online)-Bereitstellung von digitalen Daten,

mit gestaffeltem Zugriff

» Nachweiskatalog über Datenbestände in IANUS

sowie aus anderen Einrichtungen & Systemen

» Bereitstellung & Redaktion von IT-Empfehlungen

» Unterstützung beim Forschungsdatenmanagement

» Angebote zur Schulung und Weiterbildung

7

2. ALTERTUMSWISSENSCHAFTEN

8

2. ALTERTUMSWISSENSCHAFTEN

archäologische/altertumswissenschaftliche Forschung ist geprägt von einer wachsenden Menge komplexer digitaler Daten, die

» von (Einzel-)Disziplinen wie Archäologie, Philologie, Alte Geschichte, Anthropologie, Archäometrie etc. erzeugt werden

» auf unterschiedlichen Methoden wie Ausgrabungen, Surveys, Bauforschung, Paläogenetik, Knochenanalyse, Materialunter- suchungen, Fernerkundung, Geodäsie, Textanalyse etc. basieren

3D-Scan der Hathorkapelle http://www.trigonart.com/3d-scannen-statt-zeichnen-6797

Screenshot der Webdatenbank Papyri.info, http://papyri.info/search?STRING=(praetorium)&no_caps=on&no_marks=on&target=text&DATE_MODE=LOOSE&DOCS_PER_PAGE=15

9

2. ALTERTUMSWISSENSCHAFTEN

» komplexe Fragestellungen zu anspruchsvollen Konzepten (z. B. Raum, Erinnerung, Gedächtnis, Landschaft, Macht) beantworten

» sich auf geographische & regionale Schwerpunkte (Afrika, Germanen, Kelten, Monumentalität, Limes etc.) beziehen

» Schnittmengen zur Ethnologie, Anthropologie, den Sozial-, Geschichts-, Geo- und Naturwissenschaften, Baugeschichte, Denkmalpflege etc. haben

» das kulturelle Erbe der Vorgeschichte & der Antike dokumentieren

Screenshot CodexSinaiticus, http://www.denkstroeme.de/heft-1/s_115-122_schneider/content-pic_115-122_

schneider-1.jpg

Oktogon, Triforium, Südost-Joch. Befunderhebung über Handauf-maß, http://baugeschichte.a.tu-berlin.de/bg/grafik/forschung

/projekte/mittelalter/trondheim/Tro05TriSOBefund.jpgGeomagnetische Aufnahme der Ipf Unter-burg: http://www.fuerstensitze.de/1175_Lau-

fende-Arbeiten-52639.html

10

2. ALTERTUMSWISSENSCHAFTEN

Datenvielfalt

» Audio

» Vektordaten / CAD

» Datenbanken

» Fernerkundung / Satelliten

» Filme

» Geophysik

» GIS / Vermessung

» Laserscanning

» Mark-Up Text

» Photogrammetrie

» Rasterbilder

» Tabellen

» Statistik

» (Frei-)Texte

» 3D / Virtual Reality

» Webseiten

Mumie im CT-Scan, https://news.usc.edu/files/2013/03/Mummy-CT-Scan.jpg

Plan Fürstengrabhügel am Glauberg, http://dna.fuerstensit-ze.de/dna_media/Grabhuegel4327bd971c0af.jpg

11

2. ALTERTUMSWISSENSCHAFTLICHE DATEN

12

2. ALTERTUMSWISSENSCHAFTLICHE DATEN

Wie sieht ein durchschnittliches archäologisches Projekt aus?

» 20 altertumswissenschaftliche Datensammlungen

» aus verschieden Disziplinen & Institutionen

» aus laufenden & abgeschlossenen Projekten

» nicht explizit für die Archivierung aufbereitet

› keine Auswahl, Formatvalidierung, Qualitsätsicherung etc.

› unvollständige Dokumentation, Metadaten, Lizenzen etc.

› oft nur Teile aus größeren Datenbeständen

13

2. ALTERTUMSWISSENSCHAFTLICHE DATEN

14

2. ALTERTUMSWISSENSCHAFTLICHE DATEN

Quantitäten Insgesamt

» 684,9 GB Speicher

» 237.403 Dateien in 7.537 Ordnern

» max. Ordnertiefe: 12 Ebenen

» 462 Dateiformate

Durchschnittliches archäologisches Projekt (Mittelwert)

» 38 GB Speicher

» 12.425 Dateien in 380 Ordner

» max. Ordnertiefe: vier Ebenen

» 40 Dateiformate

15

2. ALTERTUMSWISSENSCHAFTLICHE DATEN

AIP - Archivierungsformate

DIP - Präsentationsformate

PDF/A-1 pdf präferiert pdf/A-2 pdf/A

PDF/A-2 pdf präferiert pdf/A-2 pdf/A

PDF/A-3 pdf akzeptiert pdf/A-2 + weitere Dateien pdf/A

andere PDF-Varianten pdf akzeptiert pdf/A-2 pdf/A

Portable Document Format (PDF/A) pdf präferiert pdf/A pdf/A

andere PDF-Varianten pdf akzeptiert pdf/A-2 pdf/A

OpenDocument Format odt präferiert odt + pdf/A odt, pdf/A

Microsoft Office XML docx präferiert docx + pdf/A docx, pdf/A

Microsoft Word doc akzeptiert docx + pdf/A docx, pdf/A

Rich Text Format rtf akzeptiert docx + pdf/A docx, pdf/A

Open Office XML sxw akzeptiert odt + pdf/A odt, pdf/A

Reiner Text, plain text txt präferiert txt txt

Strukturierter Text, Markupxml, sgml, html etc. + dtd, xsd etc.

präferiert xml, sgml, html etc. + dtd, xsd etc. xml, sgml, html etc. + dtd, xsd etc.

Baseline TIFF v. 6, unkomprimiert tiff, tif präferiert tiff (unkomprimiert v.6) jpeg

Adobe Digital Negative dng präferiert dng dng, jpeg

Portable Network Graphics png akzeptiert tiff (unkomprimiert v.6) png

Joint Photographic Expert Group jpeg, jpg akzeptiert tiff (unkomprimiert v.6) jpeg

Graphics Interchange Format gif akzeptiert tiff (unkomprimiert v.6) png

Windows Bitmap bmp akzeptiert tiff (unkomprimiert v.6) png

Photoshop (Adobe) psd akzeptiert tiff (unkomprimiert v.6) png, jpeg

CorelPaint cpt akzeptiert tiff (unkomprimiert v.6) png, jpeg

JPEG2000 jp2, jpx akzeptiert tiff (unkomprimiert v.6) jp2, jpx, jpeg

RAW image format nef, crw etc. akzeptiert dng jpeg

Comma Separated Values csv präferiert csv csv

Tab Separated Values tsv präferiert csv csv

OpenDocument Format ods präferiert ods ods

Microsoft Office XML xlsx präferiert xlsx xlsx

Strukturierter Text, Markupxml, html etc. + dtd, xsd etc.

präferiert xml, html etc. + dtd, xsd etc. xml, html etc. + dtd, xsd etc.

Portable Document Format (PDF/A) pdf akzeptiert pdf/A pdf/A

Open Office XML sxc akzeptiert ods ods

Microsoft Excel xls akzeptiert xlsx xlsx

Matroska mkv präferiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

Motion JPEG 2000 mj2 akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

MPEG-4 mp4 akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

Material eXchange Format mxf akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

MPEG-2 mpeg, mpg akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

andere MPEG-Varianten mpeg, mpg akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

Audio Video Interleave avi akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

MOV mov akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

ASF/WMF asf, wmv akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

Oggogg, ogv, ogx, ogm, spx

akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

Flash flv, f4v akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4

RAST

ERG

RAFI

KEN

DATEIFORMATE UND DATENMIGRATION– Juli 2016 –

SIP - Abgabeformate

PDF-

DO

KUM

ENTE

TEXT

E / D

OKU

MEN

TETA

BELL

ENV

IDEO

16

3. KOSTENMODELL

17

Erste Erkenntnisse

» Häufig das Modell „pay once – store forever“

» Nachnutzung immer kostenfrei

» Personalkosten 65 % – 85 % der Gesamtkosten

» Unschärfen von zukünftigen Kostenentwicklungen für

› Strom,

› Speicher,

› Personalkosten ...

» Herausforderung Kosten forever zu kalkulieren/abzuschätzen

» Unschärfen minimieren

3. KOSTENMODELL

18

3. KOSTENMODELL

Identifikation aller Kostenfaktoren (nach Entstehungsart)

» Hardware à Server / Speicherplatz / Mitarbeiter-PC´s

» Software à CMS / AMS / Betriebssysteme Server & Client / für E-Mail, Tickets, Dokumentation / Monitoring-Systeme

» Personal à Gehälter / Reisekosten

» Räume à Miete für Mitarbeiterbüros, Besprechungsräume, Technik-Serverräume / Betriebskosten

» externe Dienstleistungen à Support-Kosten / SLA / Infrastrukturdienste (Anschluss an DFN) / Versicherungen

» Sonstige à Services / Zertifizierungen / Öffentlichkeitsmaterialien

19

3. KOSTENMODELL

Zuordnung der Kostenfaktoren (nach Entstehungszeitpunkt)

» initiale Kosten - einmalig (DFG)

› Info/Evaluation LZA-Systeme, Anforderungsanalyse, PP

» Beschaffungskosten - einmalig (DFG, DAI)

› Hard-/Software, Entwicklung, Infrastruktur, Schulung Personal

» Betriebskosten - laufende jährliche Kosten (DFG, DAI)

› Ingest, SLA, Miete, Strom, DFN, Lizenzen,

» Betriebskosten - laufende mehrjährige Kosten (DAI)

› Hard-/Softwareersatz, Weiterbildung, Zertifizierungen

20

3. KOSTENMODELL

21

zukünftiges Vorgehen

» Finalisierung aller Aufgaben/Prozessabläufe

» Anwendung der einer geeigneten Kostenmethodik

› Prozesskostenrechnung vs. activity-based-costing

» Quantifizierung aller Detailkosten (Vollkostenrechnung)

» Eleminierung von Unschärfen

› mehr Einzelkosten

› weniger Gemeinkosten

» Monitoring aller Arbeitsbereiche

3. KOSTENMODELL

22

4. ZEITAUFWÄNDE KURATIERUNG

23

4. ZEITAUFWÄNDE KURATIERUNG

Einführung Monitoring in der Datenkuratierung (seit 2016)

» Kategorien

› Kommunikation mit DG vor Übernahme

› Bewertung und Übernahme

› Kommunikation mit DG ab Vertrag

› Gesamtstrategie Datensammlung

› Erschließung

› Erstellung Archivpakete (SIP)

› Erstellung Archivpakete (AIP)

› Erstellung Archivpakete (DIP)

› Dokumentation

› Qualitätssicherung

24

4. ZEITAUFWÄNDE KURATIERUNG

Einführung Monitoring in der Datenkuratierung (seit 2016)

» Kategorien

› Kommunikation mit DG vor Übernahme à 0,85 %

› Bewertung und Übernahme à 2,6 %

› Kommunikation mit DG ab Vertrag à 6,76 %

› Gesamtstrategie Datensammlung à 5,51 %

› Erschließung à 31,25 %

› Erstellung Archivpakete (SIP) à 6,94 %

› Erstellung Archivpakete (AIP) à 19,58 %

› Erstellung Archivpakete (DIP) à 18,60 %

› Dokumentation à 1,99 %

› Qualitätssicherung à 5,92 %

25

4. ZEITAUFWÄNDE KURATIERUNG

Ziel

» Aussage über Zeitaufwand eines durchschnittlichen Projektes

aktuelles Vorgehen

» Ermittlung der Kuratierungszeit realer Projekte

» Zeit je Datei = benötigte Gesamtzeit/Gesamtdateianzahl (43 h)

» Zeit je MB = benötigte Gesamtzeit/Gesamtgröße (65 h)

Validierung

» Methode durchschn. Zeit gegen reale Projektzeiten validiert

› gr. Datenmenge & einfache D. à nach Dateianzahl (-7%)

› s. kl. Datenmenge & komplexe D. à nach Dateianzahl ( -43%)

26

4. ZEITAUFWÄNDE KURATIERUNG

Fazit

» nach derzeitgen Modell, ca. 20 durchschnittliche Projekte/Jahr

Aber

» Aussagekraft bisheriger Ansätze nicht optimal!

» Wie bewertet man die Komplexität von Datensammlungen?

» Kritische Menge an repräsentativen Zeitaufwänden notwendig!

› mehr Datensammlungen kuratieren & monitoren

» Auswahl von weiteren Kategorien zur Bewertung!

› Dateityp ...

27

5. AUSBLICK

28

5. AUSBLICK

Herausforderung

» nachhaltige (Basis-)Finanzierung klären

› RfII empfiehlt Aufbau einer NFDI

› GWK stimmt am 7. April über Bericht des RfII ab

» Begutachtung durch den Wissenschaftsrat 2015

› sehr positives Gesamturteil

› Bekräftigung dieses Finanzierungsmodell weiter zu verfolgen

29

5. AUSBLICK

Aufwandsbezogene Gebührenbeteiligung

» DFG-Leitlinien zum Umgang mit Forschungsdaten (10.2015)

› Übernahme von Kosten für die Aufbereitung

› Personal, Hard- und Software, Nutzungsgebühren

» RfII befürwortet Beitragsmodellen mit Beteiligung Community

» WR-Votum für aktive Kostenbeteiligung der Community

» Verfeinerung der Kostenbeteiligung der Fachcommunity

» Vollkostenumlage auf Nutzer realistisch/hinderlich?

» Klärung finanzrechtliche Bund-Länder-Problematik

http://www.ianus-fdz.de

IANUSc/o Deutsches Archäologisches Institut Podbielskiallee 69-71 D-14195 BerlinTel.: +49-(0)30-187711-359

ProjektleitungProf. Dr. Friederike FlessProf. Dr. Ortwin Dally

ProjektkoordinationMaurice Heinrich Dr. Felix F. Schäfer

Weitere Infoshomepage: http://www.ianus-fdz.detwitter: @Ianus_fdzfacebook: IANUS-Forschungsdatenzentrumyoutube: IANUS-Forschungsdatenzentrum

VIELEN DANK

Forschungsdatenzentrum

Archäologie &

Altertumswissenschaften

Austausch

Digitale DatenForsch

ung

Nachnutzung

Archivierun

g

Plan

ung

Datenerhaltung

Metad

aten

Dokumentation

IT-Empfehlungen

Recommended