Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
IANUS — ForschungsdatenzentrumArchäologie & Altertumswissenschaften
http://www.ianus-fdz.de Maurice Heinrich
Archivierung von digitalen Forschungs-daten der Altertumswissenschaften – Kosten- und Finanzierungskonzepte
21. Tagung des Arbeitskreises „Archivierung von Unterlagen aus digitalen Systemen“
28. Februar 2017, Basel
CCSABY
AGENDA
2
1. Das Projekt „IANUS“
2. Altertumswissenschaften
3. Kostenmodell
4. Zeitaufwände Kuratierung
5. Ausblick
3
1. IANUS
» DFG-finanziertes Projekt, am DAI-Berlin für die Fachcommunity koordiniert
» 1. Phase / 2011–2014: Bedarfsanalyse, Begehungen, Konzeption 2. Phase / 2015–2017: Umsetzung, Testbetrieb, erste Archivierung
» Regelbetrieb: ab 2018 (angestrebt)
» Etablierung einer nationalen, fachspezifischen Adresse für alle Archäologien & Altertumswissenschaften in Deutschland,
› die beim nachhaltigen Umgang mit Forschungsdaten unterstützt
› die langfristige Lösungen anbietet
› die dauerhaft eine technische Infrastruktur betreibt
4
1. IANUS
Verband der Landesarchäologenin der Bundesrepublik
Deutschland
5
1. IANUS
6
1. IANUS
Dienstleistungen
» Langzeitarchivierung und Kuratierung von digitalen Daten
» (Online)-Bereitstellung von digitalen Daten,
mit gestaffeltem Zugriff
» Nachweiskatalog über Datenbestände in IANUS
sowie aus anderen Einrichtungen & Systemen
» Bereitstellung & Redaktion von IT-Empfehlungen
» Unterstützung beim Forschungsdatenmanagement
» Angebote zur Schulung und Weiterbildung
7
2. ALTERTUMSWISSENSCHAFTEN
8
2. ALTERTUMSWISSENSCHAFTEN
archäologische/altertumswissenschaftliche Forschung ist geprägt von einer wachsenden Menge komplexer digitaler Daten, die
» von (Einzel-)Disziplinen wie Archäologie, Philologie, Alte Geschichte, Anthropologie, Archäometrie etc. erzeugt werden
» auf unterschiedlichen Methoden wie Ausgrabungen, Surveys, Bauforschung, Paläogenetik, Knochenanalyse, Materialunter- suchungen, Fernerkundung, Geodäsie, Textanalyse etc. basieren
3D-Scan der Hathorkapelle http://www.trigonart.com/3d-scannen-statt-zeichnen-6797
Screenshot der Webdatenbank Papyri.info, http://papyri.info/search?STRING=(praetorium)&no_caps=on&no_marks=on&target=text&DATE_MODE=LOOSE&DOCS_PER_PAGE=15
9
2. ALTERTUMSWISSENSCHAFTEN
» komplexe Fragestellungen zu anspruchsvollen Konzepten (z. B. Raum, Erinnerung, Gedächtnis, Landschaft, Macht) beantworten
» sich auf geographische & regionale Schwerpunkte (Afrika, Germanen, Kelten, Monumentalität, Limes etc.) beziehen
» Schnittmengen zur Ethnologie, Anthropologie, den Sozial-, Geschichts-, Geo- und Naturwissenschaften, Baugeschichte, Denkmalpflege etc. haben
» das kulturelle Erbe der Vorgeschichte & der Antike dokumentieren
Screenshot CodexSinaiticus, http://www.denkstroeme.de/heft-1/s_115-122_schneider/content-pic_115-122_
schneider-1.jpg
Oktogon, Triforium, Südost-Joch. Befunderhebung über Handauf-maß, http://baugeschichte.a.tu-berlin.de/bg/grafik/forschung
/projekte/mittelalter/trondheim/Tro05TriSOBefund.jpgGeomagnetische Aufnahme der Ipf Unter-burg: http://www.fuerstensitze.de/1175_Lau-
fende-Arbeiten-52639.html
10
2. ALTERTUMSWISSENSCHAFTEN
Datenvielfalt
» Audio
» Vektordaten / CAD
» Datenbanken
» Fernerkundung / Satelliten
» Filme
» Geophysik
» GIS / Vermessung
» Laserscanning
» Mark-Up Text
» Photogrammetrie
» Rasterbilder
» Tabellen
» Statistik
» (Frei-)Texte
» 3D / Virtual Reality
» Webseiten
Mumie im CT-Scan, https://news.usc.edu/files/2013/03/Mummy-CT-Scan.jpg
Plan Fürstengrabhügel am Glauberg, http://dna.fuerstensit-ze.de/dna_media/Grabhuegel4327bd971c0af.jpg
11
2. ALTERTUMSWISSENSCHAFTLICHE DATEN
12
2. ALTERTUMSWISSENSCHAFTLICHE DATEN
Wie sieht ein durchschnittliches archäologisches Projekt aus?
» 20 altertumswissenschaftliche Datensammlungen
» aus verschieden Disziplinen & Institutionen
» aus laufenden & abgeschlossenen Projekten
» nicht explizit für die Archivierung aufbereitet
› keine Auswahl, Formatvalidierung, Qualitsätsicherung etc.
› unvollständige Dokumentation, Metadaten, Lizenzen etc.
› oft nur Teile aus größeren Datenbeständen
13
2. ALTERTUMSWISSENSCHAFTLICHE DATEN
14
2. ALTERTUMSWISSENSCHAFTLICHE DATEN
Quantitäten Insgesamt
» 684,9 GB Speicher
» 237.403 Dateien in 7.537 Ordnern
» max. Ordnertiefe: 12 Ebenen
» 462 Dateiformate
Durchschnittliches archäologisches Projekt (Mittelwert)
» 38 GB Speicher
» 12.425 Dateien in 380 Ordner
» max. Ordnertiefe: vier Ebenen
» 40 Dateiformate
15
2. ALTERTUMSWISSENSCHAFTLICHE DATEN
AIP - Archivierungsformate
DIP - Präsentationsformate
PDF/A-1 pdf präferiert pdf/A-2 pdf/A
PDF/A-2 pdf präferiert pdf/A-2 pdf/A
PDF/A-3 pdf akzeptiert pdf/A-2 + weitere Dateien pdf/A
andere PDF-Varianten pdf akzeptiert pdf/A-2 pdf/A
Portable Document Format (PDF/A) pdf präferiert pdf/A pdf/A
andere PDF-Varianten pdf akzeptiert pdf/A-2 pdf/A
OpenDocument Format odt präferiert odt + pdf/A odt, pdf/A
Microsoft Office XML docx präferiert docx + pdf/A docx, pdf/A
Microsoft Word doc akzeptiert docx + pdf/A docx, pdf/A
Rich Text Format rtf akzeptiert docx + pdf/A docx, pdf/A
Open Office XML sxw akzeptiert odt + pdf/A odt, pdf/A
Reiner Text, plain text txt präferiert txt txt
Strukturierter Text, Markupxml, sgml, html etc. + dtd, xsd etc.
präferiert xml, sgml, html etc. + dtd, xsd etc. xml, sgml, html etc. + dtd, xsd etc.
Baseline TIFF v. 6, unkomprimiert tiff, tif präferiert tiff (unkomprimiert v.6) jpeg
Adobe Digital Negative dng präferiert dng dng, jpeg
Portable Network Graphics png akzeptiert tiff (unkomprimiert v.6) png
Joint Photographic Expert Group jpeg, jpg akzeptiert tiff (unkomprimiert v.6) jpeg
Graphics Interchange Format gif akzeptiert tiff (unkomprimiert v.6) png
Windows Bitmap bmp akzeptiert tiff (unkomprimiert v.6) png
Photoshop (Adobe) psd akzeptiert tiff (unkomprimiert v.6) png, jpeg
CorelPaint cpt akzeptiert tiff (unkomprimiert v.6) png, jpeg
JPEG2000 jp2, jpx akzeptiert tiff (unkomprimiert v.6) jp2, jpx, jpeg
RAW image format nef, crw etc. akzeptiert dng jpeg
Comma Separated Values csv präferiert csv csv
Tab Separated Values tsv präferiert csv csv
OpenDocument Format ods präferiert ods ods
Microsoft Office XML xlsx präferiert xlsx xlsx
Strukturierter Text, Markupxml, html etc. + dtd, xsd etc.
präferiert xml, html etc. + dtd, xsd etc. xml, html etc. + dtd, xsd etc.
Portable Document Format (PDF/A) pdf akzeptiert pdf/A pdf/A
Open Office XML sxc akzeptiert ods ods
Microsoft Excel xls akzeptiert xlsx xlsx
Matroska mkv präferiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
Motion JPEG 2000 mj2 akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
MPEG-4 mp4 akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
Material eXchange Format mxf akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
MPEG-2 mpeg, mpg akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
andere MPEG-Varianten mpeg, mpg akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
Audio Video Interleave avi akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
MOV mov akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
ASF/WMF asf, wmv akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
Oggogg, ogv, ogx, ogm, spx
akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
Flash flv, f4v akzeptiert mkv (FFV1 und FLAC) mkv (kleiner), mp4
RAST
ERG
RAFI
KEN
DATEIFORMATE UND DATENMIGRATION– Juli 2016 –
SIP - Abgabeformate
PDF-
DO
KUM
ENTE
TEXT
E / D
OKU
MEN
TETA
BELL
ENV
IDEO
16
3. KOSTENMODELL
17
Erste Erkenntnisse
» Häufig das Modell „pay once – store forever“
» Nachnutzung immer kostenfrei
» Personalkosten 65 % – 85 % der Gesamtkosten
» Unschärfen von zukünftigen Kostenentwicklungen für
› Strom,
› Speicher,
› Personalkosten ...
» Herausforderung Kosten forever zu kalkulieren/abzuschätzen
» Unschärfen minimieren
3. KOSTENMODELL
18
3. KOSTENMODELL
Identifikation aller Kostenfaktoren (nach Entstehungsart)
» Hardware à Server / Speicherplatz / Mitarbeiter-PC´s
» Software à CMS / AMS / Betriebssysteme Server & Client / für E-Mail, Tickets, Dokumentation / Monitoring-Systeme
» Personal à Gehälter / Reisekosten
» Räume à Miete für Mitarbeiterbüros, Besprechungsräume, Technik-Serverräume / Betriebskosten
» externe Dienstleistungen à Support-Kosten / SLA / Infrastrukturdienste (Anschluss an DFN) / Versicherungen
» Sonstige à Services / Zertifizierungen / Öffentlichkeitsmaterialien
19
3. KOSTENMODELL
Zuordnung der Kostenfaktoren (nach Entstehungszeitpunkt)
» initiale Kosten - einmalig (DFG)
› Info/Evaluation LZA-Systeme, Anforderungsanalyse, PP
» Beschaffungskosten - einmalig (DFG, DAI)
› Hard-/Software, Entwicklung, Infrastruktur, Schulung Personal
» Betriebskosten - laufende jährliche Kosten (DFG, DAI)
› Ingest, SLA, Miete, Strom, DFN, Lizenzen,
» Betriebskosten - laufende mehrjährige Kosten (DAI)
› Hard-/Softwareersatz, Weiterbildung, Zertifizierungen
20
3. KOSTENMODELL
21
zukünftiges Vorgehen
» Finalisierung aller Aufgaben/Prozessabläufe
» Anwendung der einer geeigneten Kostenmethodik
› Prozesskostenrechnung vs. activity-based-costing
» Quantifizierung aller Detailkosten (Vollkostenrechnung)
» Eleminierung von Unschärfen
› mehr Einzelkosten
› weniger Gemeinkosten
» Monitoring aller Arbeitsbereiche
3. KOSTENMODELL
22
4. ZEITAUFWÄNDE KURATIERUNG
23
4. ZEITAUFWÄNDE KURATIERUNG
Einführung Monitoring in der Datenkuratierung (seit 2016)
» Kategorien
› Kommunikation mit DG vor Übernahme
› Bewertung und Übernahme
› Kommunikation mit DG ab Vertrag
› Gesamtstrategie Datensammlung
› Erschließung
› Erstellung Archivpakete (SIP)
› Erstellung Archivpakete (AIP)
› Erstellung Archivpakete (DIP)
› Dokumentation
› Qualitätssicherung
24
4. ZEITAUFWÄNDE KURATIERUNG
Einführung Monitoring in der Datenkuratierung (seit 2016)
» Kategorien
› Kommunikation mit DG vor Übernahme à 0,85 %
› Bewertung und Übernahme à 2,6 %
› Kommunikation mit DG ab Vertrag à 6,76 %
› Gesamtstrategie Datensammlung à 5,51 %
› Erschließung à 31,25 %
› Erstellung Archivpakete (SIP) à 6,94 %
› Erstellung Archivpakete (AIP) à 19,58 %
› Erstellung Archivpakete (DIP) à 18,60 %
› Dokumentation à 1,99 %
› Qualitätssicherung à 5,92 %
25
4. ZEITAUFWÄNDE KURATIERUNG
Ziel
» Aussage über Zeitaufwand eines durchschnittlichen Projektes
aktuelles Vorgehen
» Ermittlung der Kuratierungszeit realer Projekte
» Zeit je Datei = benötigte Gesamtzeit/Gesamtdateianzahl (43 h)
» Zeit je MB = benötigte Gesamtzeit/Gesamtgröße (65 h)
Validierung
» Methode durchschn. Zeit gegen reale Projektzeiten validiert
› gr. Datenmenge & einfache D. à nach Dateianzahl (-7%)
› s. kl. Datenmenge & komplexe D. à nach Dateianzahl ( -43%)
26
4. ZEITAUFWÄNDE KURATIERUNG
Fazit
» nach derzeitgen Modell, ca. 20 durchschnittliche Projekte/Jahr
Aber
» Aussagekraft bisheriger Ansätze nicht optimal!
» Wie bewertet man die Komplexität von Datensammlungen?
» Kritische Menge an repräsentativen Zeitaufwänden notwendig!
› mehr Datensammlungen kuratieren & monitoren
» Auswahl von weiteren Kategorien zur Bewertung!
› Dateityp ...
27
5. AUSBLICK
28
5. AUSBLICK
Herausforderung
» nachhaltige (Basis-)Finanzierung klären
› RfII empfiehlt Aufbau einer NFDI
› GWK stimmt am 7. April über Bericht des RfII ab
» Begutachtung durch den Wissenschaftsrat 2015
› sehr positives Gesamturteil
› Bekräftigung dieses Finanzierungsmodell weiter zu verfolgen
29
5. AUSBLICK
Aufwandsbezogene Gebührenbeteiligung
» DFG-Leitlinien zum Umgang mit Forschungsdaten (10.2015)
› Übernahme von Kosten für die Aufbereitung
› Personal, Hard- und Software, Nutzungsgebühren
» RfII befürwortet Beitragsmodellen mit Beteiligung Community
» WR-Votum für aktive Kostenbeteiligung der Community
» Verfeinerung der Kostenbeteiligung der Fachcommunity
» Vollkostenumlage auf Nutzer realistisch/hinderlich?
» Klärung finanzrechtliche Bund-Länder-Problematik
http://www.ianus-fdz.de
IANUSc/o Deutsches Archäologisches Institut Podbielskiallee 69-71 D-14195 BerlinTel.: +49-(0)30-187711-359
ProjektleitungProf. Dr. Friederike FlessProf. Dr. Ortwin Dally
ProjektkoordinationMaurice Heinrich Dr. Felix F. Schäfer
Weitere Infoshomepage: http://www.ianus-fdz.detwitter: @Ianus_fdzfacebook: IANUS-Forschungsdatenzentrumyoutube: IANUS-Forschungsdatenzentrum
VIELEN DANK
Forschungsdatenzentrum
Archäologie &
Altertumswissenschaften
Austausch
Digitale DatenForsch
ung
Nachnutzung
Archivierun
g
Plan
ung
Datenerhaltung
Metad
aten
Dokumentation
IT-Empfehlungen