24
Sven Vlaeminck | SUB Göttingen „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.unigoettingen.de AP2: Erfassen & Kategorisieren von AP2: Erfassen & Kategorisieren von Datenbest Datenbest ä ä nden nden Expertenworkshop 09.12.2008 Göttingen Sven Vlaeminck Niedersächsische Staatsund Universitätsbibliothek (SUB) Göttingen Historisches Gebäude, Papendiek 14, 37073 Göttingen Fon: 0551 394773 | Mail to: [email protected]goettingen.de

AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“http://kolawiss.uni‐goettingen.de

AP2: Erfassen & Kategorisieren von AP2: Erfassen & Kategorisieren von DatenbestDatenbestäänden nden 

Expertenworkshop09.12.2008Göttingen

Sven Vlaeminck

Niedersächsische Staats‐ und Universitätsbibliothek (SUB) Göttingen 

Historisches Gebäude, Papendiek 14, 37073 Göttingen 

Fon: 0551 39‐4773 | Mail to: [email protected]‐goettingen.de

Page 2: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

AP2 AP2 –– Ziele & MethodikZiele & Methodik

Ziele:Ermittlung von Eigenschaften der Datenbestände 

Ermittlung von Kriterien zur Kategorisierung

Einbeziehen heterogener Datenbestände

Methode:Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐Online‐Surveys 2007 („Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen“)

Literaturstudium 

Page 3: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

= Ist= Ist‐‐Stand Erfassung =Stand Erfassung =

Ergebnisse der 

Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen

des nestor – Netzwerks[www.langzeitarchivierung.de]

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“http://kolawiss.uni‐goettingen.de

Page 4: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

„„Gibt es Daten, die Gibt es Daten, die üüber den aktuellen ber den aktuellen Gebrauch hinweg erhalten bleiben sollen?Gebrauch hinweg erhalten bleiben sollen?““

Page 5: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Interesse an & Planung von MaInteresse an & Planung von Maßßnahmen nahmen zur digitalen Langzeitarchivierungzur digitalen Langzeitarchivierung

Page 6: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Die Verwendung von MetadatenDie Verwendung von Metadaten……

Page 7: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Metadatenstandards Metadatenstandards 

Page 8: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Genutzte FormateGenutzte Formate

Insgesamt wurden 96 (!) unterschiedliche Formate genannt. Schwerpunkte: Adobe PDF, Formate der MS‐Office Familie, JPG, TIFF, Plain Text.   

Page 9: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Genutzte Formate IIGenutzte Formate II

Page 10: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Datenmengen nach FakultDatenmengen nach Fakultäät t 

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 16000

Wirtschaftswis. Fak.

Agrarwissenschaften

Biologie

Chemie

Forstwissenschaften

Juristische Fakultät

Mathematische Fak.

Medizinische Fak.

Philosophische Fak.

Physik

Sozialwiss. Fak.

Theolog. Fak.

Geowissenschaften

Durchschnittliche Datenmengen in verschiedenen Fakultäten nach Vorhaltezeiträumen (in GB)

LZA 5-10 Jahre< 5 Jahre

Page 11: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

ErgebnisseErgebnisse

Großes Interesse & großer Bedarf 

Kaum konkrete Planungen

Starke Divergenz bei Datenumfang  

Formate stark heterogen, häufig proprietär

Geringe Metadatenimplementierung

Kaum standardisierte Metadatenschemata

Komplexe Ausgangslage für dLZA von Forschungsdaten

Page 12: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“http://kolawiss.uni‐goettingen.de

= Kategorisierungsans= Kategorisierungsansäätze = tze = 

Page 13: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Wie lassen sich Forschungsdaten Wie lassen sich Forschungsdaten kategorisieren?kategorisieren?

Viele Ebenen der Kategorisierung denkbar:‐ Nach ihrer (fachwissenschaftlichen) Herkunft…‐ Nach MIME‐Type o.ä. …‐ Nach ihrem Inhalt / Content…‐ Nach der Datengröße (z.B. in GB)…

Vorschlag:‐ Kategorisierung anhand von Kriterien, die Auswirkungen (z.B. auf Kosten oder Policy) haben…

‐ Daher: Kategorisierung anhand von Vorhaltezeiträumen & Formateignung für dLZA

‐ Vorteile: Ausreichend generisch, quantifizierbar…

Page 14: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Dimension I: Kategorisierung nach Dimension I: Kategorisierung nach VorhaltzeitrVorhaltzeiträäumenumen

Kategorisierung nach geplanter ArchivierungszeitVier sinnvolle Vorhaltezeiträume:‐ bis zu 5 Jahren ‐ bis zu 10 Jahren ‐ bis zu 30 Jahren ‐ mehr als 30 Jahre 

=> Überführung in Service Level

Vorhaltezeiträume (4 Kategorien)

weniger als 5 Jahre

mehr als 30 Jahre

bis 30 Jahre

bis 10 Jahre

Page 15: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Dimension II: FormatDimension II: Format‐‐EignungEignung

Ermittlung & Bewertung der Format‐Eignung für dLZA anhand von sieben Kriterien‐ Offenheit & Lizenzfreiheit‐ Verbreitungsgrad‐ Selbstdokumentation‐ Robustheit‐ Komplexität‐ Schutzmechanismen ‐ AbhängigkeitenDiese Kriterien verfügen über unterschiedlich viele Ausprägungen:    ‐ z.B.: Kriterium: (geringe) Abhängigkeiten  

Ausprägung I: Unabhängigkeit von bestimmter HardwareAusprägung II: Unabhängigkeit von bestimmten OS  Ausprägung III: Unabhängigkeit von bestimmter SoftwareAusprägung VI: Unabhängigkeit von externen Ressourcen

Page 16: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Beispiele:Beispiele:

Page 17: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Bewertung der FormatBewertung der Format‐‐EignungEignung

Bestimmen der Format‐Eignung* durch a) Gewichtung der Relevanz verschiedener Kriterien‐

Ausprägungen   (abhängig von Policy, z.B. zwischen 1 & 9) b) Vergabe von Punktwerten für bestimmte Formate ( z.B. 

Bedingung sehr gut erfüllt =2 Punkte, Kriterium mittelmäßig erfüllt = 1 Punkt, Kriterium nicht erfüllt = 0 Punkte) 

c) Multiplikation der Punktwerte für Gewicht der Kriterien‐Ausprägung und dem vergebenen Wert

d) Division durch die Anzahl der Ausprägungen eines Formats.

Der Punkt‐Gesamtwert bestimmt die Eignung des Formats – je höher er ausfällt, desto geeigneter ist ein Format

* Nach: Rog, Judith / van Wijk, Caroline: Evaluating File Formats for Long‐term Preservation. National Library of the Netherlands, Den Haag, 2008

Page 18: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Die Kategorisierungsmatrix (I)Die Kategorisierungsmatrix (I)

Page 19: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Die Kategorisierungsmatrix (II)Die Kategorisierungsmatrix (II)

Page 20: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Die Kategorisierungsmatrix (III)Die Kategorisierungsmatrix (III)

Page 21: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Die Kategorisierungsmatrix (IV)Die Kategorisierungsmatrix (IV)

Kategorisierungsdimension „Vorhaltezeitraum“ noch nicht implementiert 

Bei einer Formatbewertung für alle „Vorhaltezeitraum“ergibt sich folgende Grafik (‐> fiktive Werte!)

Page 22: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Diagramm zur FormatDiagramm zur Format‐‐Eignung Eignung 

Page 23: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

Vielen Dank fVielen Dank füür Ihre r Ihre Aufmerksamkeit!Aufmerksamkeit!

Nun ist Raum fNun ist Raum füür Anmerkungen und r Anmerkungen und zur Diskussionzur Diskussion……

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“http://kolawiss.uni‐goettingen.de

Page 24: AP2: Erfassen Kategorisieren von Datenbeständenkolawiss.uni-goettingen.de/workshop/AP2Kategorisierung.pdf · Methode: Evaluierung des Ist‐Standes durch Nachnutzung des nestor‐

Sven Vlaeminck | SUB Göttingen

= Leitfragen zur Diskussion == Leitfragen zur Diskussion =

Ist diese Form der Kategorisierung zielführend?‐ Ist das vorgeschlagene Konzept ausreichend generisch UND ausreichend konkret?

‐ Werden weitere Kriterien und Ausprägungen gesehen, die Eingang in eine Bewertung erhalten sollten?

Sehen Sie andere sinnvolle Ebenen für eine Kategorisierung von Forschungsdaten?

Fehlen Ihnen grundlegende Punkte, die Ihrer Meinung nach unbedingt Eingang in eine Kategorisierung finden müssten?