SCAPE Skalierbare Langzeitarchivierung

04.10.2013

Dr. Sven SchlarbÖsterreichische NationalbibliothekAbteilung für Forschung und Entwicklungsven.schlarb@onb.ac.at

SCAPESkalierbare Langzeitarchivierung

• Einführung• SCAPE Lösungen

• Repositories• Werkzeuge• Planung der Langzeitarchivierung

• Anwendungsfälle• Web-Archivierung• Repositories• Wissenschaftliche Daten• Datenzentren

• Weiterführende Informationen

Übersicht

This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐

SCAPE – Worum gehts im Allgemeinen?

• „Big data“ – Verarbeitung großer Datenmengen• Skalierbarkeit in mehrerlei Hinsicht

• Anzahl• Größe• Komplexität• Vielfalt der Datenformate

• IT Umgebungen (Hardware, Software, Systeme) sind für das Management zunehmender Datenmengen nicht ausgerichtet

der zu verarbeitenden Objekte

SCAPE – Worum gehts konkret?

• Planung und Durchführung rechenintensiver Maßnahmen der Langzeitarchivierung, zum Beispiel:• Ingest großer Datenmengen in ein Repository• Dateiformat-Identifikation und Bestimmung von Dateieigenschaften• Multi-Terabyte Migration

• Ausarbeitung typischer Anwendungsfälle die skalierbare Maßnahmen für die Langzeitarchivierung erfordern

• Umsetzung der Anwendungsfälle und Einsatz in Bibliotheken und Datenzentren

SCAPE Projektrahmen

SCAPE Consortium

SCAPE Lösungen

• Basis• Computer-Cluster• Virtualsierung

(XEN/Eucalyptus)• Softwareverteilung

• Debian Pakete• Tool Spezifikation

• Auftragsausführung• Apache Hadoop (HDFS/MapReduce)• Apache Oozie (Workflows)

Skalierbare Datenverarbeitung

• Fedora 4.0.0• Nur REST, kein SOAP• Auf der Basis von RDF• JCR 2.0 Implementieriung – ModeShape (Jboss)• Infinispan (Jboss) verteilter NoSQL Datenspeicher

• Lily 2.0• Basierend auf HBase/HDFS• Integrierte Datenverarbeitung

und -speicherung

Skalierbare Repositories

In SCAPE entwickelte Software-Werkzeuge

Jpylyzer – JPEG 2000 Validierung

Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich

Pagelyzer– Web-Inhalte vergleichen

• Tool Wrapper• Integration bestehender Software-Werkzeuge in die SCAPE Platform

• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung

• Standardisierte Ausführung (Kommandozeile)• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.

• Generiert Langzeitarchivierungskomponenten • Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern• Automatischer Veröffentlichung von Kompmenten auf myExperiment• Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-Komponenten

vereinfacht

• Langzeitarchivierungswerkzeugkasten• Werkzeugsammlung für die Langzeitarchivierung• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung• Einfaches deployment unter Linux (via apt-get)

• apt-get install digital-preservation-tools

Integration existierender Software-Werkzeuge

• SCOUT: Automatisierte Überwachung der Langzeitarchivierung• Einbindung externer Informationsquellen der Langzeitarchivierung• Fall-basierte Benachrichtigungsfunktionen

• c3po: Skalierbare Analyse von Archivinhalten• Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)• Auswertung von FITS-Datei-Analyseergebnissen• Detaillierte Statistiken• Möglichkeiten der Stichprobenbildung

• PLATO 4.1: scalable preservation planning• www.ifs.tuwien.ac.at/dp/plato• Weiterentwicklung der Version aus dem Planets-Projekt• Neue Funktionalität

• Gemeinsame Planung der Langzeitarchivierung in Gruppen• Integration maschinenlesbarer Richtlinien

Planung der Langzeitarchivierung

SCAPE Architektur

Plan ManagementAPI

Digital Object Repository

ExecutionPlatform

JESJES

HadoopHadoop

JES API

Data Connector API

Automated Watch

Automated Planning

PLATOPLATO

Plan Management

Digital Objects/

Metadata

Preservation Plan Store

PlanPlan

Component Catalogue

ComponentLookup

Taverna Workbench

ComponentRegistration

Component Profile

Validator

Automated Watch

SourcesSources

PushAPI

PullAPI

KnowledgeKnowledge

Source AdaptorSource

Adaptor

Client ServiceClient

ServiceWatch RequestAPI

Notification API

ReportAPI

AssessmentAssessment

Data Publication

Platform

Data Publication

Platform

APIDataLoader

Application

DataLoader

Application

Hadoop/MapReduce-Exkurs

• Bei großen Datenmengen ist es meist einfacher die verarbeitende Komponente zu den Daten zu bringen als umgekehrt, die Daten zur verarbeitenden Komponente

• Feingranulare Parallelisierung: Die Ausführung der Datenverarbeitung findet auf den zur Verfügung stehenden Prozessorkernen statt

• Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es gibt spezielle Vorkehrungen dafür

• Redundanz: Datenblöcke werden redundant gespeichert (Default: 3x) Ausfallsicherheit, Flexibler Zugriff auf Daten

• Daten-Lokalität: Freier Knoten mit direktem Zugang zu Datenblock übernimmt die Verarbeitung

Einige Hadoop Grundprinzipien

Die physische Sicht: Prozessor (CPU)

Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten4 physische Kerne

8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)

Die physische Sicht: Cluster-Knoten

Verteilte Datenverarbeitung (MapReduce)

Verteilter Datenspeicher (HDFS)

Hadoop = MapReduce + HDFS

2 x Quad-Core-CPUs:10 Map (Parallelisierung)4 Reduce (Aggregation)

4 x 1 TB Festplatten bei Redundanz 3:1,33 TB effektiv (rein rechnerisch)

Verteilte Datenverarbeitung (MapReduce)

Task 2

Task 3

Output data

Aggregated Result

Skalierbares Open Source Puzzle

Taverna Workflow Server (REST API)

SCAPE Anwendungsfälle

• HDFS als Master oder Temporärspeicher: Müssen die Dateien für die Verarbeitung erst auf den Cluster kopiert werden? Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten.

• Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die Parallelisierung in kleinere Datensegmente unterteilen (Standard: 64 MB)?

• Das „Kleine Dateien“-Problem: Wenn eine große Menge kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese zu einer einzigen großen Datei zusammenzufassen?

• Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der Eingangsdaten ausreichend? Gibt es häufig Änderungen?

Fragestellungen zur Daten-Vorbereitung

SCAPE Anwendungsfälle

• Große digitale Repositories• Format-Konvertierung umfangreicher Bestände

• Überwiegend Parallelisierung, d.h. vor Allem “Map”

• Schlechte Audio-Qualität automatisiert entdecken• XCorrSound-Anwendung

• Duplikat-Seiten in großen Buchbeständen erkennen

• Matchbox-Anwendung• Duplikate innerhalb eines Buches finden• Verschiedene Buchversionen miteinander vergleichen

• Wissenschaftliche Daten• Konvertierung von RAW zu NEXUS

• Große Datenmengen aus Physik-Experimenten• Herausforderung: Verschiedene Teilchenbeschleuniger

produzieren unterschiedliche RAW Datenformate

from digitalbevaring.dk

SCAPE Testbeds

• Web Content• Datei-Analyse und Datei-Formaterkennung

Statistiken: MapReduce Anwendungsfälle• Qualitätssicherung in der Web-Archivierung

• Data Centers• Übertragung medizinischer Daten in Datenzentren• Voraussetzung: Verschlüsselung und

Anonymisierung

from digitalbevaring.dk

Weiterführende Informationen

Weiterführende Informationen• Entwicklungs-Infrastruktur

• Code-Repository bei der Open Planets Foundation und GitHub• https://github.com/openplanets/

• Wiki• http://wiki.opf-labs.org/display/SP/Home

• Veröffentlichungen• http://www.scape-project.eu/category/publication

• Projektergebnisse: • http://www.scape-project.eu/category/deliverable

• SCAPE-Werkzeuge:• http://www.scape-project.eu/tools

SCAPE Hackathon in Wien

• Langzeitarchivierung mit Hadoop:

Hadoop-driven Digital Preservation

• 2. bis 4. Dezember 2013 in Wien an der Österreichischen Nationalbibliothek

http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation

SCAPE Contact Information

• SCAPE• http://www.scape-project.eu• Twitter: #scapeproject• office@list.scape-project.eu

• Dr. Sven SchlarbÖsterreichische Nationalbibliotheksven.schlarb@onb.ac.at

Danke! Fragen?

SCAPE Skalierbare Langzeitarchivierung

Technology

Digitale Langzeitarchivierung Manfred Thaller Köln, 20. Oktober 2011

Langzeitarchivierung von Online-Publikationen Digitaler ...fiz1.fh-potsdam.de/volltext/diplome/08344.pdf · Fachhochschule Potsdam Diplomarbeit Langzeitarchivierung von Online-Publikationen

Langzeitarchivierung von Forschungsdaten. Eine ...nestor.sub.uni-goettingen.de/bestandsaufnahme/kapitel/nestor_bestands... · Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme

Sicherheit und Effizienz in elektronischen Geschäftsprozessen im Kontext elektronischer Signaturen und Langzeitarchivierung

Langzeitarchivierung von Forschungsdaten - nestor...Langzeitarchivierung von Forschungsdaten. Eine Bestandsaufnahme hg. v. Heike Neuroth, Stefan Strathmann, Achim Oßwald, Regine Scheffel,

Speichermedien zur Langzeitarchivierung Universität zu Köln WS 2011/12 Dozent: Prof. Dr. Manfred Thaller AM2 (Hauptseminar): Digitale Langzeitarchivierung

Dem Winter entfliehen und in den Subtropen studieren€¦ · Ein paar Studentenwohnheime: UniLodge, Scape und StudentOne. „Scape“ in South Bank kann ich hierbei wärmstens empfehlen!

pm-smart – die IPMA / PMI konforme, skalierbare,

Urban Scape

Ersetzendes Scannen und beweiserhaltende Langzeitarchivierung: „Praxisorientierte Lösungen für das E-Government-Gesetz"

Sven Vlaeminck | SUB Göttingen Kooperative Langzeitarchivierung für Wissenschaftsstandorte AP2: Erfassen & Kategorisieren

Anwendung von Standards vor dem Hintergrund der Langzeitarchivierung Martin Liebetruth SUB Göttingen

VDA 4958-3 Langzeitarchivierung 1.0

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ kolawiss.uni-goettingen.de

SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Emulation als Strategie zur Langzeitarchivierung

Entwicklung einer europäischen Infrastruktur zur Langzeitarchivierung von Forschungsdaten

der Standard für die Langzeitarchivierung€¦ · 16 ÜBER PDF TOOLS AG. PDF Tools AG – Premium PDF Technolog Whitepaper | PDF/A - der Standard für die Langzeitarchivierung –

Wie kann die Langzeitarchivierung von Forschungsdaten finanziert werden?

HiScale REST - Architekturmuster für hochverfügbare und skalierbare REST-Architekturen