View
111
Download
0
Category
Preview:
DESCRIPTION
Präsentation des SCAPE Projekts auf der VÖB-Tagung "Nationale Initiativen" am 04.10.2013 in Wien.
Citation preview
04.10.2013
Dr. Sven SchlarbÖsterreichische NationalbibliothekAbteilung für Forschung und Entwicklungsven.schlarb@onb.ac.at
SCAPESkalierbare Langzeitarchivierung
• Einführung• SCAPE Lösungen
• Repositories• Werkzeuge• Planung der Langzeitarchivierung
• Anwendungsfälle• Web-Archivierung• Repositories• Wissenschaftliche Daten• Datenzentren
• Weiterführende Informationen
Übersicht
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
SCAPE – Worum gehts im Allgemeinen?
• „Big data“ – Verarbeitung großer Datenmengen• Skalierbarkeit in mehrerlei Hinsicht
• Anzahl• Größe• Komplexität• Vielfalt der Datenformate
• IT Umgebungen (Hardware, Software, Systeme) sind für das Management zunehmender Datenmengen nicht ausgerichtet
der zu verarbeitenden Objekte
SCAPE – Worum gehts konkret?
• Planung und Durchführung rechenintensiver Maßnahmen der Langzeitarchivierung, zum Beispiel:• Ingest großer Datenmengen in ein Repository• Dateiformat-Identifikation und Bestimmung von Dateieigenschaften• Multi-Terabyte Migration
• Ausarbeitung typischer Anwendungsfälle die skalierbare Maßnahmen für die Langzeitarchivierung erfordern
• Umsetzung der Anwendungsfälle und Einsatz in Bibliotheken und Datenzentren
SCAPE Projektrahmen
SCAPE Consortium
SCAPE Lösungen
• Basis• Computer-Cluster• Virtualsierung
(XEN/Eucalyptus)• Softwareverteilung
• Debian Pakete• Tool Spezifikation
• Auftragsausführung• Apache Hadoop (HDFS/MapReduce)• Apache Oozie (Workflows)
Skalierbare Datenverarbeitung
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
• Fedora 4.0.0• Nur REST, kein SOAP• Auf der Basis von RDF• JCR 2.0 Implementieriung – ModeShape (Jboss)• Infinispan (Jboss) verteilter NoSQL Datenspeicher
• Lily 2.0• Basierend auf HBase/HDFS• Integrierte Datenverarbeitung
und -speicherung
Skalierbare Repositories
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
In SCAPE entwickelte Software-Werkzeuge
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
Jpylyzer – JPEG 2000 Validierung
Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich
Pagelyzer– Web-Inhalte vergleichen
• Tool Wrapper• Integration bestehender Software-Werkzeuge in die SCAPE Platform
• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung
• Standardisierte Ausführung (Kommandozeile)• Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen• Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.
• Generiert Langzeitarchivierungskomponenten • Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern• Automatischer Veröffentlichung von Kompmenten auf myExperiment• Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-Komponenten
vereinfacht
• Langzeitarchivierungswerkzeugkasten• Werkzeugsammlung für die Langzeitarchivierung• Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung• Einfaches deployment unter Linux (via apt-get)
• apt-get install digital-preservation-tools
Integration existierender Software-Werkzeuge
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
• SCOUT: Automatisierte Überwachung der Langzeitarchivierung• Einbindung externer Informationsquellen der Langzeitarchivierung• Fall-basierte Benachrichtigungsfunktionen
• c3po: Skalierbare Analyse von Archivinhalten• Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar)• Auswertung von FITS-Datei-Analyseergebnissen• Detaillierte Statistiken• Möglichkeiten der Stichprobenbildung
• PLATO 4.1: scalable preservation planning• www.ifs.tuwien.ac.at/dp/plato• Weiterentwicklung der Version aus dem Planets-Projekt• Neue Funktionalität
• Gemeinsame Planung der Langzeitarchivierung in Gruppen• Integration maschinenlesbarer Richtlinien
Planung der Langzeitarchivierung
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
SCAPE Architektur
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
Plan ManagementAPI
Digital Object Repository
ExecutionPlatform
JESJES
HadoopHadoop
JES API
Data Connector API
Automated Watch
Automated Planning
PLATOPLATO
Plan Management
GUI
Plan Management
GUI
Digital Objects/
Metadata
Preservation Plan Store
Preservation Plan Store
PlanPlan
Component Catalogue
Component Catalogue
ComponentLookup
API
Taverna Workbench
Taverna Workbench
ComponentRegistration
API
Component Profile
Validator
Automated Watch
SourcesSources
PushAPI
PullAPI
KnowledgeKnowledge
Source AdaptorSource
Adaptor
Client ServiceClient
ServiceWatch RequestAPI
Notification API
ReportAPI
AssessmentAssessment
Data Publication
Platform
Data Publication
Platform
LDS3
APIDataLoader
Application
DataLoader
Application
Hadoop/MapReduce-Exkurs
• Bei großen Datenmengen ist es meist einfacher die verarbeitende Komponente zu den Daten zu bringen als umgekehrt, die Daten zur verarbeitenden Komponente
• Feingranulare Parallelisierung: Die Ausführung der Datenverarbeitung findet auf den zur Verfügung stehenden Prozessorkernen statt
• Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es gibt spezielle Vorkehrungen dafür
• Redundanz: Datenblöcke werden redundant gespeichert (Default: 3x) Ausfallsicherheit, Flexibler Zugriff auf Daten
• Daten-Lokalität: Freier Knoten mit direktem Zugang zu Datenblock übernimmt die Verarbeitung
Einige Hadoop Grundprinzipien
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
Die physische Sicht: Prozessor (CPU)
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten4 physische Kerne
8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)
Die physische Sicht: Cluster-Knoten
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
Verteilte Datenverarbeitung (MapReduce)
Verteilter Datenspeicher (HDFS)
Hadoop = MapReduce + HDFS
2 x Quad-Core-CPUs:10 Map (Parallelisierung)4 Reduce (Aggregation)
4 x 1 TB Festplatten bei Redundanz 3:1,33 TB effektiv (rein rechnerisch)
Verteilte Datenverarbeitung (MapReduce)
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
Task1
Task 2
Task 3
Output data
Aggregated Result
Aggregated Result
Aggregated Result
Aggregated Result
Skalierbares Open Source Puzzle
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
Taverna Workflow Server (REST API)
SCAPE Anwendungsfälle
• HDFS als Master oder Temporärspeicher: Müssen die Dateien für die Verarbeitung erst auf den Cluster kopiert werden? Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten.
• Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die Parallelisierung in kleinere Datensegmente unterteilen (Standard: 64 MB)?
• Das „Kleine Dateien“-Problem: Wenn eine große Menge kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese zu einer einzigen großen Datei zusammenzufassen?
• Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der Eingangsdaten ausreichend? Gibt es häufig Änderungen?
Fragestellungen zur Daten-Vorbereitung
This work was partially supported by the SCAPE Project.The SCAPE project is co funded by the European Union under FP7 ICT 2009.4.1 (Grant Agreement number 270137).‐ ‐
SCAPE Anwendungsfälle
• Große digitale Repositories• Format-Konvertierung umfangreicher Bestände
• Überwiegend Parallelisierung, d.h. vor Allem “Map”
• Schlechte Audio-Qualität automatisiert entdecken• XCorrSound-Anwendung
• Duplikat-Seiten in großen Buchbeständen erkennen
• Matchbox-Anwendung• Duplikate innerhalb eines Buches finden• Verschiedene Buchversionen miteinander vergleichen
• Wissenschaftliche Daten• Konvertierung von RAW zu NEXUS
• Große Datenmengen aus Physik-Experimenten• Herausforderung: Verschiedene Teilchenbeschleuniger
produzieren unterschiedliche RAW Datenformate
from digitalbevaring.dk
SCAPE Testbeds
• Web Content• Datei-Analyse und Datei-Formaterkennung
Statistiken: MapReduce Anwendungsfälle• Qualitätssicherung in der Web-Archivierung
• Data Centers• Übertragung medizinischer Daten in Datenzentren• Voraussetzung: Verschlüsselung und
Anonymisierung
from digitalbevaring.dk
Weiterführende Informationen
Weiterführende Informationen• Entwicklungs-Infrastruktur
• Code-Repository bei der Open Planets Foundation und GitHub• https://github.com/openplanets/
• Wiki• http://wiki.opf-labs.org/display/SP/Home
• Veröffentlichungen• http://www.scape-project.eu/category/publication
• Projektergebnisse: • http://www.scape-project.eu/category/deliverable
• SCAPE-Werkzeuge:• http://www.scape-project.eu/tools
SCAPE Hackathon in Wien
• Langzeitarchivierung mit Hadoop:
Hadoop-driven Digital Preservation
• 2. bis 4. Dezember 2013 in Wien an der Österreichischen Nationalbibliothek
© Justin Smith / Wikimedia Commons, CC-By-SA-3.0
http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation
SCAPE Contact Information
• SCAPE• http://www.scape-project.eu• Twitter: #scapeproject• office@list.scape-project.eu
• Dr. Sven SchlarbÖsterreichische Nationalbibliotheksven.schlarb@onb.ac.at
Danke! Fragen?
Recommended