Cloud Computing für die Verarbeitung von Metadaten

Preview:

DESCRIPTION

Presentation given at the BI Symposium on December 5th, 2014.

Citation preview

Cloud Computing für die Verarbeitung von Metadaten

Prof. Magnus Pfefferpfeffer@hdm-stuttgart.de

Überblick Herausforderung Metadatenmanagement

Werkzeuge zum Metadatenmanagement

Cloud-basierte Dienstleistungen

Aktuelle Projekte

Fazit

5.12.2014 BI Symposium 2014 3

Herausforderung Metadatenmanagement

5.12.2014 BI Symposium 2014 4

Früher war alles einfacher... (Online-)Katalog

Titelaufnahmen gedruckter Medien mit lokalem Bestand Verknüpfte Normdaten Zentrale, kooperative Bearbeitung im Verbund

Datenmanagement Ein Datenformat (MAB2) Ein Regelwerk (RAK) Ein Datenlieferant (Verbund) Ein Datenempfänger (integriertes Bibliothekssystem oder

lokaler OPAC)

5.12.2014 BI Symposium 2014 5

Und heute? Resource Discovery

Elektronischer und gedruckter Bestand Bücher und Zeitschriften Titel- und Aufsatzebene

Konsortial erworbene elektronische Zugänge Bibliografische Daten Volltexte

Andere digitale Medien Bilddatenbanken Digitalisate

Freie Quellen Open Access

Nicht lizenzierte Medien Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste

5.12.2014 BI Symposium 2014 6

Und heute? Datenmanagement

Viele Datenformate MAB2, Marc21, Dublin Core, METS/MODS, …

Viele Regelwerke RAK, AACR, RDA, ...

Viele Datenquellen Eigene Datenbanken, Verbund, Konsortium, Lieferanten,

Anbieter, ... Mehrere Datenempfänger

Integriertes Bibliothekssystem Resource Discovery System

5.12.2014 BI Symposium 2014 7

Herausforderungen Komplexität der Datenverarbeitung

Kenntnis von Formaten Qualitätssicherung Informationsverluste

Datenmengen Mehrere zehn Millionen Einträge nur für lizenzierte Medien

möglich Freie + nichtlizenzierte Medien → mehrere hundert

Millionen Einträge

5.12.2014 BI Symposium 2014 8

Werkzeuge zum Metadatenmanagement

5.12.2014 BI Symposium 2014 9

Metafacture Entwickelt im Rahmen des Projekts Culturegraph

Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW

Komponenten Flux

Skriptsprache zum Aufbau von Verarbeitungs-Pipelines Umwandlung, Speichern und Analysieren von Daten Keine Programmiersprachenkenntnisse erforderlich

Morph Anwendungsspezifische Sprache zur Verarbeitung von Metadaten Modellierung als „Pipeline“ Konfiguration in XML

Framework Technische Umsetzung der einzelnen Komponenten in Java Erweiterbar durch eigene Programme

5.12.2014 BI Symposium 2014 10

Catmandu Sammlung von Werkzeugen zur Datenverarbeitung in

Bibliotheken Einlesen von Metadaten aus unterschiedlichen Quellen Speichern von Metadaten Suchen in Metadaten Export und Umwandlung in unterschiedliche Formate

Sprache „Fix“ Beschreibung von Transformationen und Bearbeitung von

Metadaten

Entwicklung von eigenen Abläufen und Anwendungen durch Kombination der Werkzeuge mit anderen Entwicklungsumgebungen

5.12.2014 BI Symposium 2014 11

d:swarm Datenintegrations- und -modellierungswerkzeug

Flexibles (elastisches), graphenbasiertes Datenmodell Überführung von Daten aus heterogenen Datenquellen

Middleware-Lösung Durchführung aller bibliothekarischen

Datenverarbeitungsprozesse zwischen bestehenden Datenmanagementsystemen und

Webanwendungen (z.B. Discovery-System)

Unterstützt u.a. Analysen zur Verbesserung der Datenqualität Deduplizierung und Zusammenführen von Titeldaten FRBRisierung bibliographischer Daten

5.12.2014 BI Symposium 2014 12

Cloud-basierte Dienstleistungen

5.12.2014 BI Symposium 2014 13

Das Versprechen der „Cloud“ Web-basierte Dienstleistungen

Von einfacher Infrastruktur bis zu komplexer Software

Skalierung der Leistung nach Bedarf Gigantische Speichervolumina Schnelle Rechenleistung

Nutzungsbasierte Abrechnung Keine hohen Anschaffungskosten Planbare laufende Kosten

5.12.2014 BI Symposium 2014 14

Cloud: Einfache Dienstleistungen Rechnerkapazität

Virtuelle Server in Rechenzentren Auswahl bei Ausstattung und Betriebssystem Große Anzahl in kurzer Zeit buchbar

Speicherkapazität Anteile an großen Festplatten-Verbünden Auswahl bei Geschwindigkeit und Netzanbindung Sehr große Datenmengen speicherbar

→ „Infrastructure-as-a-Service“ (IaaS)

5.12.2014 BI Symposium 2014 15

Produkte Rechenkapazität

Amazon Elastic Compute Cloud (EC2) Google Compute Engine Microsoft Azure Virtual Machines

Speicherkapazität Amazon Simple Storage Service (S3) Google Storage Microsoft Azure Storage

5.12.2014 BI Symposium 2014 16

Nutzungsszenarien Wechsel der Arbeitsumgebung

Vom eigenen Arbeitsplatzrechner oder lokalen Server zum virtuellen Server beim Cloud-Anbieter

Vorteil: Geringere Kosten bei höherer Kapazität Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60

GB RAM: $1,68 pro Stunde

Zentrale Speicherung von großen Datenmengen Metadaten unter freien Lizenzen („Open Data“) Vorteil: Schneller Zugriff ohne Last für Netzwerke von

Datenanbietern Beispiel: Google Storage 50GB mit 10GB Transfers:

$2,61 pro Monat

5.12.2014 BI Symposium 2014 17

Cloud: Definierte Umgebungen Bereitstellung von Schnittstellen zur Programmierung

spezifischer Anwendungen

Höherer Abstraktionsgrad Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle

Maschine mit Betriebssystem Umsetzung in Infrastruktur Aufgabe des Diensteanbieters

Angebote für unterschiedliche Zielanwendungen Wissenschaftliche Datenverarbeitung Web-basierte Anwendungen Datenbanken

→ „Platform-as-a-Service“ (PaaS)

5.12.2014 BI Symposium 2014 18

Produkte Google App Engine

Plattform für die Entwicklung von Web-Applikationen Programmiersprachen: Java, Python, PHP, Go Eigenschaften

Persistente Speicherung von Daten Automatische Skalierung und Lastverteilung Programmabläufe, die nicht von Webzugriffen ausgelöst

werden Asynchrone Berechnungen, zeitgesteuerte Läufe

Aber: Kein direkter Zugang zum Server

5.12.2014 BI Symposium 2014 19

Produkte Hadoop

Plattform zur Programmierung verteilter Berechnungen zur echten Skalierung für sehr große Datenmengen

Eigenschaften Persistente Speicherung und Datenzugriff über alle Rechner

des Verbundes Automatisiert Aufteilen des Arbeitspakets, Verteilen auf

mehrere Rechner, Zusammenführen der Ergebnisse Programmierung in Java Zusätzliche Skriptsprachen zur einfacheren Programmierung

(z.B. „Pig Latin“)

5.12.2014 BI Symposium 2014 20

Produkte AWS DynamoDB

NoSQL-Datenbankservice NoSQL

Speicherung von Schlüssel-Wert-Paaren Speicherung von teilstrukturierten Daten Besser geeignet für typische Anwendungen im Metadatenbereich

als klassische relationale Datenbanken

Eigenschaften

Sehr schneller schlüsselbasierter Zugriff auf Daten konsistente Latenz im einstelligen Millisekundenbereich Skalierung für alle Größenordnungen

5.12.2014 BI Symposium 2014 21

Nutzungsszenarien Hadoop

Verteilte Bearbeitung sehr großer Datenmengen Komplexe Operationen

Datenvergleich und Clustering ähnlicher Daten Datenbereinigung

Unterstützt in Metafacture

NoSQL Zentrale indexierte Ablage von Daten („Backend“)

Schneller Zugriff über Identifikatoren Spontane Abfragen und einfache Analysen direkt über die

Datenbank möglich Unterstützt in Catmandu und Metafacture

5.12.2014 BI Symposium 2014 22

Cloud: Einzelanwendungen Anwendungen für Endanwender

Komplette Abstraktion der technischen Umsetzung Kunde nutzt nur noch eine web-basierte Schnittstelle Umsetzung und Skalierung Aufgabe des Anbieters

Zahlreiche Angebote Dropbox Google Mail Microsoft Office 365 online …

Aber: (Noch) keine für Metadatenverarbeitung

→ „Software-as-a-Service“ (SaaS)

5.12.2014 BI Symposium 2014 23

Aktuelle Projekte

5.12.2014 BI Symposium 2014 24

Datenaggregation Idee

Sammeln von Open-Data Metadatenpaketen Dokumentierte Ablage in Cloud-Speicherdienst Bereitstellung in mehreren Datenformaten

Erhoffter Nutzen Zentrale Anlaufstelle für Datennutzer Vermeidung von Doppelarbeit Einfache Nachnutzung in virtuellen Servern

5.12.2014 BI Symposium 2014 25

Toolsets Idee

Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation

Vorbereitete Server-Einrichtung für Cloud-Dienste Wenn möglich: Testinstallationen mit web-basiertem

Zugang

Erhoffter Nutzen Niederschwelliger Zugang zu den Werkzeugen Einfache Evaluation der Möglichkeiten Nutzung in der Lehre

5.12.2014 BI Symposium 2014 26

Fazit

5.12.2014 BI Symposium 2014 27

Es sieht ganz gut aus... Komplexität der Verarbeitung

Es gibt gute Werkzeuge zur Vereinfachung häufiger Bearbeitungsschritte

Zahlreiche Projekte Unterschiedliche Ansätze und Schwerpunkte Sehr aktive Entwicklung

Anwendungen in der Praxis und Forschung Bald: Anwendung in der Lehre

5.12.2014 BI Symposium 2014 28

Es sieht ganz gut aus... Cloud-Dienste

Einfacher Effizienzgewinn und Kostenvorteile durch die Umstieg auf IaaS-Angebote jederzeit realisierbar

Gemeinsame Nutzung von Daten und Werkzeugen durch Bereitstellung in Cloud-Angeboten

Skalierung auch für sehr große Datenmengen durch die Nutzung von PaaS-Angeboten technisch möglich

Und besonders: d:swarm als vielversprechender Ansatz eines SaaS-Angebots im Bereich Metadatenmanagement

5.12.2014 BI Symposium 2014 29

Fragen

??

5.12.2014 BI Symposium 2014 30

Danke für Ihre Aufmerksamkeit!

Folien online unterhttp://www.slideshare.net/MagnusPfeffer/

Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.

Recommended