Cloud Computing für die Verarbeitung von Metadaten

Prof. Magnus Pfefferpfeffer@hdm-stuttgart.de

Überblick Herausforderung Metadatenmanagement

Werkzeuge zum Metadatenmanagement

Cloud-basierte Dienstleistungen

Aktuelle Projekte

5.12.2014 BI Symposium 2014 3

Herausforderung Metadatenmanagement

5.12.2014 BI Symposium 2014 4

Früher war alles einfacher... (Online-)Katalog

Titelaufnahmen gedruckter Medien mit lokalem Bestand Verknüpfte Normdaten Zentrale, kooperative Bearbeitung im Verbund

Datenmanagement Ein Datenformat (MAB2) Ein Regelwerk (RAK) Ein Datenlieferant (Verbund) Ein Datenempfänger (integriertes Bibliothekssystem oder

lokaler OPAC)

5.12.2014 BI Symposium 2014 5

Und heute? Resource Discovery

Elektronischer und gedruckter Bestand Bücher und Zeitschriften Titel- und Aufsatzebene

Konsortial erworbene elektronische Zugänge Bibliografische Daten Volltexte

Andere digitale Medien Bilddatenbanken Digitalisate

Freie Quellen Open Access

Nicht lizenzierte Medien Bibliografischer Nachweis als Ausgangspunkt für Lieferdienste

5.12.2014 BI Symposium 2014 6

Und heute? Datenmanagement

Viele Datenformate MAB2, Marc21, Dublin Core, METS/MODS, …

Viele Regelwerke RAK, AACR, RDA, ...

Viele Datenquellen Eigene Datenbanken, Verbund, Konsortium, Lieferanten,

Anbieter, ... Mehrere Datenempfänger

Integriertes Bibliothekssystem Resource Discovery System

5.12.2014 BI Symposium 2014 7

Herausforderungen Komplexität der Datenverarbeitung

Kenntnis von Formaten Qualitätssicherung Informationsverluste

Datenmengen Mehrere zehn Millionen Einträge nur für lizenzierte Medien

möglich Freie + nichtlizenzierte Medien → mehrere hundert

Millionen Einträge

5.12.2014 BI Symposium 2014 8

Werkzeuge zum Metadatenmanagement

5.12.2014 BI Symposium 2014 9

Metafacture Entwickelt im Rahmen des Projekts Culturegraph

Hauptentwickler: Deutsche Nationalbibliothek und HBZ-NRW

Komponenten Flux

Skriptsprache zum Aufbau von Verarbeitungs-Pipelines Umwandlung, Speichern und Analysieren von Daten Keine Programmiersprachenkenntnisse erforderlich

Morph Anwendungsspezifische Sprache zur Verarbeitung von Metadaten Modellierung als „Pipeline“ Konfiguration in XML

Framework Technische Umsetzung der einzelnen Komponenten in Java Erweiterbar durch eigene Programme

5.12.2014 BI Symposium 2014 10

Catmandu Sammlung von Werkzeugen zur Datenverarbeitung in

Bibliotheken Einlesen von Metadaten aus unterschiedlichen Quellen Speichern von Metadaten Suchen in Metadaten Export und Umwandlung in unterschiedliche Formate

Sprache „Fix“ Beschreibung von Transformationen und Bearbeitung von

Metadaten

Entwicklung von eigenen Abläufen und Anwendungen durch Kombination der Werkzeuge mit anderen Entwicklungsumgebungen

5.12.2014 BI Symposium 2014 11

d:swarm Datenintegrations- und -modellierungswerkzeug

Flexibles (elastisches), graphenbasiertes Datenmodell Überführung von Daten aus heterogenen Datenquellen

Middleware-Lösung Durchführung aller bibliothekarischen

Datenverarbeitungsprozesse zwischen bestehenden Datenmanagementsystemen und

Webanwendungen (z.B. Discovery-System)

Unterstützt u.a. Analysen zur Verbesserung der Datenqualität Deduplizierung und Zusammenführen von Titeldaten FRBRisierung bibliographischer Daten

5.12.2014 BI Symposium 2014 12

Cloud-basierte Dienstleistungen

5.12.2014 BI Symposium 2014 13

Das Versprechen der „Cloud“ Web-basierte Dienstleistungen

Von einfacher Infrastruktur bis zu komplexer Software

Skalierung der Leistung nach Bedarf Gigantische Speichervolumina Schnelle Rechenleistung

Nutzungsbasierte Abrechnung Keine hohen Anschaffungskosten Planbare laufende Kosten

5.12.2014 BI Symposium 2014 14

Cloud: Einfache Dienstleistungen Rechnerkapazität

Virtuelle Server in Rechenzentren Auswahl bei Ausstattung und Betriebssystem Große Anzahl in kurzer Zeit buchbar

Speicherkapazität Anteile an großen Festplatten-Verbünden Auswahl bei Geschwindigkeit und Netzanbindung Sehr große Datenmengen speicherbar

→ „Infrastructure-as-a-Service“ (IaaS)

5.12.2014 BI Symposium 2014 15

Produkte Rechenkapazität

Amazon Elastic Compute Cloud (EC2) Google Compute Engine Microsoft Azure Virtual Machines

Speicherkapazität Amazon Simple Storage Service (S3) Google Storage Microsoft Azure Storage

5.12.2014 BI Symposium 2014 16

Nutzungsszenarien Wechsel der Arbeitsumgebung

Vom eigenen Arbeitsplatzrechner oder lokalen Server zum virtuellen Server beim Cloud-Anbieter

Vorteil: Geringere Kosten bei höherer Kapazität Beispiel: Amazon EC2 Typ „c3.8xlarge“ mit 32 CPUs und 60

GB RAM: $1,68 pro Stunde

Zentrale Speicherung von großen Datenmengen Metadaten unter freien Lizenzen („Open Data“) Vorteil: Schneller Zugriff ohne Last für Netzwerke von

Datenanbietern Beispiel: Google Storage 50GB mit 10GB Transfers:

$2,61 pro Monat

5.12.2014 BI Symposium 2014 17

Cloud: Definierte Umgebungen Bereitstellung von Schnittstellen zur Programmierung

spezifischer Anwendungen

Höherer Abstraktionsgrad Kunde „sieht“ nur die Schnittstellen, nicht mehr die virtuelle

Maschine mit Betriebssystem Umsetzung in Infrastruktur Aufgabe des Diensteanbieters

Angebote für unterschiedliche Zielanwendungen Wissenschaftliche Datenverarbeitung Web-basierte Anwendungen Datenbanken

→ „Platform-as-a-Service“ (PaaS)

5.12.2014 BI Symposium 2014 18

Produkte Google App Engine

Plattform für die Entwicklung von Web-Applikationen Programmiersprachen: Java, Python, PHP, Go Eigenschaften

Persistente Speicherung von Daten Automatische Skalierung und Lastverteilung Programmabläufe, die nicht von Webzugriffen ausgelöst

werden Asynchrone Berechnungen, zeitgesteuerte Läufe

Aber: Kein direkter Zugang zum Server

5.12.2014 BI Symposium 2014 19

Produkte Hadoop

Plattform zur Programmierung verteilter Berechnungen zur echten Skalierung für sehr große Datenmengen

Eigenschaften Persistente Speicherung und Datenzugriff über alle Rechner

des Verbundes Automatisiert Aufteilen des Arbeitspakets, Verteilen auf

mehrere Rechner, Zusammenführen der Ergebnisse Programmierung in Java Zusätzliche Skriptsprachen zur einfacheren Programmierung

(z.B. „Pig Latin“)

5.12.2014 BI Symposium 2014 20

Produkte AWS DynamoDB

NoSQL-Datenbankservice NoSQL

Speicherung von Schlüssel-Wert-Paaren Speicherung von teilstrukturierten Daten Besser geeignet für typische Anwendungen im Metadatenbereich

als klassische relationale Datenbanken

Eigenschaften

Sehr schneller schlüsselbasierter Zugriff auf Daten konsistente Latenz im einstelligen Millisekundenbereich Skalierung für alle Größenordnungen

5.12.2014 BI Symposium 2014 21

Nutzungsszenarien Hadoop

Verteilte Bearbeitung sehr großer Datenmengen Komplexe Operationen

Datenvergleich und Clustering ähnlicher Daten Datenbereinigung

Unterstützt in Metafacture

NoSQL Zentrale indexierte Ablage von Daten („Backend“)

Schneller Zugriff über Identifikatoren Spontane Abfragen und einfache Analysen direkt über die

Datenbank möglich Unterstützt in Catmandu und Metafacture

5.12.2014 BI Symposium 2014 22

Cloud: Einzelanwendungen Anwendungen für Endanwender

Komplette Abstraktion der technischen Umsetzung Kunde nutzt nur noch eine web-basierte Schnittstelle Umsetzung und Skalierung Aufgabe des Anbieters

Zahlreiche Angebote Dropbox Google Mail Microsoft Office 365 online …

Aber: (Noch) keine für Metadatenverarbeitung

→ „Software-as-a-Service“ (SaaS)

5.12.2014 BI Symposium 2014 23

Aktuelle Projekte

5.12.2014 BI Symposium 2014 24

Datenaggregation Idee

Sammeln von Open-Data Metadatenpaketen Dokumentierte Ablage in Cloud-Speicherdienst Bereitstellung in mehreren Datenformaten

Erhoffter Nutzen Zentrale Anlaufstelle für Datennutzer Vermeidung von Doppelarbeit Einfache Nachnutzung in virtuellen Servern

5.12.2014 BI Symposium 2014 25

Toolsets Idee

Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation

Vorbereitete Server-Einrichtung für Cloud-Dienste Wenn möglich: Testinstallationen mit web-basiertem

Zugang

Erhoffter Nutzen Niederschwelliger Zugang zu den Werkzeugen Einfache Evaluation der Möglichkeiten Nutzung in der Lehre

5.12.2014 BI Symposium 2014 26

5.12.2014 BI Symposium 2014 27

Es sieht ganz gut aus... Komplexität der Verarbeitung

Es gibt gute Werkzeuge zur Vereinfachung häufiger Bearbeitungsschritte

Zahlreiche Projekte Unterschiedliche Ansätze und Schwerpunkte Sehr aktive Entwicklung

Anwendungen in der Praxis und Forschung Bald: Anwendung in der Lehre

5.12.2014 BI Symposium 2014 28

Es sieht ganz gut aus... Cloud-Dienste

Einfacher Effizienzgewinn und Kostenvorteile durch die Umstieg auf IaaS-Angebote jederzeit realisierbar

Gemeinsame Nutzung von Daten und Werkzeugen durch Bereitstellung in Cloud-Angeboten

Skalierung auch für sehr große Datenmengen durch die Nutzung von PaaS-Angeboten technisch möglich

Und besonders: d:swarm als vielversprechender Ansatz eines SaaS-Angebots im Bereich Metadatenmanagement

5.12.2014 BI Symposium 2014 29

Fragen

5.12.2014 BI Symposium 2014 30

Danke für Ihre Aufmerksamkeit!

Folien online unterhttp://www.slideshare.net/MagnusPfeffer/

Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.

Cloud Computing für die Verarbeitung von Metadaten

Technology

Quo vadis nutzergenerierte Metadaten?

Etb.eun.org ETB IST 1999 - 11781 IuK 2001 Metadaten + Heterogenität in ETB 12.03.2001 Kluck (HUB/IZ) 1 Metadaten und Heterogenitäts- behandlung als wesentliche

Neue Wege fuer Metadaten

Bestätigung der Metadaten/Metadata Approval Sheeteprints.sunway.edu.my/584/1/Z. Kristallogr. 2017 232 287... · 2017. 10. 12. · Bestätigung der Metadaten/Metadata Approval Sheet

Metadaten und Data Vault (Meta Vault)

Workshop Metadaten - geoportal.brandenburg.de · 3/ 46 14.12.2011 Referentin: Andrea Pörsch 1. Was sind Metadaten? Seiten 4-8 2. Wofür brauche ich Metadaten? Seiten 9-17 3. Was

Cloud Computing 360° - unternehmenswertentwicklung.deunternehmenswertentwicklung.de/.../09/cloud-computing-360°.pdf · Cloud Computing 360° Eine Checkliste mit Merkmalen und Handlungsempfehlungen

Europeana - Status - Metadaten - Semantische Interoperabilität

Langzeitarchivierung und Metadaten. NAA Preservation Strategy Link: ml

eHealth Suisse EPD - Metadaten Definitionsprozess und · erstes Startset für die Dokumenten-Metadaten definiert und die Nut-zungsweise der Metadaten erläutert. Als Grundlage dienten

Cloud Computing Studie Logistik - imis.de Computing in der... · cloud computing – logistik – strategie – investition – zeit – datensicherheit – chancen – flexibilitÄt

als Rohstoff erster Güte Digitale Spuren im Internetgraebe/Texte/Walle-17-Folien.pdfEigenschaften von Metadaten - Einfach zu analysieren - Produktion von Metadaten ist unvermeidbar

Metadaten und Zeitungen

Qualitativ hochwertige Metadaten pflegen und verarbeiten50… · QUALITATIV HOCHWERTIGE METADATEN ERSTELLEN UND VERARBEITEN - HANDLUNGSEMPFEHLUNG 2 Änderungsverzeichnis Version Datum

Kernset technischer Metadaten für die Langzeitarchivierung ... · Kernset technischer Metadaten für die Langzeitarchivierung digitaler Objekte Version 1.1 Dokumenthistorie ... Für

1.NET Assemblies und Metadaten René Löschl. 2 Inhalt Begriffe Eigenschaften von Metadaten Vorteile von Metadaten Typische Metadaten Zugriff und Verwaltung

Multimedia-Metadaten und ihre Anwendung

Was Benutzer wollen – mehr als Metadaten

Masterarbeit - inf.fu-berlin.de · - II - II. Abstract Diese Thesis beschäftigt sich mit der datenflussorientierten Verarbeitung von Daten/Metadaten-Verbänden auf Basis von KNIME

Metadaten und mehr