Grundsaniert - Deutsche Digitale...

Preview:

Citation preview

GrundsaniertDie neue Architektur der DDB|Pain Points & Ziele|ungeeignete Technologien|Daten-Einspielprozesse|Binary-Service|System-Landschaften|DDBdash|Frontend-Features

WARUM?Pain Points & Ziele

Datenmenge erreichte Systemkapazität.

Ziele

SKALIERBARKEIT

Für alle Aufgaben dasselbe statt das richtige Werkzeug.

27 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Ein Beispiel: Aufbau des Personenindex'

28 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Ein Beispiel: Aufbau des Personenindex'

Prüfen ALLER Kulturobjekte

count: +3

count: +4

Ein Suchindex ist eigentlich nicht für Abfragen großer Objektmengen geeignet …

In der alten Architektur dauert der Personenindexaufbau zwei Wochen.

30 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Für die Teilbaumsuche in den EAD-Hierarchien im Archivportal-D musste in der alten Architektur beim Einspielen jeder Bestand reindexiert werden.

Beim Landesarchiv Baden-Württemberg mit seinen über 4,6 Mio Objekten dauerte dies ca. 4 Wochen.

Ein zweites Beispiel

Ziele

SKALIERBARKEITBESCHLEUNIGUNG

Der Ingestprozess

Weitere Infos gibt’s heute, 15:30-17:15

„Ingest I: Wie kommendie Daten in die DDB“

Datenprozessierung DDB „alt”

ASCXML

SIP Cortex

Solr

Repositorium

AIP

Indexe: Such-Hierarchie-Entitäten-

• Harvesting• Splitting• Transformation (Mapping)• Mediendatei-Download• Erzeugung Vorschauen• Validierung

• Ingest• Indexierung• Löschungen• Reindexierung• Personenindex-Aufbau• u.v.m.

ASC = Augmented SIP CreatorCortex = „Core Technology“SIP = Submission Information PackageAIP = Archival Information PackageSolr = von der DDB verwendete Suchmaschine

Legende:

Ziele

SKALIERBARKEITBESCHLEUNIGUNGENTKOPPLUNG

Datenprozessierung DDB „neu”(vereinfacht)

TransformationXML

Repositorium

Solr

• Splitting• Mapping• Validierung

• GND-Personen• GND-Körperschaften• DDB-Institutionen

Binary-Service

• Mediendatei-D/L• Erz. Vorschauen• Speicherung• Auslieferung

outbox-metadatas

outbox-hierarchies

Ingest

Entities

itemss

Index

originals

organizations

personss

search

nodessDelete

Cortex

Spark-App Cassandra-DB-Tabelles

Legende:

Prozesssteuerung(DDBdash)

• App-Steuerung• Harvesting/Dateiupload

scaled_...binary_refs

Der Binary-Service

Weitere Infos gibt’s heute, 13:30-15:00

„Mediendateien in der DDB“> „IIIF in der DDB“von Michael Büchner

− wird von Transformation aufgerufen,läuft aber asynchron

− speichert Mediendateien zentral− Bilder− Videos− Audios− PDFs

− prüft, ob Mediendatei bereits vorhan-den ist, vermeidet so unnötige D/Ls

− erzeugt die im Portal benötigtenVorschaubilder (4 versch. Auflösungen)

− liefert Vorschaubilder und ggf. Originale(unabhängig vom Cortex) aus

− wird zu IIIF-Server weiterentwickelt

Binary-Service

Ziel erreicht

ENTKOPPLUNG… aber: „There is no free lunch.“

Prozesssteuerung(DDBdash)

Die Systemlandschaft

Systemlandschaft „alt”(vereinfacht – Loadbalancing, Solr Master/Slaves , Registrierung & AAS weggelassen)

ASC

Solr Repo

Cortex API Frontend

Produktion

ASC

Solr Repo

Cortex API Frontend

Datenclearing – Testsystem „T1“

ASC

Solr Repo

Cortex API Frontend

Such– Testsystem „T3“

2x

Systemlandschaft „neu”(vereinfacht)

Solr

Cortex API Frontend

Produktion

Solr

Cortex API Frontend

Datenclearing –QS-System „Q2“

Binary-Service

ZentralerProzessierungs-

Cluster

Prozesssteuerung(DDBdash)

Der zentrale Prozessierungs-Cluster

−neu beschaffte Hardware: 10 Server (jeweils 2x8 Core 2.4 GHz Xeons, 192 GB RAM)

−verteilte Datenbank: Apache Cassandra− speichert alle Daten− Produktion und Q2 werden per „Replikation“ befüllt

−verteilte Computing-Engine Apache Spark− führt Apps parallel aus

−Binary-Service läuft auch auf dem Prozessierungscluster

−wird von Prozesssteuerung orchestriert

Skalierbarkeit ?

E

D C

B

A

− bei Daten - Speicherung: Cassandra verteilt nach dem Hinzufügen neuer Clusterknoten die Daten automatisch um.

− und Prozessierung: Mehr Computer können mehr Arbeit erledigen.− Google-Prinzip: viele vergleichsweise billige Computer

(Scale out)

B

A

C

DE

F

G

bei hoher Last

Knoten hinzufügen(„scale out“)

Ziel erreicht

SKALIERBARKEIT

Beschleunigung ?

− Aufbau Personenindex: 2 Stunden statt 2 Wochen− Indexierung:

− Gesamtbestand (24,1 Mio Objekte) in 2,5 Tagen indexiert

− Transformation & Ingest− noch nicht bei optimaler Konfiguration des Prozessierungsclusters evaluiert− Prototypen erreichten (auf schwächerer Hardware)

einen Durchsatz von 1 Mio Objekte / h

Ziel erreicht

BESCHLEUNIGUNG

Ziele

Verbesserte Unterstützung von Arbeitsprozessenvon Servicestelle, Fachstellen, Aggregatoren (und mittelfristig)Datengebern

DDBdash− Administrations-Dashboard

− Frontend zu Prozesssteuerungs-API− DIY-Datenclearing auf Q2− Rollout

− erst FIZ & Servicestelle, − dann Fachstellen− dann Aggregatoren− ggf. Datengeber

− Screencast-Demo

DDBdash-Demo: Screencast

Ziele

Verbesserte Unterstützung von Arbeitsprozessenvon Servicestelle, Fachstellen, Aggregatoren (und mittelfristig) Datengebern

50 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Neue Frontend-Features

DDB METS-Viewer

Weitere Infos gibt’s heute, 13:30-15:00

„Mediendateien in der DDB“> „Der neue DDB-Viewer“

von Gerke Dunkhase

Organisationensuche& -seiten−semantische Verknüpfungen− neu: GND-Körperschaften …

− via Entity-Facts-Webservice

−… und bei der DDB registrierte Institutionen

− DDB-Registrierung dafür erweitert

−Facetten-Filter− Ort (Geonames)− Topic (GND-Sachschlagwörter)

− Indexaufbau analog Personenindex per Entities Spark-App

Suche−Lemmatisierung

(Flexionsformen werden gefunden)

−Autokorrektur (Mehr-Wort)− (noch) nicht im Frontend sichtbar

− Differenzierung „Stichwort-Facette“in „Thema“ und „Objekttyp“

− diverse Maßnahmen zur Reduktionder Indexgröße

Prototypen / Konzepte−Ranking-App

− Popularität− Metadatenqualität

−Datendumps−Volltextindexierung

− + Suche im METS-Viewer

−Tombstones−DDBlabs−Neuimplementierung des

OAI-PMH-Servers

Wann geht die neue Architektur online?

Heute! Preview-System:https://www-p.deutsche-digitale-bibliothek.de

−Parallelbetrieb alt/neu−Umschalten vor Sommerpause− Ingests ab sofort ins neue System−DDBpro-Seite mit bekannten Fehlern

I DDBjournal

Wir alle sind die Deutsche Digitale Bibliothek

Die Deutsche Digitale Bibliothek ist mehr als man sieht

Die Deutsche Digitale Bibliothek ist eine Investition in die Zukunft, die sich lohnt.

Weitere Infos heute 13:30-15:00

„Kommunikation“

I AusblickDDB 2018DDBstudioWeimarer RepublikGND4CZeitungsportalAggregatorenNutzungsanalysenEuropeana

DEUTSCHE DIGITALE BIBLIOTHEKKultur und Wissen online

Strategie2020

85 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität II. Optimierung der Datenprozesse

Technology-Review

Service-Infrastruktur ausbauen

Transformationsworkflows optimieren

Aggregatorenstrukturen etablieren

Datenfluss zu Europeana verbessern

Neue Architektur („DDB 2017“)

Stärkung von Servicestelle und Fachstellen

DDBdash

Aktueller Stand

86 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Status quo− Bindeglied zwischen den Datenpartnern und der DDB− einige Aggregatoren sind bereits aktiv− Ergebnisse einer umfassenden UmfrageZielstellung− Effiziente Datenprozesse (Lieferung usw.)− Systematisierung und VereinheitlichungVorgehen − Konzeptentwurf (u.a. mit Kriterien) liegt vor − Umsetzung mit Pilotpartnern− Offen: finanzielle und organisatorische Fragen

Aggregatoren

Weitere Infos morgen, 9:30-10:30 „Aggregatoren in der

DDB: Ein Werkstattbericht“

87 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität II. Optimierung der Datenprozesse

Technology-Review

Service-Infrastruktur ausbauen

Transformationsworkflows optimieren

Aggregatorenstrukturen etablieren

Datenfluss zu Europeana verbessern

Neue Architektur („DDB 2017“)

Stärkung von Servicestelle und Fachstellen

DDBdash

Aktueller Stand

Europeana DSI-3 / DSI-4

88 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Europeana

Weitere Infos morgen, 13:30-15:00

„Europas kulturelles Erbe teilen“

Status quo− DDB als Partner, Aggregator und Mitwirkende− Mitglied im Konsortium von DSI-3 (09/2017-08/2018)− Evaluation von Metis, Konzeptionelle Arbeiten DSI-4− Offenes Procurement-Verfahren für die Basisfinanzierung (2+2 Jahre)− Schwerpunkte: IIIF, Metis-WeiterentwicklungEuropeana Common Culture − Projektantrag im Rahmen der Generic Services− Ziel: Stärkung der Nationalen Aggregatoren − DDB als Good-Practice-Beispiel− Schwerpunkt: Pilotentwicklung

89 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität II. Optimierung der Datenprozesse

Technology-Review

Service-Infrastruktur ausbauen

Transformationsworkflows optimieren

Aggregatorenstrukturen etablieren

Datenfluss zu Europeana verbessern

Neue Architektur („DDB 2017“)

Stärkung von Servicestelle und Fachstellen

DDBdash

Aktueller Stand

Europeana DSI-3 / DSI-4

90 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität IV. Erhöhung der Nutzerzufriedenheit

Nutzungsverhalten analysieren

Suchfunktion verbessern

Digitalisate integrieren

Alternative Portaleinstiege ausbauen

Zielgruppengerecht ansprechen / DDB-Angebote ausbauen

Nutzungsanalyse des DDB-Portals

91 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Nutzungsanalysen

Status quo− derzeit kaum Informationen über die qualitative DDB-Nutzung − Analyse typischer Profile anhand von formaler KriterienZiele− Erkenntnisgewinne hinsichtlich der tatsächlichen Nutzung des DDB-

Portals (Aussagen über Erwartungen, Informationsbedarf, Nutzungsverhalten sowie Nutzungserlebnis)

− Evidenzbasierte Unterstützung der Produktentwicklungerste Schritte− Analyse im Rahmen einer Lehrveranstaltung zu User Experience

(HAW Hamburg, Prof. Ulrike Spree)− Task Force Nutzungsstatistik

92 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität IV. Erhöhung der Nutzerzufriedenheit

Nutzungsverhalten analysieren

Suchfunktion verbessern

Digitalisate integrieren

Alternative Portaleinstiege ausbauen

Zielgruppengerecht ansprechen / DDB-Angebote ausbauen

Nutzungsanalyse des DDB-Portals

Auffinden von alternativen Wortformen

DDB-METS-Viewer IIIF (Projekt „DDB 2018“)

93 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Sonderprojekt „DDB 2018“

Weitere Infos heute 13:30-15:00

„Vom digitalen Katalogzur digitalen Bibliothek“

„Innovative Erweiterungen der DDB zur Ermöglichung fortgeschrittener Nutzungsszenarien“ Rahmen− Förderung durch BMI; Laufzeit: 2018-2019− Volumen: 500.000 EUR; 3 Arbeitspakete AP „Infrastruktur für hochauflösende Inhalte“ − IIIF-Server (Image-API)− Konzeption für Presentation-API

94 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität IV. Erhöhung der Nutzerzufriedenheit

Nutzungsverhalten analysieren

Suchfunktion verbessern

Digitalisate integrieren

Alternative Portaleinstiege ausbauen

Zielgruppengerecht ansprechen / DDB-Angebote ausbauen

Nutzungsanalyse des DDB-Portals

Auffinden von alternativen Wortformen

DDB-METS-Viewer IIIF (Projekt „DDB 2018“)

Projekt „Weimarer Republik“

95 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

DFG-Projekt „Weimarer Republik“

„Aufbau einer Infrastruktur zur Implementierung sachthematischer Zugänge im Archivportal-D am Beispiel des Themenkomplexes ‚Weimarer Republik‘” Ziele− Etablieren von browsing- bzw. navigationsbasierten Einstiegen− spätere Nachnutzbarkeit für Bestände weiterer Archive, andere

Themenkomplexe sowie für weitere Sparten im Kontext der DDBAktivitäten− Entwicklung von Tools zur nachträglichen Anreicherung und zur

kooperativen Zuordnung archivischer Daten− Experimentelles AP zur algorithmischen Zuordnung von ArchivdatenRahmen − Partner: LABW, BArch, FIZ Karlsruhe, DDB (DNB)− Laufzeit: 05/2018-04/2020

96 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität IV. Erhöhung der Nutzerzufriedenheit

Nutzungsverhalten analysieren

Suchfunktion verbessern

Digitalisate integrieren

Alternative Portaleinstiege ausbauen

Zielgruppengerecht ansprechen / DDB-Angebote ausbauen

Nutzungsanalyse des DDB-Portals

Auffinden von alternativen Wortformen

DDB-METS-Viewer IIIF (Projekt „DDB 2018“)

Projekt „Weimarer Republik“

Nationales Zeitungsportal DDBstudio

97 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

DFG-Antrag „DDB-Zeitungsportal“

„Errichtung eines nationalen Zeitungsportals auf der Basis der organisato-rischen und technischen Infrastruktur der DDB – ‚DDB-Zeitungsportal‘“Ziel− Aufbau eines zentralen Zugangspunkts für digitalisierte Zeitungsbestände

(Volltextsuche, browsende Einstiegspunkte, Viewer, Referenzierung)Schwerpunkte der 1. Phase− Integration der METS-/MODS-basierten Bestände (gemäß DFG-

Richtlinien)− Adaption von Liefer- und Transformationsprozessen − Etablierung des Zeitungsportals als „Sub-Portal“ des DDB-PortalsRahmen − Partner: DDB (DNB), FIZ Karlsruhe, SLUB Dresden, SBB-PK− Laufzeit: 24 Monate

98 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität IV. Erhöhung der Nutzerzufriedenheit

Nutzungsverhalten analysieren

Suchfunktion verbessern

Digitalisate integrieren

Alternative Portaleinstiege ausbauen

Zielgruppengerecht ansprechen / DDB-Angebote ausbauen

Nutzungsanalyse des DDB-Portals

Auffinden von alternativen Wortformen

DDB-METS-Viewer IIIF (Projekt „DDB 2018“)

Projekt „Weimarer Republik“

Nationales Zeitungsportal DDBstudio

99 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

DDBstudio

Weitere Infos heute 13:30-15:00

„Vom digitalen Katalogzur digitalen Bibliothek“

Ziele− Weiterentwicklung der virtuellen Ausstellungen zu einem Service-

Angebot der DDB− Kontextualisierung von Inhalten

100 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität IV. Erhöhung der Nutzerzufriedenheit

Nutzungsverhalten analysieren

Suchfunktion verbessern

Digitalisate integrieren

Alternative Portaleinstiege ausbauen

Zielgruppengerecht ansprechen / DDB-Angebote ausbauen

Nutzungsanalyse des DDB-Portals

Auffinden von alternativen Wortformen

DDB-METS-Viewer IIIF (Projekt „DDB 2018“)

Projekt „Weimarer Republik“

Nationales Zeitungsportal DDBstudio

101 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität V. Verbesserung der Datenqualität

Standardisierung und Konsistenz

Datenqualität maximal ausschöpfen

Daten anreichern und verknüpfen

DFG-Projekt GND4C

102 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Ziel− spartenübergreifende Erweiterung der Gemeinsamen Normdatei (GND)− Vernetzung und Kontextualisierung von Daten in der DDBAktivitäten− Etablieren von Kommunikationsstrukturen, Aufbau von GND-Agenturen− Datenmodelle, Regeln und Werkzeuge für nicht-bibliothekarische

Anwendungskontexte− Fallbeispiele entlang unterschiedlicher EntitätstypenRahmen − Partner: DNB, DDB, LABW, BSZ, Foto Marburg, SHLB (digiCULT)− Laufzeit: 05/2018-10/2020

DFG-Projekt GND4C

103 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität V. Verbesserung der Datenqualität

Standardisierung und Konsistenz

Datenqualität maximal ausschöpfen

Daten anreichern und verknüpfen

DFG-Projekt GND4C

Datenanalyse (Projekt „DDB 2018“)

104 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Sonderprojekt „DDB 2018“

„Innovative Erweiterungen der DDB zur Ermöglichung fortgeschrittener Nutzungsszenarien“ Rahmen− Förderung durch BMI; Laufzeit: 2018-2019− Volumen: 500.000 EUR; 3 Arbeitspakete AP „Infrastruktur für hochauflösende Inhalte“ − IIIF-Server (Image-API)− Konzeption für Presentation-APIAP „Datenanalysen“− Auswertung des DDB-Datenbestandes

105 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität V. Verbesserung der Datenqualität

Standardisierung und Konsistenz

Datenqualität maximal ausschöpfen

Daten anreichern und verknüpfen

DFG-Projekt GND4C

Datenanalyse (Projekt „DDB 2018“)

Feature Detection (Projekt „DDB 2018“)

106 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Sonderprojekt „DDB 2018“

„Innovative Erweiterungen der DDB zur Ermöglichung fortgeschrittener Nutzungsszenarien“ Rahmen− Förderung durch BMI; Laufzeit: 2018-2019− Volumen: 500.000 EUR; 3 Arbeitspakete AP „Infrastruktur für hochauflösende Inhalte“ − IIIF-Server (Image-API)− Konzeption für Presentation-APIAP „Datenanalysen“− Auswertung des DDB-Datenbestandes AP „Feature Detection“− (semi-)automatische Erkennung von Bildinhalten

107 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Priorität V. Verbesserung der Datenqualität

Standardisierung und Konsistenz

Datenqualität maximal ausschöpfen

Daten anreichern und verknüpfen

DFG-Projekt GND4C

Datenanalyse (Projekt „DDB 2018“)

Feature Detection (Projekt „DDB 2018“)

108 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell

Inhalte

Prozesse

Zugangswege

Kontextualisierung

Recommended