Georg [email protected] GmbH, Berlin
EVA Berlin 2016 – 09. November 2016
Digitale Kuratierungstechnologien für verschiedene Branchen und
Anwendungsszenarien
Überblick• Was ist digitale Kuratierung? • BMBF-Projekt Digitale Kuratierungstechnologien• DFKI-Teilprojekt – Kuratierungstechnologien (Beispiele)– Kuratierungs-Dashboard
• Ausblick und Schlussfolgerungen
EVA Berlin 2016 – 09. November 2016
Was ist digitale Kuratierung?
EVA Berlin 2016 – 09. November 2016
Information
Information
Information
Information
Information
Information
Information
Information
Information
Information
Was ist digitale Kuratierung?
EVA Berlin 2016 – 09. November 2016
Information
Information
Information
Information
Information
Information
Information
Information
Information? ?
??Information
Was ist digitale Kuratierung?
EVA Berlin 2016 – 09. November 2016
Information
Information
Information
Information
Information
Information
Information
Information
Information? Information
OutputInput SoftwareProzesse
?
??
BranchenInput Prozesse Software Output
Tweet Analysieren Textverarbeitung ZeitungsartikelZeitungsartikel Auswählen Präsentationen Multimedia-WebsiteAgenturmeldung Fokussieren Tabellenkalkulation TV-BeitragFacebook-Meldung Überarbeiten Email AusstellungskatalogSuchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte)SMS Gestalten Branchenapplikationen TextbeitragKonzept Recherchieren CMS KonzeptTextdateien Bewerten ECMS ZeitstrahlVideo Evaluieren CRM FachartikelKarte Ordnen Unternehmens-Software StudieStockfotos Sortieren Grafik-/Layout-Software PräsentationIn-house Datenbank Strukturieren Telefonie FaktensammlungKalendereintrag Zusammenfassen etc. ExponatsartikelSpreadsheets Kürzen AnalysenArchiv Übersetzen etc.etc. Informieren
KombinierenAbstrahierenEinordnenVisualisierenGenerierenAnnotierenReferenzierenetc.
Beobachtungen• Inhalte: textzentriert, mehrsprachig, multimedial• Kuratierung: zeit- und wissensintensiv, interdisziplinär,
evtl. durchgeführt in verteilten Teams• Branche: domänen-/branchenspezifische Anforderungen• Einschränkung: Traditionelle CMS-Systeme bieten
kaum Unterstützung für Kuratierungsprozesse!• Sprachtechnologie kann helfen – Kombinierung von
Komponenten zu branchenspezifischen Workflows
DKT Kick-off-Veranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016
Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015
• Unterstützung und Optimierung digitaler Kuratierung durch Sprach- und Wissenstechnologien.
• Entwicklung innovativer Prototypen bei den KMU-Partnern.• Weiterentwicklung der DFKI-Technologien und Transfer mittels
Plattform für digitale Kuratierungstechnologien.
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plat
tform
tech
nolo
gie
Branchenlösungen
Visualisierung, UIs, Ausstellungskuratierung
Kuratierung für Medien-Redaktionen durch innovative Empfehlungen
Semantic Story Tellingfür Online-Redaktionen
Journalistische Kuratierungsworkflows für die digitalen Geschäftsmodelle klassischer Printmedien
Sprach- und Wissenstechnologien als Basis digitaler Kuratierungstechnologien
DKT besteht aus fünf Teilprojekten
Branche:Museen, Showrooms,Ausstellungen
Branche:TV, Radio, Web-TV, Medien
Branche:Öffentliche Archive
Branche:Journalismus
Technologieplattform – Ziele• Durch (Semi-)Automatisierung der Kuratierungsprozesse
zeitliche und finanzielle Aufwände reduzieren
• Flexible, robuste, skalierbare Services
• Gemeinsamer Bau von Prototypen (proofs-of-concept)
• Modulare Inhalte in neuen Produktionen aggregieren
• Interoperabilität durch generische APIs
• Human in the loop
EVA Berlin 2016 – 09. November 2016
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plat
tform
tech
nolo
gie
Branchenlösungen
Die DFKI-Forschungsthemen• Semantische Analyse und Generierung, Mehrsprachigkeit• Integration von Nutzerfeedback in Kuratierungsservices• Domänenadaptierbarkeit: individuelles Training und
nutzerzentrische Anpassungsmöglichkeiten• Interoperabilität aller Services• Harmonisierung von Datenformaten• Hohe Qualität und Präzision• Kuratierungs-Dashboard
EVA Berlin 2016 – 09. November 2016
DFKI-Teilprojekt: Sprach- und Wissenstechnologien als Basis digitaler Kuratierungstechnologien
Plattform für digitale Kuratierungstechnologien
Broker REST API
Kuratierungsservice 1
Kuratierungsservice 2
Client nutztdas API
ExternerService 1
ExternerService 2
Client nutztdas API
Client nutztdas API
Client nutztdas API
Kuratierungs-Workflow
EVA Berlin 2016 – 09. November 2016
• Kuratierungsservice: e-service, der per REST HTTP API bereitsteht. Der Service analysiert den Input und reichert diesen an.
• Services können zu Pipelines bzw. Workflows kombiniert werden.
Output
Aktueller Stand• Plattform: Services und Service-Workflows• Implementierte Kuratierungsservices:
– Named Entity Recognition – e-entityrecognition e-service – Geolocation – e-entityrecognition, Visualisierung– Temporal Analyser – e-entityrecognition, Visualisierung– Classification – e-classification e-service– Clustering – e-clustering e-service– Textzusammenfassen– e-summarisation e-service– Maschinelle Übersetzung – e-translation e-service– Semantic Storytelling – work in progress
• Kuratierungs-Dashboard: Erster Prototyp
EVA Berlin 2016 – 09. November 2016
NER, Linking, Geolokalisierung
EVA Berlin 2016 – 09. November 2016
...In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries......The ships were scuttled there in the 11th century, to block anavigation channel and thusprotect Roskilde, thenCopenhagen from seaborne assault......Viking Age inscriptions havealso been discovered on theManx runestones on theIsle of Man.…
Plain Text NIF-Anreicherung Visualisierunghttp://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php
• Modus 1: Modell-basiert (für Domänen, für die annotierte Trainingsdaten verfügbar sind)
• Modus 2: Wörterbuch-basiert (für Domänen, für die lediglich Namenslisten verfügbar sind)
• Basiert auf OpenNLP (mit NIF-Integration)
• Entity-Linking durch SPARQL-Querys auf DBPedia.• Für Lokationen werden GPS-Koordinaten bezogen. • Es werden Durchschnittsangaben berechnet auf
Dokumentebene (über alle Lokationen), um diese auf einer Karte visualisieren zu können.
Geolokalisierung als visuelles Zusammenfassen!
EVA Berlin 2016 – 09. November 2016
NE Recognition und Linking• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict• Falls lediglich Listen von Namen oder Termen und deren URIs in einer
Ontologie zur Verfügung stehen.
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner• Falls annotierte Trainingsdaten zur Verfügung stehen
auf neuem Input nutzbar(auch gemeinsam)
statistischesNER-Modell
Datenbank-Dump der Mendelsohn-Briefe
Hohe QualitätBenötigt annotierte Daten
Mittlere QualitätBenötigt weniger annotierte Daten
• Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B) vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden.
• Diese Liste kann vom Wissensarbeiter überprüft und anschließend als Wörterbuch (A) eingesetzt werden.
Mittlere Qualität Menschliche Intervention notwendigBenötigt keine annotierten Daten
A B
C
• Linking per Extraktion der DBpedia-URI• NE-Typspezifische SPARQL-Querys für
Personen (Geburtsdatum), Lokationen (Koordinaten), Organisationen (Typ)
• Wörterbuch kann URIs enthalten
EVA Berlin 2016 – 09. November 2016
Zeitausdrücke...The ships were scuttled there in the 11th century, to block anavigation channel and thusprotect Roskilde, thenCopenhagen from seaborne assault......Viking Age inscriptions havealso been discovered on theManx runestones on theIsle of Man.......In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12ththrough 14th centuries…
900
1600
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temphttp://dev.digitale-kuratierung.de/admini/pages/timelining.php
Plain-Text NIF-Anreicherung Visualisierung
• Sortiert Dokumente auf einer chronologischen Skala.
• Regelbasiertes System, um unsere Zielsprachen bestmöglich bedienen zu können (EN, DE).
• Analyse von Zeitausdrücken in einem Dokument.
• Berechnet Durchschnittswerte und Intervalle.
• Plan: Mechanismus für nutzerbasierte Regeln.
• Verwandte Arbeiten: SUTime, HeidelTime, Tango, Tarsgi.
Maschinelle Übersetzung
EVA Berlin 2016 – 09. November 2016
Workflow
Language & Translation
Models trained on DGT, News, Europarl, TED
Herr Modi befindet sich auf einer fünftägigenReise nach Japan, um die wirtschaftlichen
Beziehungen mit der drittgrößtenWirtschaftsnation der Welt zu festigen.
Mr Modi is located on a five-day trip to Japan to strengthen the economic ties with the third largest economy in the world.
Named Entity Recognition
Entity Linking
Temporal Expressions
Metadata Processing
Post-Edit Retraining
Beispiel
• Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.)• Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a.• Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF• Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet)
Eleftherios Avramidis, Aljoscha Burchardt, Vivien Macketanz,Ankit Srivastava. 2016. “DFKI’s System for WMT16 IT-domainTask, including Analysis of Systematic Errors”. In Proc. of the 1st
Conf. on Machine Translation, Berlin, S. 415-422.
Workflow
Language & Translation
Models trained on DGT, News, Europarl, TED
Textanalytik für bessere MT
EVA Berlin 2016 – 09. November 2016
Ankit Srivastava, Felix Sasaki, Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, undGeorg Rehm. 2016. “How to Configure Statistical Machine Translation with Linked Open DataResources”. In Proc. of Translating and Computer 38. London, November. Im Druck.
Quellsprache: Englisch1. A European Commission spokesman …2. MS Paint is a good option.
Zielsprache: Deutsch1. Ein Sprecher der European Commission …2. Frau Farbe ist eine gute wahl.
• Korrektur von Übersetzungsfehlern durch Textanalytik.• Unbekanntes Wort: “European Commission” sollte als „Europäische
Kommission“ übersetzt werden. Übersetzung kann aus Dbpedia bezogen werden.• Disambiguierung: “MS Paint” wird als Person und nicht als Produktname erkannt.
Lösung: Term wird als benannte Entität getaggt und bleibt unübersetzt.
Textzusammenfassen
EVA Berlin 2016 – 09. November 2016
Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79 Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE-Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB-Werte jeweils bei 11,77 bzw. 2,13 liegen.
Im letzten Monat und den letzten 3 Monaten verlor die RWE-Aktie 3,79% bzw. 18,95% und in den
letzten 3 Tagen 3,55%.
• Kuratierungsservice rankt Sätze – basierend auf div. Features – hinsichtlich ihrer Wichtigkeit.
• Modul ist in der Entwicklung.
• Beispiel: Artikel über den fallenden Aktienkurs von RWE (Daten stammen von Condat).
• Ausblick: Integration der Analyseergebnisse anderer DKT-Services in den Algorithmus.
Semantic Storytelling• Wichtige Funktionalität in allen KMU-Partner-Use Cases:
Automatisches Hyperlinking von Dokumentkollektionen• Input: Kohärente, in sich geschlossene Kollektion• Output: Angereicherte Kollektion, die als Hypertext zugreifbar
ist – für effizientes und intuitives Browsing• Semantic Storytelling – arbeitet auf diesem Hypertextgraph,
den wir auf der ursprünglichen Kollektion erzeugen• Ermöglicht multiple Rezeptionspfade durch die Kollektion• Semantic Storytelling ist die Identifizierung, das Ranking
und die Empfehlung sinnvoller Hypertextpfade• Es gibt noch zahlreiche Herausforderungen ...
EVA Berlin 2016 – 09. November 2016
EVA Berlin 2016 – 09. November 2016
Semantic Storytelling• Aktueller, experimenteller Stand: GUI erlaubt dynamischen Überblick, welche
salienten, in einer Kollektion genannten Entitäten was und wo getan haben.• Nutzer sollen sich schnell einen Überblick über den Inhalt verschaffen können.
EVA Berlin 2016 – 09. November 2016
(Vergrößerung)
Julián Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016.
Peter Bourgonje, Julián Moreno Schneider, Georg Rehm und Felix Sasaki. Processing Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the 2nd International Workshop on Natural Language Generation and the Semantic Web (WebNLG 2016), S. 13-16, Edinburgh, UK, September 2016. The Association for Computational Linguistics.
Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic Web: ESWC 2016 Satellite Events, Juni 2016.
Ausblick
• Automatisches Hyperlinking• Integration in das Dashboard• Generierung von Story-Pfaden• Relationsextraktion und
Dependenzparsing• Textgenerierung
Tool 1: Automatisches Glossar• Automatisches
Glossar (Personen, Orte, Organis.)
• Informieren über unbekannte Begriffe in einer Sammlung.
• Links verweisen auf die Vorkommen in Dokumenten.
• Bekannt aus Büchern und somit direkt verständlich.
Glossar der Mendelsohn-Briefe
EVA Berlin 2016 – 09. November 2016
Tool 2: Autoritative Dokumente• Über eine Entität
informieren, die in einer Kollektion auftaucht (1).
• Dokumentauswahl listet alle Entitäten auf (2).
• Klick listet Vorkommen in Kollektion auf, sortiert nach Frequenz (3).
• Hilft, diejenigen Doku-mente zu finden, die eine Entität häufig erwähnen und daher eine „Autorität“ bzgl. dieser Entität darstellen.
EVA Berlin 2016 – 09. November 2016
1
2
3
Liste derjenigen Dokumente der Mendelsohn-Briefe,in denen „New York“ auftaucht (nach Häufigkeit sortiert)
EVA Berlin 2016 – 09. November 2016
Schlussfolgerungen• Kuratierungstechnologien können Wissensarbeiter beim
Verarbeiten von Inhalten und Wissen unterstützen.• Großes Interesse an dem Ansatz und den bislang im
DFKI entwickelten Technologien.• Aktuell: Erstes Inventar von Services.• Enormes Potential für Folgeaktivitäten.• Erweitertes Set von Services, automatischere Ansätze,
zusätzliche Branchen, zusätzliche Wissensquellen.• Speziell: Zusammenstellung neuer Inhaltsprodukte,
Semantic Storytelling, Textgenerierung, Linked Data.
EVA Berlin 2016 – 09. November 2016
Vielen Dank!http://www.digitale-kuratierung.de
EVA Berlin 2016 – 09. November 2016