Textanalyse mit UIMA und Hadoop

Hans-Peter Zorn data2day, Karlsruhe, 27.11.2014

Über mich

‣ seit 2014: Big Data Scientist @ Inovex ‣ 2011-2013: TU Darmstadt, UKP Lab

‣ Etablierung der Hadoop-Infrastruktur ‣ Unterstützung der Forscher bei Textanalyse auf großen Datenmengen ‣ Entwicklung dkpro-bigdata zur Ausführung von UIMA auf Hadoop

‣ 2005-2011: European Media Lab, Heidelberg ‣ u.a. Entwicklung eines Frameworks für Speech Analytics (Textanalyse auf

den Ergebnissen von automatischer Spracherkennung)

Die drei V’s in heutigen BigData Architekturen

Volume Hadoop, NoSQL, HDFS,…

Velocity Storm, Spark, Kafka, …

Variety Clickstream, Clickstream, Clickstream ?

Mehr als Weblogs:

Strukturiert

Semistrukturiert

Unstrukturiert

MailsVideoclips

TVMitschnitte

Social Media

WebXMLTransaktionale

DatenLogdaten

Stammdaten

‣ Motivation: Textanalyse & Machine Learning ‣ Pipelines mit Apache UIMA ‣ Skalierung von UIMA Pipelines ‣ Tools ‣ Best Practices und Alternativen

Agenda

Textanalyse

Klassifikation

Informations-Extraktion

Exploration

Sentiment Analyse, Spamdetection, Mailpriorisierung

Verschlagwortung, Zusammenfassung, Zuordnung von Worten zu Konzepten

Visualisierung, Suche, Trendanalyse

Welche Mail möchte ich sehen?

The health test result for NAME_NODE_WEB_METRIC_COLLECTION has become bad: The Cloudera Manager Agent is not able to communicate with this role's web server.

Dear Sir, !I am requesting for your help, to assist me in getting £42,000,000.00 to your account. please do indicate your interest for more information's. !Yours Truly, !From Daniel Klimowicz

Maschinelles Lernen

Apotheke SPAM

Einladung CLEAN

billig

Apotheke 5CLEAN

Vorverarbeitung

Tokenisierung Chunking

Stemming Lemmatis- ierung

Part-of-Speech

Guten Tag

Mein Name ist

ADJ PRP

Guten Tag Mein Name ist

gut Tag Mein Name sein

Guten Tag Mein Name ist

‣ Entwickelt von IBM ‣ Der Apache Foundation gespendet

(in 2006) ‣ OASIS Standard ‣ Technologie „DeepQA“ hinter IBM’s

Watson („Jeopardy“)

Apache UIMA

Type System

UIMA Komponenten

Collection Reader

Analysis Engine

CAS Consumer

• Typesystem • Interoperabilität

• CAS • Common Annotation

Structure • Collection Reader

• XML, PDF etc • Analysis Engine

• Chunker • Parser • Sentiment-Analyse

• CAS Consumer • File • Webservice • Datenbank

‣ Konfiguration von Komponenten ‣ Per XML: Component Descriptor !!!!!

‣ Programmatisch: UIMAFit ‣ nutzt z.t. Spring ‣ Automatische Erzeugung von

Deskriptoren aus Java-Annotationen.

von Komponenten zur Pipeline

JCas jCas = JCasFactory.createJCas(); jCas.setDocumentText("some text"); AnalysisEngine tokenizer = createEngine(MyTokenizer.class); !AnalysisEngine tagger = createEngine(MyTagger.class); !runPipeline(jCas, tokenizer, tagger); !for(Token token : iterate(jCas, Token.class)) System.out.println(token.getTag());

Skalierung: UIMA on Hadoop

Collection Reader

Corpus

Writer

Results

NLP Pipeline

Workstation

Collection Reader with

HDFSResourceLocator

Corpus

HDFSWriter

Results

NLP Pipeline

Workstation

Sklalierung: UIMA on Hadoop

Corpus

Collection Reader

NLP Pipeline

Writer

Mapper

NLP Pipeline

Writer

MapperNLP

Pipeline

Writer

Mapper

Results

Cluster

Workstation

Skalierung: UIMA AS/DUCC

POS Tagger

Collection Reader

!Verschiedene Resultate werden parallel erzeugt

UIMA AS:Asyncronous Scaleout - Verteilt CAS per Message Queue an Workernodes !DUCC ist ein Cluster-Manager für UIMA AS

‣ Ähnlich einer Lambda-Architektur

Batch/Realtime kombiniert

Frage UIMAUIMA

Realtime

Wiki- pedia

Antwort

Verfügbare Komponenten

UIMA Components Dictionary Annotator, Stemmer, Chunker

Grundfunktionalität

UIMA Ruta Regelbasiert Informations-extraktion

DKPro Core Sammlung von NLP Komponenten des UKP Lab der TU Darmstadt

Hauptsächlich Vorverarbeitung

OpenNLP Sammlung von NLP Komponenten - Apache Projekt

Tools: CAS Editor und Eclipse Plugin

‣ NLTK ‣ Python !

‣ Lucene ‣ besitzt einige Analyzer, wird

beispielsweise von Mahout genutzt

!‣ GATE

‣ Ähnlich zu UIMA ‣ Eher akademisches Umfeld

Alternativen

‣ Multiword-Extraction !

‣ Beispielsweise für automatische Vervollständigung von Suchbegriffen !!

‣ Statistische Signifikanz einer des paarweisen Auftretens !

‣ Word-count, mittels Map/Reduce, Hive, Spark !

‣ Normalisierung, z.b. Tippfehlernormalisierung, Umlaute ist Vorverarbeitung

Anwendungsfall: Mehrwort-Ausdrücke

‣ Einfach anfangen! ‣ Regelbasiert, Lexikonbasiert ‣ Wenn ML, vorgefertigte und einfache Algorithmen

‣ Domäne eingrenzen ‣ Offene Domäne (Watson) extrem schwierig, Forschungsgebiet! ‣ Wenige Klassen (Spam/Kein Spam)

‣ Datenanalyse/Annotationsexperiment ‣ Können Menschen diese Aufgabe überhaupt konsistent lösen? !

‣ Trotzdem: steep learning curve, sicher kein Wochenendprojekt.

Was ist realistisch? Kann ich das selbst?

• Was möchte ich wissen? !!

• Kenne ich meine Zielklassen? • Habe ich Trainingsdaten? !

• Wie kann ich evaluieren? !!

• In welchem Format liegen meine Eingangsdaten vor? !!

• Wie schnell brauche ich die Resultate?

Schritt für Schritt zur Textanalyse

Zusammenfassung

• Auch unstrukturierte Daten sind erschließbar • Textanalyse ist oft Maschinelles Lernen • Vorgefertigte Komponenten existieren • Apache UIMA bietet eine Platform um solche

Komponenten zu einer Applikation zu kombinieren • UIMA und Hadoop sind gut integrierbar.

Ressourcen

UIMA: https://uima.apache.org/

OpenNLP: http://opennlp.apache.org/

DKPro Core: https://code.google.com/p/dkpro-core-asl/

DKPro BigData: https://code.google.com/p/dkpro-bigdata/

Vielen Dank für Ihre Aufmerksamkeit

Kontakt !Hans-Peter Zorn Big Data Solutions !inovex GmbH Office Karlsruhe Ludwig-Erhard-Allee 6 D-76131 Karlsruhe !hzorn@inovex.de !!!!!

Textanalyse mit UIMA und Hadoop

Technology

Oracle hadoop doag-big-data_09_2014_gpi

Technologie-Exkurs „Big Data”: Hadoop, NoSQL, Text ... · Schnittstellen oder MapReduce-Nutzung). HDFS & MapReduce Hadoop verspricht die Bewältigung enor-mer Datenmengen. Yahoo

Thesis - Big Data & Hadoop - Teil 1 - Wissenschaftliche Arbeit · Hadoop ist eines der am häufigsten diskutierten Plattformen, wenn Big Data thematisiert wird. Der folgende Abschnitt

Lucenes Welt - ordnen, finden, klassifizieren - inovex GmbH · PDF fileEbay Kleinanzeigen ... Scala over TCP ... Lucene & Hadoop - Hadoop: parallel processing power - Lucene: dynamic,

Das Apache Hadoop Framework im industriellen Einsatz€¦ · Apache Hadoop (HDP, Spark, Hive, HBase) Maschinelles Lernen (TF, CNTK, Keras) Idee entstand durch Forschungsprojekt und

The Hadoop Connection

MapReduce & Apache Hadoop

Textanalyse und Interpretation zu Bernhard Schlink, Der Vorleser

Wer gewinnt das SQL-Rennen auf der Hadoop-Strecke? · Oracle Hadoop Connector InﬁniDB Kylin. Stinger initiative ... Resume I Schnell Ausgereift Connectivity Sprach-! Hive Umfang

Textanalyse und Interpretation zu lyrik des … · königs erläuterungen spezial lyrik des expressionismus Textanalyse und Interpretation zu Alle erforderlichen Infos für Abitur,

Ludger Hoffmann Pragmatische Textanalyse An einem Beispiel ...hoffmann/PDF/TextanalysNS.pdf · Ludger Hoffmann Pragmatische Textanalyse An einem Beispiel aus dem Alltag des Nationalsozialimus

Hadoop - Abteilung Datenbanken Leipzig · 0 Hadoop HDFS und MapReduce Seminararbeit im Modul NoSQL-Datenbanken Bachelorstudiengang Informatik Universität Leipzig JOHANNES FREY UNTER

Webinar Big Data - Enterprise Readiness mit Hadoop

Einführung in Apache UIMA - ChristianHerta · Einführung und Übersicht Wichtige UIMA Module Multimodale Analyse Entwicklung von Collection Processing Components Weitere Möglicheitenk

Methoden der Textanalyse Schwerpunkte Einleitung

5 Textanalyse Bindungsmuster 121212.pdf

Kurzgeschichten und Erzählungen - Textanalyse und

Die 10 wichtigsten Big Data-Technologien · Hadoop - Ein bewährtes Konzept 4 2. Cloudera – Hadoop für Unternehmen 4 3. Apache Hive - Das Data Warehouse für Hadoop 5 4. Cloudera

Hadoop - Abteilung Datenbanken Leipzigdbs.uni-leipzig.de/file/seminar_1112_frey_ausarbeitung.pdf · 0 Hadoop HDFS und MapReduce Seminararbeit im Modul NoSQL-Datenbanken Bachelorstudiengang

Hadoop DI Benchmark