Text Mining als Methode zur Wissensexploarationcleve/vorl/projects/da/13-Master-Seidel.pdf · Intelligence (BI), des Wissensmanagement, der Competitive Intelligence (CI) und des Customer

Fakultät für Wirtschaftswissenschaften

Master-Thesis

Text Mining als Methode zur Wissensexploration: Konzepte, Vorgehensmodelle, Anwendungsmöglichkeiten

Abschlussarbeit zur Erlangung des Grades eines

Master of Sciences (M.Sc.)

in Wirtschaftsinformatik

der Hochschule Wismar

eingereicht von: Ludwig Michael Seidel geboren am 29.12.1964 in Burgstädt Studiengang Wirtschaftsinformatik Matrikelnummer: 117520 Erstgutachter: Prof. Dr. Jürgen Cleve Zweitgutachter: Prof. Dr.-Ing. Uwe Lämmel Wismar, den 21. Februar 2013

Inhaltsverzeichnis

i

Inhaltsverzeichnis Abbildungsverzeichnis ............................................................................................ III

Tabellenverzeichnis................................................................................................. IV

Abkürzungsverzeichnis ........................................................................................... V

1 Einleitung ........................................................................................................... 1

2 Einordnung in die Wirtschaftsinformatik ........................................................ 3

2.1 Unstrukturierte Daten und Big Data ........................................................................ 3

2.2 Business Intelligence und Text Mining ................................................................... 8

2.3 Wissensmanagement und Text Mining .................................................................12

2.4 Text Mining im Rahmen weiterer BI Anwendungsdomänen ..................................16

2.4.1 Competitive Intelligence ....................................................................................16

2.4.2 Customer Relationship Management ................................................................18

2.4.3 Enterprise Content Management .......................................................................19

2.5 Die Bedeutung von Text Mining für das Semantic Web .........................................20

2.6 Zusammenfassung ...............................................................................................22

3 Grundlagen des Text Mining .......................................................................... 23

3.1 Definitionsansätze des Text Mining .......................................................................24

3.2 Geschichte und Interdisziplinarität.........................................................................27

3.3 Konzepte im Rahmen des Text Mining ..................................................................30

3.3.1 Dokumentensammlung und Dokument .............................................................30

3.3.2 Merkmalsselektion ............................................................................................31

3.3.3 Benutzeroberfläche ...........................................................................................33

3.4 Modelle zur Vorgehensweise ................................................................................34

3.5 Algorithmen und Techniken...................................................................................37

4 Anwendungsbereiche von Text Mining ......................................................... 38

4.1 Themen des Text Mining .......................................................................................38

4.2 Document Classification ........................................................................................43

Inhaltsverzeichnis

ii

4.3 Document Clustering.............................................................................................45

4.4 Information Extraction ...........................................................................................47

4.5 Information Retrieval .............................................................................................50

4.6 Natural Language Processing ...............................................................................51

4.7 Zusammenfassung ...............................................................................................53

5 Anwendungen .................................................................................................. 54

5.1 Dokumentenklassifikation im Rahmen des Wissensmanagement .........................54

5.2 Nachrichtenzusammenfassungen durch NewsBlaster...........................................56

5.3 Automatische Klassifikation von RSS-Feeds für ein Informationsportal .................58

5.4 Anreicherung von Kundenprofilen in der Bankenbranche ......................................60

5.5 Integration von Text Mining in ein Metriksystem zur Qualitätsbewertung...............62

5.6 Auswerten von Störmeldungen in einem Customer Service Center ......................65

5.7 Semantische Suche in Bibliothekskatalogen .........................................................66

5.8 Schneller Zugriff auf relevante medizinische Befunde ...........................................68

5.9 Weitere Einsatzgebiete und Anwendungsbeispiele ...............................................70

6 Fazit und Ausblick ........................................................................................... 73

Abbildungsverzeichnis

iii

Abbildungsverzeichnis Abbildung 2.1 Geschätzte Wachstumsraten der verschiedenen Datenarten 2007-2010

([Ru07]). .............................................................................................................. 4

Abbildung 2.2 Zusammensetzung der Daten im Datawarehouse 2007 und 2010 (geschätzt) 5

Abbildung 2.3 Wachstum der Datenmengen ([UW12], S. 12) ................................................ 6

Abbildung 2.4 Welche Informationstechnologien das Big-Data-Phänomen entstehen lassen

([UW12], S. 11) ................................................................................................... 6

Abbildung 2.5 Die vier Dimensionen des Big Data ([SSS12], S. 5) ........................................ 7

Abbildung 2.6Merkmale von Big Data ([UW12], S. 19) .......................................................... 8

Abbildung 2.7 Einordnung unterschiedlicher Facetten von Business Intelligence ([Gl01], S. 7)

............................................................................................................................ 9

Abbildung 2.8 Klassifikation von BI Werkzeugen ([Ba06], S. 64) .........................................10

Abbildung 2.9 Extracting Metadata from content and document management systems

([BK08], S. 139) ..................................................................................................11

Abbildung 2.10 Integrierte Anwendungslandschaft mit traditionellen Systemen und Big Data

Lösungen ([UW12], S. 28) ..................................................................................12

Abbildung 2.11 Softwaresysteme zum WM Prozess .............................................................14

Abbildung 2.12 KM consists of four main perspectives: Consulting, Content/Information,

Technology Foundation, and Knowledge Management System (KMS). KMS

includes data mining and text mining ([Ch01], S. 4) ............................................15

Abbildung 2.13 Textdokumente in Kundenbeziehungen ([HR06a], S. 100) ...........................18

Abbildung 2.14 Dokumentenlebenszyklus ([Bö07], S. 17) ....................................................20

Abbildung 2.15 Struktur für Web3.0 Ressourcen ([Ul10], S. 9) .............................................21

Abbildung 3.1 A Venn Diagram of the intersection of text mining and six related fields (shown

as ovals) ([Mi12], S. 31) .....................................................................................28

Abbildung 3.2 Example of a visualization tool - mapping concepts (keywords) within the

context of categories by means of a category graph ([FS07], S. 11) ...................33

Abbildung 3.3 Iterative loop for user input and ouput ([FS07], S. 14) ....................................34

Abbildung 3.4 Der Prozess des Text Mining ([HR06b], S. 288) .............................................35

Abbildung 3.5 Text Mining Prozess ([Si06], S. 44) ................................................................36

Abbildung 4.1 Entscheidungsbaum zum Auffinden des Anwendungsbereichs in Hinblick auf

Text Ressource und Projektziel ([Mi12], S. 33) ...................................................41

Abbildung 4.2 Beispiel für ein partitionierendes Clustering aus ([Ba13], S. 244) ...................46

Abbildung 4.3 Natural language system architecture for text mining for biology ([HW06]) ....52

Abbildungsverzeichnis

iv

Abbildung 4.4 Visualizing the seven text mining practice areas (ovals) and how specific text

mining tasks (labels with ovals) exist at their intersections ([Mi12], S. 38) ..........53

Abbildung 5.1 Webportal von KM DocTEr ([KQP03], S. 526) ................................................56

Abbildung 5.2 Aufruf von NewsBlaster vom 09.02.13 ([Ne13]) .............................................58

Abbildung 5.3 Zielprozess zur automatischen Klassifikation von RSS-Feeds im Überblick

([SS10], S. 98) ....................................................................................................59

Abbildung 5.4 Häufige Terme innerhalb der Daueraufträge ([HR06a], S. 104) .....................61

Abbildung 5.5 Die Anreicherung der Kundendatenbank mit extrahierten Termen ([HR06a], S.

106) ....................................................................................................................62

Abbildung 5.6 8D Methode zur nachhaltigen Fehlerbeseitigung nach VDA ([UMB10], S.

1103) ..................................................................................................................63

Abbildung 5.7 Softwarekonzept von MeSys ([UMB10], S. 1106) .........................................64

Abbildung 5.8 Ticketerfassung ([SS10], S. 94) ....................................................................65

Abbildung 5.9 Suchergebnis für die Eingabe „gone with the wind“ ([BGH12], S. 70) ............67

Abbildung 5.10 Ausschnitt aus der elektronischen Krankenakte eines 2 1/2-jährigen

Patienten mit über 300 Dokumenten ([HGE07]) .................................................69

Tabellenverzeichnis

v

Tabellenverzeichnis Tabelle 2.1 Aufgaben des Wissensmanagement ............................................................ 13

Tabelle 2.2 Fragestellungen der Competitive Intelligence................................................ 17

Tabelle 2.3 Einsatzpotenziale von Text Mining im CRM .................................................. 19

Tabelle 3.1 Anwendungsbereiche des Text Mining und ihre Aufgabenstellungen .............. 28

Tabelle 3.2 In Text Mining verwendete Algorithmen und ihre Anwendungsbebite ([Mi12], S.

34) ............................................................................................................ 37

Tabelle 4.1 Übersicht über Funktionsbereiche des Text Mining ....................................... 40

Tabelle 4.2 Text Mining Themen Anwendungsbereichen zugeordnet nach ([Mi12], S. 34) . 42

Tabelle 5.1 Weitere Anwendungsgebiete für das Text Mining .......................................... 72

Abkürzungsverzeichnis

vi

Abkürzungsverzeichnis BI ...................... Business Intelligence

CE ..................... Concept Extraktion

CI ...................... Competitive Intelligence

CRM .................. Custom Relationship Management

DM ................... Data Mining

ECM .................. Enterprise Content Management

ETL ................... Extraktion, Transformation, Laden

HMM ................. Hidden Markov Modell

HTML ................ Hypertext Markup Language

IE ...................... Information Extraction

IR ...................... Information Retrieval

KDD .................. Knowledge Discovery in Databases

KMS .................. Knowledge Management Systeme

LSI..................... Latent Semantic Indexing

MEMM ............... Maximum Entropy Markov Modell

ML ..................... Maschinelles Lernen

NLP ................... Natural Language Processing

OCR .................. Optical Character Recognition

OWL .................. Web Ontology Language

PDF ................... Portable Document Format

RDF ................... Resource Description Framework

RSS ................... Really Simple Syndication

SPARQL............ SPARQL Protocol And RDF Query Language

SVD ................... Singular Value Decomposition

SVM .................. Support Vector Machine

TS ..................... Text Summarization

WM .................... Wissensmanagement

XML ................... Extensible Markup Language

1 Einleitung

1

1 Einleitung

"Text ist ein bedeutender Wissensrohstoff, der im Zeitalter des Internet in großen Mengen in

digitaler Form zur Verfügung steht. Mit Hilfe von Text Mining kann das in Texten enthaltene

Wissen strukturiert und teilweise automatisch extrahiert werden." ([HQW08], S. 1)

Die rasch anwachsende Anzahl an Dokumenten und Texten in digitaler Form durch

die Anwendung neuer Informationstechnologien (Web 2.0, Mobiles Computing) führt

dazu, dass diese digitalen Dokumente immer mehr als Primärmedien für die

Verarbeitung, Verbreitung und Verwaltung von Informationen verwendet werden. Ein

Großteil der Informationen liegt in Form von Textdokumenten vor. Das

Informationszeitalter erleichtert das Speichern von riesigen Datenmengen. Die

Vermehrung der Dokumente im Internet, in Firmen Intranets, in News Wires und

Blogs ist überwältigend. Obwohl so die Anzahl der zur Verfügung stehenden Daten

ständig wächst, bleiben die Möglichkeiten, diese aufzunehmen und weiter zu

verarbeiten beschränkt. Suchmaschinen verschärfen dieses Problem zusätzlich, da

sie nur durch wenige Eingaben in die Suchmaske eine Vielzahl von Dokumenten

zugänglich machen.

Das Wissen über Kunden, Märkte und Wettbewerber wird ein immer wichtigerer

Faktor für den Erfolg eines Unternehmens und ist aus dieser Dokumentenbasis zu

extrahieren. Das Lesen und Verstehen von Texten zur Wissensgewinnung ist aber

eine Domäne des menschlichen Intellekts, allerdings ist dieser kapazitiv beschränkt.

Eine softwaretechnische Analyse durch einen weitgehend automatisierten Prozess

der Gewinnung von neuem und potenziell nützlichem Wissen von Textdokumenten

kann dieses Manko beseitigen.

Text Mining gewinnt hierbei auf Grund der Fülle und des rasanten Wachstums von

digitalen, unstrukturierten Daten immer mehr an Bedeutung. Text Mining ist eine

Technik zum Extrahieren von neuem, dem Anwender noch unbekannten Wissen aus

Texten und findet überall dort eine Anwendungsmöglichkeit, wo anstelle von in

Datenbanken komprimierten, vorselektierten Eingabe von Daten, diese in Textform

1 Einleitung

2

erfasst werden. Text Mining schafft die Möglichkeit, eine effiziente und strukturierten

Informations- bzw. Wissensexploration durchzuführen.

Die Methoden des Text Mining mittels statistischer und linguistischer

Analyseverfahren bezwecken die Aufdeckung verborgener und interessanter

Informationen oder Muster in unstrukturierten Textdokumenten, indem sie zum Einen

die riesige Menge an Worten und Strukturen der natürlichen Sprache verarbeiten

können und zum Anderen die Behandlung von unsicheren und unscharfen Daten

ermöglichen. Nach Feldman/Sanger ist Text Mining als ein neues Forschungsgebiet

ein vielversprechender Versuch dieses Problem der Überfrachtung mit Information

durch die Verwendung von Techniken des Data Mining (DM), Maschinelles Lernen

(ML), Computerlinguistik (Natural Language Processing, NLP), Information Retrieval

(IR) und Wissensmanagement zu lösen ([FS07]).

Ziel der Arbeit ist es, den Entwicklungsstand dieser Technologie darzustellen,

Anwendungsmöglichkeiten zu erörtern und bereits vorhandene Anwendungen zu

zeigen. Dabei liegen die Schwerpunkte sowohl auf den Themen der automatischen

Datenvorverarbeitung und Textklassifikation als auch den Mining Methoden wie

Klassifikation, Clustering und Informationsextraktion. Es werden die Definition des

Text Mining, dessen Einordnung in die Wirtschaftsinformatik, seine Interdisziplinarität

und praktische Anwendungsmöglichkeiten betrachtet.

Um dies zu gewährleisten, wird zunächst die Bedeutung des Text Mining im Kontext

der Wirtschaftsinformatik dargelegt, unstrukturierte Daten und Big Data

unterschieden sowie Business Intelligence und Wissensmanagement in den Diskurs

eingeführt. Anschließend werden die Grundlagen des Text Mining in Form von

Definitionsansätzen, historischen Betrachtungen, seiner Interdisziplinarität und

einigen speziellen Konzepten behandelt und Vorgehensmodelle betrachtet.

Im Kapitel 4 werden verschiedene Themen und Aufgabenstellungen des Text Mining

untersucht und unterteilt in Anwendungsbereiche detaillierter vorgestellt. Im

nachfolgenden Kapitel werden schließlich Anwendungsmöglichkeiten des Text

Mining in Bezug auf die Wirtschaftsinformatik vorgestellt, ehe im 6. und

abschließenden Kapitel die wichtigsten Ergebnisse der Arbeit zusammengefasst

werden und ein Ausblick auf zu erwartende weitere Entwicklungen des Text Mining

im Kontext der Wirtschaftsinformatik gegeben wird.

2 Einordnung in die Wirtschaftsinformatik

3


Im folgenden Kapitel wird die Bedeutung von Text Mining im Betrachtungsfeld der

Wirtschaftsinformatik untersucht. Nach Laudon et al. ist die Wirtschaftsinformatik die

"Wissenschaft, die sich mit der Beschreibung, Erklärung, Prognose und Gestaltung

rechnergestützter Informationssysteme und deren Einsatz in Wirtschaft, Verwaltung

[...] befasst. Sie versteht sich als eigenständiges interdisziplinäres Fach im

Wesentlichen zwischen Betriebswirtschaftslehre und Informatik." ([LLS10], S. 62).

Schwerpunkte bilden dabei die Einsatzmöglichkeiten im Bereich der Business

Intelligence (BI), des Wissensmanagement, der Competitive Intelligence (CI) und des

Customer Relationship Management (CRM). Dabei werden zunächst die sich

verändernden technologischen Rahmenbedingungen im Bereich der

Datengenerierung und ihre Auswirkungen auf die Unternehmen betrachtet.

2.1 Unstrukturierte Daten und Big Data

Grundlage aller Reporting, Planungs-, Analyse- und Balanced-Scorecard-

Anwendungen zur Entscheidungsunterstützung in Unternehmen sind die Data

Warehouses, die ihre Daten aus verschiedenen operativen und externen Daten

beziehen und in diesen strukturiert vorliegen. Auf Grund der immensen Fortschritte in

Hardware und Software, der Verwendung mobiler Geräte und Einbeziehung des

Internets führt zum vermehrten Auftreten semi-strukturierter (wie z.B. XML oder

HTML Dateien) und unstrukturierter Daten wie Textdokumente, Memos, E-Mails,

RSS-Feeds, Blogeinträge, Kurznachrichten wie Twitter, Forenbeiträge, Kommentare

in Social Networks und Freitexteingaben in Formularen aber auch Bildern, Video –

und Audiodaten. Die Entwicklungen der Kommunikationstechnologien ermöglichen

eine schnelle, einfache und auch mobile Eingabe von diesen Daten, die ein riesiges

Repositorium bilden. Speziell treibt das Internet die Möglichkeiten unterschiedlichster

Nutzer eine große Menge von Textdaten auf einfachen Weg zu erzeugen und zu

speichern voran ([Ag12a]).


4

Die Bedeutung unstrukturierter Daten lässt sich an ihrem Anteil auftretender

Datenmengen bemessen. So schreibt Felden:

"Unternehmen stehen vor der Herausforderung, die für sie relevanten Informationen in immer

größeren Datenbeständen zu finden. 80 bis 90 % der Informationen eines Unternehmens

liegen nicht in maschinell verarbeitbaren und damit strukturierten Daten vor, sondern in

unstrukturierten, nicht unmittelbar maschinell verarbeitbaren Daten und somit in Dokumenten

vor." ([Fe06a], S. 54)

Manhart, Tan und Hotho et al. geben Werte zwischen 80% und 85% an ([Ma08]),

([Ta99]), ([HNP05]). Es gab in den letzten Jahren eine Reihe von Veröffentlichungen

zur Bewertung des Verhältnisses zwischen strukturierten und unstrukturierten Daten

und zur Schätzung der jeweiligen Wachstumsraten([SS10]). So ging der TDWI

Research Report wie in Abbildung 2.1 zu sehen im Jahre 2007 von Wachstumsraten

von 61 Prozent bis 81 Prozent für unstrukturierte Daten im Zeitraum bis 2010 aus

([Ru07]).

Abbildung 2.1 Geschätzte Wachstumsraten der verschiedenen Datenarten 2007-2010 ([Ru07]).

Im Zuge des gleichen Berichts in Auswertung einer Befragung von Managern wurde

auch die Zusammensetzung der Daten der verwendeten Data Warehouses und

deren zukünftige Entwicklung untersucht. Das Ergebnis ist in Abbildung 2.2 zu sehen


5

und zeigt die zunehmende Verdrängung der strukturierten Daten durch semi-

strukturierte und unstrukturierte Daten in einer großen Vielfalt.

Abbildung 2.2 Zusammensetzung der Daten im Datawarehouse 2007 und 2010 (geschätzt)

Generell ist festzustellen, dass sich nicht nur der Anteil unstrukturierter Daten

sondern auch die absolute Menge der Daten erhöht.

"Allein im [...] Jahr 2011 hat die Menschheit 1,8 Zettabyte neue Daten produziert [...]. Diese

sind mehrheitlich unstrukturiert. Die wesentlichen Treiber sind soziale Medien, Video und

mobiles Internet." ([Ma12], S. 16)

Es gibt verschiedenen Ursachen für diese Datenmengen: zum einen führt die

Entwicklungen in der Hardware wie immer günstigerer Speicher, größerer

Rechenleistungen und hohe Mobilität, zum anderen beteiligen sich immer mehr


6

Anwender an der (wenn auch zum Teil unbewussten) Kreierung von Daten u.a. in

sozialen Netzwerken. Des Weiteren werden durch immer mehr Sensoren, Messdaten

und Log-Protokollen automatisch Daten generiert. (Abbildung 2.3)

Abbildung 2.3 Wachstum der Datenmengen ([UW12], S. 12)

Im Juli 2011 nahm Gartner den Begriff "Big Data" zum ersten Mal in seinen "Hype

Cycle" zur Bewertung neuer Technologien auf. Mit diesem Begriff ist die Frage

verbunden, wie die Unternehmen den Umgang mit immer größeren zumeist

unstrukturierten Daten bewältigen können. Haupttreiber dieser Entwicklung sind nach

Urbanski/Weber mobile Apps, Social Media, Sensordaten und Cloud Computing

([UW12], S. 11). Abbildung 2.4 stellt diesen Zusammenhang übersichtlich dar.

Abbildung 2.4 Welche Informationstechnologien das Big-Data-Phänomen entstehen lassen ([UW12], S. 11)


7

Mit dem Begriff Big Data sind aber nicht nur die großen anfallenden Datenmengen

sondern auch die Technologien diese zu nutzen verbunden.

"Big Data bezeichnet die Analyse großer Datenmengen aus vielfältigen Quellen in hoher

Geschwindigkeit mit dem Ziel, wirtschaftlichen Nutzen zu erzeugen." ([UW12], S. 7)

Gartner definiert in seinem IT-Glossary Big Data als eine durch großen Umfang,

kurze Aktualität und Vielfalt gekennzeichnete Datenmenge, die kosteneffiziente,

innovative Formen der Datenverarbeitung erfordert um diese zu analysieren und für

Entscheidungsfindungen zu nutzen.

Die drei Begriffe Volume, Velocity und Variety werden in verschiedenen

Publikationen auch als die drei großen ‚V‘ des Big Data bezeichnet. IBM hat in einer

Studie im Oktober 2012 zu Big Data ein weiteres V hinzugefügt: Veracity

(Wahrhaftigkeit) (Abbildung 2.5) ([SSS12]). Damit soll nicht nur die Unsicherheit des

Wahrheitsgehalts von Informationen aus sozialen Netzwerken sondern auch die

Wahrscheinlichkeiten des Eintretens von prognostizierten Ereignissen berücksichtigt

werden (wie zum Beispiel Wettervorhersagen für ein Energieunternehmen).

Abbildung 2.5 Die vier Dimensionen des Big Data ([SSS12], S. 5)


8

Abbildung 2.6 zeigt, dass Urbansky/Weber unter dem Begriff Analytics die Methoden

zur möglichen Erkennung und Nutzung von Mustern, Zusammenhängen und

Bedeutungen Big Data zurechnen.

Abbildung 2.6 Merkmale von Big Data ([UW12], S. 19)

In den nächsten Abschnitten wird untersucht, welche Auswirkungen diese neue

Entwicklungen und Anforderungen an Business Intelligence und andere in der

Wirtschaftsinformatik betrachtete Fachgebiete haben.

2.2 Business Intelligence und Text Mining

Die große Definitionsvielfalt für den Begriff „Business Intelligence“ (BI) ist sicherlich

historisch bedingt und durch verschiedene Sichtweisen wie in Abbildung 2.7

dargestellt gekennzeichnet. Text Mining ist hier im engeren Sinne mit einem

Analyseorientierten Ansatz verknüpft, während ein weiteres BI-Verständnis weitere

Definitionsperspektiven erlaubt.

Die Diskussion zeigt, dass dabei das weite BI-Verständnis mehr und mehr als das

grundlegende angesehen wird. So definieren Kemper et al. BI als " einen

integrierten, unternehmensspezifischen, IT-basierten Gesamtansatz zur betrieblichen

Entscheidungsunterstützung" ([KBM10], S. 9). Dabei ist zu beachten, dass dieser

Ansatz für das jeweilige Unternehmen konkretisiert werden muss und nur einen

Ordnungsrahmen liefern kann. Kemper et al. haben einen dreischichtigen

Ordnungsrahmen mit den Layern Datenbereitstellung, Informationsgenerierung und –


9

distribution und Informationszugriff definiert([KBM10], S. 11). Dabei sind die

Analysesysteme der zweiten Schicht zugeordnet.

Abbildung 2.7 Einordnung unterschiedlicher Facetten von Business Intelligence ([Gl01], S. 7)

Es besteht das Ziel, alle Wirkungszusammenhänge und Mechanismen, die für das

Unternehmen von Bedeutung sind, durch gezielte Untersuchung der vorhandenen

Datenbestände zu entdecken und zu verstehen. Dafür ist es notwendig,

unterschiedliche Konzepte und Systeme stärker miteinander zu verknüpfen, wie

beispielweise die Integration einer Analyse sowohl strukturierter und eben auch

unstrukturierter Datenbestände. ([Gl01], S. 14) Da nun der Anteil der unstrukturierter

Daten überproportional ansteigt liegt ein Schwerpunkt in der Integration von BI-

Analysetools die auf Text Mining basieren, denn wie Felden feststellt, ist das "Ziel

des Text Mining […] die Aufbereitung unstrukturierter Daten, wodurch es eben auch

für Business-Intelligence-Anwendungen verwendbar ist. Es lassen sich Chancen

und Risiken für ein Unternehmen erkennen und Entscheidungsprozesse

unterstützen" ([Fe06b], S. 284). Somit werden völlig neue Anforderungen an die

etablierten BI-Methoden gestellt: einerseits müssen unstrukturierte Daten in BI-

Systeme eingebunden werden und andererseits auch ausgewertet werden. Dies

erfordert neue Verfahren und Technologien, denn es werden nicht nur Fakten,

sondern auch kontextbezogenen Informationen geliefert ([SS10], S. 91).


10

In seiner Untersuchung von Werkzeugen für Business Intelligence klassifiziert Bange

diese in Backend (Datenbereitstellung), Frontend (Informationsgenerierung und

Informationsverarbeitung) und Querschnittsaufgaben. Dabei zählen die Analysetools,

zu denen auch das Text Mining zuzuordnen ist, zu den Frontendwerkzeugen:

"Neuerdings werden die Verfahren zur Klassifikation, Segmentierung und

Assoziierung auch auf unstrukturierten Daten im Text Mining angewendet" ([Ba06],

S. 72). Abbildung 2.8 stellt die Werkzeuge für BI und deren Klassifikation nach

Bange übersichtlich dar.

Abbildung 2.8 Klassifikation von BI Werkzeugen ([Ba06], S. 64)

Martin begründet die Notwendigkeit neuer Analyseverfahren zur systematischen

Auswertung von Big Data wie Text Mining, Textanalytik und Linguistik mit dem

Scheitern der klassischen BI-Werkzeuge an Big Data ([Ma12], S. 17). Ursachen sind

seiner Ansicht nach sind die für relationale Datenbanken zu großen Datenmengen,

ein zu langsamer ETL-Prozess (Extraktion, Transformation, Laden) in Data

Warehouses und Data Marts und die nicht vorhandene Kompatibilität zur

Datenvielfalt.

Kemper/Baars hatten 2006 in ihrem BI-Ordnungsrahmen die Verarbeitung

unstrukturierter Daten den Systemen zur Wissensdistribution und

Wissensbereitstellung in der zweiten Schicht (Logik) zugeordnet und faktisch als

Aufgabe für üblicherweise dem Wissensmanagement zugeordneten Funktionen wie


11

Information Retrieval und Text Mining deklariert ([KB06], S. 10 ff.). Diesen

Ordnungsrahmen haben sie 4 Jahre später dahingehend verändert, dass sie zum

einen die zweite Schicht von Logik in Informationsgenerierung / -distribution

umbenannt haben, zum anderen aber die Integration der unstrukturierten Daten aus

Content/Document Management in die Datenbasis bereits der ersten Schicht

zugeordnet haben. Baars/Kemper schlagen dabei die in Abbildung 2.9 dargestellten

Schritte zur Aufbereitung unstrukturierter Inhalte unter Verwendung von Text-Mining-

Werkzeugen für die integrierte Analyse vor ([BK08]). Hier ist zu erkennen, dass

unstrukturierte Daten mittels ihrer Metadaten durch einen ETL Prozess in das Data

Warehouse integriert werden sollen. Die Metadaten werden entweder direkt aus dem

ECM (hier Content and Document Management) extrahiert oder erst mit Text Mining

Verfahren generiert (hier Content Analysis).

Abbildung 2.9 Extracting Metadata from content and document management systems ([BK08], S. 139)

Kemper/Baars weisen allerdings auch darauf hin, dass dieser Ansatz mit einem

erheblichen manuellen Aufwand verbunden ist und mit der Einbeziehung immer

größerer Datenmengen noch wächst ([KBM10], S. 122). Die Größe des Aufwands

nimmt mit der Abnahme der Struktur von Daten und Kontext der Erstellung zu. Das

betrifft zum Beispiel die Analyse von Kundenemails oder Blogeinträgen.

Für BI-Systeme besteht die Notwendigkeit, die neuen Datenquellen und deren

Analyse, zu deren Methoden auch Text Mining gehört, wie in Abbildung 2.10 zu

integrieren. Einige Hersteller von Business Intelligence Lösungen stellen bereits Text

Mining Tools in ihren Produkten zur Verfügung. Eine Marktuntersuchung der

Zeitschrift „ERP-Management“ von 2011 kommt zu dem Ergebnis, dass 17 % der

untersuchten 47 Lösungen Text Mining-Funktionen anbieten ([ES11]).


12

Abbildung 2.10 Integrierte Anwendungslandschaft mit traditionellen Systemen und Big Data Lösungen ([UW12], S. 28)

Somit erweist sich die Integration von Text Mining Tools in die Analysesysteme als

wichtiger Ansatz zur Bewältigung der sich aus Big Data ergebenden neuen

Anforderungen an BI-Systeme.

2.3 Wissensmanagement und Text Mining

BI kann auch als organisationsspezifisches Konzept verstanden werden, dessen

Hauptaufgabe darin besteht Informationen zu generieren, zu speichern, zu

recherchieren, zu analysieren, zu interpretieren und im Unternehmen zu verteilen.

Ähnliche Aufgaben hat das Wissensmanagement (WM) zu erfüllen, nur steht hier

nicht die Information sondern das Wissen im Mittelpunkt. So definieren Abts/Mülder

Wissensmanagement als „den gesamten Prozess zur systematischen Gewinnung,

Strukturierung, Darstellung, Verteilung, Suche und Speicherung von Wissen.“

([AM11], S. 238). Wissen ist eine wichtige und wertvolle Ressource .In Unternehmen

spielt der gezielte Umgang mit Wissen eine zunehmend wichtige Rolle für die

Effektivität und Effizienz. Aufgabe des WM ist es, das Wissen der Mitarbeiter, das für

das Unternehmen relevant ist, zu erfassen, zu strukturieren, zur Verfügung zu stellen

und es zum Nutzen des Unternehmens zu nutzen, oder wie es Peris et al.

formulieren:


13

"Wissen wird zu einer immer wichtigeren und wertvolleren Ressource im Unternehmen.

Gerade bei komplexen Themen ist es hochrelevant, Expertenwissen, das oftmals als

implizites Wissen (auch »tacit knowledge«) vorliegt, zu erfassen und nachhaltig zu nutzen."

([PBN11], S. 28)

Heyer et al. definieren fünf Aufgaben des Wissensmanagement: ([HQW08], S. 2)

Aufgaben des Wissensmanagement

Erschließen von Wissen (Erfahrungen, Best Practices) für alle, die dieses im

Rahmen ihrer organisatorischen Rolle benötigen.

Verfügbarmachen von Wissen am Ort und zur Zeit der Entscheidung.

Erleichtern des effektiven und effizienten Entwickelns von neuem Wissen.

Sicherstellen, dass jeder in der Organisation weiß, wo Wissen verfügbar ist.

Umsetzen dieser Kompetenzen in neue Produkte und Dienstleistungen

Tabelle 2.1 Aufgaben des Wissensmanagement

Der Prozess des WM ist ein Zyklus, der aus mehreren Schritten besteht: er beginnt

mit der Definition von Wissenszielen und endet mit der Gegenüberstellung dieser mit

den Ergebnissen der Wissensbewertung. Die Schritte sind im Einzelnen die

Wissensgewinnung, dies Wissensstrukturierung, die Wissensdarstellung, die

Wissensverteilung, die Wissensnutzung und die Wissensspeicherung. ([AM11], S.

239 f.) Im ersten Schritt steht das Erschließen von Wissen im Vordergrund, eine

Wissensexploration mit dem Ziel, sowohl das implizite Wissen einzelner Mitarbeiter,

ganzer Kollektive aber auch das in Datenbanken und Dokumentenbeständen

enthaltene Wissen des Unternehmens zu identifizieren. Damit das Wissen in

verschiedenen Formen (z.B. semantische Netze, Taxonomien, Ontologien, Wikis,

Webportale) repräsentiert werden muss das Wissen unter Verwendung von

Schlagworten, Suchbegriffen, Hyperlinks und Ablagesystematiken geordnet und

strukturiert werden. Die Verteilung des Wissens ist die Voraussetzung für eine

unternehmensweite Nutzung dieses Wissens. Die oben genannten

Darstellungsformen werden durch den Einsatz von Internet und Intranet verbreitet

und ermöglichen so den Einsatz des Wissens durch die Mitarbeiter. Die

Wissensspeicherung hat nicht nur die Aufgabe das explizite Wissen in Datenbanken

zu speichern, sondern wacht auch über die Aktualität des Wissens, um zu

garantieren, dass veraltetes Wissen gelöscht bzw. archiviert wird.


14

Ähnliche Modelle beschreiben Bodendorf und Gabriel/Dittmar (Abbildung 2.10), sie

bestehen aus weniger Schritten, haben aber dieselbe prinzipielle Aussagekraft, da

auch hier der Prozess als Kreislauf und die Interaktion zwischen den einzelnen

Phasen betrachtet wird ([Bo06], S. 133 ff.),([GD01], S. 23).

Abbildung 2.11 Softwaresysteme zum WM Prozess

In Abbildung 2.11 wird der Begriff Text Mining in Bezug auf Wissensidentifikation

verwendet. Wie bereits oben erläutert, ist ein Teil des zu generierenden Wissens in

Dokumentenbeständen vorhanden, exploriert werden kann es durch Text Mining

Methoden. Heyer et al. schreiben dazu:

"Text Mining ist ein zukunftsträchtiger Ansatz zur Bewältigung von wesentlichen

Teilaufgaben des Wissensmanagements. Im Mittelpunkt steht dabei eine explorative Analyse

von Texten, mit denen die Arbeitsproduktivität von Fachkräften in wissensintensiven

Wertschöpfungsketten erhöht werden kann." ([HQW08], S. 7)

Text Mining Tools können aber auch in anderen Prozessschritten eingesetzt werden:

In der Wissensstrukturierung können diese für Klassifizierungsvorgänge und eine

Anreicherung von Wissen mit Schlagwörtern genutzt werden. Die für die

Wissensdarstellung benötigten Ontologien und Knowledge Maps können mit Hilfe

von Text Mining kreiert werden.1

1 Die zugrunde liegenden Vorgehensweisen werden in Kapitel 2.5 beschrieben.


15

Der WM Prozess wird durch unterschiedliche computergestützte Systeme zur

Sammlung, Organisation, Verteilung und Nutzung von Wissen unterstützt – diese

werden unter dem Oberbegriff der Knowledge Management Systeme (KMS)

subsumiert. Dieser technische Aspekt ist nur eine Betrachtungsweise des WM,

dessen Umfang wesentlich komplexer ist. Eine interessante Unterteilung in die vier

Perspektiven Tech Foundation, Consulting , Content/Info und KMS schlägt Chen

2001 wie in Abbildung 2.12 gezeigt vor:

Abbildung 2.12 KM consists of four main perspectives: Consulting, Content/Information, Technology Foundation, and Knowledge Management System (KMS). KMS includes data mining and text mining ([Ch01], S. 4)

Zu dieser Zeit war Text Mining ein noch neuer Begriff und der Fokus seines

Einsatzes lag allein auf der Analyse von unstrukturierten Datenbeständen (Daten die

vom Data Mining nicht berücksichtigt wurden). Dennoch ist zu erkennen welche

wichtige Rolle Chen dem Text Mining im WM-Kontext zumisst.

Kemper/Baars haben 2006 dem WM zugeordnete Systemkomponenten in die zweite

Schicht des BI Ordnungsrahmen eingeordnet und eine wechselseitige Integration

von Analyse- und WM-Systemen vorgeschlagen, um einerseits unstrukturierte

Datenbestände aufzubereiten und bereit zu stellen und andererseits das in Analysen

gewonnene Wissen zu verteilen (siehe Abschnitt 2.1).

Gabriel/Dittmar stellen fest, dass ein BI-System der Zukunft sich dadurch

auszeichnet, „dass es innovative und konventionelle Technologien unter einer

einheitlichen Oberfläche integriert und somit den Anforderungen des Knowledge


16

Management gerecht wird. Dazu zählen sie die zunehmende Integration von

strukturierten und strukturierten Inhalten ([GD01], S. 27).

Business Intelligence und Wissensmanagement werden nach Findeisen in ihrer

Bedeutung von Unternehmen unterschiedlich bewertet, aus Kostengründen wird auf

ein zusätzliches Wissensmanagementsystem oft verzichtet. Findeisen schlägt eine

Symbiose vor, um „Themen wie Text Mining, Topic Detection und Tracking, Semantic

Webs“ berücksichtigen zu können ([Fi11]).

So wie beim Gegenstand der Betrachtung zwischen Information (BI) und Wissen

(WM) unterschieden wird, liegt bei der Quellenart der Unterschied zwischen

strukturierten (BI) und unstrukturierten Daten (WM). Somit sind Text-Mining-Tools

eher den WM-Systemen zuzuordnen. Durch die Symbiose beider Systeme werden

sie aber gleichzeitig ein unverzichtbarer Bestandteil von BI Lösungen und beenden

damit das Manko alter BI-Ansätzen, nämlich eine Nichtbeachtung bzw.

Nichtverwendung von Informationen, die für diese Systeme in nicht verarbeitbarer

Form geliefert wurden.

2.4 Text Mining im Rahmen weiterer BI Anwendungsdomänen

Im folgenden Abschnitt werden Anwendungsbereiche in BI-Systemen benannt, die

vom Einsatz von Text Mining Werkzeugen profitieren können, wo also große Mengen

unstrukturierter Daten ausgewertet werden müssen. Dabei zählt das Enterprise

Content Management zum Datenhaltungskonzept, das im ersten Layer des BI-

Ordnungsrahmen beheimatet ist. Customer Relationship Management und

Competitive Intelligenz sind hingegen nach Kemper/Baars Anwendungsdomänen

des BI, die mit besonders hohen bereitgestellten Datenbeständen konfrontiert

werden([KB06], S. 15).

2.4.1 Competitive Intelligence

Wie Kemper/Baars ausführen, beschäftigt sich Competitive Intelligence (CI) aus

Unternehmenssicht mit Informationen über sein Marktumfeld und Mitbewerber.


17

"Competitive Intelligence bezeichnet einen systematischen, der Ethik verpflichteten Ansatz

zum Erwerb und zur Analyse von Informationen über Wettbewerber und Markttrends, um die

eigenen Unternehmensziele zu erreichen." ([KB06], S. 10)

Nach Zanasi soll CI bei der Beantwortung folgender Fragen helfen ([Za07], S. 188):

Welche Trends sind im Markt zu erkennen?

Wie ist unser Unternehmen im Markt positioniert

Wer sind die Hauptakteure im Markt?

Wie sind die Strategien und Pläne unserer Mitbewerber betreffs neuer Produkte?

Welche Zulieferer sind am günstigsten und zuverlässigsten?

Welche Technologie passt am besten zu unseren Anforderungen?

Welche Erwartungen stellen unsere Kunden an unsere Produkte?

Tabelle 2.2 Fragestellungen der Competitive Intelligence

Der Begriff weist eine lange Tradition auf und ist seit mehr als 20 Jahren im

englischsprachigen Raum etabliert. Durch die wachsende Bedeutung digitaler und

öffentlich über das Internet erhältliche Dokumente findet eine Orientierung hin zu

einer gezielten IT Unterstützung und Einbettung in BI Systeme statt.

Die Bedeutung für Unternehmen ist durch die weitere Globalisierung der Märkte

unbestritten. Bill/Michaeli haben in einer Studie die Rolle von CI in den Unternehmen

BASF Engineering Plastics Europe, Infineon AG, SIEMENS COM und Lycos Europe

GmbH untersucht. Sie stellen fest:

"Entscheidend für die Bedeutung der CI in den Unternehmen ist somit der konkrete Bedarf

an CI für Aufgaben wie Unternehmensentwicklung, Innovationsmanagement, Marktanalysen

bzw. -forschung, Marketing und Vertrieb." ([BM06], S. 81)

Dabei sollen nur öffentlich zugängliche Quellen ausgewertet werden, darauf verweist

in der Definition der Hinweis auf ethische Prinzipien Dies schließt somit Spionage

aus. Dabei bietet sich vor allem das Internet mit einer Flut von Informationen in Form

von Websites und Dokumenten an, aber auch die Plattformen des Social Web, die

mit Diskussionsforen und Kundenrezensionen wichtige Informationen über

Kundenwünsche enthalten. Weiterhin existieren für die Recherche eine Reihe von

frei zugänglichen Datenbanken wie Reuters, Chemical Abstracts, Compendex,.

Medline usw. ([Za07], S. 189 f).


18

2.4.2 Customer Relationship Management

Customer Relationship Management (CRM) „umfasst den Aufbau, die kontinuierliche

Pflege sowie die Kontrolle von langfristigen Kundenbeziehungen durch die

Integration von Marketing, Vertrieb und Service mithilfe von Informations- und

Kommunikationssystemen“ ([Ko08], S. 116). Auch hier hat die Weiterentwicklung des

Internet zum Social Web die Anforderungen an diese Systeme erhöht. Viele

Unternehmen haben Plattformen wie facebook oder twitter für die Pflege der

Kundenbeziehung entdeckt und möchten die entsprechenden Interaktionen und

Aktivitäten aus den Textprotokollen auswerten können. Gleiches gilt für den E-Mail

Verkehr mit Kunden. Erste Hersteller bieten bereits Lösungen für das Social CRM an

([ES12]).

Grundlage für eine aktive Pflege der Kundenbeziehungen sind Erkenntnisse über

Einschätzungen und Meinungen der potentiellen Kunden zu bestimmten Produkten

oder der Marke selbst. Neben den bekannten Studien und Kundenbefragungen

rücken hier immer mehr im Web veröffentlichte Kommentare von Kunden in den

Mittelpunkt. Der besondere Anspruch an die Analysetools liegt hier vor allem in der

Erkenntnis von Stimmungen aus dem Text. Als fortführende Literatur sind Schriften

von Ziegler zu empfehlen ([Zi06a]),([Zi06b]).

Hippner/Rentzmann zeigen in Abbildung 2.13 welche Arten von Dokumenten im

CRM Prozess im Einzelnen auftreten können:

Abbildung 2.13 Textdokumente in Kundenbeziehungen ([HR06a], S. 100)


19

In Tabelle 2.3 ist zu sehen, dass die Autoren drei Einsatzpotenziale im Rahmen des

CRM sehen([HR06a], S. 106).

Individualisierung Neue Informationen für die Individualisierung der

Kundenkommunikation

Effizienzsteigerung Reduktion von Streuverlusten durch gezielte Selektion für

Kommunikation

Kontrolle Genauigkeit und Aussagekraft der Erfolgsmessung steigt

durch Verfügbarkeit relevanter Kundendaten

Tabelle 2.3 Einsatzpotenziale von Text Mining im CRM

Es sei noch erwähnt, das nach einer Untersuchung der Zeitschrift „ERP

Management“ von 63 CRM Systemen im Jahr 2012 bereits 23 % dieser Systeme

Text Mining Funktionen anbieten([ES12], S. 47).

2.4.3 Enterprise Content Management

Nach Definition des internationalen Enterprise Content Management Verbands

"AIIM" umfasst Enterprise Content Management (ECM) die Technologien,

Werkzeuge und Methoden zur Erfassung, Verwaltung, Speicherung, Bewahrung und

Bereitstellung von elektronischen Inhalten im ganzen Unternehmen. Entstanden ist

dieser Begriff aus der Zusammenführung von Document Management

(unstrukturierte, digitalisierte Dokumente) und Content Management (numerische

Daten, Texte, Bilder, Grafiken, Audio). Mit ECM lässt sich der

Dokumentenlebenszyklus wie in Abbildung 2.14 steuern und überwachen.

Einsatzmöglichkeiten für Text Mining Tools ergeben sich dabei beim

Dokumentenimport (Klassifikation) und bei der Dokumentenablage

(Zusammenführung betrieblicher Informationen).

Der AIIM ordnet ECM-Komponente und Technologien in folgende Kategorien ein:

Erfassung (Capture), Verwaltung (Manage), Ausgabe (Deliver), Langfristige

Sicherung (Preserve) und Speicherung (Store). Riggert schreibt das Text Mining der

Kategorie Erfassung zu, ordnet es aber auf Grund einer eng verwendeten Definition

außerhalb der Klassifikation ein, da Text Mining im Unterschied zur Klassifikation

selbständig neue Themenkomplexe erschließen kann. In den von ihm angeführten

Beispielen findet diese Unterscheidung dann aber doch keinen Berücksichtigung

([Ri09], S. 22 f).


20

Abbildung 2.14 Dokumentenlebenszyklus ([Bö07], S. 17)

2.5 Die Bedeutung von Text Mining für das Semantic Web

Das Semantic Web oder auch Web 3.0 wird gemeinhin als nächste Evolutionsstufe

des Internets betrachtet. Es ist dadurch gekennzeichnet, dass Webseiten die

Bedeutung ihrer Inhalte in einer maschineninterpretierbaren Form anbieten. Dadurch

ist es möglich, „nach dedizierten Inhalten maschinenunterstützt zu suchen, Inhalte in

Relationen zueinander zu setzen“ ([Ul10], S. 6). , die im Web angebotenen Inhalte

und Dienste automatisch zu finden.

Der Aufbau des Semantic Web beruht auf maschinenlesbaren Repräsentationen von

Wissen – den Ontologien. Diese bestehen aus individuellen Elementen und den

Relationen zwischen diesen Elementen aus denen wiederum logische Ableitungen

möglich sind (siehe auch ([Bo06], S. 125 ff.). Ontologien werden durch die Web

Ontology Language (OWL) beschrieben. Diese besteht aus Klassen, Instanzen,

Eigenschaften und Operationen. Abbildung 2.15 veranschaulicht dass das Resource

Description Framework (RDF) als Datenaustauschformat und die Abfragesprache

SPARQL als Schnittstelle zu den Anwendungen dienen.


21

Abbildung 2.15 Struktur für Web3.0 Ressourcen ([Ul10], S. 9)

Neben den oben erwähnten neuen Möglichkeiten durch das Web 3.0 sind noch die

Semantic Wikis (Inhalt in maschinenlesbarer Form kommunizieren) und das

Collaborative Tagging (Erweitern der Webinhalte um Informationen in Form von

Beschriftungen) zu erwähnen.

Die Entwicklung des Web 3.0 hat für Unternehmen Auswirkungen. Zu einem führen

die Veränderungen im Web möglicherweise zu neuen Geschäftsmodellen oder mehr

Konkurrenz durch neue Ideen. Zum anderen können Techniken wie Semantic Wiki

und Collaborative Tagging als Enabler im Wissensmanagement wirken.

Es besteht allerdings die Frage, wie die enormen Mengen an Webdaten semantisch

annotiert werden sollen, also die Transformation von konventionellen Webseiten zu

reich annotierten Semantic-Web-Ressourcen. Dies soll unter Verwendung von

Ontologie-Editoren ermöglicht werden. „Die Tatsache, dass die Annotierung großer

Textmengen zu aufwendig ist, bleibt aber bestehen, so dass umfassendere

Aufgaben kaum realistisch machbar sind.“ ([SZ10], S. 36) Hier bestehen nun die

Chancen für Text Mining Methoden diese Probleme zumindest zum Teil zu lösen.

Neben der Eigennamenerkennung (Entity Recognition) zum Erkennen von Instanzen

und deren Zuordnung zu Klassen spielt auch die automatische

Schlüsselworterkennung (Keyword Recognition) zum Erkennen relevanter Themen in

einem Dokument eine Rolle. Zur Aufdeckung der Relationen wird die Automatische

Faktenerkennung (Fact/ Event Recognition) verwendet. Durch die Verwendung

dieser Methoden wird zumindest ein teilautomatisches Erstellen von Ontologien

ermöglicht. Beispiele für diesen Einsatz sind zu finden bei ([SZ10]).


22

2.6 Zusammenfassung

Das stetige Wachstum an Daten und speziell von Textdaten im sich permanent

erweiternden Unternehmensumfeld führt zur Notwendigkeit, Text Mining in Business

Intelligence Systeme zu integrieren. Dabei zeigen sich beste Einsatzmöglichkeiten im

Bereich der Competitive Intelligence, des Customer Relationship Management und

dem Enterprise Content Management. Das Wissensmanagement ist ein wichtiger

Bestandteil des BI und partizipiert von den durch Text Mining Tools eröffneten

Möglichkeiten vor allem in den Bereichen Wissensidentifikation und

Wissensdarstellung. Weiterhin wird Text Mining wird in der Gestaltung und dem

Aufbau des Semantic Web zukünftig eine wichtige Rolle spielen.

Nach der Feststellung der herausragenden Bedeutung des Text Mining im Kontext

der Betriebswirtschaft folgt im nächsten Kapitel ein Überblick über die Grundlagen

des Text Mining.

3 Grundlagen des Text Mining

23


Die Möglichkeiten von Zugriff auf und die Speicherung von Information sind seit dem

Beginn des Internetzeitalters in der Mitte der 90 er Jahre enorm gewachsen. Es

lassen sich problemlos riesige Mengen von Informationen aus dem Internet

herunterladen und auf dem PC speichern. Durch die rasante Entwicklung in der

Speichertechnologie können auf diesem Weg Millionen von Internetseiten oder

hunderttausende Dokumente gespeichert werden. Dies hat zur Konsequenz, dass

ohne die Verwendung entsprechender Werkzeuge diese Informationen für den

Anwender kaum mehr erreichbar oder nutzbar sind. Die Gefahr des Information

Overload existiert erst seit der intensiven Nutzung des Internets und wird durch

weitere technologische Entwicklungen wie mobile und Cloud Computing weiter

verschärft auftreten (siehe Kapitel 2.1).

Das Problem dieser Fülle von Informationen ist also relativ neu; zuvor wurden

Informationen mühsam in Bibliotheken eingeholt, oft nur unter der Mithilfe eines

Bibliothekars oder proprietären Information Retrieval Systemen. Dagegen beginnt

heute eine Suche mit der Eingabe einer Frage in eine Suchmaschine; diese liefert

eine Liste mit relevanten Internetseiten oder entsprechenden Dokumenten. Der

Anwender wertet den Inhalt dieser aus, wählt die gewünschten Informationen zum

Speichern aus und ignoriert den Rest. Nun kann er die nächste Abfrage stellen. Aber

nicht nur Internetseiten dienen als Quellen von Informationen, sondern auch E-Mails,

lokale Dokumente oder Dateien aus dem Intranet der einer Unternehmung. Hinzu

kommen Sammlungen von Bild-, Audio- und Videodateien. All diese Dateien lassen

sich auf einer Festplatte speichern und, unter Verwendung von Dateinamen, in

Verzeichnissen organisiert. Diese Methode ist für eine überschaubare Menge von

Dateien durchaus ausreichend, genügt aber heutigen Ansprüchen kaum mehr, denn

letztlich bringt dieses Verfahren die Gefahr des Nichtauffindens von Informationen

und damit ihres Verlustes, obwohl sie doch gespeichert wurden. Für die Lösung

dieses Problems werden Software Tools benötigt, die sich der Ergebnisse der

Forschung in Information Retrieval, Natural Language Processing, Statistik,


24

Künstliche Intelligenz und Informationstheorie bedienen. Diese Tools werden als Text

Mining Tools bezeichnet ([Ko06], S. 1 f.) und nachfolgend dargestellt..

In den folgenden Kapiteln werden so Definitionen und Sichtweisen auf das Text

Mining erörtert, seine Wurzeln und Zuordnung zu Fachgebieten untersucht,

verschiedene Konzepte betrachtet, der Vorgehensprozess erläutert und insgesamt

ein kurzer Überblick über statistische, mathematische und linguistische Grundlagen

des Text Mining gegeben.

3.1 Definitionsansätze des Text Mining

Die definitorischen Ansätze zum Text Mining sind vielfältig. Einführend vergleicht

Aggarwal die Unterschiede im Umgang mit strukturierten und textuellen Daten und

stellt fest: Strukturierte Daten werden mittels Datenbanksysteme verwaltet, Textdaten

hingegen, aufgrund des Mangels an Struktur, mittels Suchmaschinen. Im Gegensatz

zu Datenbankabfragen werden bei der Verwendung von Suchmaschinen

Schlüsselwörter abgefragt. Um die Effektivität und Effizienz von Suchmaschinen zu

erhöhen wurden innerhalb des Information Retrieval große Fortschritte im Bereich

von Text Clustering, Text Categorization, Text Summarization und

Empfehlungsdienste erreicht. Information Retrieval ist traditionell auf einen leichten

Zugang zu Informationen fokussiert, nicht auf deren Analyse – das ist das primäre

Ziel von Text Mining. Während das Ziel des Zugriffs auf Informationen darin liegt, die

richtige Information zur richtigen Zeit mit dem richtigen Anwender zu verbinden, sind

Text Mining Tools weiterführend in der Lage dem Anwender zu helfen, diese

Informationen zu analysieren und zu verstehen, um entsprechende Entscheidungen

treffen zu können. Andere Text Mining Tools haben die Aufgabe Textdaten zu

analysieren um interessante Muster, Trends oder Ausreißer zu entdecken ohne dass

eine Abfrage essentiell oder nötig wäre ([Ag12a], S. 2).

Diese knappe Beschreibung der Aufgaben von Text Mining Tools zeigt bereits die

große Bandbreite an Text Mining Aufgaben, die in der Literatur zu unterschiedlichen

Definitionen des Text Ming führen. Mehler/Wolff bemerken, dass „dieser einheitlichen

Problembeschreibung […] konkurrierende Textmining–Spezifikationen“

gegenüberstehen ([MW05], S. 2). Das schlägt sich auch in der Vielfalt der


25

Namensgebungen in der Historie des Text Mining, wie zum Beispiel Textual Data

Mining, Text Knowledge Engineering, oder Knowledge Discovery in Texts nieder

([MW05], S. 2). Feldman.& Dagan haben 1995 den Begriff Knowledge Discovery in

Textual Databases (abgeleitet von Knowledge Discovery in Databases - KDD)

eingeführt ([FD95], S. 1). Hearst hat 1999 den Begriff Text Data Mining geprägt, aus

dem sich dann der heute verwendetet Begriff ableitet ([He99], S. 3). Entsprechend

dieser Vielzahl an Bezeichnungen existieren widerstreitende Aufgabenzuweisungen

und Definitionsansätze ([MW05], S. 2).

Mehler/Wolff differenzieren vier Perspektiven auf das Text Mining. Die erste

Sichtweise ist die, wie von Aggarwal beschriebene, Annäherung vom Information

Retrieval und beinhaltet eine Verbesserung durch Textzusammenfassungen und

Informationsextraktion ([MW05], S. 2 f.).

Als nächstes führen sie die Data Mining Perspektive auf. Sie sieht Text Mining als

eine Erweiterung des KDD auf textuelle Daten. Eine frühe Definition von Tan nimmt

diese Sichtweise auf:

"Text mining, also known as text data mining or knowledge discovery from textual databases,

refers generally to the process of extracting interesting and non-trivial patterns or knowledge

from unstructured text documents. It can be viewed as an extension of data mining or

knowledge discovery from (structured) databases. […]Text mining is a multidisciplinary field,

involving information retrieval, text analysis, information extraction, clustering, categorization,

visualization, database technology, machine learning, and data mining." ([Ta99], S. 65)

Zugleich erweitert die Definition von Tan durch den Verweis auf die

Multidisziplinarität mit benachbarten Disziplinen das Betrachtungsfeld in erheblichem

Maß.

Diese Multidisziplinarität ist die Grundlage der dritten Perspektive, der methodischen

Perspektive, die eine Methodenpluralität betont. Im Mittelpunkt stehen dabei

statistische Textanalysen wie Textkategorisierung, Textzusammenfassungen und

Informationsextraktion. Text Mining wir als eine Sammlung von Tools aus diesen

Themengebieten verstanden und ist keine selbstständige Methode. Feldman/Sanger

definieren Text Mining wie folgt:


26

"Text mining can be broadly defined as a knowledge-intensive process in which a user

interacts with a document collection over time by using a suite of analysis tools." ([FS07], S.

1)

Heyer et al. verstehen Text Mining auch als Sammlung von Tools, allerdings

fokussieren sie vor allem auf die semantische und syntaktische Analyse und stellen

somit linguistische Verfahren in den Vordergrund:

"Mit dem Terminus Text Mining werden computergestützte Verfahren für die semantische

Analyse von Texten bezeichnet, welche die automatische bzw. semi-automatische

Strukturierung von Texten, insbesondere sehr große Mengen von Texten unterstützen."

([HQW08], S. 3)

Die wissensorientiert Perspektive als vierte Perspektive begründet sich vor allem in

der strikten Abgrenzung von Hearst in Bezug auf Linguistik und Information Retrieval

([MW05], S. 4).

"Text Mining is the discovery by computer of new, previously unknown information, by

automatically extracting information from different written resources. A key element is the

linking together of the extracted information together to form new facts or new hypotheses to

be explored further by more conventional means of experimentation." ([He03])

Felden wiederum erweitert diesen strengen Ansatz indem er schreibt, dass "[…]unter

Text Mining die maschinelle Entdeckung von Wissen in Textdokumenten verstanden

[wird], das, ausgenommen den Autoren, zuvor unbekannt war. Unter dem Begriff

Text Mining werden üblicherweise die Klassifikation, das Clustering sowie das

Abstracting subsumiert." ([Fe06a], S. 55). Entscheidend ist hierbei der Unterschied,

wie neues Wissen verstanden wird, nämlich als neues Wissen für den Anwender,

welches durchaus dem bekannten Wissen des Autors entsprechen kann:

"Im Gegensatz zum Data Mining sind die durch das Text Mining aufgespürten, unbekannten

Informationen nicht für jeden unbekannt. Der Autor des Dokumentes kannte die Information

und legte sie schriftlich nieder. Wichtig ist, dass die ermittelten Informationen für den

Rezipienten neu sind" ([Fe06b], S. 303)

Bei jüngeren Definitionen zeigt sich eine Vermischung der letzten beiden

Perspektiven, die vor allem die Interdisziplinarität und den Wissens– und

Informationsgewinn ohne klare Abgrenzungen unterstreichen. Als Beispiel sollen hier

die Definitionen von Kao/Poteet. und Ananiadou/McNaught dienen:


27

“Text mining is the discovery and extraction of interesting, non-trivial knowledge from free or

unstructured text. This encompasses everything from information retrieval (i.e.,document or

web site retrieval) to text classification and clustering, to (somewhat more recently) entity,

relation, and event extraction”. ([KP10], S. 1)

“Text Mining is a complex, dynamic area, with many techniques and approaches being tried

out.” ([AM06b], S. 3)

Diese beiden Definitionen beschreiben aus meiner Sicht recht gut die Dynamik und

Interdisziplinarität des Forschungsgebietes Text Mining, welche im nächsten Kapitel

betrachtet wird.

3.2 Geschichte und Interdisziplinarität

„There a seven different text mining practice areas – that is, seven very different things that a

client […] could have in mind when talking about text mining.” ([Mi12], S. 30)

Miner unterteilt Text Mining in sieben Anwendungsbereiche und stellt diese in

Abbildung 3.1 dar ([Mi12], S. 31). Unterschieden werden hierbei die

Anwendungsbereiche Information Retrieval, Document Clustering, Document

Classification, Information extraction, Natural Language Processing, Concept

Extraction und Web Mining. Gleichzeitig sind die angrenzenden Forschungsgebiete

Bibliotheks- und Informationswissenschaften, Datenbanken, Data Mining, Künstliche

Intelligenz und Maschinelles Lernen, Statistik und Computerlinguistik und ihre

Überschneidungen bzw. Berührungen zu den einzelnen Gebieten zu erkennen.


28

Abbildung 3.1 A Venn Diagram of the intersection of text mining and six related fields (shown as ovals) ([Mi12], S. 31)

Die sieben Bereiche und ihre Aufgabenstellungen sind Gegenstand der

nachfolgenden Tabelle 3.1 aufgelistet (nähere Erläuterungen hierzu erfolgen im

Kapitel 4 dieser Arbeit).

Bereich Aufgabenstellung

Information Retrieval Speicherung und Abruf von Text Dokumente,

Suchmaschinen und Schlüsselwortsuche

Document Clustering Gruppierung und Kategorisierung von Termen,

Textbruchstücken, Abschnitten oder Dokumenten unter

Verwendung von Data Mining Clustering Verfahren

Document Classification Gruppierung und Kategorisierung von Textbruchstücken,

Abschnitten oder Dokumenten unter Verwendung von Data

Mining Klassifikationsverfahren

Information extraction Identifikation und Extraktion relevanter Fakten und

Beziehungen; Erstellen strukturierter Daten aus

unstrukturierten und semistrukturierten Daten

Natural Language Processing Einfache Sprachverarbeitungs- und erkennungsaufgaben

(z.B. POS Tagging)

Concept Extraction Anordnung von Wörtern und Phrasen in semantisch

ähnliche Gruppen

Web Mining Data und Text Mining im Internet mit speziellen Fokus auf

die Vernetzung

Tabelle 3.1 Anwendungsbereiche des Text Mining und ihre Aufgabenstellungen


29

Miners Verständnis des Text Mining ist also überaus breit angelegt. Felden stellt

hingegen fest:

"Hierfür werden Techniken aus verschiedenen wissenschaftlichen Disziplinen angewandt, zu

denen das Data Mining, das Information Retrieval, die Computerlinguistik, die Statistik sowie

Intelligente Software Agenten gehören." ([Fe06b], S. 284)

Diese Einschätzung widerspricht nicht Miners Darstellung, berücksichtigt aber im

Gegensatz dazu nur Teilaspekte, so dass in der weiteren Betrachtung Miners Modell

zu Grunde gelegt wird.

Die betonte Interdisziplinarität ist begründet in der Geschichte des Text Mining. Als

Text Mining sich als eigene Disziplin entwickelte, waren die oben aufgezählten

Anwendungsbereiche außer dem Web Mining, dass sich als ein Spezialgebiet des

Text Mining darstellt, bereits in ihren jeweiligen Fachdisziplinen etabliert. Damit lohnt

sich ein kurzer Blick auf die Geschichte der einzelnen Disziplinen.

Die Geschichte von Information Retrieval beginnt bereits in den 60ern, als erste

Computersysteme zu Verwaltung von unstrukturiertem Text gebaut wurden. Als in

den 80ern PCs auf diese System zugreifen konnten, hatte sich am Anfangsprinzip

des Verfahrens nichts geändert: Es wurden mittels Schlüsselwörtersuche Dokumente

gefunden. Ein Schlüsselwort ist ein Nomen oder eine Phrase, die in einem Dokument

auftreten. Erfahrene Anwender mit einem entsprechenden Expertenwissen über

themenbezogene Begriffe und Boolesche Operatoren fanden die relevanten

Informationen schnell. Bis in die Mitte der 90er Jahre wurden die Systems vor allem

in Hinblick auf Leistung und Konnektivität weiterentwickelt. Mit der rasanten

Entwicklung des Internet bekam Information Retrieval den anwenderfreundlicheren

Namen Suchmaschine, die Funktionen blieben aber die gleichen. Forscher arbeiten

unter Verwendung einfachen Sprachverarbeitungstechniken und

Empfehlungsdiensten an der Vereinfachung der Formulierung der Anfrage ([Ko06],

S. 4 f.).

Hierbei existieren zwei sich ähnelnde Prozesse, um auf Informationen aus einer

Dokumentensammlung zu gewinnen. Eine davon ist das oben beschriebene

Information Retrieval, das andere Information Extraction, welches bestimmte

Informationen aus Dokumenten extrahiert. Um dies erreichen zu können, ist es nötig

um die Menge des zu durchsuchenden Texts zu minimieren, den Inhalt in irgendeiner


30

geeigneten Form zusammenzufassen. Um dies zu erreichen gab es in drei Bereichen

Entwicklungen: in den Bibliothekswissenschaften, in den Informationswissenschaften

und in der Computerlinguistik. Die Bibliothekswissenschaften beschäftigten sich in

diesem Zusammenhang mit der Indexerzeugung und der automatischen Erstellung

von Abstracts. Gegenstand der Forschung der Informationswissenschaften war die

Erstellung von Verknüpfungen zwischen Dokumenten, wie zum Beispiel von

Zitatverweisen. Im Bereich des NLP wurden in den 80er Jahren domänenabhängige

Parsing und Stemming Algorithmen entwickelt. Der Begriff Information Extraction

wurde 1987 im Rahmen der Message Understanding Conference vorgestellt (siehe

auch Kapitel 4.4) ([Mi12], S. 4 ff.).

Wie in Kapitel 3.1 erörtert bedient sich Text Mining auf Grund seiner

Entstehungsgeschichte vieler Algorithmen und Verfahren des Data Mining. Es

existieren ähnliche Aufgabenstellungen, der Unterschied besteht vor allem in der Art

der untersuchten Daten, da Data Mining sich im Gegensatz zu Text Mining mit

strukturierten Daten beschäftigt.

Zusammenfassend lässt sich konstatieren, dass viele Techniken und Algorithmen,

die heute auch dem Text Mining zuzurechnen sind, schon weit vor der Prägung des

Begriffs Text Mining entwickelt wurden. Daraus folgt ein hoher Grad an

Interdisziplinarität.

3.3 Konzepte im Rahmen des Text Mining

3.3.1 Dokumentensammlung und Dokument

Ausgangspunkt für Text Mining Prozesse sind die zu untersuchenden

Dokumentensammlungen. Im einfachsten Fall ist eine Dokumentensammlung eine

beliebige Gruppierung von Textbasierten Dokumenten. Die Anzahl der enthaltenen

Dokumente ist beliebig und kann von einigen Tausend bis zu vielen Millionen

reichen. Man kann in statische und dynamische Dokumentensammlungen

unterscheiden. Diese unterscheiden sich in der Frage, ob neue oder veränderte

Dokumente in die Untersuchung einbezogen werden sollen. Dabei kann eine hohe

Veränderungsrate von Dokumenten eine Optimierung für verschiedene

Komponenten des Text Mining Systems erfordern ([FS07], S. 2).


31

Als Beispiel für eine Dokumentensammlung nennen Feldman/Sanger die Meta-

Datenbank PubMed, die durch das nationale Zentrum für Biotechnologische

Informationen (NCBI) entwickelt wurde. PubMed ist ein Online-Service der einen

Zugriff auf medizinische Artikel bezogen auf den gesamten Bereich der Biomedizin

ermöglicht. Für Forscher auf dem Gebiet des Text Mining ist diese

Dokumentensammlung deshalb von so große Bedeutung, weil sie mehr als 12

Millionen Forschungsberichte (Stand 2007) enthält. Der Publikationszeitraum dieser

Dokumente erstreckt sich von 1966 bis in die Gegenwart und monatlich kommen ca.

40000 neue Dokumente hinzu ([FS07], S. 2).

Text Mining Systeme können diese Dokumentensammlungen nicht direkt

verarbeiten. Vielmehr müssen Operationen für eine Datenvorverarbeitung ausgeführt

werden. Dabei werden verschiedene Techniken aus den Bereichen Information

Retrieval, Information Extraction und NLP verwendet, um aus den unstrukturierten,

original formatierten Inhalten einen temporäres strukturierten Datenformat zu

erzeugen. Diese so erstellten Zwischenrepräsentationen der Dokumente sind die

Grundlage für die eigentlichen Text Mining Operationen ([FS07], S. 2 f.).

Ein weiteres Grundelement des Text Mining ist das Dokument selbst. Ein Dokument

kann in den unterschiedlichsten Formen auftreten: Geschäftsberichte, Memos, E-

Mails, Forschungsberichte, Manuskripte, Artikel, Pressemitteilungen und

Nachrichten. Obwohl Textdokumente als unstrukturierte Daten anzusehen sind,

beinhalten sie aus linguistischer Perspektive sowohl eine semantische als auch

syntaktische Struktur. Oft haben diese Dokumente auch eine inhaltliche Struktur wie

Kapitel, Abschnitte oder auch den Namen des Autors, Kopf- und Fußzeilen und

Fußnoten. Dokumente, die bereits mit Metadaten versehen sind, wie zum Beispiel

HTML Dateien, XML Dateien oder PDF Dateien gelten zumindest als

semistrukturiert, erfüllen aber auch nicht dem Anspruch strukturierter Daten. Da

diese Datenform für den Text Mining Prozess benötigt wird ist eine strukturierte

Repräsentation der Dokumente durch den Vorgang der Merkmalsselektion notwendig

([FS07], S. 3).

3.3.2 Merkmalsselektion

In der Datenvorverarbeitungsphase werden durch verschiedene Vorgänge (siehe

Kapitel 3.4) viele verschieden Elemente aus einem natürlich sprachigen Dokument


32

von einer unstrukturierteren Repräsentationsform in eine strukturierte Form

transformiert. Eine zentrale Aufgabe für den Einsatz von Text Mining Systemen

besteht hier in der Identifikation eines Satzes von Dokumentmerkmalen, die den

Inhalt des Dokuments ausreichend beschreiben. Dieser Vorgang heißt

Merkmalsselektion oder Merkmalsextraktion (feature selection, feature extraction)

Die Anzahl dieser Merkmale ist gewöhnlich sehr hoch und für die weitere

Verarbeitung ein limitierendes Problem. Weiterhin ist für diese Art der Repräsentation

eine geringe Datendichte festzustellen, denn nur ein geringer Anteil der Merkmale

eines Dokuments kommt in mehreren Dokumenten vor. Wird ein Dokument durch

einen binären Vektor dargestellt, so sind dann die meisten Elemente Null ([FS07], S.

4).

Der Vorgang der Merkmalsselektion spielt für die Weiterverarbeitung eine große

Rolle, da die Operationen der Text Mining Algorithmen auf die merkmalsbezogene

Darstellung zugreifen. Die Auswahl der Anzahl und der Art der Merkmale ist ein

Kompromiss zwischen ausreichend genauer Wiedergabe des kompletten Inhalts

eines Dokuments und der Effizienz und Korrektheit der Analyse ([FS07], S. 5).

Übliche Merkmale sind Zeichen, Wörter, Terme und Konzepte (Schlüsselwörter).

Diese Merkmale sind in bei Feldman/Sanger ([FS07], S. 5 f.) ausführlich

beschrieben, wobei die Autoren die Verwendung von Konzepten empfehlen, da sie

am besten auch semantische Inhalte weitergeben können. Konzeptbasierte

Repräsentationen können allerdings im Gegensatz zu termbasierten

Repräsentationen nicht automatisch erzeugt werden und sind zumeist

domänenabhängig. Sie werden im Vektorformat gespeichert ([FS07], S. 7).

Ebenso komm der Auswahl der zu berücksichtigen Merkmale von Dokumenten einer

Dokumentensammlung eine wichtige Rolle für den weiteren Verarbeitungsprozess

zu, da diese entscheidenden Einfluss auf die Geschwindigkeit der Verarbeitung und

die Qualität der Ergebnisse haben. Ausführliche Ausführungen zur

Merkmalsselektion findet man bei Miner und Weiss et al. ([Mi12], S. 29 ff.), ([WIZ12],

S. 35).


33

3.3.3 Benutzeroberfläche

Die am meisten verbreitetste Art der Ergebnispräsentierung in Text Mining Systeme

ist ein Browser. Die Ergebnismenge ist meist sehr groß, so dass eine Navigation

zwischen den einzelnen Konzepten oder Dokumenten auf einfache Art und Weise

möglich sein muss. Visualisierungstools spielen eine immer größere Rolle, da es mit

ihnen möglich ist, auf einfachem Weg Muster zu erkennen. Beziehungen zwischen

den Schlüsselwörtern sind so besser erkennbar. Ursprünglich wurden nur statische

Grafiken angeboten, die Entwicklung führt aber hin zu interaktiven Grafiken wie in

Abbildung 3.2 zu sehen ist. Hier ist es für den Anwender möglich durch einfache

Mausklicks mit der grafischen Darstellung zu interagieren. Eine weitere Entwicklung

ist die Bereitstellung Abfragesprachen für den Anwender. Einige Text Mining

Systeme bieten die Möglichkeit an, eigene Abfragedialoge zu kreieren ([FS07], S. 10

f.).

Ontologien sind nicht nur eine Informationsquelle für semantische Analyseverfahren

([HW06], S. 25 ff.) oder Ergebnisse von Text Mining Projekten ([SZ10], S. 35 ff.)

sondern nach Bloehdorn et al. bieten sie dem Anwender die Möglichkeit mittels einer

ontologischen Benutzeroberfläche, in Text Mining Prozesse interaktiv einzugreifen

([BCH05], S. 87 ff.)

Abbildung 3.2 Example of a visualization tool - mapping concepts (keywords) within the context of categories by means of a category graph ([FS07], S. 11)


34

Weitere Visualisierungsmöglichkeiten wie Histogramme, Self-Organizing Maps,

Baumdarstellungen und andere werden in ([FS07], S. 189 ff.) und ([He09], S. 281 ff.)

vorgestellt.

3.4 Modelle zur Vorgehensweise

Die einfachste, abstrakte Darstellung eines Text Mining Systems ist in Abbildung 3.3

zu sehen. Eingabemenge ist hier eine Dokumentensammlung und als Ergebnis

erhält man Muster, Verbindungsgraphen oder Trends. Der Anwender kann in den

Prozess eingreifen, indem nach der Sichtung der ersten Ergebnisse mittels eines

Browsers neue Abfragen definiert oder die Randbedingungen verändert werden

können, um dann einen erneuten Analysevorgang auszulösen. Diese stark

vereinfache Darstellung ist als Grundmodell für die weiteren Betrachtungen zu sehen

([FS07], S. 13).

Generell beruht der Aufbau eines Text Mining Systems nach Feldman/Sanger auf

den gleichen Prinzipien eines klassischen Data Mining Systems und wird in vier

Bereiche eingeteilt: Datenvorverarbeitungsphase, Core Mining Operationen,

Präsentationsschicht und Präzisionstechniken.

Abbildung 3.3 Iterative loop for user input and ouput ([FS07], S. 14)

Die Aufgaben der Datenvorverarbeitungsphase enthalten alle Routinen, Prozesse

und Methoden, die für eine Vorbereitung der Daten auf die eigentlichen Text Mining

Operationen notwendig sind. Dabei werden die Informationen der originalen

Datenquellen einer Dokumentensammlung so verarbeitet, dass sie in eine neue, von


35

den Core Mining Operationen verarbeitbaren termbasierte oder konzeptbasierte

Repräsentation umgewandelt werden. Core Mining Operationen sind die

Kernprozesse eines Text Mining Systems, wie zum Beispiel die Musterentdeckung.

Höher entwickelte und domänenorientierte Text Mining Systeme greifen hier zur

Qualitätserhöhung ihrer Prozesse auf Wissensressourcen wie Taxonomien oder

Ontologien zu. In der Präsentationsschicht wird durch eine GUI eine

Browserfunktionalität für Abfragen zur Verfügung gestellt. Weiterhin gehören sowohl

Visualisierungstools als auch dialoggeführte Abfrageeditoren und –optimierer zu

dieser Schicht. Konfigurationen sind in der Benutzeroberfläche einstellbar und es

besteht die Möglichkeit, diese Einstellungen abzuspeichern. Die Präzisionstechniken

oder auch Postprozessoren enthalten Methoden, die redundante Informationen filtern

und die Ergebnisse optimieren ([FS07], S. 13 ff.).

Abbildung 3.4 Der Prozess des Text Mining ([HR06b], S. 288)

Hippner/Rentzmann schlagen, wie in Abbildung 3.4 zu sehen, ein differenziertes

Modell mit insgesamt sechs Prozessschritten vor. Der erste Schritt ist die

Aufgabendefinition. Dort wird die Problemstellung festgelegt und daraus die Text

Mining Ziele abgeleitet. Im nächsten Schritt, der Dokumentselektion, werden für die

Zielsetzung relevanten Dokumente identifiziert. In der darauffolgenden

Dokumentenaufbereitung werden, wie im Kapitel 3.3.2 beschrieben, mittels

Merkmalsextraktion neue, strukturierte Repräsentationen der Dokumente erzeugt.

Die nächste Phase ist die eigentliche Mining Phase, die Dokumente werden

klassifiziert, gruppiert und/ oder analysiert (siehe Kapitel 4). Im fünften Schritt werden

handlungsrelevante Ergebnisse herausgefiltert und bewertet. Zuletzt erfolgt die

Anwendung der Ergebnisse wie in Kapitel 5 dieser Arbeit beschrieben ([HR06b]).


36

Abbildung 3.5 Text Mining Prozess ([Si06], S. 44)

Sullivan unterscheidet 4 Prozessschritte und ordnet diesen die nutzbaren

Technologien zu, wie in Abbildung 3.5 zu sehen ist. In der ersten Phase wird mittels

Information Retrieval aus einer großen Menge von Dokumenten eine Teilmenge

relevanter Dokumente gewonnen. Ziel ist es dabei, irrelevante Dokumente zu

eliminieren, um den gesamten Text Mining Prozess zu beschleunigen. Die

Vorverarbeitungsphase wird mit Verfahren der Computerlinguistik, statistischen

Verfahren und unter Verwendung möglicher vorhandener Makrostrukturen

durchgeführt. Ergebnis dieses Vorgangs sind strukturierte Daten, die zur

Weiterverarbeitung im dritten Schritt, Bewertung und Selektion, zur Verfügung

stehen. Diese werden dort Themengebieten zugeordnet und mit ähnlichen

Dokumenten gruppiert. Im letzten Schritt finden dann Mustererkennung und

Informationsextraktion statt. ([Su01], S. 324 ff.)

Allen drei Prozessmodellen ist gleich, dass die Datenvorverarbeitungsphase eine

entscheidende Rolle spielt. Dort werden Techniken des Natural Language

Processing verwendet für die morphologische, Syntaktische und semantische

Analyse zur Termextraktion verwendet (siehe Kapitel 4.7 dieser Arbeit).

Unterschiedlich bewertet werden jeweils Start und Endpunkt des Prozesses als auch

die Zuordnung der eigentlichen Mining Verfahren zu den einzelnen Prozessschritten.


37

3.5 Algorithmen und Techniken

Die im Rahmen des Text Mining verwendeten Algorithmen und Techniken sind von

großer Zahl. Sie beruhen auf verschiedenen statistischen, mathematischen und

linguistischen Grundlagen und sind gut dokumentiert. Eine ausführliche Darstellung

der zur Verfügung stehenden Algorithmen ist nicht Gegenstand dieser Arbeit. Einen

guten Überblick geben Konchady und Weiss et al. in ([Ko06]) und ([WIZ12]). Des

Weiteren sind die Schriften von Aggarwal et al. und Banchs zu empfehlen ([Ag12]),

([Ba13]).

Eine Übersicht über eine kleine Auswahl der wichtigsten Algorithmen bietet Miner in

Tabelle 3.1.

Algorithmus Anwendungsgebiet

Naïve Bayes Document Classification

Conditional random fields Information Extraction

Hidden Markov models Information Extraction

k-means Clustering

Singular value decomposition (SVD) Document Classification, Clustering

Logistic regression Document Classification

Decision trees Document Classification

Neural network Document Classification

Support vector machines Document Classification

MARSplines Document Classification

Link analysis Concept Extraction

k-nearest neighbors Document Classification

Word clustering Concept Extraction

Regression Classification

Tabelle 3.2 In Text Mining verwendete Algorithmen und ihre Anwendungsgebiete ([Mi12], S. 34)

Eine Zusammenfassung des Kapitels Grundlagen bietet sich nicht an, da in den

vorangegangenen Kapiteln eine erhebliche Verdichtung an Informationen bereits

stattgefunden hat. Die Aufgabenstellungen für die in Kapitel 3.3 erwähnten

Anwendungsbereiche werden im nächsten Kapitel behandelt.

4 Anwendungsbereiche von Text Mining

38


Die Unschärfe der Definition von Text Mining basierend auf seiner Interdisziplinarität,

seiner Herkunft aus verschieden Forschungsgebieten und der rasanten

Entwicklungen in der Informationstechnologie in Bezug auf Rechenleistung,

Speicherplatz, Netzwerke und Datenvielfalt erschweren eine Begrenzung der

Aufgabenstellungen und der jeweils zugeordneten Funktionen deutlich. Dabei

beinhaltet Text Mining selbst eine Reihe von Funktionen, deren Bereiche in diesem

Kapitel vorgestellt werden. Zunächst wird eine Übersicht in die Diskussion eingeführt,

die die Meinungen verschiedener Autoren vergleicht und so einen Überblick über die

Weite des Aufgabenfeldes bietet.

4.1 Themen des Text Mining

Eine sehr pragmatische Übersicht von Aufgaben des Text Mining geben

Cohen/Hersh, indem sie aus der Sicht der biomedizinischen Forschung

Anforderungen an diese Technologie stellen ([CH05]). Sie skizzieren die

Problemstellungen der Biomedizin, die vor allem aus der riesigen Menge von

Dokumenten, deren rasantem Wachstum und einer nicht vernetzten Herkunft aus

unterschiedlichen hoch spezialisierten Fachgebieten bestehen. Ziel der

biomedizinischen Forschung ist es, entdecktes Wissen in die medizinische Praxis in

Form von Diagnosen, Vorsorge und Interventionen zu überführen. Dieses Wissen,

über viele Dokumente ohne Verknüpfungen verteilt, kann nicht ohne eine technische

Lösung genutzt werden.

Die Autoren sehen einen Lösungsansatz im Einsatz von Text Mining Tools, um die

Forscher bei dem Umgang mit Information Overload zu unterstützen. "Text mining

and knowledge extraction are ways to aid researchers in coping with information

overload." ([CH05], S. 58) Sie grenzen Text Mining sowohl von Information Retrieval

(IR) und Text Summarization (TS) als auch vom Natural Language Processing ab.


39

„The goal of biomedical text mining is therefore to allow researchers to identify

needed information more efficiently, uncover relationships obscured by the sheer

Volume of available information, and in general shift the burden of information

overload from the researcher to the computer by applying algorithmic, statistical and

data management methods to the vast amount of biomedical knowledge that exists in

the literature as well as the free text fields of biomedical databases.” ([CH05], S. 58)

Als konkrete Aufgabe definieren sie dann Entity Recognition, Text Classification,

Relationship Extraction, Synonym und Abbreviation Extraction und Hypothesis

Generation. Während die Begriffe Entity Recognition und Relationship Extraction

heute dem Feld der Information Extraction (IE) zugeordnet werden, ist Synonym und

Abbreviation Extraction dem Natural Language Processing (NLP) zugehörig.

Hotho et al. sehen in ihrem Text Mining Ansatz Natural Language Processing und

Information Retrieval nicht als Funktionsbereich, sondern nur als benachbarten

Forschungsbereich und Quelle für zu verwendete Techniken. Sie erweitern die

Funktionspalette um das Document Clustering und Document Classification unter

Berücksichtigung der Erfahrungen des Data Mining ([HNP05], S. 30ff.).

Ananiadou/McNaught fokussieren anders: „text mining comprises three major

activities: information retrieval[…]; information extraction[…]; and data mining, to find

associations among the pieces of information extracted from many different texts.”

([AM06a], S. 1). Es ist anzunehmen, dass sie dabei primär das Clustering als ein

Teilbereich des Data Mining meinen.

Hotho et al. hatten die Bereichen Text Streams (unter der Bezeichnung topic

tracking) und Text Summarization noch als zukünftige Text Mining Betätigungsfelder

gesehen. Konchady erweitert seine Funktionsaufzählung um jenes Text

Summarization und Text Streams (als Information Monitor bezeichnet), aber auch

um Question & Answer ([Ko06], S. 23 ff.). Er betont, dass einige dieser Funktion

streng genommen nicht der Text Mining Definition zugeordnet werden können. Dabei

verzichtet er auf den Begriff Information Retrieval und ersetzt ihn durch Search als

Weiterentwicklung von Information Retrieval.

Feldman/Sanger hingegen beschränken sich auf die Kernfunktionen Information

Extraction, Text Categorizing und Document Clustering ([FS07], S. X).


40

Berry/Kogan führen erstmals den Begriff des Text Streams in ihrer

Zusammenfassung der Beiträge vom Workshop der SIAM Ninth International

Conference on Data Mining im Mai 2009 auf ([BK10]). In den Berichten zu den

Workshops dieser Konferenzen in den Jahren 2003 und 2007 hat Berry ([Be04]),

([BC08]) Clustering, Classification, Information Extraction, Information Retrieval und

Trend bzw. Anomaly Detection als Hauptthemengebiete bezeichnet.

Weiss führt zu den Kernfunktionen noch den Begriff Prediction (Prognose) für Text

Categorization ein ([We05], S. 48). Weiss et al. behandeln in ([WIZ12]) die vier

Gebiete Document Classification, Clustering and Organizing Documents, Information

Retrieval und Information Extraction. Hinzu kommt eine gesonderte Betrachtung von

Prediction und Evaluation im Rahmen von Text Mining Problemen.

Hoth

o

([H

NP

05

])

An

an

iad

ou

([A

M06

a])

Ko

ncha

dy

([K

o0

6])

Feld

ma

n

([F

S0

7])

Be

rry

([B

K1

0])

We

iss

([W

IZ1

2])

Ag

ga

rwa

l

([A

g1

2a

])

Min

er

([M

i12

])

Jahr 2005 2006 2006 2007 2010 2012 2012 2012

Information Retrieval O O2

O O

Information Extraction O O O O O3 O O O

Data Mining O

Document Classification O O4 O5 O O O O

Document Clustering O O O O O O O

Text Streams O6 O7 O O

Text Summarization O8 O O9 O10

Question & Answer O

Prediction O

Multimedia O

NLP O

Web Mining O11 O

Anomaly/Trend Detection

O Tabelle 4.1 Übersicht über Funktionsbereiche des Text Mining

2 Search

3 Text Extraction

4 Categorization

5 Text Categorization

6 Topic Tracking, Prognose für eine zukünftige Entwicklung

7 Information Monitor

8 Prognose für eine zukünftige Entwicklung

9 Sentiment Analysis wird explizit aufgeführt

10 Text Summarization wird auch wie Sentiment Analysis dem Bereich Concept Extraction zugeordnet

11 Social Media / Opinion Mining


41

In Tabelle 4.1 ist zu sehen, wie verschiedene Autoren im Lauf der Zeit die Aufgaben

und Funktionen des Text Mining Ansatzes unterschiedlich bewertet haben.

Aggarwal bringt wie Konchady Text Summarization wieder in die Diskussion ein und

erweitert die betrachtete Datenbasis um Mulimediadaten vernachlässigt aber das

Thema Information Retrieval ([Ag12a]).

Miner spricht von sieben Anwendungsbereichen des Text Mining und ergänzt die

Auflistung von Konchady unter Auslassung von Text Streams und Question &

Answer um Web Mining und NLP ([Mi12], S. 31 f.). Gerade letzte Einstufung sorgt für

Diskussionen, aber da nach Miner typische Text Mining Projekte in der Praxis

Techniken von mehreren Bereichen in sich vereinen, ist nach seiner Auffassung eine

differenzierende Betrachtung von linguistischen Ansätzen gerechtfertigt. Diese

Haltung ist leitend für die in diesem Kapitel weiteren Betrachtungen.

Abbildung 4.1 Entscheidungsbaum zum Auffinden des Anwendungsbereichs in Hinblick auf Text

Ressource und Projektziel ([Mi12], S. 33)

Um die Vielfalt der Anwendungsbereiche bewältigen zu können, sind

Entscheidungshilfen nötig. Abbildung 4.1 zeigt einen Entscheidungsbaum mit dessen


42

Hilfe man aus einer Aufgabenstellung heraus den passenden Anwendungsbereich

identifizieren kann.

Im ersten Schritt geht es um die Frage der Art der Textressource, die betrachtet

werden soll. Dabei wird der Begriff Dokument erweitert auf alle Arten von definierten

Texteinheiten wie auch Absätze, Sätze oder Tweets. Die folgende Frage bezieht sich

in beiden Fällen auf den Fokus des einzusetzenden Algorithmus: ist das Ziel das

Auffinden bestimmter Wörter und Dokumente oder eine Charakterisierung des

ganzen Sets. In Konsequenz bedeutet dies für die Dokumente eine Unterscheidung

in Suchen (IR) oder Sortieren, bei Wörtern in Finden bestimmter Informationen (IE)

oder Interpretation. Das Sortieren von Dokumenten wird unterschieden durch die

Frage nach dem Vorhandensein von Sortierkriterien. Sind solche Kategorien nicht

vorhanden liegt der Anwendungsbereich Document Clustering vor. Im anderen Fall

unterscheidet der Autor in Abhängigkeit von einer losen oder verlinkten

Dokumentsammlung in Document Classification oder Web Mining. Die letzte Frage

bezieht sich auf den Umstand, ob sich das Interesse des Anwenders auf die

Semantik (Concept Extraction) oder die Syntax bezieht (NLP).

Thema Anwendungsbereich

Keyword Search IR

Inverted Index IR

Document Clustering Document Clustering

Document Similarity Document Clustering

Feature Selection Document Classification

Dimensionality Selection Document Classification

Web Crawling Web Mining

Web Analytics Web Mining

Entity Extraction IE

Link Extraktion IE

Part Of Speech Tagging NLP

Tokenization NLP

Question Answering NLP

Topic Modeling Concept Extraction

Tabelle 4.2 Text Mining Themen Anwendungsbereichen zugeordnet nach ([Mi12], S. 34)


43

Für einige klassische Fragestellungen ist in Tabelle 4.2 eine Übersicht

zusammengestellt, welche den Zusammenhang zwischen Thema und passenden

Anwendungsbereich illustriert.

In den nächsten Kapiteln werden einige Funktionsbereiche in den Bezeichnungen

nach Miner dargestellt. Bei der Betrachtung der einzelnen Punkte wird vorausgesetzt,

dass der Vorverarbeitungsprozess (siehe Kapitel 3.4) bereits erfolgt ist.

Auf Grund der Fülle und der Vielfalt der jeweils betrachteten Themen kann im

Rahmen dieser Arbeit nur ein kurzer Überblick über die charakteristischen Elemente

der einzelnen Themen gegeben und auf weiterführende Literatur verwiesen werden.

4.2 Document Classification

Miner versteht Document Classification als einen Prozess, Dokumente in zwei oder

mehrere Kategorien einzuteilen. Die einfachste Form ist die binäre Klassifikation.

Hier werden alle Dokumente einer betrachteten Sammlung genau zwei Kategorien

zugeordnet. Document Classification ist oft der erste Schritt in Vorbereitung weiterer

Text Mining Prozesse um eine Vorselektion der Dokumente aus einer Sammlung

vorzunehmen, kann aber auch als ein abgeschlossener Vorgang genutzt werden.

Das Ziel der Klassifikation besteht hier nicht in der Gewinnung von Information aus

den Dokumenten, sondern nur in deren Zuteilung zu einer Kategorie. Dabei gibt es

folgende grundsätzliche Vorgehensweise: Zuerst werden Eigenschaften der

Dokumente ausgewählt, die diese im betrachteten Kontext ausreichend beschreiben.

Danach werden die Dokumente auf diese Eigenschaften untersucht und in

Kategorien eingeordnet. Man unterscheidet hier zwischen einer binären

Klassifikation, die eine Einteilung in zwei Klassen bedeutet, und multiplen

Klassifikationen, deren Ergebnis eine Einteilung in mehrere Klassen oder eine

Hierarchie von Klassen ist. Ein einfaches Beispiel für die binäre Klassifikation ist die

Unterscheidung von email Nachrichten in „spam“ und „not spam“. Das gegenteilige

Beispiel ist eine Sortierung von Dokumenten in eine Ordnerstruktur. Grundsätzlich ist

diese Klassifikation ein analytischer Prozess, der einem zu untersuchenden

Dokument eine Klasse aus einem festgelegten Klassenkatalog zuordnet. Er bedient


44

sich dabei statistischer Modelle, die Anwendung von regelbasierten Systemen ist

aber ebenfalls möglich ([Mi12], S. 881 ff.).

Der erste Schritt der Klassifikation besteht aus der Festlegung der Anzahl und der

Ordnung der Kategorien, denen die Dokumente zuzuordnen sind. Die Kategorien

sind so auszuwählen, dass deren Anzahl in ausreichendem Maße differenzierend

wirkt. Es ist zu klären, ob die gewählten Kategorien flach oder hierarchisch

organisiert sein sollen. Außerdem ist festzulegen, ob die Dokumente genau einer

oder mehrerer Kategorien zu geordnet werden sollen. Danach ist eine Zuordnung der

Merkmale eines Dokuments zu den Kategorien erforderlich. Die Merkmale können

sowohl bestimmte Eigenschaften des Dokuments wie Titel, Größe oder Dateinamen

als auch das Auftreten von Schlüsselwörtern im Text sein. Dieser Vorgang wird als

Feature Extraction (Merkmalsextraktion) bezeichnet und bestimmt den Umfang und

die Ziele der Datenvorverarbeitungsphase mit. Nach der

Datenvorverarbeitungsphase existiert dann für jedes Dokument ein numerischer

Merkmalsvektor. Diese Vektoren sind die Grundlage für Nutzung von

Klassifikationsalgorithmen, die ursprünglich für strukturierte Daten entwickelt wurden.

Die beiden bekanntesten Algorithmen für die Klassifizierung sind der naive Bayes

Klassifikator und die logistische Regression (oder Maximum Entropy Klassifikator).

Beide Klassifikatoren sind sogenannte supervised Klassifikatoren (überwachtes

Lernen) und benötigen für jede Kategorie einen Zuordnungsfall. Ein binärer

Klassifikator, der nach Konchady eine wichtige Rolle spielt, da er derzeit die

exaktesten Ergebnisse liefert, ist die Support Vector Machine (SVM). Jede Kategorie

hat einen separaten Klassifikator und die Dokumente werden auf jede Kategorie

einzeln geprüft12.

Zusammenfassend kann man sagen, dass Document Classification Text und

Dokumente vordefinierten Kategorien zuordnet. Wenn diese Kategorien nicht

vordefiniert werden, sondern automatisch generiert werden sollen, spricht man vom

Document Clustering. Dieses Verfahren wird im nächsten Kapitel betrachtet.

Document Classification ist eine der ältesten Disziplinen des Text Mining und basiert

auf umfangreiche Quellen, von denen hier einige aufgeführt sind: ([AC12a], S. 163

12

Weiterführende Ausführungen zu SVM sind zusätzlich zu den Angaben von Tabelle 4.3 in Berry und Kogan 2010, Bügel et al. 2009, Kao und Poteet 2010, Srivastava und Sahami 2009 und Ziegler 2012 zu finden.


45

ff.), ([Ba13], S. 237 ff.), ([Br04]), ([HNP05], S. 30 ff.), ([FS07], S. 64 ff.), ([Ko06], S.

299 ff.), ([MRS09], S. 234 ff.), ([Mi12], S. 881 ff.), ([WIZ12], S. 43 ff.) und ([Ru10], S.

85 ff.)

4.3 Document Clustering

Das Clustering oder die Clusteranalyse ist nach Miner die älteste Technologie des

Text Mining und hat seine Wurzeln in einem militärischen Dokumentenabfragesystem

im 2. Weltkrieg und umfasst begrifflich einen Prozess einer automatischen

Identifizierung von ähnlichen Elementen um sie in sogenannten Clustern zu

gruppieren. Das Ziel vom Document Clustering besteht in der Gruppierung von

Dokumenten mit ähnlichem Inhalt ([Mi12], S. 959 ff.). Dabei kann das Document

Clustering sowohl als ein abgeschlossener Vorgang als auch als Bestandteil des

Datenvorverarbeitungsprozesses .eingesetzt werden

Clustering ist eine Methode des Unüberwachten Lernens (unsupervised learning), es

werden keine Trainingsbeispiele benötigt. Unüberwachtes Lernen ist hier nicht so

leistungsstark wie Überwachtes Lernen, aber vielseitiger einsetzbar. Im Text Mining

werden Clustering Algorithmen verwendet, um ähnliche Dokumente oder bestimmte

Wörter zu finden. Werden Dokumente mittels Clustering analysiert wird dieser

Vorgang Document Clustering genannt. Sind Wörter Gegenstand des Prozesses

nennt man diesen unter Berücksichtigung der gewählten Algorithmen Concept

Extraction oder Topic Modeling (siehe Abschnitt 4.8). Diese beiden Prozesse können

eng miteinander verknüpft sein: Nach einem ausgeführten Dokumenten Clustering

werden die Cluster oft anhand der am meisten vorkommenden Wörter bezeichnet.

Wort Cluster können hingegen genutzt werden, um Dokumente so zu kategorisieren

dass sie nach bestimmten Konzepten sortiert werden können ([Mi12], S. 960).

Die im Document Clustering verwendeten Algorithmen stammen aus den

Fachgebieten Statistik und Data Mining. Für den Prozess werden zwei Komponenten

benötigt: eine Methode zur Berechnung der Ähnlichkeit zwischen zwei Elementen,

um zu bestimmen, dass sie dem gleichen Cluster zugehörig sind. Dabei hängt das

Ähnlichkeitsmaß vom Datentyp ab. Das Abstandsmaß für Text ist oft eine Variante

des Vektorabstandsmaßes wie die Kosinus-Ähnlichkeit. Dann wird eine effiziente


46

Methode benötigt um alle Elemente miteinander vergleichen zu können. Eine weitere

Schlüsselfrage ist die Anzahl der Cluster, die verwendet werden soll. Einige

Algorithmen benötigen diese Angabe, andere ermitteln die Anzahl durch die

Einhaltung bestimmter, vorher angegebener Randbedingungen, wie ein

Schwellenwert für das Abstandmaß., eine minimale oder maximale Größe der

Cluster, ein Maximum für die Anzahl der Cluster oder einem Maximalgrad der

Überlappung von benachbarten Clustern ([Mi12], S. 961).

Miner unterscheidet in die Clustering Algorithmen in die drei Hauptkategorien

hierarchisches, partitionierendes und spektrales Clustering. Das hierarchische

Clustering ordnet die Dokumente iterativ einer Baumstruktur von Clustern zu. Dies

geschieht entweder agglomerativ (beginnend mit der größten Anzahl von Clustern,

die dann zusammengefasst werden können) oder divisiv (ausgehend von einem

einzigen Cluster erfolgt eine Aufteilung). Beim partitionierenden Clustering werden

die Anzahl der Cluster und eine Startzuordnung durch den User festgelegt

(Initialization step in Abbildung 4.2). Der iterative Prozess ermittelt durch jeweilige

Mittelpunktbestimmung der Cluster (Updating step) und neuer Zuordnung der

Elemente (Assignement step) einen stabilen Zustand als Ergebnis, welches als Final

configuration bezeichnet wird. Das spektrale Clustering verwendet Matrix

Operationen für eine Dimensionsreduktion und erstellt Cluster, die auf diesen

reduzierten Dimensionen bestehen. Diese Verfahren ist eng verknüpft mit den

Begriffen Latent Semantic Indexing (LSI) und Singular Value Decomposition (SVD).

Abbildung 4.2 Beispiel für ein partitionierendes Clustering aus ([Ba13], S. 244)


47

Vor dem eigentlichen Clustering müssen auch hier die Dokumente durch eine

Datenvorverarbeitungsphase in den Vektorraum überführt werden. Dabei wird jedes

Dokument durch einen Vektor repräsentiert. Die Wörter des Dokuments können dort

entweder binär (wenn existent 1, sonst 0), mit ihrer Anzahl des Vorkommens oder

einer gewichteten Zahl in Abhängigkeit von der Anzahl der betrachteten Dokumente.

Auf der Grundlage eines so erzeugten Vektorraummodells einer Sammlung von

Dokumenten gibt es zwei Methoden des Document Clustering: Direktes Clustering

und Dimensionsreduktion. Die erste Methode verwendet Algorithmen des

hierarchischen und des partitionierenden Clustering unter Verwendung von

Vektorabstandsmaßen wie dem Jaccard-Koeffizient und der oben erwähnten

Kosinus-Ähnlichkeit. Die zweite Methode kann durch Umwandlung des Textes in eine

numerische Darstellung durch Verwendung von Dimensionsreduktion zur

Abstandsmessung numerische Verfahren wie den Euklidischen Abstand verwenden

([Mi12], S. 961 ff.).

Das Ergebnis eines Clustering Prozesses wird am besten graphisch dargestellt.

Zusammenfassend kann man feststellen, dass Document Clustering dazu verwendet

wird, um Dokumente auf der Grundlage von Ähnlichkeit zu gruppieren und den

Anwender zum Entdecken und Verstehen von Zusammenhängen zwischen den

Dokumenten einer Dokumentensammlung zu befähigen.

Zur weiteren Vertiefung des Themas, das hier nur kurz angerissen werden konnte,

seien folgende Arbeiten empfohlen: ([AC12b], S. 77 ff.), ([Ba13], S. 242), ([FS07], S.

64 ff.), ([HNP05], S. 36 ff.), ([Ko06], S. 263 ff.), ([MRS09], S. 321 ff.), ([Ru10], S. 105

ff.) und ([WIZ12], S. 91 ff.)

4.4 Information Extraction

Information Extraction (IE) Systeme übernehmen nach Jiang im Text Mining eine

sehr bedeutende Aufgabe. Das Hauptziel von Information Extraction besteht darin,

strukturiere Informationen aus unstrukturiertem oder semi-strukturiertem Text zu

gewinnen. Wichtige Informationen wie Namen von Persönlichkeiten, Orten oder

Organisationen, die im Text enthalten sind, werden aus diesem extrahiert. Diese

Informationen können direkt einem Anwender oder anderen Anwendungen wie


48

Suchmaschinen oder Datenbanken übergeben werden. Die Anwendungsgebiete von

Information Extraction sind breit gefächert, die speziellen Typen und Strukturen der

Informationen, die herausgefiltert werden sollen, hängen von den Anforderungen der

Weiterverarbeitung ab ([Ji12], S. 11 ff.).

Die Geschichte von Information Extraction reicht auf die 70er Jahre zurück, gewann

aber erst an Bedeutung mit der Einführung der von der DARPA13 imitierten und

gegründeten Message Understanding Conference (MUC) in den 90ern. Seit dieser

Zeit gibt es eine kontinuierliche Entwicklung von Information Extraction. Die ersten

MUC Konferenzen definierten Information Extraction als den Vorgang vordefinierte

Vorlagen mit Eingabefeldern entsprechend mit Informationen aus dem untersuchten

Text zu füllen. Dieser Vorgang ist sehr komplex und kann nicht ohne weiteres auf

andere Vorlagen übertragen werden. Somit beschloss die MUC-6 1995, einige

Unteraufgaben, die vorlagenunabhängig agieren, zu definieren. Dazu zählen Named

Entity Recognition (NER), Coreference Resolution und Relation Extraction([Ji12], S.

13 f.).

Die ersten IE Systeme waren zumeist regelbasierte Systeme und erreichten in der

Domäne, für die sie entwickelt wurden, beachtliche Ergebnisse. Der Aufwand für die

Entwicklung der entsprechenden Regeln ist aber sehr hoch und vor allem

domänenspezifisch. Deshalb fokussierte sich die Forschung mehr auf das

Maschinelle Lernen (ML) und somit werden aus der Klassifikation bekannt

Algorithmen des überwachten ML wie Support Vector Machines (SVM) und

Maximum Entropy Modelle eingesetzt ([Ji12], S. 14).

Eine interessante Entwicklung ist in der Forschung am Thema Open Information

Extraction zu sehen. Diese Systeme sollen alle nützlichen Entity Relation eines

großen, vielfältigen Korpus wie das des Internet extrahieren. Dabei sind die

Ergebnisse nicht nur die Parameter einer Relation sondern auch deren

Beschreibung. Information Extraction von semi-strukturierten Internetseiten ist so ein

Forschungsthema von Web Mining. Die Besonderheit ist hier, dass die strukturieren

Daten der HTML Tags in den Prozess mit einbezogen werden können. Diese

Systeme werden auch Wrapper genannt ([Ji12], S. 14 f.).

13

Defense Advanced Research Projects Agency (DARPA) ist eine Behörde des Verteidigungsministeriums der USA


49

Named Entity Recognition ist die wichtigste Aufgabe innerhalb von Information

Extraction. Eine Named Entity ist ein Wort oder eine Reihe von Wörtern, die einen

Gegenstand der Realität benennen. Named Entity Recognition hat die Aufgabe diese

Namen aus einem Text heraus zu erkennen und ihn entsprechend vordefinierter

Typen zuzuordnen. Beim regelbasiertem Ansatz werden die Regelbasis manuell oder

durch überwachtes ML erstellt. Jeder Token im Text wird mit

Eigenschaftsbeschreibungen versehen und gegen die Regeln geprüft. Jede Regel ist

hierbei, mit einer Aktion wie dem Benennen einer Tokensequenz oder dem Festlegen

des Start- oder Endpunkts einer Entity belegt und wird bei Übereinstimmung für den

entsprechenden Token ausgeführt. Ein wichtiger Ansatz ist die Verwendung ML zur

Lösung als Sequence Labeling. Häufig verwendete Modelle sind das Hidden Markov

Modell (HMM) und das Maximum Entropy Markov Modell (MEMM) ([Ji12], S. 15 f.).

Eine weitere wichtige Aufgabe von Information Extraction ist in der Relation

Extraction zu sehen. Relation Extraction hat das Ziel, semantische Beziehungen

zwischen Entities im Text zu erkennen und zu benennen. Die Aufgabenstellung

basiert nach Jiang auf den Definitionen des Programms Automatic Content

Extraction (ACE) ([Ji12], S. 22). Zur Anwendung gelangen Feature-based und

Kernel-based Klassifikationsmethoden wie Sequence-based Kernel, Tree-based

Kernel und Composite Kernel. ([Ji12], S. 12 f.).

Obwohl das überwachte Maschinelle Lernen der dominierende Ansatz im IE ist,

werden auch sogenannte Weakly Supervised Methoden wie Bootstrapping für eine

semi-überwachte Relation Extraction eingesetzt. Mit dem weiteren Wachstum des

Internet erwartet Jiang, dass sich Information Extraction mit sehr viel mehr

unterschiedlichen und unscharfen, verrauschten Textdaten beschäftigen muss.

Außerdem stellt er fest:

“Weakly supervised and unsupervised methods will play a larger role in information

extraction. The various user-generated content on the Web such as Wikipedia articles will

also become important resources to provide some kind of supervisions.” ([Ji12], S. 35)

Weitergehende Informationen sind zu finden bei ([FS07], S. 94 ff.), ([HNP05], S. 36

ff.), ([Ko06], S. 151 ff.), ([Mi12], S. 921 ff.), ([WIZ12], S. 113 ff.)


50

4.5 Information Retrieval

Information Retrieval (IR) ist nach Manning et al. das Auffinden von Material

(normalerweise Dokumenten) unstrukturierter Natur (normalerweise Text) welches

einen Informationsbedarf aus einer großen Sammlung (normalerweise auf

Computern gespeichert) befriedigt ([MRS09], S. 1).

Information Retrieval Systeme gab es schon lange vor dem Zeitalter des Internet, sie

waren aber nicht weit verbreitet. Sie arbeiteten mit Suchmethoden basierend auf

Schlüsselwörtern. Die Antwort auf eine Anfrage wurde als eine Liste mit Treffern

geliefert. Prinzipiell funktionieren auch so Internet Suchmaschinen. Die Internetseiten

von Suchmaschinen gehörten von Beginn der weiten Verbreitung des Internet an zu

den beliebtesten Seiten, weil sie zumeist schnell auf Anfragen mit Antworten

reagierten. Allerdings konnten die frühen Information Retrieval Systeme nur ein

Bruchteil der Informationen, auf die modernen Internet Suchmaschinen heute

zugreifen können, verarbeiten. Um den Anforderungen der Suche in immer größeren

Datenmengen gerecht zu werden wurden anspruchsvollere Crawler, Indizierungen

und Suchmethoden entwickelt. Das Ranking (die Reihenfolge der Präsentation der

Ergebnisse) war ursprünglich nur auf Textmerkmale bezogen, wurde dann aber um

eine Linkanalyse erweitert, um Manipulationen zu verhindern. Einen kurzen Abriss

über die Entwicklung von Suchmaschinen gibt Konchady in ([Ko06], S. 183 ff.)

Information Retrieval selbst ist jedoch nicht als klassisches Text Mining Thema zu

sehen. Dennoch zählen neben Konchady auch Miner und Weiss et al, um nur einige

zu nennen, Information Retrieval mit zum Text Mining ([Mi12], S. 31 ff.; [WIZ12], S.

75 ff.).

Weiss et al. gehen der Frage nach, ob Information Retrieval eine Form des Text

Mining ist. Sie vergleichen die Aufgabenstellungen von Information Retrieval und

Document Classification. Information Retrieval liefert auf eine Anfrage die

Dokumente, die zu dieser Anfrage passen. Es wird eine konkrete Anfrage gestellt,

die Dokumentensammlung wird durchsucht und eine Untermenge von relevanten

Dokumenten wird geliefert. Der Document Classification Prozess ist ein völlig

anderer: eine Dokumentenmenge wird untersucht, Entscheidungskriterien für eine

Klassifikation erlernt und dann werden diese Kriterien bei der Klassifizierung neuer


51

Dokumente eingesetzt. Gemeinsam haben aber beide Verfahren das Einsetzen von

Ähnlichkeitsmaßen. Weiss et al. schlagen vor, diese Gemeinsamkeit zu nutzen und

somit speziell Methoden des Ermittelns der Ähnlichkeit von Dokumenten, die in

Information Retrieval schon eine lange Tradition haben, unter Beachtung der

Unterschiede beim Document Classification einzusetzen. So schlagen sie vor, ein

neues Dokument in Form eines Wort Vektormodells als Abfrage zu verwenden und

somit das ähnlichste Dokument und dessen Klassifikation für die des neuen

Dokuments zu verwenden ([WIZ12], S. 75 ff.).

Ein weiterer Aspekt der Zugehörigkeit von Information Retrieval zum Text Mining, ist

in der Notwendigkeit zu sehen, eine Vorselektion von Dokumenten in der

Datenvorverarbeitungsphase vorzunehmen.

Eine umfangreiche Abhandlung über Information Retrieval findet man bei ([MRS09]).

Banchs stellt unter der Bezeichnung Document Search verschiedene Suchverfahren

wie die Binäre Suche und die Vektorbasierte Suche vor und betont dabei die Große

Schnittmenge mit Information Retrieval Themen ([Ba13], S. 277 ff.).

4.6 Natural Language Processing

Natural Language Processing (NLP) verfolgt bei der Verarbeitung von Textdaten im

Gegensatz zu den bisher betrachteten Disziplinen keinen statistischen, sondern

einen linguistischen Ansatz, mit dem Ziel, die Bedeutung des untersuchten Textes zu

erfassen. Eine einfache, plakative Definition für das Natural Language Processing

liefern Kao/Poteet:

“Natural language processing (NLP), is the attempt to extract a fuller meaning representation

from free text. This can be put roughly as figuring out who did what to whom, when, where,

how and why.” ([KP10], S. 1)

Methoden des Natural Language Processing sind ein wichtiger Bestandteil der

Datenvorverarbeitungsphase. Hippner/Rentzmann beschreiben einen dreistufigen

Analyseprozess, der aus den Elementen morphologische Analyse, syntaktische

Analyse und semantische Analyse besteht. Im ersten Schritt wird der Text in einzelne

Wörter unterteilt (Tokenization) und diese auf ihren Wortstamm zurückgeführt


52

(Stemming). Nachfolgend werden die Wörter mit Markierungen versehen, sie werden

annotiert. Diese Annotationen nehmen Part-of-Speech (POS) Tagger, hier werden

Wortarten zugeordnet, und Parser, die die Wortstellung in einem jeweiligen Satz

ermitteln, vor. POS Tagger greifen dabei auf Lexika14, in denen Wörter und

Wortarten, die sie annehmen können, erfasst sind, zu. Im letzten Schritt wird eine

semantische Analyse zur bedeutungsabhängigen Zerlegung von Text durchgeführt

([HR06b], S. 288 f.)

Hahn/Wermter entwerfen ebenfalls einen dreistufigen Prozess, bezeichnen den

ersten Teil aber als lexikalische Analyse und führen wie in Abbildung 4.3 zu

erkennen, die morphologische Analyse und POS Tagging, unter Zuhilfenahme eines

Lexikon, zusammen. Grund dafür ist die erreichte hohe Qualität der Wörterbücher,

die bereits nach der Tokenization eine Annotation mit Wortstamm und Wortart

ermöglichen ([HW06], S. 19 ff.).

Abbildung 4.3 Natural language system architecture for text mining for biology ([HW06])

14

Für die deutsche Sprache gibt es mit dem Wörterbuch des Projekts „Deutscher Wortschatz“ ein Vollformenlexikon Heyer et al. 2008, S. 54 f.


53

4.7 Zusammenfassung

Beruhend auf der Interdisziplinarität und unterschiedlicher Auffassungen

verschiedener Autoren von der Definition der Anwendungsbereiche von Text Mining

wurden am Anfang des Kapitels verschiedene Kategorisierungen beschrieben und

verglichen. Ausgewählte Anwendungsbereiche wurden detaillierter erörtert. Die

Komplexität des Themas Text Mining gesamt, aber auch seiner Teilbereiche im

Detail, lässt im Rahmen dieser Arbeit keine tiefergehende Betrachtung zu. Abbildung

4.4 illustriert treffend die große Bandbreite an Themen und ihre Verknüpfungen, die

auf einen Blick die Komplexität und Vernetztheit der Anwendungsbereiche

nachvollziehbar macht.

Abbildung 4.4 Visualizing the seven text mining practice areas (ovals) and how specific text mining tasks (labels with ovals) exist at their intersections ([Mi12], S. 38)

Im nächsten Kapitel geht es darum, konkrete Anwendungsmöglichkeiten

vorzustellen, die zeigen, welche wertvollen Beiträge das Text Mining und die hier

theoretisch skizzierten Anwendungsbereiche leisten können.

5 Anwendungen

54

5 Anwendungen

Text Mining ist vielseitig einsetzbar und spielt vor allem in den Bereichen eine große

Rolle, die hauptsächlich mit Informationen in Textform konfrontiert werden. Im Kapitel

5 werden nun einige Beispiele für Anwendungsmöglichkeiten gezeigt. Dabei handelt

es sich jeweils um tatsächlich umgesetzte Projekte, konkrete Lösungsansätze,

dokumentieret Untersuchungen oder praktische Anwendungsvorschläge. Die

ausgewählten Beispiele orientieren sich dabei an den in Kapitel 2 aufgeführten

Bereiche der Wirtschaftsinformatik: Dem Wissensmanagement (5.1), der Competitive

Intelligence (5.2, 5.3), dem Customer Relationship Management (5.4, 5.5) und dem

Enterprise Content Management (5.1, 5.7). Ein hohes Einsatzpotenzial für Text

Mining wird im Gesundheitswesen gesehen (5.8). Ziel dieses Kapitels ist es, die

Bandbreite an Einsatzmöglichkeiten des Text Mining abzubilden. Dies erfordert die

Reduktion auf eine überblicksartige Darstellung und den Verweis auf weiterführende

Literatur. Auf die herausragende Rolle des Text Mining in den Naturwissenschaften,

hier vor allem in der Biologie und der Biochemie wird aufgrund der Fokussierung auf

Anwendungsgebiete in der Wirtschaftsinformatik bewusst verzichtet15. Erstes

Anwendungsbeispiel ist die Klassifikation im Rahmen des Wissensmanagement.

5.1 Dokumentenklassifikation im Rahmen des Wissensmanagement

Das explizite Wissen einer Unternehmung liegt zumeist in Form von Dokumenten

aus verschiedenen Quellen vor. Eine der Schlüsselfragen des Wissensmanagement

in Unternehmen ist die Organisation von Dokumenten in Kategorien in Form einer

Textklassifikation im Rahmen eines Dokumentenverwaltungssystems, die im

gesamten Unternehmen genutzt werden kann. Dabei spielt die Vergabe von

Metadaten, zumeist in Form von Schlagwörtern, eine große Rolle, denn nur so kann

gewährleistet werden, dass entsprechende Suchanfragen im Unternehmen zum

Auffinden der relevanten Dokumente führen. Bei der Zuordnung der Schlagwörter zu 15

Eine gute Übersicht liefern [CH05] und [AM06]

5 Anwendungen

55

einzelnen Dokumenten entstehen zwei Problemfelder. Einerseits ist diese Zuordnung

für den Autor oder Herausgeber sehr zeitaufwändig; andrerseits ist die Auswahl

eines oder mehrerer zutreffenderer Schlagwörter ohne Verwendung eines

Schlagwörterkatalogs nicht möglich. Zusätzlich erschwert wird die Aufgabe durch den

Umstand erschwert, dass zwischen unterschiedlichen Abteilungen unterschiedliche

Fachbegriffe für dasselbe Objekt existieren oder verschiedene Sichtweisen den Inhalt

eines Dokuments unterschiedlich bewerten. Dieses Problem ist in fusionierten

Unternehmen oder Mischkonzernen noch ausgeprägter zu beobachten. Um die

Tätigkeit der Dokumentenklassifizierung manuell ausführen zu können sind daher

ausgiebige Schulungen oder die Hilfe von ausgebildeten Bibliothekaren nötig

([KQP03], S. 526).

Kao et al. bieten hier eine Software gestützte Lösung mit dem System KM DocTEr,

dem Knowledge Management Document Text Evaluator an. Das System interagiert

bei der Klassifikation der Dokumente mit dem Anwender, indem es die Ergebnisse

einer automatischen Klassifizierung nutzt, Schlagwörter aus einem Katalog

vorschlägt und die entsprechenden Metadaten dem Dokument zufügt. Dieser Dialog

findet mittels eines Webportals unter Verwendung einer firmeneigenen Thesaurus

statt. Die Handhabung des Systems wird als einfach, flexibel einsetzbar und leicht zu

warten beschrieben. Vor dem Einsatz dieses Systems ist es notwendig, den

Thesaurus um die Beziehungen „Generalisierung-Spezialisierung“ und „is-related-to“

aus einer Taxonomie zu erweitern oder diesen nur aus der standardisierten Wortliste

des Unternehmens zu erstellen ([KQP03]).

Die Autoren beschreiben den Einsatz des Systems anhand eines speziellen Falls –

der Einrichtung eines virtuellen Bücherregals zum Thema Technologie bei Boeing.

Ziel ist es dabei, mit Hilfe der Erreichbarkeit von Informationen über vorhandene und

eingesetzte Technologien innerhalb des Unternehmens diese für alle Mitarbeiter

auffindbar zu machen. Die Autoren beschreiben weiter, wie der Thesaurus unter

Einbeziehung von Mitarbeitern und ihrer Dokumente aus den unterschiedlichen

Abteilungen und der Verwendung bereits vorhandener Schlagwortlisten erstellt wird

und das System praktisch angewandt wird. Das eingesetzte Webportal (Abbildung

5.1) ist so gestaltet, dass der Anwender nicht nur die vorgeschlagene Klassifikation

des betrachteten Dokuments erhält, sondern auch eine Liste mit den von ihm bereits

5 Anwendungen

56

vorher klassifizierten Dokumenten und ihnen jeweils zugeordneten Schlagwörtern zur

Verfügung gestellt bekommt.

Abbildung 5.1 Webportal von KM DocTEr ([KQP03], S. 526)

Die Autoren ziehen ein positives Fazit:

"KM DocTEr helps overcome a substantial obstacle in implementing Knowledge

Management within a a large enterprise. Users are notoriously reluctant to assign any kind of

metadata to documents, that they author oder maintain. This technology can either assign

keywords automatically to documents or allow the user to quickly and easily interact with the

controlled vocabulary to select the most appropriate knowledge categories." ([KQP03], S.

527)

Neben der hier beschrieben Anwendung des Text Mining im Wissensmanagement

sind auch Anwendungen im Rahmen der Competitive Intelligence dokumentiert, wie

die nachfolgende Darstellung einer Nachrichtenzusammenfassung durch

NewsBlaster zeigt.

5.2 Nachrichtenzusammenfassungen durch NewsBlaster

Das NewsBlaster System der Natural Language Processing Group der University of

Columbia verfolgt die Idee thematisch verwandte Texte aus Nachrichten

5 Anwendungen

57

zusammenzufassen und die Ergebnisse in einem Webportal zur Verfügung zu stellen

([Ne13]).

Heitmann stellt in seinem Aufsatz dieses System im konkreten Einsatz vor,

beschreibt dessen Aufbau und setzt es in Relation mit ähnlichen Ansätzen und

Lösungen wie Google News und NewsInEssence ([He06]). Er stellt hierbei fest, dass

„NewsBlaster ein sehr robustes System zum Zusammenfassen von Nachrichten,

welches durch die Verwendung von zwei verschieden konzipierten

Zusammenfassungsengines, MultiGen und DEMS, sehr flexibel auf verschiedene

Arten von Dokumentengruppen reagieren kann, und Zusammenfassungen erzeugt,

die schon jetzt […] eine Erleichterung bei der täglichen Orientierung im weltweiten

Nachrichtendschungel darstellen können“ ([He06], S. 172), ist.

NewsBlaster ist seit 2001 in Anwendung und erzeugt täglich einen Überblick über die

Nachrichten des Tages. Die Startseite von NewsBlaster ist das Einstiegsportal und

zeigt den Zeitpunkt der letzten Auswertung, den betrachteten Zeitraums sowie die

wichtigsten Zusammenfassungen zu den Themen „Top News“, “U.S.“, „World“,

“Science / Technology“, „Entertainment“ und „Sports“ an. Hinzu kommt als wichtigster

Bestandteil eine Zusammenfassung von Artikeln zum Topereignis des Tages. Die

Nachrichtenblöcke geben jeweils die Anzahl der zugrunde liegenden Artikel und

Links zu ähnlichen Themen an und verweisen jeweils auf eine Detailansicht. Die

Überschrift wird dabei vom System von einem der betrachteten Artikel, der als

repräsentativ für das gewählte Thema gilt, gewählt. Weiter werden die Quellen

aufgeführt und satzweise verlinkt. Die Texte selbst werden maschinell erzeugt. Eine

interessante Option ist das Angebot einer Visualisierung einer zeitlichen Abfolge, die

Zusammenhänge zu anderen Ereignissen darstellt, welche zu der Entwicklung des

betrachteten Ereignisses Beiträge leisten. Interessant erscheint auch die Möglichkeit,

Zusammenfassungen verschiedener Länder zu vergleichen. In Abbildung 5.2 ist die

Startseite vom 09.02.13 zu sehen.

5 Anwendungen

58

Abbildung 5.2 Aufruf von NewsBlaster vom 09.02.13 ([Ne13])

Die Entwicklung des NewsBlaster ist noch nicht zu Ende, denn nach Heitmann

werden verschiedene Weiterentwicklungen des Systems in Aussicht gestellt. Neben

einer Verbesserung der Qualität steht hier vor allem die Mehrsprachigkeit im

Mittelpunkt der Entwicklung ([He06]).

Eine weitere Anwendung im Kontext der Competitive Intelligence ist in der

automatischen Klassifikation von RSS-Feeds zu sehen, die Gegenstand des

folgenden Kapitels ist.

5.3 Automatische Klassifikation von RSS-Feeds für ein Informationsportal

Aktuelle Informationen über Wettbewerber und Märkte, neue Produkte,

Verbrauchertrends, Tendenzen in der öffentlichen Meinung und absehbare politische

Veränderungen sind für Unternehmen von existenzieller Bedeutung und werden in

5 Anwendungen

59

der Business Intelligence (BI) Subdomäne Competitive Intelligence (CI) behandelt

(siehe auch Kapitel 2.4.1). Eine Methode der Nachrichtenversorgung ist das

Abonnement mehrerer RSS Feeds zu bestimmten Schlagwörtern. Dieser Service

liefert den Abonnenten zeitnah neue Einträge in Form von Links zu den vollständigen

Meldungen mit relevanten Inhalten. Die Zuordnung und Priorisierung dieser

Meldungen muss dann firmenintern geleistet werden.

Steinecke/Straub berichten von einem Projekt mit dem Ziel, eine automatische

Auswertung der eingehenden RSS-Feeds in Bezug auf Artikelname,

Publikationsdatum, Quellenangabe, Informationsart und Priorität zur Vorbereitung

einer Veröffentlichung im unternehmensinternen Informationsportal zu leisten

([SS10], S. 97 ff.). Dieses Portal gibt verschiedene Kategorien vor, denen die

Nachrichten entsprechend zugeordnet werden. Dabei soll diese automatisch

ermittelte Zuordnung einem Administrator vorgeschlagen werden. Dieser kann dann

gegebenenfalls den Artikel für die Veröffentlichung im Portal freigeben. Der Prozess

ist in Abbildung 5.3 dargestellt. Die Spracherkennung ist als erste Phase der Analyse

zu sehen und ordnet die Nachricht einer Sprache zu. Die nächste Phase wird als

Cleansing bezeichnet. Hier werden nicht relevante Textteile beseitigt. In der

Annotationsphase werden die extrahierten Schlagwörter und deren Synonyme mit

dem vom Portal vorgegebenen Kategorien abgeglichen. Für jeden Feed und jede

darin identifizierte Kategorie wird nun ein Datensatz erzeugt und dem Administrator

zur Prüfung vorgelegt. Damit ist die Analysephase abgeschlossen. Nach

erfolgreicher Überprüfung wird die Nachricht freigegeben und erscheint im

unternehmensinternen Informationsportal.

Abbildung 5.3 Zielprozess zur automatischen Klassifikation von RSS-Feeds im Überblick ([SS10], S. 98)

Im Ergebnis stellen die Autoren fest, dass 70 % der Nachrichten korrekt klassifiziert

wurden. Die restlichen 30 % erhielten zwar die richtigen Schlagwörter waren aber

nicht im Interessenskontext des Unternehmens ([SS10]).

5 Anwendungen

60

Für die Analyse der RSS-Feeds kam die Software IBM Infosphere Warehouse® zur

Anwendung.

Im Folgenden werden zwei Anwendungen des Text Mining im Kontext des Customer

Relationship Managements gezeigt.

5.4 Anreicherung von Kundenprofilen in der Bankenbranche

Individuelle Kundenbeziehungen werden heute durch Annäherung von Produkten

und Dienstleistungen in Bezug auf Qualität, Funktionalität und Preis für die

Unternehmen immer wichtiger. Für die Realisierung dieser Beziehungen ist es

wichtig, eine möglichst hohe Zahl relevanter Informationen über den Kunden zu

erhalten, um seine Bedürfnisse und sein Verhalten besser einschätzen zu können.

Hippner/Rentzmann berichten über ein Gemeinschaftsprojekt des Lehrstuhls für

Wirtschaftsinformatik der Katholischen Universität Eichstätt-Ingolstadt und einer

Bank, wie solche Informationen anhand der Informationen aus Freitext in den Feldern

des Verwendungszwecks in Banküberweisungen gewonnen werden können

([HR06a], S. 99 ff.). Aufgabenstellung des Projekts war es, Möglichkeiten für die

Bankenbranche aufzuzeigen, “wie diese unstrukturierten Informationen mittels Text

Mining genutzt werden können, um Kundenprofile unter quantitativen und

qualitativen Aspekten anzureichern“ ([HR06a], S. 99).

Die Zielsetzung des Projekts beruht auf der Hypothese, dass sich aus dem Inhalt der

Verwendungszwecke von Überweisungen wichtige Begriffe ermitteln lassen, die den

Kunden besser beschreiben lassen und somit einen wertvollen Beitrag für die

nachhaltige Verbesserung der CRM-Aktivitäten der Bank liefern.

5 Anwendungen

61

Abbildung 5.4 Häufige Terme innerhalb der Daueraufträge ([HR06a], S. 104)

Die untersuchte Datenbasis bestand aus insgesamt 500000 Transaktionen

(Daueraufträge, Lastschriften, Gutschriften, EC-Zahlungen und Abhebungen an

Geldautomaten) die auf den Mai 2005 datieren. Für die Untersuchung wurden auf

Grund der guten Datenqualität und Langfristigkeit nur die Daueraufträge

(Sollbuchungen) herangezogen. Die Autoren beschreiben den Text Mining Prozess

speziell in Hinblick auf die Termextraktion. In Abbildung 5.4 sind die Häufigkeiten der

extrahierten Terme im Überblick zu ersehen.

Die ermittelten Terme lassen unterschiedliche Interpretation und Rückschlüsse z.B.

auf die Wohnsituation („Miete“), die Haushaltsstruktur („Haushaltsgeld“,

„Taschengeld“, „Unterhalt“), Geschäftsbeziehungen zu anderen Banken („Sparrate“,

“Darlehen“) und Kundenpotenzial für Bausparverträge („Bausparvertrag“) zu.

Besonders aussagekräftige Terme können in die Kundendatenbank einfließen und,

wie in Abbildung 5.5 zu sehen, in klassischen Data Mining Anwendungen im CRM

berücksichtigt werden. Durch die Aktualität der Daten können auf diesem Weg

oftmals veraltete Stammdaten eines Kunden aufgewertet und aktualisiert werden.

5 Anwendungen

62

Abbildung 5.5 Die Anreicherung der Kundendatenbank mit extrahierten Termen ([HR06a], S. 106)

Das erfolgreiche Projekt zeigt, „dass Text Mining eine quantitative Anreicherung von

Kundendatenbanken ermöglicht. Auch die Datenqualität des Data Warehouses lässt

sich mittels Text Mining verbessern, da zusätzliche Plausibilitätsprüfungen möglich

werden“ ([HR06a], S. 105).

Text Mining kann so aus Unternehmersicht einen wertvollen Beitrag zur Verbesserun

der Kundenbeziehungen liefern.

Ein weiteres Anwendungsbeispiel mit ähnlicher Zielsetzung ist in der Integration des

Text Mining in ein Metriksystem zu sehen.

5.5 Integration von Text Mining in ein Metriksystem zur Qualitätsbewertung

Für die Reklamationsbearbeitung in der Autoindustrie existiert ein Standard, die

sogenannte 8D-Methode. Die Bezeichnung 8D setzt sich zusammen aus Acht und

Disziplin, da acht obligatorische Disziplinen bei der Abarbeitung der Reklamation

erforderlich sind. Die Bearbeitung einer Reklamation erfolgt unter Verwendung eines

Formblatts mit der Bezeichnung 8D-Bericht. Diese acht Prozessschritte sind in

Abbildung 5.6 illustriert ([UM11]).

5 Anwendungen

63

Abbildung 5.6 8D Methode zur nachhaltigen Fehlerbeseitigung nach VDA ([UMB10], S. 1103)

Man kann erkennen, dass neben der Festlegung der beteiligten Mitarbeiter für die

Fehlerbehebung und der Fehlerbeschreibung ein detaillierter Weg der

Fehlerbeseitigung hin bis zur Abnahme und Kontrolle vorgegeben ist. Diese hier

entstehenden Berichte ermöglichen, insoweit sie fehlerfrei sind, dem Lieferanten eine

korrekte und effiziente Fehlerbehebung. Für die Gewährleistung eines

ordnungsgemäß ausgefüllten 8D-Berichts ist eine Mess- und Bewertungstechnik zur

Beurteilung der Qualität durch das Institut für Umformtechnik und Umformmaschinen

(IFUM) der Leibniz Universität Hannover und das IPH Institut für Integrierte

Produktion Hannover gGmbH in Form eines Metriksystems mit der Bezeichnung

MeSys entwickelt worden. Dabei wird das Ergebnis eines 8D-Schrittes in einem

Zahlenwert abgebildet.

Die besondere Herausforderung bei der Entwicklung dieses Systems bestand darin,

diese Qualitätsbewertung so weit wie möglich automatisch zu erstellen. ([UM11]),

([UMB10]). Zur Ermittlung der Metrikwerte entschied man sich für eine Kombination

aus automatischer und manueller Bewertung. Bestimmte Fragestellungen, wie die

nach Beurteilung der Verständlichkeit und der Aussagekraft von Freitexten oder die

technisch-organisatorische Bewertung der Wirksamkeit bestimmter

Sofortmaßnahmen, werden im System manuell bewertet, da hier eine automatische

Bewertung nicht möglich ist. Andere Aspekte wie formale Qualitätskriterien oder

Rechtschreibfehler in Freitexten werden dagegen durch Text Mining Algorithmen

automatisch bewertet. Dazu zählen auch eine Aktivsatzprüfung (Beurteilung der

5 Anwendungen

64

Verständlichkeit in allen Textfeldern), eine Nominalphrasenprüfung (Beurteilung der

Aussagekraft in allen Textfeldern) und eine Prüfung der Anzahl begründender

Konjunktionen(Beurteilung der Güte der Beschreibung der Fehlerursache), so dass in

Summe 22 Metriken automatisch ermittelt werden können.

Abbildung 5.7 Softwarekonzept von MeSys ([UMB10], S. 1106)

In Abbildung 5.7 ist die softwaretechnische Umsetzung des Systems durch die

Verwendung der webbasierten Software Fiber zu erkennen. Der Teil der

automatischen Qualitätsbewertung mittels Text Mining Techniken wurde durch die

Verwendung der Open Source Software UIMA (Unstructured Information

Management Architecture) realisiert. Die hier ermittelten Ergebnisse werden dem

Anwender in Form eines Ampelsystems innerhalb der fiber Oberfläche angezeigt, so

dass der Anwender bei der Bearbeitung der manuellen Bewertungen auf automatisch

ermittelte Defizite hingewiesen werden kann.

Zusammenfassend lässt sich festhalten, dass mit der Verwendung des

Metriksystems vor allem kleine und mittlere Unternehmen aus der

Automobilzuliefererindustrie die Wirtschaftlichkeit ihrer Produktion durch ein

effizientes Reklamationsmanagement steigern können ([UMB10]).

5 Anwendungen

65

5.6 Auswerten von Störmeldungen in einem Customer Service Center

Steinecke/Straub beschreiben ein Projekt mit der Zielsetzung, unstrukturierte Daten

innerhalb eines Ticketsystems eines Customer Service Center auszuwerten. Agenten

erfassen hier telefonisch angenommene Anfragen oder Informationen zu Störungen,

Gewährleistungen oder Schadensmeldungen und deren Lösungen in einem

Ticketsystem ([SS10], S. 93 ff.). Abbildung 5.8 zeigt die hierbei einzugebenden

Daten. Hier werden Metadaten wie Zeiten, Dringlichkeit, Kundenname, Bearbeiter,

Status (Allgemeine Informationen) und fixe Kategorisierungen (Einordnung in feste

Kategorien) sowie Freitext für die Problembeschreibung, Historie und Lösung

unterschieden.

Abbildung 5.8 Ticketerfassung ([SS10], S. 94)

Freitextlich erfasste Informationen waren vor Beginn der Umsetzung des Projekts

nicht auswertbar, so dass sich das Reporting bis dahin nur auf die Metadaten und die

Kategorisierungen beziehen konnte. Mit der Auswertung der Freitexte lassen sich

nun aber interessante Fragen beantworten. Neue Schlagwörter werden aus Tickets,

die der Kategorie „Sonstiges“ zugeordnet wurden, ermittelt und vorgeschlagen. Nach

der Projektrealisierung ist es nun möglich neue Probleme, die gehäuft auftreten,

besser zu erfassen und auf diese hinzuweisen. Wenn Schlagwörter in den Freitext

häufig gemeinsam auftreten können Korrelationen und Assoziationen zwischen ihnen

ermittelt werden.

5 Anwendungen

66

Die speziellen Probleme bei Freitexteingaben durch die Mitarbeiter sind in der

Eingabe unvollständiger Sätze, der Verwendung eines prozessspezifischen Jargons,

orthografische Fehler und Formulierungen in verschiedenen Sprachen zu sehen. Das

hat für die Vorverarbeitung der Freitexte die Konsequenz, verschiedene Module wie

Spracherkennung, Cleansing (Entfernung überflüssiger Textteile,

Rechtschreibkorrektur, Synonyme) und Annotation mit einzubeziehen. Für die

Textannotation wurden hierfür spezifische Wörterbücher unter Berücksichtigung

einer Konzepthierarchie erstellt. Für die Umsetzung des Projekts kam Software von

IBM (Infosphere Warehouse ® und Language®) und Cognos® in Anwendung

([SS10], S. 93 ff.).

Die nachfolgend beschriebene Möglichkeit einer semantischen Suche in Bibliotheken

hat Potential um im Rahmen von Enterprise Content Management eingesetzt zu

werden.

5.7 Semantische Suche in Bibliothekskatalogen

Die Suche nach relevanter Literatur in einer Bibliotheksdatenbank ist aufgrund der

Einschränkungen auf die Angaben wie Titel, Autor, Herausgeber, Verlag,

Erscheinungsjahr und ISBN Nummer sehr beschränkt. Konsequenz ist, dass die

Suchanfrage sehr genau und detailliert gestellt werden muss. Eine vorherige

Internetrecherche mit den üblichen Suchmaschinen ist im Vergleich wesentlich

ergiebiger und somit oft die Grundlage für eine folgende Suche in der Bibliothek.

Bonte et al. stellen eine Lösung in Form einer multilingualen semantischen Suche in

der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek Dresden

(SLUB) vor ([BGH12]). Ziele der Anwendung SLUBsemantics waren die

Ermöglichung einer thematischen Suche und die Realisierung von Erleichterungen

beim Auffinden fremdsprachiger Literatur. Dabei ist vor allem die Umsetzung der

ersten Idee, nämlich eine völlig zwanglose Formulierung einer Suchanfrage durch

den Anwender zu ermöglichen, von Interesse. In einer Suchanfrage müssen somit

keine Terme stehen, die den Metadaten im Bestandskatalog entsprechen, denn

SLUBsemantics erkennt automatisch den inhaltlichen Zusammenhang und gibt

Suchergebnisse auch in grafischer Form aus. Dabei werden alle Konzepte

5 Anwendungen

67

berücksichtigt, auf welche mehrdeutige Suchwörter einen Bezug haben können und

entsprechend dargestellt. Da gleichzeitig die Mehrsprachigkeit berücksichtigt wird

(aktuell sind Anfragen in deutscher, englischer und polnischer Sprache möglich)

ergibt eine Suche nach dem Filmtitel „Gone with the wind“ das nachfolgend

dargestellte Ergebnis in Abbildung 5.9. Wie zu sehen ist, werden auch

Verknüpfungen zur Romanvorlage und dessen Autorin, dem deutschen Titel oder

einzelnen Schauspielern angezeigt und laden zur Navigation durch Auswahl der

Ergebnisknoten ein.

Abbildung 5.9 Suchergebnis für die Eingabe „gone with the wind“ ([BGH12], S. 70)

Möglich wird dieses Ergebnis durch einen Rückgriff auf Wikipedia um die

Katalogdaten mit Verknüpfungen und semantischen Relationen zu versehen. Der

Vorgang der Verknüpfung der Katalogeinträge mit den externen

Informationsbeständen erfolgte automatisch unter Verwendung der „frei verfügbaren

Textinformationen der deutschen, englischen und polnischen Wikipedia sowie die

als Linked OpenData verfügbaren Normdaten der deutschen Nationalbibliothek“

([BGH12], S. 71).

5 Anwendungen

68

SLUBsemantics ist seit 2011 im Testeinsatz und verweist in der ersten Ausbaustufe

auf über 4 Millionen lokale Titeldaten. Das Potenzial dieser Suchtechnologie kann

sich auch in unternehmensinternen Dokumentsuchen entfalten. Sie kann nicht nur

bekanntes sondern auch bisher verborgenes wissen sicht- und nutzbar machen.

"Eine thematische Suche, die dem Anwender Suchfrage ermöglicht und dennoch alle

fachlich relevanten und naheliegenden Dokumente liefert, reduziert nicht nur den

Zeitaufwand für eine erfolgreiche Suche, sondern kann eben auch bisher verborgenes

Wissen aufdecken (Serendipity)." ([BGH12], S. 72f)

Besondere Relevanz erlangt das Text Mining aber im Gesundheitswesen.

5.8 Schneller Zugriff auf relevante medizinische Befunde

Die Medizin ist ein Fachgebiet mit einem hohen Anteil unstrukturierter Daten im

Bereich der Patientendaten hoch ist. Arztbriefe, Befunde, OP-Protokolle, EKG-

Kurven Röntgenbilder, CT-Bilder, um nur eine Auswahl zu nennen, bilden die

Datenbasis bei der Beurteilung des Krankheits- bzw. Genesungsverlaufs eines

Patienten. Die Haupttransportmittel der Kommunikation sind Sprache und vor allem

Text. Diese Texte müssen oft unter Zeitdruck und unter schwierigen

Arbeitsbedingungen verfasst werden. Deshalb besitzen digitale medizinische

Dokumentationen einige Besonderheiten. Die Texte sind im engeren Sinne

multilingual, da sehr häufig lateinische Begriffe verwendet werden. Sie enthalten oft

Schreibfehler orthografischer Natur oder sind grammatikalisch nicht korrekt. Sehr

häufig wird mit Abkürzungen gearbeitet, die von Fachgebiet zu Fachgebiet

verschiedene Bedeutungen haben können. Außerdem gibt es je nach

Forschungsstand und Philosophie des Hauses ein spezielles Vokabular, das

sprachliche Vereinbarungen und Gepflogenheiten widerspiegelt ([HGE07]).

Zu den Aufgaben eines Arztes gehört es, sich die für die Behandlung relevante

Informationen über einen Patienten zu beschaffen, in Notfällen innerhalb kürzester

Zeit. Aufgrund der großen Anzahl, ein typisches Beispiel ist in Abbildung 5.10 zu

sehen, und der Beschaffenheit der abgelegten Dokumente führt eine einfache

Datenbank- oder Textsuche meist nicht zu den gewünschten Ergebnissen. Um

diesen Zustand zu verändern ist eine Aufarbeitung der Dokumente notwendig um sie

5 Anwendungen

69

mit zusätzlichen Daten zu versehen, die bei einer Recherche genutzt werden

können. Bereits unterstützte und genutzte Codierungen (ICD, OPS, DRG) haben vor

allem eine abrechnungstechnische Relevanz oder haben Bezug zum Controlling und

eine untergeordnete medizinische Bedeutung. Die medizinischen Aussagen müssen

vielmehr aus den Befundtexten extrahiert werden und auf ein geeignetes

Begriffssystem abgebildet werden. Nach der semantischen Informationsextraktion

müssen die so gewonnenen Daten in einer Form repräsentiert werden, die sich als

Benutzerschnittstelle zur Informationsbeschaffung für Ärzte eignet.

Abbildung 5.10 Ausschnitt aus der elektronischen Krankenakte eines 2 1/2-jährigen Patienten mit über 300 Dokumenten ([HGE07])

Holzinger et al. zeigen in ihrer Arbeit auf, wie dies mit Hilfe von Text Mining Software

gelingen kann ([HGE07]). Dabei liegt der Schwerpunkt ihrer Betrachtungen auf der

Textanalyse der Freitexte, der semantischen Analyse. Hierfür benötigte Ontologien

wie das Unified Medical Language System (UMLS) oder „openGALEN“ sind

vorhanden. Probleme bei der semantischen Analyse von Befunden bereiten vor

allem die oben genannten Besonderheiten medizinischer Dokumentation. Es wird ein

Lösungsansatz aufgezeigt, der neben der Analyse auch erforderliche

Präsentationsformen der gewonnenen Informationen betrachtet und entsprechende

Anforderungen formuliert. Insgesamt ist zu erwarten, dass auf dieser Basis die

semantische Erschließung medizinischer Dokumentationen weiter zunehmen wird:

„Im Zuge der Weiterentwicklung der organisationsübergreifenden, vernetzten Patientenakte

[…] ist damit zu rechnen, dass die semantische Erschließung der medizinischen

Dokumentation immer mehr an Bedeutung gewinnen wird.. Die Synergien des ‚Semantic

5 Anwendungen

70

Web‘, insbesondere bei Basiswerkzeugen(Tokenizer, Visualisierungstools usw.), werden hier

wohl die Entwicklung weiter beschleunigen.“ ([HGE07], S. 77 f.)

Weitere Überlegungen und Ergebnisse beim Einsatz von Text Mining im

medizinischen Bereich finden sich auch bei ([HMH01]) und ([KMR11]), die jedoch

nicht näher vorgestellt werden, da es in diesem Kapitel um exemplarische

Anwendungsbeispiele geht.

Weiter, kurz dargestellte Anwendungen sind nachfolgend aufgeführt.

5.9 Weitere Einsatzgebiete und Anwendungsbeispiele

In der Finanzdienstleistungsbranche spielen korrekte und aktuelle Informationen für

Anlageentscheidungen eine große Rolle. Das Auffinden solcher Informationen ist

über herkömmliche Suchmaschinen ineffizient und sehr zeitaufwändig. Gerstl et al.

stellen hier eine Text Mining Anwendung eines Finanzunternehmens vor. Dieses

Unternehmen stellt seinen Kunden einen Informationsdienst zur Verfügung, der die

für die Interessenten relevanten Informationen schnell und zeitnah zur Verfügung

stellt. Ausgangspunkt ist ein Webcrawler. Dieser sammelt im Internet die

Informationen, die von verschieden Nachrichtendiensten und

Finanzinformationsdiensten zur Verfügung gestellt werden. Das System trennt die so

gewonnenen Texte nach Sprachen und erzeugt automatisch für jeden Text eine

Zusammenfassung. Anschließend werden die Texte einer bestehenden Taxonomie

zugeordnet. Für den Kunden ist nun eine Suche über Schlagwörter oder Kategorien

der Taxonomie möglich bzw. einer Kombination beider Auswahlen möglich. Somit

kann der Kunde gezielt auf relevante und aktuelle Daten dieses Informationsdienstes

zugreifen. Die beschriebene Lösung wurde mittels IBM Intelligent Miner for Text

umgesetzt ([GHK01], S. 46 f.).

Als ein weiteres wichtiges Einsatzgebiet erwähnen Gerstl et al. die Patentanalyse.

Bei einer geplanten Patentanmeldung oder der Suche nach Patenten in einem

bestimmten untersuchten technologischen Bereich ist es von entscheidender

Bedeutung, alle bereits existierenden Patente zu finden. Die Patente liegen schon

seit einiger Zeit in digitaler Form vor (in den USA seit 1971) und sind online

verfügbar. Eine Suche mit Schlagwörtern führt zu unvollständigen Ergebnissen, da

5 Anwendungen

71

wichtige Informationen und Zusammenhänge nur innerhalb der Patenttexte enthalten

sind. Inhaltsähnliche Patente könnten aber durch Dokumenten Clustering identifiziert

werden und in Gruppen für eine spätere Analyse zusammengefasst werden. Dabei

können über Distanzmaße die Zusammenhänge zwischen den Gruppen bestimmt

werden ([GHK01], S. 47).

Die Medienbranche steht vor der Herausforderung, dass nicht alle Artikel lokaler

Zeitungen digital oder sogar online vorhanden sind, aber dennoch von

überregionalem Interesse sein können. Eine Sichtung all dieser Zeitungen erscheint

zeitnah nicht möglich. Hier schlagen Gerstl et al. vor, die entsprechenden Zeitungen

zu scannen und über OCR-Lösungen zu digitalisieren .Die Texte werden automatisch

zusammengefasst, Schlagwörter erfasst und mit diesen Metadaten versehen in

einem Content Management System gespeichert. Danach erfolgt unter Verwendung

einer Taxonomie die Kategorisierung der Artikel. Diese Datenbasis kann dann

Kunden zur Verfügung gestellt werden, die dann gezielt Informationen nach

bestimmten Kategorien und Schlagwörtern suchen können ([GHK01], S. 47 f.).

Weiss et al. stellen die Filterfunktion des Mozilla E-Mail Clients Thunderbird in Bezug

auf Text Mining Techniken. Für die Empfänger von vielen E-Mails pro Tag ist es

unumgänglich ein Werkzeug zu besitzen, welches die eingehenden Nachrichten in

verschieden Ordner sortiert und Spam-Mails aussortiert. Der Anwender kann Regeln

festlegen, wie bezüglich bestimmter Zeichenketten oder sogenannter „regular

Expressions“ sowohl im Header als auch im Text der Nachricht diese einzuordnen

ist. Ein lernender Klassifizierer erkennt Spam-Mails und verschiebt sie in den

entsprechenden Ordner. Dieser Klassifizier wird angelernt, indem der Anwender

bestimmte E-Mails als Spam kennzeichnet bzw. vom System als Spam

vorgeschlagene Mails als Nicht-Spam markiert vor ([WIZ12], S. 174 ff.).

Wie die bisherigen Ausführungen zeigen, ist die Zahl der Einsatzgebiete immens.

Weitere Anwendungsbeispiele sind in der Versicherungswirtschaft, der

Literaturrecherche, den Naturwissenschaften oder aber dem Personalmanagement

zu sehen. Tabelle 5.1 nennt mögliche Anwendungsgebiete und zur Verfügung

stehende Dokumentationen.

5 Anwendungen

72

Versicherungswirtschaft Using Text Mining and Natural Language Processing for Health Care Claims Processing ([Po05])

Literaturrecherche Mining the content of the ACM Digital Library ([CR04], S. 109 ff.)

CRM Opinion Mining im Web 2.0 ([Ka09])

Patentrecherche Evaluierung eines Text-Mining-Systems zur Dokumentklassifizierung für das Patentinformationssystem der DaimlerChrysler AG ([Kl04])

Personalmanagement Text Mining supported Skill Monitoring ([Le11])

Finanzwirtschaft Advanced Text Mining Methods for the Financial Markets and Forecasting of Intraday Volatility ([Pi11])

Competitive Intelligence Mining Industry Literature for Business Intelligence ([FS07], S. 279 ff.)

Patentrecherche Patent Analysis Solution Leveraging a Commercial Text Analytics Platform ([FS07], S. 295 ff.)

Naturwissenschaften Mining Biological Pathway Information with GeneWays ([FS07], S. 307 ff.)

Tabelle 5.1 Weiter Anwendungsgebiete für das Text Mining

6 Fazit und Ausblick

73


Die vorliegende Arbeit verfolgte das Ziel, das Text Mining als Methode zur

Exploration von Wissen in Stellung zu bringen. Wissen entsteht durch Verknüpfung

von Informationen, Informationen bestehen aus Daten. Daten und Informationen

umgeben uns auf vielfältige Weise und sind scheinbar immer und von überall her

erreichbar. Das Zeitalter des Internet, die rasante Entwicklung von

Speicherkapazitäten und Prozessorleistung, mobiles und Cloud Computing sind die

Katalysatoren für eine gigantische Erzeugung von Daten vielfältiger Art. Diese

Entwicklung führte zur Prägung der Begriffe „Big Data“ und „Information Overload“.

Diese Namensgebungen allein beschreiben schon ein wachsendes Problem, denn

ein Mehr an Daten und Informationen bedeutet nämlich nicht automatisch ein Mehr

an Wissen, da erst die passenden Informationen gefunden und dann verknüpft

werden müssen. Im Gegenteil erschwert die Datenflut sogar das Auffinden relevanter

Informationen. Erschwerend kommt hinzu, dass das Erfassen neuer Daten kaum

noch mit Restriktionen und Konventionen unterlegt ist. Verschärfend wirkt sich aus,

dass die Anwender ihre Daten in weitverzweigte Ordnersysteme mit einer Fülle von

Dateien als Folge anwenderfreundlicherer Software und Betriebssysteme

abspeichern können. Hinzu kommt, dass die gebräuchlichste Form der

menschlichen Kommunikation, nämlich die Sprache in Textform, für eine

Dateneingabe genutzt werden kann. Somit liegen immer mehr Daten in

unstrukturierter Form vor. Dieses Dilemma hat alle Bereiche der Gesellschaft erfasst

und schafft Herausforderungen, die auch im Kontext betriebswirtschaftlicher

Fragestellungen und speziell in der Wirtschaftsinformatik zu beachten sind.

In Unternehmen spielen Daten schon immer eine große Rolle, allerdings lagen sie

zumeist in wohl strukturierter Form in der Regel in Data Warehouses vor. Sie dienen

nicht nur als Grundlage für Planung, Organisation und Steuerung der Produktion

oder Managemententscheidungen; durch die Entwicklung des Data Mining sind sie

auch Quelle neuen Wissens, welches zu entscheidenden Wettbewerbsvorteilen

führen kann.


74

Wie im 2. Kapitel gezeigt wurde, wächst der Anteil unstrukturierter Daten immer

weiter wächst. Da diese Daten auch zur Wissensgewinnung genutzt werden sollen

und dies mit Data Mining nicht möglich ist, entstand die Notwendigkeit der

Entwicklung und des Einsatzes von Text Mining Methoden. Viele Bereiche wie

Customer Relationship Management, Competitive Intelligence und Enterprise

Content Management bieten sich für den Einsatz dieser Verfahren an. Mittels Text

Mining ist es, wie an Beispielen in Kapitel 5 zu sehen, möglich, Wissen über Kunden,

Märkte, Konkurrenten, Produkte zu generieren und dieses in

Unternehmensentscheidungen einfließen zu lassen.

Die Bedeutung von Wissensmanagement in Unternehmen wächst, Text Mining spielt,

wie gezeigt, eine wichtige Rolle bei der Wissensidentifikation und

Wissensdarstellung. Neue Visualisierungsformen von Domänenwissen wie

Ontologien können mittels Text Mining geschaffen werden. Diese können wiederum

zur Navigation durch die Wissensbestände dieser Domäne genutzt werden und

Strukturen in die Fülle unstrukturierter Daten zu bringen.

Wissensexploration bedeutet mehr als nur die Aufdeckung neuen Wissens. Vielmehr

geht es auch um das Verfügbarmachen bereits bekannten Wissens. So ist das von

einem Autor in einem Dokument untergebrachte Wissen im herkömmlichen Sinne

zwar kein neues Wissen, für den Lesenden aber durchaus. Mittels Text Mining

Systeme kann man zum einen komplexe Dokumenten- oder Textsammlungen

kategorisieren und entsprechend ablegen und zum anderen die Möglichkeiten der

Suche durch die Verwendung semantischer Suchanfragen in solchen Bibliotheken

verbessern.

Die neue Evolutionsstufe des Internet – das Semantic Web, bedient sich vieler

Techniken aus dem Text Mining Forschungsgebiet. Das Semantic Web wird den

Zugang zu Wissen erleichtern, da im Gegensatz zur heutigen Situation eine

Suchanfrage nicht auf Schlüsselwörter begrenzt sein wird.

Zusammenfassend läßt sich festhalten, dass Text Mining ein sehr dynamisches

Forschungsfeld ohne klare Begrenzungen darstellt. Im Fokus der Entwicklungen

stehen dabei die Unterstützung mehrsprachiger Systeme, die Verbesserung der

Bedeutungsanalyse und die automatische Erzeugung von Ontologien. Um zukünftige

und erwartete im Bereich der zur Verfügung stehenden Daten bewältigen zu können,


75

muss die Leistungsfähigkeit der Systeme deutlich verbessert werden Das in dem

System liegende Potenzial scheint noch nicht ausgeschöpft.

Schon jetzt leistet Text Mining einen wichtigen und wertvollen Beitrag um die

vorhandene Datenflut in geordnete Bahnen zu lenken, Wissen zu generieren,

letztlich den Information Overload zu verhindern oder zumindest zu managen.

Literaturverzeichnis

76

Literaturverzeichnis [AM11] Abts, Dietmar; Mülder, Wilhelm (2011): Grundkurs Wirtschaftsinformatik.

Eine kompakte und praxisorientierte Einführung. 7. Aufl. Wiesbaden: Vieweg + Teubner (Studium).

[Ag12a] Aggarwal, Charu C. (2012): An Introduction to Text Mining. In: Charu C. Aggarwal (Hg.): Mining Text Data. New York [u.a.]: Springer US, S. 1–10.

[Ag12] Aggarwal, Charu C. (Hg.) (2012): Mining Text Data. New York [u.a.]: Springer US.

[AC12a] Aggarwal, Charu C.; ChengXiang, Zhai (2012): A Survey Of Text Classification Algorithms. In: Charu C. Aggarwal (Hg.): Mining Text Data. New York [u.a.]: Springer US, S. 163–222.

[AC12b] Aggarwal, Charu C.; ChengXiang, Zhai (2012): A Survey of Text Clustering Algorithms. In: Charu C. Aggarwal (Hg.): Mining Text Data. New York [u.a.]: Springer US, S. 77–128.

[AM06a] Ananiadou, Sophia; McNaught, John (2006): Introduction. In: Sophia Ananiadou und John McNaught (Hg.): Text mining for biology and biomedicine. Boston: Artech House, S. 1–11.

[AM06b] Ananiadou, Sophia; McNaught, John (Hg.) (2006): Text mining for biology and biomedicine. Boston: Artech House.

[BK08] Baars, Henning; Kemper, Hans-George (2008): Management Support with Structured and Unstructured Data—An Integrated Business Intelligence Framework. In: Information Systems Management 25 (2), S. 132–148.

[Ba13] Banchs, Rafael E. (2013): Text Mining with MATLAB®. New York, NY [u.a.]: Springer.

[Ba06] Bange, Carsten (2006): Werkzeuge für Business Intelligence. In: HMD Praxis der Wirtschaftsinformatik (247), S. 63–73.

[Be04] Berry, Michael W. (Hg.) (2004): Survey of text mining. New York ;, Berlin ;, Heidelberg [u.a.]: Springer.

[BC08] Berry, Michael W.; Castellanos, Malu (Hg.) (2008): Survey of text mining II. Clustering, classification, and retrieval. International Workshop on Text Mining and its Applications; SIAM International Conference on Data Mining. New York ;, London: Springer.

[BK10] Berry, Michael W.; Kogan, Jacob (Hg.) (2010): Text mining. Applications and theory. SIAM International Conference on Data Mining. Chichester, U.K: Wiley.

[BM06] Bill, Thorsten; Michaeli, Rainer (2006): Competitive-Intelligence-Evolutionsphasen in der Praxis. In: HMD Praxis der Wirtschaftsinformatik (247), S. 74–83.

[BCH05] Bloehdorn, Stephan; Cimiano, Philipp; Hotho, Andreas; Staab, Steffen (2005): An Ontology-based Framework for Text Mining. In: LDV Forum Band 20 (Heft 1), S. 87–112.


77

[Bo06] Bodendorf, Freimut (2006): Daten- und Wissensmanagement. Zweite, aktualisierte und erweiterte Auflage. Berlin, Heidelberg: Springer-Verlag Berlin Heidelberg (Springer-Lehrbuch).

[Bö07] Böhn, Martin (2007): ECM-Markt – ein Strukturierungsansatz. In: HMD Praxis der Wirtschaftsinformatik (258), S. 16–24.

[BGH12] Bonte, Achim; Glaß, Robert; Horn, Anne; Mittelbach, Jens (2012): Multilinguale Suche in Bibliothekskatalogen – ein semantischer Ansatz mit Open-Source-Software und Open Data. In: HMD Praxis der Wirtschaftsinformatik (283), S. 68–73.

[Br04] Brückner, Thomas (Spektrum, Akad. Verl., 2004): Textklassifikation. In: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde, Hagen Langer et al. (Hg.): Computerlinguistik und Sprachtechnologie eine Einführung. 2. Aufl. München: Elsevier, S. 496–501.

[BKL09] Bügel, Ulrich; Knaf, Hagen; Laufs, Uwe (2009): Technologieentwicklung: Theoretische und praktische Unterstützung mit Data Mining. In: HMD Praxis der Wirtschaftsinformatik (268), S. 21–34.

[CR04] Carpineto, Claudio; Romano, Giovanni (2004): Concept data analysis. Theory and applications. Includes bibliographical references (p. [175]-195) and index. Chichester: Wiley.

[Ch01] Chen, Hsinchun Dr. (2001): Knowledge Management Systems - A Text Mining Perspective. Online verfügbar unter http://arizona.openrepository.com/arizona/bitstream/10150/106481/1/chenKMSi.pdf, zuletzt aktualisiert am 20.11.2001, zuletzt geprüft am 18.01.2013.

[CH05] Cohen, Aaron Michael; Hersh, William R. (2005): A survey of current work in biomedical text mining. In: Briefings in Bioinformatics 6 (1), S. 57–71.

[ES11] Eggert, Sandy; Stritzel, Martha (2011): 47 Business Intelligence Lösungen im Überblick. In: ERP Management (4), S. 50–55.

[ES12] Eggert, Sandy; Stritzel, Martha (2012): 63 CRM-Systeme im Vergleich. In: ERP Management (2), S. 46–59.

[Fe06a] Felden, Carsten (2006): Extraktion, Qualitätssicherung und Klassifikation unstrukturierter Daten. In: HMD Praxis der Wirtschaftsinformatik (247), S. 54–62.

[Fe06b] Felden, Carsten (2006): Text Mining als Anwendungsbereich von Business Intelligence. In: Peter Chamoni und Peter Gluchowski (Hg.): Analytische Informationssysteme. Business Intelligence-Technologien und -Anwendungen. Berlin Heidelberg: Springer-Verlag, S. 283–304.

[FD95] Feldman, Ronen; Dagan, Ido (1995): Knowledge Discovery in Textual Databases (KDT). In: Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95), S. 112–117.

[FS07] Feldman, Ronen; Sanger, James (2007): The text mining handbook. Advanced approaches in analyzing unstructured data. 1. Aufl. New York, NY [u.a.]: Cambridge Univ. Press.


78

[Fi11] Findeisen, Dirk (2011): Wissensmanagement meets Business Intelligence. In: wissensmanagement (5), S. 34–37.

[GD01] Gabriel, Roland; Dittmar, Carsten (2001): Der Ansatz des Knowledge Managements im Rahmen des Business Intelligence. In: HMD Praxis der Wirtschaftsinformatik (222), S. 17–28.

[GHK01] Gerstl, Peter; Hertweck, Matthias; Kuhn, Birgit (2001): Text Mining: Grundlagen, Verfahren und Anwendungen. In: HMD Praxis der Wirtschaftsinformatik (222), S. 38–48.

[Gl01] Gluchowski, Peter (2001): Business Intelligence - Konzepte, Technologien und Einsatzbereiche. In: HMD Praxis der Wirtschaftsinformatik (222), S. 5–15.

[HW06] Hahn, Udo; Wermter, Joachim (2006): Levels of Natural Language Processing for Text Mining. In: Sophia Ananiadou und John McNaught (Hg.): Text mining for biology and biomedicine. Boston: Artech House, S. 13–41.

[He99] Hearst, Marti A. (1999): Untangling Text Data Mining. In: Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics. Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics.

[He03] Hearst, Marti A. (2003): What Is Text Mining? Online verfügbar unter http://people.ischool.berkeley.edu/~hearst/text-mining.html, zuletzt aktualisiert am 17.10.2003, zuletzt geprüft am 16.02.2013.

[He09] Hearst, Marti A. (2009): Search user interfaces. 1. Aufl. Cambridge [u.a.]: Cambridge Univ. Press.

[HMH01] Heinze, Daniel T.; Morsch, Mark L.; Holbrook, John (2001): Text Mining Dictated Medical Records-AMIA2001. In: Suzanne Bakken (Hg.): A medical informatics odyssey. Visions of the future and lessons from the past ; the annual symposium of the American Medical Informatics Associaton ; proceedings ; November 3 - 7, 2001, Marriott Wardman Park Hotel, Washington, DC. Philadelphia: Hanley & Belfus (Journal of the American Medical Informatics Association, 8), S. 254–258.

[He06] Heitmann, Benjamin (2006): NewsBlaster: Zusammenfassungen von Nachrichten aus mehrere Quellen. In: René Witte und Jutta Mülle (Hg.): Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten. Universität Karlsruhe, Fakultät für Informatik, Institut für Programmstrukturen und Datenorganisation (IPD) (Interner Bericht 2006-5), S. 157–174.

[HQW08] Heyer, Gerhard; Quasthoff, Uwe; Wittig, Thomas (2008): Text Mining: Wissensrohstoff Text. Konzepte, Algorithmen, Ergebnisse. 1. Aufl., 1 korr. Nachdruck. Herdecke [u.a.]: W3L-Verl (IT lernen).

[HR06a] Hippner, Hajo; Rentzmann, Rene (2006): Text Mining zur Anreicherung von Kundenprofilen in der Bankenbranche. In: HMD Praxis der Wirtschaftsinformatik (249), S. 99–108.

[HR06b] Hippner, Hajo; Rentzmann, René (2006): Text Mining. In: Informatik Spektrum 29 (4), S. 287–290.


79

[HGE07] Holzinger, Andreas; Geierhofer, Regina; Errath, Maximilian (2007): Semantische Informationsextraktion in medizinischen Informationssystemen. In: Informatik Spektrum 30 (2), S. 69–78.

[HNP05] Hotho, Andreas; Nürnberger, Andreas; Paaß Gerhard (2005): A Brief Survey of Text Mining. In: LDV Forum Band 20 (Heft 1), S. 19–62.

[Ji12] Jiang, Jing (2012): Information Extraction from Text. In: Charu C. Aggarwal (Hg.): Mining Text Data. New York [u.a.]: Springer US, S. 11–41.

[Ka09] Kaiser, Carolin (2009): Opinion Mining im Web 2.0 – Konzept und Fallbeispiel. In: HMD Praxis der Wirtschaftsinformatik (268), S. 90–99.

[KP10] Kao, Anne; Poteet, Stephen R. (Hg.) (2010): Natural language processing and text mining. London: Springer.

[KQP03] Kao, Anne; Quach, Lesley; Poteet, Steve; Woods, Steve (2003): User assisted text classification and knowledge management. In: Proceedings of the twelfth international conference on Information and knowledge management - CIKM '03: ACM Press, S. 524–527.

[KB06] Kemper, Hans-Georg; Baars, Henning (2006): Business Intelligence und Competitive Intelligence. IT-basierte Managementunterstützung und markt-/wettbewerbsorientierte Anwendungen. In: HMD Praxis der Wirtschaftsinformatik (247), S. 7–20.

[KBM10] Kemper, Hans-Georg; Baars, Henning; Mehanna, Walid (2010): Business Intelligence - Grundlagen und praktische Anwendungen. Eine Einführung in die IT-basierte Managementunterstützung. 3. Aufl. Wiesbaden: Vieweg + Teubner (Studium : Wirtschaftsinformatik).

[Kl04] Klamer, Petra (2004): Evaluierung eines Text-Mining-Systems zur Dokumentklassifizierung für das Patentinformationssystem der DaimlerChrysler AG. Diplomarbeit. Fachhochschule Stuttgart. Online verfügbar unter http://opus.bsz-bw.de/hdms/volltexte/2005/529/pdf/klamer.pdf, zuletzt geprüft am 05.11.2012.

[Ko08] Koch, Stefan (Hg.) (2008): Customer & supplier relationship management. Beziehungsmanagement ; betrieblicher CRM-Einsatz ; Identifizierung von CRM-Prozessen ; Relationship Banking ; CRM-Prozess-Outsourcing ; IT-Unterstützung im SRM ; Lieferantenqualifizierung ; CRM- und SRM-Fallstudien. Heidelberg: dpunkt-Verlag (HMD - Praxis der Wirtschaftsinformatik, 259).

[Ko06] Konchady, Manu (2006): Text mining application programming. Boston, Mass: Charles River Media.

[KMR11] Korkontzelos, Ioannis; Mu, Tingting; Restificar, Angelo; Ananiadou, Sophia (2011): Text mining for efficient search and assisted creation of clinical trials. In: Proceedings of the ACM fifth international workshop on Data and text mining in biomedical informatics. New York, NY: ACM, S. 43–50.

[LLS10] Laudon, Kenneth C.; Laudon, Jane Price; Schoder, Detlef (2010): Wirtschaftsinformatik. Eine Einführung. 2. Aufl. München [u.a.]: Pearson Studium (Pearson Studium).


80

[Le11] Ledermüller, Karl (2011): Text Mining Supported Skill Monitoring. A Framework for Analyzing Job Announcements with Special Focus on Curriculum Planning and Spatial Applications. Dissertation. Wirtschaftsuniversität Wien. Institute for Banking Finance and Insurance. Online verfügbar unter http://epub.wu.ac.at/3174/1/skillmonitoring.pdf, zuletzt geprüft am 10.11.2012.

[Ma08] Manhart, Klaus Dr. (2008): Unstrukturierte Daten: Auf Datensuche mit Text Mining und Web Mining - computerwoche.de. Online verfügbar unter http://www.computerwoche.de/a/auf-datensuche-mit-text-mining-und-web-mining,1755558, zuletzt geprüft am 13.01.2013.

[MRS09] Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2009): Introduction to information retrieval. 1. Aufl. Cambridge [u.a.]: Cambridge Univ. Press.

[Ma12] Martin, Wolfgang (2012): Big-Data-Analyse verwandelt Kundenkenntnis in Marktwissen. In: - is report (03), S. 16–19.

[MW05] Mehler, Alexander; Wolff, Christian (2005): Perspektiven und Positionen des Text Mining. In: LDV Forum Band 20 (Heft 1), S. 1–18.

[Mi12] Miner, Gary (2012): Practical text mining and statistical analysis for non-structured text data applications. 1. Aufl. Waltham, MA: Academic Press.

[Ne13] NewsBlaster (2013): Columbia Newsblaster: Summarizing All the News on the Web (02/06/2013 - 02/09/2013). Online verfügbar unter http://newsblaster.cs.columbia.edu/, zuletzt aktualisiert am 09.02.2013, zuletzt geprüft am 09.02.2013.

[PBN11] Peris, Martina; Blinn, Nadine; Nüttgens, Markus; Japes, Jens; Schröder, Gerd; Keller, Gerhard (2011): IT-Werkzeuge zur Vermittlung von Kenntnissen betriebswirtschaftlicher Anwendungssoftware. In: HMD Praxis der Wirtschaftsinformatik (277), S. 28–37.

[Pi11] Pieper, Michael J. (2011): Advanced Text Mining Methods for the Financial Markets and Forecasting of Intraday Volatility. Dissertation. Karlsruhe Institute of Technology School of Economics and Business Engineering. Online verfügbar unter http://digbib.ubka.uni-karlsruhe.de/volltexte/documents/1953874, zuletzt geprüft am 04.11.2012.

[Po05] Popowich, Fred (2005): Using Text Mining and Natural Language Processing for Health Care Claims Processing. In: SIGKDD Explorations 7 (1), S. 59–66.

[Ri09] Riggert, Wolfgang (2009): ECM - Enterprise Content Management. Konzepte und Techniken rund um Dokumente ; mit 17 Tabellen. 1. Aufl. Wiesbaden: Vieweg + Teubner.

[Ru10] Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelligenter Datenanalyse ; mit … 7 Tabellen. 1. Aufl. Wiesbaden: Vieweg + Teubner (Computational intelligence).

[Ru07] Russom, Philipp (2007): TDWI Research Report : BI Search and Text Analytics. Online verfügbar unter http://download.101com.com/pub/tdwi/Files/TDWI_RRQ207_lo.pdf, zuletzt aktualisiert am 26.03.2007, zuletzt geprüft am 20.01.2013.


81

[SZ10] Schneider, Gerold; Zimmermann, Heinrich (2010): Text-Mining-Methoden im Semantic Web. In: HMD Praxis der Wirtschaftsinformatik (271), S. 35–46.

[SSS12] Schroeck, Michael; Shockley, Rebecca; Smart, Janet; Romero-Morales, Dolores; Tufano, Peter (2012): Analytics: The real-world use of big data. Online verfügbar unter http://whitepaper.computerwoche.de/uploads/files/16aa8056c72de21815cf94d1abe16353024ca9ee.pdf, zuletzt aktualisiert am 15.10.2012, zuletzt geprüft am 20.01.2013.

[Si06] Siegmund, Carsten (2006): Einführung in Text Mining. In: René Witte und Jutta Mülle (Hg.): Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten. Universität Karlsruhe, Fakultät für Informatik, Institut für Programmstrukturen und Datenorganisation (IPD) (Interner Bericht 2006-5), S. 41–58.

[SS09] Srivastava, Ashok; Sahami, Mehran (Hg.) (2009): Text mining. Classification, clustering, and applications. Boca Raton, FL: CRC Press.

[SS10] Steinecke, Ute; Straub, Walter (2010): Unstrukturierte Daten im Business Intelligence - Vorgehen, Ergebnisse und Erfahrungen in der praktischen Umsetzung. In: HMD Praxis der Wirtschaftsinformatik (271), S. 91–101.

[Su01] Sullivan, Dan (2001): Document warehousing and text mining. Techniques for improving business operations marketing and sales. New York: Wiley.

[Ta99] Tan, Ah-hwee (1999): Text Mining: The state of the art and the challenges. Online verfügbar unter http://www3.ntu.edu.sg/home/ASAHTan/Papers/tm_pakdd99.pdf, zuletzt aktualisiert am 19.10.2000, zuletzt geprüft am 30.01.2013.

[UM11] Ullmann, Georg; Marchenko, Maxim (2011): Fehlerfreier Fehlerbericht. Qualitätsbewertung von 8D-Berichten mittels Text Mining. In: QZ - Qualität und Zuverlässigkeit 56 (7), S. 58-59.

[UMB10] Ullmann, Georg; Marchenko, Maxim; Behrens, Bernd-Arno; Overmeyer, Ludger (2010): Exzellentes Reklamationsmanagement. Text Mining basierte Qualitätsbewertung von 8D-Berichten. In: Zeitschrift für wirtschaftlichen Fabrikbetrieb (12), S. 1102–1107.

[Ul10] Ultes-Nitsche, Ulrich (2010): Web 3.0 – wohin geht es mit dem World Wide Web? In: HMD - Praxis der Wirtschaftsinformatik (271), S. 6–12.

[UW12] Urbanski, Jürgen; Weber, Matthias (2012): Big Data im Praxiseinsatz - Szenarien, Beispiele, Effekte. Online verfügbar unter http://www.bitkom.org/files/documents/Big_Data_BITKOM-Leitfaden_Sept.2012.pdf, zuletzt aktualisiert am 18.09.2012, zuletzt geprüft am 10.11.2012.

[We05] Weiss, Sholom M. (Hg.) (2005): Text mining. Predictive methods for analyzing unstructured information ; [includes free downloadable software]. New York, NY: Springer.

[WIZ12] Weiss, Sholom M.; Indurkhya, Nitin; Zhang, Tong (2012): Fundamentals of Predictive Text Mining. England: Springer London Ltd.


82

[Za07] Zanasi, A. (Hg.) (2007): Text mining and its applications to intelligence, CRM and knowledge management. Southampton, UK: WIT Press.

[Zi06a] Ziegler, Cai-Nicolas (2006): Die Vermessung der Meinung. In: iX - Magazin für professionelle Informationstechnik (10), S. 106–109.

[Zi06b] Ziegler, Cai-Nicolas (2006): Text Mining: Reputation Intelligence und Sentiment Detection - Stummer Wächter. In: iX - Magazin für professionelle Informationstechnik (4), S. 116.

[Zi12] Ziegler, Cai-Nicolas (2012): Mining for strategic competitive intelligence. Foundations and applications. Berlin ;, New York: Springer.

Ehrenwörtliche Erklärung

Ich erkläre hiermit ehrenwörtlich, dass ich die vorliegende Arbeit selbstständig

angefertigt habe. Die aus fremden Quellen direkt oder indirekt übernommenen

Gedanken sind als solche kenntlich gemacht. Es wurden keine anderen als die

angegebenen Stellen und Hinweise verwandt.

Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen digitalen

Form verwendet wurden, sind der Arbeit beigefügt. Der Durchführung einer

elektronischen Plagiatsprüfung stimme ich hiermit zu. Die eingereichte Datei

entspricht der eingereichten Druckfassung.

Die vorliegende Arbeit wurde bisher keiner anderen Prüfungsbehörde vorgelegt und

auch noch nicht veröffentlicht.

Wismar, den 21.02.2013 Unterschrift

Ludwig Michael Seidel

Text Mining als Methode zur Wissensexploration:

Konzepte, Vorgehensmodelle, Anwendungsmöglichkeiten

Text gewinnt als Wissensrohstoff zunehmend an Bedeutung. Gleichzeitig vermehrt

sich die Zahl an zur Verfügung stehenden Informationen durch die Nutzung

moderner Informationstechnologien in hohem Maße an. Information ist jedoch nicht

mit Wissen zu verwechseln. Damit aus Daten tatsächlich Wissen generiert werden

kann, sind Techniken wie das Text Mining von überragender Bedeutung. Sie

erlauben, neues Wissen für den Anwender aus unstrukturierten Textdokumenten

effizient und strukturiert zu extrahieren. Hierzu kommen statistische und linguistische

Analyseverfahren zum Einsatz, die Informationen aufdecken und Muster erkennen.

In der Praxis bieten sich schon heute zahlreiche Anwendungsfelder, die in der

Zukunft noch weiter an Bedeutung zunehmen werden, um den Information Overload

zwar nicht zu verhindern, aber zumindest zu managen.

Text Mining as a method of knowledge exploration:

Concepts, process models, possible applications

Text as a resource of knowledge grows increasingly in importance. Simultaneously

the number of provided information increases by the use of modern information

technologies in a high level. However, information has not to be confused with

knowledge. In order that from data actually knowledge can be generated, techniques

like Text Mining are of prime importance. They enable the efficient and structured

extraction of new knowledge for users from unstructured textual documents. In order

to that statistic and linguistic analyzing proceedings can be used to explore

information and pattern recognition. Actually there are many practice areas winning

on acceptance in the future not for preventing but managing the information overload.

21.02.2013