Upload
doanthien
View
226
Download
6
Embed Size (px)
Citation preview
Fakultät für Wirtschaftswissenschaften
Master-Thesis
Text Mining als Methode zur Wissensexploration: Konzepte, Vorgehensmodelle, Anwendungsmöglichkeiten
Abschlussarbeit zur Erlangung des Grades eines
Master of Sciences (M.Sc.)
in Wirtschaftsinformatik
der Hochschule Wismar
eingereicht von: Ludwig Michael Seidel geboren am 29.12.1964 in Burgstädt Studiengang Wirtschaftsinformatik Matrikelnummer: 117520 Erstgutachter: Prof. Dr. Jürgen Cleve Zweitgutachter: Prof. Dr.-Ing. Uwe Lämmel Wismar, den 21. Februar 2013
Inhaltsverzeichnis
i
Inhaltsverzeichnis Abbildungsverzeichnis ............................................................................................ III
Tabellenverzeichnis................................................................................................. IV
Abkürzungsverzeichnis ........................................................................................... V
1 Einleitung ........................................................................................................... 1
2 Einordnung in die Wirtschaftsinformatik ........................................................ 3
2.1 Unstrukturierte Daten und Big Data ........................................................................ 3
2.2 Business Intelligence und Text Mining ................................................................... 8
2.3 Wissensmanagement und Text Mining .................................................................12
2.4 Text Mining im Rahmen weiterer BI Anwendungsdomänen ..................................16
2.4.1 Competitive Intelligence ....................................................................................16
2.4.2 Customer Relationship Management ................................................................18
2.4.3 Enterprise Content Management .......................................................................19
2.5 Die Bedeutung von Text Mining für das Semantic Web .........................................20
2.6 Zusammenfassung ...............................................................................................22
3 Grundlagen des Text Mining .......................................................................... 23
3.1 Definitionsansätze des Text Mining .......................................................................24
3.2 Geschichte und Interdisziplinarität.........................................................................27
3.3 Konzepte im Rahmen des Text Mining ..................................................................30
3.3.1 Dokumentensammlung und Dokument .............................................................30
3.3.2 Merkmalsselektion ............................................................................................31
3.3.3 Benutzeroberfläche ...........................................................................................33
3.4 Modelle zur Vorgehensweise ................................................................................34
3.5 Algorithmen und Techniken...................................................................................37
4 Anwendungsbereiche von Text Mining ......................................................... 38
4.1 Themen des Text Mining .......................................................................................38
4.2 Document Classification ........................................................................................43
Inhaltsverzeichnis
ii
4.3 Document Clustering.............................................................................................45
4.4 Information Extraction ...........................................................................................47
4.5 Information Retrieval .............................................................................................50
4.6 Natural Language Processing ...............................................................................51
4.7 Zusammenfassung ...............................................................................................53
5 Anwendungen .................................................................................................. 54
5.1 Dokumentenklassifikation im Rahmen des Wissensmanagement .........................54
5.2 Nachrichtenzusammenfassungen durch NewsBlaster...........................................56
5.3 Automatische Klassifikation von RSS-Feeds für ein Informationsportal .................58
5.4 Anreicherung von Kundenprofilen in der Bankenbranche ......................................60
5.5 Integration von Text Mining in ein Metriksystem zur Qualitätsbewertung...............62
5.6 Auswerten von Störmeldungen in einem Customer Service Center ......................65
5.7 Semantische Suche in Bibliothekskatalogen .........................................................66
5.8 Schneller Zugriff auf relevante medizinische Befunde ...........................................68
5.9 Weitere Einsatzgebiete und Anwendungsbeispiele ...............................................70
6 Fazit und Ausblick ........................................................................................... 73
Abbildungsverzeichnis
iii
Abbildungsverzeichnis Abbildung 2.1 Geschätzte Wachstumsraten der verschiedenen Datenarten 2007-2010
([Ru07]). .............................................................................................................. 4
Abbildung 2.2 Zusammensetzung der Daten im Datawarehouse 2007 und 2010 (geschätzt) 5
Abbildung 2.3 Wachstum der Datenmengen ([UW12], S. 12) ................................................ 6
Abbildung 2.4 Welche Informationstechnologien das Big-Data-Phänomen entstehen lassen
([UW12], S. 11) ................................................................................................... 6
Abbildung 2.5 Die vier Dimensionen des Big Data ([SSS12], S. 5) ........................................ 7
Abbildung 2.6Merkmale von Big Data ([UW12], S. 19) .......................................................... 8
Abbildung 2.7 Einordnung unterschiedlicher Facetten von Business Intelligence ([Gl01], S. 7)
............................................................................................................................ 9
Abbildung 2.8 Klassifikation von BI Werkzeugen ([Ba06], S. 64) .........................................10
Abbildung 2.9 Extracting Metadata from content and document management systems
([BK08], S. 139) ..................................................................................................11
Abbildung 2.10 Integrierte Anwendungslandschaft mit traditionellen Systemen und Big Data
Lösungen ([UW12], S. 28) ..................................................................................12
Abbildung 2.11 Softwaresysteme zum WM Prozess .............................................................14
Abbildung 2.12 KM consists of four main perspectives: Consulting, Content/Information,
Technology Foundation, and Knowledge Management System (KMS). KMS
includes data mining and text mining ([Ch01], S. 4) ............................................15
Abbildung 2.13 Textdokumente in Kundenbeziehungen ([HR06a], S. 100) ...........................18
Abbildung 2.14 Dokumentenlebenszyklus ([Bö07], S. 17) ....................................................20
Abbildung 2.15 Struktur für Web3.0 Ressourcen ([Ul10], S. 9) .............................................21
Abbildung 3.1 A Venn Diagram of the intersection of text mining and six related fields (shown
as ovals) ([Mi12], S. 31) .....................................................................................28
Abbildung 3.2 Example of a visualization tool - mapping concepts (keywords) within the
context of categories by means of a category graph ([FS07], S. 11) ...................33
Abbildung 3.3 Iterative loop for user input and ouput ([FS07], S. 14) ....................................34
Abbildung 3.4 Der Prozess des Text Mining ([HR06b], S. 288) .............................................35
Abbildung 3.5 Text Mining Prozess ([Si06], S. 44) ................................................................36
Abbildung 4.1 Entscheidungsbaum zum Auffinden des Anwendungsbereichs in Hinblick auf
Text Ressource und Projektziel ([Mi12], S. 33) ...................................................41
Abbildung 4.2 Beispiel für ein partitionierendes Clustering aus ([Ba13], S. 244) ...................46
Abbildung 4.3 Natural language system architecture for text mining for biology ([HW06]) ....52
Abbildungsverzeichnis
iv
Abbildung 4.4 Visualizing the seven text mining practice areas (ovals) and how specific text
mining tasks (labels with ovals) exist at their intersections ([Mi12], S. 38) ..........53
Abbildung 5.1 Webportal von KM DocTEr ([KQP03], S. 526) ................................................56
Abbildung 5.2 Aufruf von NewsBlaster vom 09.02.13 ([Ne13]) .............................................58
Abbildung 5.3 Zielprozess zur automatischen Klassifikation von RSS-Feeds im Überblick
([SS10], S. 98) ....................................................................................................59
Abbildung 5.4 Häufige Terme innerhalb der Daueraufträge ([HR06a], S. 104) .....................61
Abbildung 5.5 Die Anreicherung der Kundendatenbank mit extrahierten Termen ([HR06a], S.
106) ....................................................................................................................62
Abbildung 5.6 8D Methode zur nachhaltigen Fehlerbeseitigung nach VDA ([UMB10], S.
1103) ..................................................................................................................63
Abbildung 5.7 Softwarekonzept von MeSys ([UMB10], S. 1106) .........................................64
Abbildung 5.8 Ticketerfassung ([SS10], S. 94) ....................................................................65
Abbildung 5.9 Suchergebnis für die Eingabe „gone with the wind“ ([BGH12], S. 70) ............67
Abbildung 5.10 Ausschnitt aus der elektronischen Krankenakte eines 2 1/2-jährigen
Patienten mit über 300 Dokumenten ([HGE07]) .................................................69
Tabellenverzeichnis
v
Tabellenverzeichnis Tabelle 2.1 Aufgaben des Wissensmanagement ............................................................ 13
Tabelle 2.2 Fragestellungen der Competitive Intelligence................................................ 17
Tabelle 2.3 Einsatzpotenziale von Text Mining im CRM .................................................. 19
Tabelle 3.1 Anwendungsbereiche des Text Mining und ihre Aufgabenstellungen .............. 28
Tabelle 3.2 In Text Mining verwendete Algorithmen und ihre Anwendungsbebite ([Mi12], S.
34) ............................................................................................................ 37
Tabelle 4.1 Übersicht über Funktionsbereiche des Text Mining ....................................... 40
Tabelle 4.2 Text Mining Themen Anwendungsbereichen zugeordnet nach ([Mi12], S. 34) . 42
Tabelle 5.1 Weitere Anwendungsgebiete für das Text Mining .......................................... 72
Abkürzungsverzeichnis
vi
Abkürzungsverzeichnis BI ...................... Business Intelligence
CE ..................... Concept Extraktion
CI ...................... Competitive Intelligence
CRM .................. Custom Relationship Management
DM ................... Data Mining
ECM .................. Enterprise Content Management
ETL ................... Extraktion, Transformation, Laden
HMM ................. Hidden Markov Modell
HTML ................ Hypertext Markup Language
IE ...................... Information Extraction
IR ...................... Information Retrieval
KDD .................. Knowledge Discovery in Databases
KMS .................. Knowledge Management Systeme
LSI..................... Latent Semantic Indexing
MEMM ............... Maximum Entropy Markov Modell
ML ..................... Maschinelles Lernen
NLP ................... Natural Language Processing
OCR .................. Optical Character Recognition
OWL .................. Web Ontology Language
PDF ................... Portable Document Format
RDF ................... Resource Description Framework
RSS ................... Really Simple Syndication
SPARQL............ SPARQL Protocol And RDF Query Language
SVD ................... Singular Value Decomposition
SVM .................. Support Vector Machine
TS ..................... Text Summarization
WM .................... Wissensmanagement
XML ................... Extensible Markup Language
1 Einleitung
1
1 Einleitung
"Text ist ein bedeutender Wissensrohstoff, der im Zeitalter des Internet in großen Mengen in
digitaler Form zur Verfügung steht. Mit Hilfe von Text Mining kann das in Texten enthaltene
Wissen strukturiert und teilweise automatisch extrahiert werden." ([HQW08], S. 1)
Die rasch anwachsende Anzahl an Dokumenten und Texten in digitaler Form durch
die Anwendung neuer Informationstechnologien (Web 2.0, Mobiles Computing) führt
dazu, dass diese digitalen Dokumente immer mehr als Primärmedien für die
Verarbeitung, Verbreitung und Verwaltung von Informationen verwendet werden. Ein
Großteil der Informationen liegt in Form von Textdokumenten vor. Das
Informationszeitalter erleichtert das Speichern von riesigen Datenmengen. Die
Vermehrung der Dokumente im Internet, in Firmen Intranets, in News Wires und
Blogs ist überwältigend. Obwohl so die Anzahl der zur Verfügung stehenden Daten
ständig wächst, bleiben die Möglichkeiten, diese aufzunehmen und weiter zu
verarbeiten beschränkt. Suchmaschinen verschärfen dieses Problem zusätzlich, da
sie nur durch wenige Eingaben in die Suchmaske eine Vielzahl von Dokumenten
zugänglich machen.
Das Wissen über Kunden, Märkte und Wettbewerber wird ein immer wichtigerer
Faktor für den Erfolg eines Unternehmens und ist aus dieser Dokumentenbasis zu
extrahieren. Das Lesen und Verstehen von Texten zur Wissensgewinnung ist aber
eine Domäne des menschlichen Intellekts, allerdings ist dieser kapazitiv beschränkt.
Eine softwaretechnische Analyse durch einen weitgehend automatisierten Prozess
der Gewinnung von neuem und potenziell nützlichem Wissen von Textdokumenten
kann dieses Manko beseitigen.
Text Mining gewinnt hierbei auf Grund der Fülle und des rasanten Wachstums von
digitalen, unstrukturierten Daten immer mehr an Bedeutung. Text Mining ist eine
Technik zum Extrahieren von neuem, dem Anwender noch unbekannten Wissen aus
Texten und findet überall dort eine Anwendungsmöglichkeit, wo anstelle von in
Datenbanken komprimierten, vorselektierten Eingabe von Daten, diese in Textform
1 Einleitung
2
erfasst werden. Text Mining schafft die Möglichkeit, eine effiziente und strukturierten
Informations- bzw. Wissensexploration durchzuführen.
Die Methoden des Text Mining mittels statistischer und linguistischer
Analyseverfahren bezwecken die Aufdeckung verborgener und interessanter
Informationen oder Muster in unstrukturierten Textdokumenten, indem sie zum Einen
die riesige Menge an Worten und Strukturen der natürlichen Sprache verarbeiten
können und zum Anderen die Behandlung von unsicheren und unscharfen Daten
ermöglichen. Nach Feldman/Sanger ist Text Mining als ein neues Forschungsgebiet
ein vielversprechender Versuch dieses Problem der Überfrachtung mit Information
durch die Verwendung von Techniken des Data Mining (DM), Maschinelles Lernen
(ML), Computerlinguistik (Natural Language Processing, NLP), Information Retrieval
(IR) und Wissensmanagement zu lösen ([FS07]).
Ziel der Arbeit ist es, den Entwicklungsstand dieser Technologie darzustellen,
Anwendungsmöglichkeiten zu erörtern und bereits vorhandene Anwendungen zu
zeigen. Dabei liegen die Schwerpunkte sowohl auf den Themen der automatischen
Datenvorverarbeitung und Textklassifikation als auch den Mining Methoden wie
Klassifikation, Clustering und Informationsextraktion. Es werden die Definition des
Text Mining, dessen Einordnung in die Wirtschaftsinformatik, seine Interdisziplinarität
und praktische Anwendungsmöglichkeiten betrachtet.
Um dies zu gewährleisten, wird zunächst die Bedeutung des Text Mining im Kontext
der Wirtschaftsinformatik dargelegt, unstrukturierte Daten und Big Data
unterschieden sowie Business Intelligence und Wissensmanagement in den Diskurs
eingeführt. Anschließend werden die Grundlagen des Text Mining in Form von
Definitionsansätzen, historischen Betrachtungen, seiner Interdisziplinarität und
einigen speziellen Konzepten behandelt und Vorgehensmodelle betrachtet.
Im Kapitel 4 werden verschiedene Themen und Aufgabenstellungen des Text Mining
untersucht und unterteilt in Anwendungsbereiche detaillierter vorgestellt. Im
nachfolgenden Kapitel werden schließlich Anwendungsmöglichkeiten des Text
Mining in Bezug auf die Wirtschaftsinformatik vorgestellt, ehe im 6. und
abschließenden Kapitel die wichtigsten Ergebnisse der Arbeit zusammengefasst
werden und ein Ausblick auf zu erwartende weitere Entwicklungen des Text Mining
im Kontext der Wirtschaftsinformatik gegeben wird.
2 Einordnung in die Wirtschaftsinformatik
3
2 Einordnung in die Wirtschaftsinformatik
Im folgenden Kapitel wird die Bedeutung von Text Mining im Betrachtungsfeld der
Wirtschaftsinformatik untersucht. Nach Laudon et al. ist die Wirtschaftsinformatik die
"Wissenschaft, die sich mit der Beschreibung, Erklärung, Prognose und Gestaltung
rechnergestützter Informationssysteme und deren Einsatz in Wirtschaft, Verwaltung
[...] befasst. Sie versteht sich als eigenständiges interdisziplinäres Fach im
Wesentlichen zwischen Betriebswirtschaftslehre und Informatik." ([LLS10], S. 62).
Schwerpunkte bilden dabei die Einsatzmöglichkeiten im Bereich der Business
Intelligence (BI), des Wissensmanagement, der Competitive Intelligence (CI) und des
Customer Relationship Management (CRM). Dabei werden zunächst die sich
verändernden technologischen Rahmenbedingungen im Bereich der
Datengenerierung und ihre Auswirkungen auf die Unternehmen betrachtet.
2.1 Unstrukturierte Daten und Big Data
Grundlage aller Reporting, Planungs-, Analyse- und Balanced-Scorecard-
Anwendungen zur Entscheidungsunterstützung in Unternehmen sind die Data
Warehouses, die ihre Daten aus verschiedenen operativen und externen Daten
beziehen und in diesen strukturiert vorliegen. Auf Grund der immensen Fortschritte in
Hardware und Software, der Verwendung mobiler Geräte und Einbeziehung des
Internets führt zum vermehrten Auftreten semi-strukturierter (wie z.B. XML oder
HTML Dateien) und unstrukturierter Daten wie Textdokumente, Memos, E-Mails,
RSS-Feeds, Blogeinträge, Kurznachrichten wie Twitter, Forenbeiträge, Kommentare
in Social Networks und Freitexteingaben in Formularen aber auch Bildern, Video –
und Audiodaten. Die Entwicklungen der Kommunikationstechnologien ermöglichen
eine schnelle, einfache und auch mobile Eingabe von diesen Daten, die ein riesiges
Repositorium bilden. Speziell treibt das Internet die Möglichkeiten unterschiedlichster
Nutzer eine große Menge von Textdaten auf einfachen Weg zu erzeugen und zu
speichern voran ([Ag12a]).
2 Einordnung in die Wirtschaftsinformatik
4
Die Bedeutung unstrukturierter Daten lässt sich an ihrem Anteil auftretender
Datenmengen bemessen. So schreibt Felden:
"Unternehmen stehen vor der Herausforderung, die für sie relevanten Informationen in immer
größeren Datenbeständen zu finden. 80 bis 90 % der Informationen eines Unternehmens
liegen nicht in maschinell verarbeitbaren und damit strukturierten Daten vor, sondern in
unstrukturierten, nicht unmittelbar maschinell verarbeitbaren Daten und somit in Dokumenten
vor." ([Fe06a], S. 54)
Manhart, Tan und Hotho et al. geben Werte zwischen 80% und 85% an ([Ma08]),
([Ta99]), ([HNP05]). Es gab in den letzten Jahren eine Reihe von Veröffentlichungen
zur Bewertung des Verhältnisses zwischen strukturierten und unstrukturierten Daten
und zur Schätzung der jeweiligen Wachstumsraten([SS10]). So ging der TDWI
Research Report wie in Abbildung 2.1 zu sehen im Jahre 2007 von Wachstumsraten
von 61 Prozent bis 81 Prozent für unstrukturierte Daten im Zeitraum bis 2010 aus
([Ru07]).
Abbildung 2.1 Geschätzte Wachstumsraten der verschiedenen Datenarten 2007-2010 ([Ru07]).
Im Zuge des gleichen Berichts in Auswertung einer Befragung von Managern wurde
auch die Zusammensetzung der Daten der verwendeten Data Warehouses und
deren zukünftige Entwicklung untersucht. Das Ergebnis ist in Abbildung 2.2 zu sehen
2 Einordnung in die Wirtschaftsinformatik
5
und zeigt die zunehmende Verdrängung der strukturierten Daten durch semi-
strukturierte und unstrukturierte Daten in einer großen Vielfalt.
Abbildung 2.2 Zusammensetzung der Daten im Datawarehouse 2007 und 2010 (geschätzt)
Generell ist festzustellen, dass sich nicht nur der Anteil unstrukturierter Daten
sondern auch die absolute Menge der Daten erhöht.
"Allein im [...] Jahr 2011 hat die Menschheit 1,8 Zettabyte neue Daten produziert [...]. Diese
sind mehrheitlich unstrukturiert. Die wesentlichen Treiber sind soziale Medien, Video und
mobiles Internet." ([Ma12], S. 16)
Es gibt verschiedenen Ursachen für diese Datenmengen: zum einen führt die
Entwicklungen in der Hardware wie immer günstigerer Speicher, größerer
Rechenleistungen und hohe Mobilität, zum anderen beteiligen sich immer mehr
2 Einordnung in die Wirtschaftsinformatik
6
Anwender an der (wenn auch zum Teil unbewussten) Kreierung von Daten u.a. in
sozialen Netzwerken. Des Weiteren werden durch immer mehr Sensoren, Messdaten
und Log-Protokollen automatisch Daten generiert. (Abbildung 2.3)
Abbildung 2.3 Wachstum der Datenmengen ([UW12], S. 12)
Im Juli 2011 nahm Gartner den Begriff "Big Data" zum ersten Mal in seinen "Hype
Cycle" zur Bewertung neuer Technologien auf. Mit diesem Begriff ist die Frage
verbunden, wie die Unternehmen den Umgang mit immer größeren zumeist
unstrukturierten Daten bewältigen können. Haupttreiber dieser Entwicklung sind nach
Urbanski/Weber mobile Apps, Social Media, Sensordaten und Cloud Computing
([UW12], S. 11). Abbildung 2.4 stellt diesen Zusammenhang übersichtlich dar.
Abbildung 2.4 Welche Informationstechnologien das Big-Data-Phänomen entstehen lassen ([UW12], S. 11)
2 Einordnung in die Wirtschaftsinformatik
7
Mit dem Begriff Big Data sind aber nicht nur die großen anfallenden Datenmengen
sondern auch die Technologien diese zu nutzen verbunden.
"Big Data bezeichnet die Analyse großer Datenmengen aus vielfältigen Quellen in hoher
Geschwindigkeit mit dem Ziel, wirtschaftlichen Nutzen zu erzeugen." ([UW12], S. 7)
Gartner definiert in seinem IT-Glossary Big Data als eine durch großen Umfang,
kurze Aktualität und Vielfalt gekennzeichnete Datenmenge, die kosteneffiziente,
innovative Formen der Datenverarbeitung erfordert um diese zu analysieren und für
Entscheidungsfindungen zu nutzen.
Die drei Begriffe Volume, Velocity und Variety werden in verschiedenen
Publikationen auch als die drei großen ‚V‘ des Big Data bezeichnet. IBM hat in einer
Studie im Oktober 2012 zu Big Data ein weiteres V hinzugefügt: Veracity
(Wahrhaftigkeit) (Abbildung 2.5) ([SSS12]). Damit soll nicht nur die Unsicherheit des
Wahrheitsgehalts von Informationen aus sozialen Netzwerken sondern auch die
Wahrscheinlichkeiten des Eintretens von prognostizierten Ereignissen berücksichtigt
werden (wie zum Beispiel Wettervorhersagen für ein Energieunternehmen).
Abbildung 2.5 Die vier Dimensionen des Big Data ([SSS12], S. 5)
2 Einordnung in die Wirtschaftsinformatik
8
Abbildung 2.6 zeigt, dass Urbansky/Weber unter dem Begriff Analytics die Methoden
zur möglichen Erkennung und Nutzung von Mustern, Zusammenhängen und
Bedeutungen Big Data zurechnen.
Abbildung 2.6 Merkmale von Big Data ([UW12], S. 19)
In den nächsten Abschnitten wird untersucht, welche Auswirkungen diese neue
Entwicklungen und Anforderungen an Business Intelligence und andere in der
Wirtschaftsinformatik betrachtete Fachgebiete haben.
2.2 Business Intelligence und Text Mining
Die große Definitionsvielfalt für den Begriff „Business Intelligence“ (BI) ist sicherlich
historisch bedingt und durch verschiedene Sichtweisen wie in Abbildung 2.7
dargestellt gekennzeichnet. Text Mining ist hier im engeren Sinne mit einem
Analyseorientierten Ansatz verknüpft, während ein weiteres BI-Verständnis weitere
Definitionsperspektiven erlaubt.
Die Diskussion zeigt, dass dabei das weite BI-Verständnis mehr und mehr als das
grundlegende angesehen wird. So definieren Kemper et al. BI als " einen
integrierten, unternehmensspezifischen, IT-basierten Gesamtansatz zur betrieblichen
Entscheidungsunterstützung" ([KBM10], S. 9). Dabei ist zu beachten, dass dieser
Ansatz für das jeweilige Unternehmen konkretisiert werden muss und nur einen
Ordnungsrahmen liefern kann. Kemper et al. haben einen dreischichtigen
Ordnungsrahmen mit den Layern Datenbereitstellung, Informationsgenerierung und –
2 Einordnung in die Wirtschaftsinformatik
9
distribution und Informationszugriff definiert([KBM10], S. 11). Dabei sind die
Analysesysteme der zweiten Schicht zugeordnet.
Abbildung 2.7 Einordnung unterschiedlicher Facetten von Business Intelligence ([Gl01], S. 7)
Es besteht das Ziel, alle Wirkungszusammenhänge und Mechanismen, die für das
Unternehmen von Bedeutung sind, durch gezielte Untersuchung der vorhandenen
Datenbestände zu entdecken und zu verstehen. Dafür ist es notwendig,
unterschiedliche Konzepte und Systeme stärker miteinander zu verknüpfen, wie
beispielweise die Integration einer Analyse sowohl strukturierter und eben auch
unstrukturierter Datenbestände. ([Gl01], S. 14) Da nun der Anteil der unstrukturierter
Daten überproportional ansteigt liegt ein Schwerpunkt in der Integration von BI-
Analysetools die auf Text Mining basieren, denn wie Felden feststellt, ist das "Ziel
des Text Mining […] die Aufbereitung unstrukturierter Daten, wodurch es eben auch
für Business-Intelligence-Anwendungen verwendbar ist. Es lassen sich Chancen
und Risiken für ein Unternehmen erkennen und Entscheidungsprozesse
unterstützen" ([Fe06b], S. 284). Somit werden völlig neue Anforderungen an die
etablierten BI-Methoden gestellt: einerseits müssen unstrukturierte Daten in BI-
Systeme eingebunden werden und andererseits auch ausgewertet werden. Dies
erfordert neue Verfahren und Technologien, denn es werden nicht nur Fakten,
sondern auch kontextbezogenen Informationen geliefert ([SS10], S. 91).
2 Einordnung in die Wirtschaftsinformatik
10
In seiner Untersuchung von Werkzeugen für Business Intelligence klassifiziert Bange
diese in Backend (Datenbereitstellung), Frontend (Informationsgenerierung und
Informationsverarbeitung) und Querschnittsaufgaben. Dabei zählen die Analysetools,
zu denen auch das Text Mining zuzuordnen ist, zu den Frontendwerkzeugen:
"Neuerdings werden die Verfahren zur Klassifikation, Segmentierung und
Assoziierung auch auf unstrukturierten Daten im Text Mining angewendet" ([Ba06],
S. 72). Abbildung 2.8 stellt die Werkzeuge für BI und deren Klassifikation nach
Bange übersichtlich dar.
Abbildung 2.8 Klassifikation von BI Werkzeugen ([Ba06], S. 64)
Martin begründet die Notwendigkeit neuer Analyseverfahren zur systematischen
Auswertung von Big Data wie Text Mining, Textanalytik und Linguistik mit dem
Scheitern der klassischen BI-Werkzeuge an Big Data ([Ma12], S. 17). Ursachen sind
seiner Ansicht nach sind die für relationale Datenbanken zu großen Datenmengen,
ein zu langsamer ETL-Prozess (Extraktion, Transformation, Laden) in Data
Warehouses und Data Marts und die nicht vorhandene Kompatibilität zur
Datenvielfalt.
Kemper/Baars hatten 2006 in ihrem BI-Ordnungsrahmen die Verarbeitung
unstrukturierter Daten den Systemen zur Wissensdistribution und
Wissensbereitstellung in der zweiten Schicht (Logik) zugeordnet und faktisch als
Aufgabe für üblicherweise dem Wissensmanagement zugeordneten Funktionen wie
2 Einordnung in die Wirtschaftsinformatik
11
Information Retrieval und Text Mining deklariert ([KB06], S. 10 ff.). Diesen
Ordnungsrahmen haben sie 4 Jahre später dahingehend verändert, dass sie zum
einen die zweite Schicht von Logik in Informationsgenerierung / -distribution
umbenannt haben, zum anderen aber die Integration der unstrukturierten Daten aus
Content/Document Management in die Datenbasis bereits der ersten Schicht
zugeordnet haben. Baars/Kemper schlagen dabei die in Abbildung 2.9 dargestellten
Schritte zur Aufbereitung unstrukturierter Inhalte unter Verwendung von Text-Mining-
Werkzeugen für die integrierte Analyse vor ([BK08]). Hier ist zu erkennen, dass
unstrukturierte Daten mittels ihrer Metadaten durch einen ETL Prozess in das Data
Warehouse integriert werden sollen. Die Metadaten werden entweder direkt aus dem
ECM (hier Content and Document Management) extrahiert oder erst mit Text Mining
Verfahren generiert (hier Content Analysis).
Abbildung 2.9 Extracting Metadata from content and document management systems ([BK08], S. 139)
Kemper/Baars weisen allerdings auch darauf hin, dass dieser Ansatz mit einem
erheblichen manuellen Aufwand verbunden ist und mit der Einbeziehung immer
größerer Datenmengen noch wächst ([KBM10], S. 122). Die Größe des Aufwands
nimmt mit der Abnahme der Struktur von Daten und Kontext der Erstellung zu. Das
betrifft zum Beispiel die Analyse von Kundenemails oder Blogeinträgen.
Für BI-Systeme besteht die Notwendigkeit, die neuen Datenquellen und deren
Analyse, zu deren Methoden auch Text Mining gehört, wie in Abbildung 2.10 zu
integrieren. Einige Hersteller von Business Intelligence Lösungen stellen bereits Text
Mining Tools in ihren Produkten zur Verfügung. Eine Marktuntersuchung der
Zeitschrift „ERP-Management“ von 2011 kommt zu dem Ergebnis, dass 17 % der
untersuchten 47 Lösungen Text Mining-Funktionen anbieten ([ES11]).
2 Einordnung in die Wirtschaftsinformatik
12
Abbildung 2.10 Integrierte Anwendungslandschaft mit traditionellen Systemen und Big Data Lösungen ([UW12], S. 28)
Somit erweist sich die Integration von Text Mining Tools in die Analysesysteme als
wichtiger Ansatz zur Bewältigung der sich aus Big Data ergebenden neuen
Anforderungen an BI-Systeme.
2.3 Wissensmanagement und Text Mining
BI kann auch als organisationsspezifisches Konzept verstanden werden, dessen
Hauptaufgabe darin besteht Informationen zu generieren, zu speichern, zu
recherchieren, zu analysieren, zu interpretieren und im Unternehmen zu verteilen.
Ähnliche Aufgaben hat das Wissensmanagement (WM) zu erfüllen, nur steht hier
nicht die Information sondern das Wissen im Mittelpunkt. So definieren Abts/Mülder
Wissensmanagement als „den gesamten Prozess zur systematischen Gewinnung,
Strukturierung, Darstellung, Verteilung, Suche und Speicherung von Wissen.“
([AM11], S. 238). Wissen ist eine wichtige und wertvolle Ressource .In Unternehmen
spielt der gezielte Umgang mit Wissen eine zunehmend wichtige Rolle für die
Effektivität und Effizienz. Aufgabe des WM ist es, das Wissen der Mitarbeiter, das für
das Unternehmen relevant ist, zu erfassen, zu strukturieren, zur Verfügung zu stellen
und es zum Nutzen des Unternehmens zu nutzen, oder wie es Peris et al.
formulieren:
2 Einordnung in die Wirtschaftsinformatik
13
"Wissen wird zu einer immer wichtigeren und wertvolleren Ressource im Unternehmen.
Gerade bei komplexen Themen ist es hochrelevant, Expertenwissen, das oftmals als
implizites Wissen (auch »tacit knowledge«) vorliegt, zu erfassen und nachhaltig zu nutzen."
([PBN11], S. 28)
Heyer et al. definieren fünf Aufgaben des Wissensmanagement: ([HQW08], S. 2)
Aufgaben des Wissensmanagement
Erschließen von Wissen (Erfahrungen, Best Practices) für alle, die dieses im
Rahmen ihrer organisatorischen Rolle benötigen.
Verfügbarmachen von Wissen am Ort und zur Zeit der Entscheidung.
Erleichtern des effektiven und effizienten Entwickelns von neuem Wissen.
Sicherstellen, dass jeder in der Organisation weiß, wo Wissen verfügbar ist.
Umsetzen dieser Kompetenzen in neue Produkte und Dienstleistungen
Tabelle 2.1 Aufgaben des Wissensmanagement
Der Prozess des WM ist ein Zyklus, der aus mehreren Schritten besteht: er beginnt
mit der Definition von Wissenszielen und endet mit der Gegenüberstellung dieser mit
den Ergebnissen der Wissensbewertung. Die Schritte sind im Einzelnen die
Wissensgewinnung, dies Wissensstrukturierung, die Wissensdarstellung, die
Wissensverteilung, die Wissensnutzung und die Wissensspeicherung. ([AM11], S.
239 f.) Im ersten Schritt steht das Erschließen von Wissen im Vordergrund, eine
Wissensexploration mit dem Ziel, sowohl das implizite Wissen einzelner Mitarbeiter,
ganzer Kollektive aber auch das in Datenbanken und Dokumentenbeständen
enthaltene Wissen des Unternehmens zu identifizieren. Damit das Wissen in
verschiedenen Formen (z.B. semantische Netze, Taxonomien, Ontologien, Wikis,
Webportale) repräsentiert werden muss das Wissen unter Verwendung von
Schlagworten, Suchbegriffen, Hyperlinks und Ablagesystematiken geordnet und
strukturiert werden. Die Verteilung des Wissens ist die Voraussetzung für eine
unternehmensweite Nutzung dieses Wissens. Die oben genannten
Darstellungsformen werden durch den Einsatz von Internet und Intranet verbreitet
und ermöglichen so den Einsatz des Wissens durch die Mitarbeiter. Die
Wissensspeicherung hat nicht nur die Aufgabe das explizite Wissen in Datenbanken
zu speichern, sondern wacht auch über die Aktualität des Wissens, um zu
garantieren, dass veraltetes Wissen gelöscht bzw. archiviert wird.
2 Einordnung in die Wirtschaftsinformatik
14
Ähnliche Modelle beschreiben Bodendorf und Gabriel/Dittmar (Abbildung 2.10), sie
bestehen aus weniger Schritten, haben aber dieselbe prinzipielle Aussagekraft, da
auch hier der Prozess als Kreislauf und die Interaktion zwischen den einzelnen
Phasen betrachtet wird ([Bo06], S. 133 ff.),([GD01], S. 23).
Abbildung 2.11 Softwaresysteme zum WM Prozess
In Abbildung 2.11 wird der Begriff Text Mining in Bezug auf Wissensidentifikation
verwendet. Wie bereits oben erläutert, ist ein Teil des zu generierenden Wissens in
Dokumentenbeständen vorhanden, exploriert werden kann es durch Text Mining
Methoden. Heyer et al. schreiben dazu:
"Text Mining ist ein zukunftsträchtiger Ansatz zur Bewältigung von wesentlichen
Teilaufgaben des Wissensmanagements. Im Mittelpunkt steht dabei eine explorative Analyse
von Texten, mit denen die Arbeitsproduktivität von Fachkräften in wissensintensiven
Wertschöpfungsketten erhöht werden kann." ([HQW08], S. 7)
Text Mining Tools können aber auch in anderen Prozessschritten eingesetzt werden:
In der Wissensstrukturierung können diese für Klassifizierungsvorgänge und eine
Anreicherung von Wissen mit Schlagwörtern genutzt werden. Die für die
Wissensdarstellung benötigten Ontologien und Knowledge Maps können mit Hilfe
von Text Mining kreiert werden.1
1 Die zugrunde liegenden Vorgehensweisen werden in Kapitel 2.5 beschrieben.
2 Einordnung in die Wirtschaftsinformatik
15
Der WM Prozess wird durch unterschiedliche computergestützte Systeme zur
Sammlung, Organisation, Verteilung und Nutzung von Wissen unterstützt – diese
werden unter dem Oberbegriff der Knowledge Management Systeme (KMS)
subsumiert. Dieser technische Aspekt ist nur eine Betrachtungsweise des WM,
dessen Umfang wesentlich komplexer ist. Eine interessante Unterteilung in die vier
Perspektiven Tech Foundation, Consulting , Content/Info und KMS schlägt Chen
2001 wie in Abbildung 2.12 gezeigt vor:
Abbildung 2.12 KM consists of four main perspectives: Consulting, Content/Information, Technology Foundation, and Knowledge Management System (KMS). KMS includes data mining and text mining ([Ch01], S. 4)
Zu dieser Zeit war Text Mining ein noch neuer Begriff und der Fokus seines
Einsatzes lag allein auf der Analyse von unstrukturierten Datenbeständen (Daten die
vom Data Mining nicht berücksichtigt wurden). Dennoch ist zu erkennen welche
wichtige Rolle Chen dem Text Mining im WM-Kontext zumisst.
Kemper/Baars haben 2006 dem WM zugeordnete Systemkomponenten in die zweite
Schicht des BI Ordnungsrahmen eingeordnet und eine wechselseitige Integration
von Analyse- und WM-Systemen vorgeschlagen, um einerseits unstrukturierte
Datenbestände aufzubereiten und bereit zu stellen und andererseits das in Analysen
gewonnene Wissen zu verteilen (siehe Abschnitt 2.1).
Gabriel/Dittmar stellen fest, dass ein BI-System der Zukunft sich dadurch
auszeichnet, „dass es innovative und konventionelle Technologien unter einer
einheitlichen Oberfläche integriert und somit den Anforderungen des Knowledge
2 Einordnung in die Wirtschaftsinformatik
16
Management gerecht wird. Dazu zählen sie die zunehmende Integration von
strukturierten und strukturierten Inhalten ([GD01], S. 27).
Business Intelligence und Wissensmanagement werden nach Findeisen in ihrer
Bedeutung von Unternehmen unterschiedlich bewertet, aus Kostengründen wird auf
ein zusätzliches Wissensmanagementsystem oft verzichtet. Findeisen schlägt eine
Symbiose vor, um „Themen wie Text Mining, Topic Detection und Tracking, Semantic
Webs“ berücksichtigen zu können ([Fi11]).
So wie beim Gegenstand der Betrachtung zwischen Information (BI) und Wissen
(WM) unterschieden wird, liegt bei der Quellenart der Unterschied zwischen
strukturierten (BI) und unstrukturierten Daten (WM). Somit sind Text-Mining-Tools
eher den WM-Systemen zuzuordnen. Durch die Symbiose beider Systeme werden
sie aber gleichzeitig ein unverzichtbarer Bestandteil von BI Lösungen und beenden
damit das Manko alter BI-Ansätzen, nämlich eine Nichtbeachtung bzw.
Nichtverwendung von Informationen, die für diese Systeme in nicht verarbeitbarer
Form geliefert wurden.
2.4 Text Mining im Rahmen weiterer BI Anwendungsdomänen
Im folgenden Abschnitt werden Anwendungsbereiche in BI-Systemen benannt, die
vom Einsatz von Text Mining Werkzeugen profitieren können, wo also große Mengen
unstrukturierter Daten ausgewertet werden müssen. Dabei zählt das Enterprise
Content Management zum Datenhaltungskonzept, das im ersten Layer des BI-
Ordnungsrahmen beheimatet ist. Customer Relationship Management und
Competitive Intelligenz sind hingegen nach Kemper/Baars Anwendungsdomänen
des BI, die mit besonders hohen bereitgestellten Datenbeständen konfrontiert
werden([KB06], S. 15).
2.4.1 Competitive Intelligence
Wie Kemper/Baars ausführen, beschäftigt sich Competitive Intelligence (CI) aus
Unternehmenssicht mit Informationen über sein Marktumfeld und Mitbewerber.
2 Einordnung in die Wirtschaftsinformatik
17
"Competitive Intelligence bezeichnet einen systematischen, der Ethik verpflichteten Ansatz
zum Erwerb und zur Analyse von Informationen über Wettbewerber und Markttrends, um die
eigenen Unternehmensziele zu erreichen." ([KB06], S. 10)
Nach Zanasi soll CI bei der Beantwortung folgender Fragen helfen ([Za07], S. 188):
Welche Trends sind im Markt zu erkennen?
Wie ist unser Unternehmen im Markt positioniert
Wer sind die Hauptakteure im Markt?
Wie sind die Strategien und Pläne unserer Mitbewerber betreffs neuer Produkte?
Welche Zulieferer sind am günstigsten und zuverlässigsten?
Welche Technologie passt am besten zu unseren Anforderungen?
Welche Erwartungen stellen unsere Kunden an unsere Produkte?
Tabelle 2.2 Fragestellungen der Competitive Intelligence
Der Begriff weist eine lange Tradition auf und ist seit mehr als 20 Jahren im
englischsprachigen Raum etabliert. Durch die wachsende Bedeutung digitaler und
öffentlich über das Internet erhältliche Dokumente findet eine Orientierung hin zu
einer gezielten IT Unterstützung und Einbettung in BI Systeme statt.
Die Bedeutung für Unternehmen ist durch die weitere Globalisierung der Märkte
unbestritten. Bill/Michaeli haben in einer Studie die Rolle von CI in den Unternehmen
BASF Engineering Plastics Europe, Infineon AG, SIEMENS COM und Lycos Europe
GmbH untersucht. Sie stellen fest:
"Entscheidend für die Bedeutung der CI in den Unternehmen ist somit der konkrete Bedarf
an CI für Aufgaben wie Unternehmensentwicklung, Innovationsmanagement, Marktanalysen
bzw. -forschung, Marketing und Vertrieb." ([BM06], S. 81)
Dabei sollen nur öffentlich zugängliche Quellen ausgewertet werden, darauf verweist
in der Definition der Hinweis auf ethische Prinzipien Dies schließt somit Spionage
aus. Dabei bietet sich vor allem das Internet mit einer Flut von Informationen in Form
von Websites und Dokumenten an, aber auch die Plattformen des Social Web, die
mit Diskussionsforen und Kundenrezensionen wichtige Informationen über
Kundenwünsche enthalten. Weiterhin existieren für die Recherche eine Reihe von
frei zugänglichen Datenbanken wie Reuters, Chemical Abstracts, Compendex,.
Medline usw. ([Za07], S. 189 f).
2 Einordnung in die Wirtschaftsinformatik
18
2.4.2 Customer Relationship Management
Customer Relationship Management (CRM) „umfasst den Aufbau, die kontinuierliche
Pflege sowie die Kontrolle von langfristigen Kundenbeziehungen durch die
Integration von Marketing, Vertrieb und Service mithilfe von Informations- und
Kommunikationssystemen“ ([Ko08], S. 116). Auch hier hat die Weiterentwicklung des
Internet zum Social Web die Anforderungen an diese Systeme erhöht. Viele
Unternehmen haben Plattformen wie facebook oder twitter für die Pflege der
Kundenbeziehung entdeckt und möchten die entsprechenden Interaktionen und
Aktivitäten aus den Textprotokollen auswerten können. Gleiches gilt für den E-Mail
Verkehr mit Kunden. Erste Hersteller bieten bereits Lösungen für das Social CRM an
([ES12]).
Grundlage für eine aktive Pflege der Kundenbeziehungen sind Erkenntnisse über
Einschätzungen und Meinungen der potentiellen Kunden zu bestimmten Produkten
oder der Marke selbst. Neben den bekannten Studien und Kundenbefragungen
rücken hier immer mehr im Web veröffentlichte Kommentare von Kunden in den
Mittelpunkt. Der besondere Anspruch an die Analysetools liegt hier vor allem in der
Erkenntnis von Stimmungen aus dem Text. Als fortführende Literatur sind Schriften
von Ziegler zu empfehlen ([Zi06a]),([Zi06b]).
Hippner/Rentzmann zeigen in Abbildung 2.13 welche Arten von Dokumenten im
CRM Prozess im Einzelnen auftreten können:
Abbildung 2.13 Textdokumente in Kundenbeziehungen ([HR06a], S. 100)
2 Einordnung in die Wirtschaftsinformatik
19
In Tabelle 2.3 ist zu sehen, dass die Autoren drei Einsatzpotenziale im Rahmen des
CRM sehen([HR06a], S. 106).
Individualisierung Neue Informationen für die Individualisierung der
Kundenkommunikation
Effizienzsteigerung Reduktion von Streuverlusten durch gezielte Selektion für
Kommunikation
Kontrolle Genauigkeit und Aussagekraft der Erfolgsmessung steigt
durch Verfügbarkeit relevanter Kundendaten
Tabelle 2.3 Einsatzpotenziale von Text Mining im CRM
Es sei noch erwähnt, das nach einer Untersuchung der Zeitschrift „ERP
Management“ von 63 CRM Systemen im Jahr 2012 bereits 23 % dieser Systeme
Text Mining Funktionen anbieten([ES12], S. 47).
2.4.3 Enterprise Content Management
Nach Definition des internationalen Enterprise Content Management Verbands
"AIIM" umfasst Enterprise Content Management (ECM) die Technologien,
Werkzeuge und Methoden zur Erfassung, Verwaltung, Speicherung, Bewahrung und
Bereitstellung von elektronischen Inhalten im ganzen Unternehmen. Entstanden ist
dieser Begriff aus der Zusammenführung von Document Management
(unstrukturierte, digitalisierte Dokumente) und Content Management (numerische
Daten, Texte, Bilder, Grafiken, Audio). Mit ECM lässt sich der
Dokumentenlebenszyklus wie in Abbildung 2.14 steuern und überwachen.
Einsatzmöglichkeiten für Text Mining Tools ergeben sich dabei beim
Dokumentenimport (Klassifikation) und bei der Dokumentenablage
(Zusammenführung betrieblicher Informationen).
Der AIIM ordnet ECM-Komponente und Technologien in folgende Kategorien ein:
Erfassung (Capture), Verwaltung (Manage), Ausgabe (Deliver), Langfristige
Sicherung (Preserve) und Speicherung (Store). Riggert schreibt das Text Mining der
Kategorie Erfassung zu, ordnet es aber auf Grund einer eng verwendeten Definition
außerhalb der Klassifikation ein, da Text Mining im Unterschied zur Klassifikation
selbständig neue Themenkomplexe erschließen kann. In den von ihm angeführten
Beispielen findet diese Unterscheidung dann aber doch keinen Berücksichtigung
([Ri09], S. 22 f).
2 Einordnung in die Wirtschaftsinformatik
20
Abbildung 2.14 Dokumentenlebenszyklus ([Bö07], S. 17)
2.5 Die Bedeutung von Text Mining für das Semantic Web
Das Semantic Web oder auch Web 3.0 wird gemeinhin als nächste Evolutionsstufe
des Internets betrachtet. Es ist dadurch gekennzeichnet, dass Webseiten die
Bedeutung ihrer Inhalte in einer maschineninterpretierbaren Form anbieten. Dadurch
ist es möglich, „nach dedizierten Inhalten maschinenunterstützt zu suchen, Inhalte in
Relationen zueinander zu setzen“ ([Ul10], S. 6). , die im Web angebotenen Inhalte
und Dienste automatisch zu finden.
Der Aufbau des Semantic Web beruht auf maschinenlesbaren Repräsentationen von
Wissen – den Ontologien. Diese bestehen aus individuellen Elementen und den
Relationen zwischen diesen Elementen aus denen wiederum logische Ableitungen
möglich sind (siehe auch ([Bo06], S. 125 ff.). Ontologien werden durch die Web
Ontology Language (OWL) beschrieben. Diese besteht aus Klassen, Instanzen,
Eigenschaften und Operationen. Abbildung 2.15 veranschaulicht dass das Resource
Description Framework (RDF) als Datenaustauschformat und die Abfragesprache
SPARQL als Schnittstelle zu den Anwendungen dienen.
2 Einordnung in die Wirtschaftsinformatik
21
Abbildung 2.15 Struktur für Web3.0 Ressourcen ([Ul10], S. 9)
Neben den oben erwähnten neuen Möglichkeiten durch das Web 3.0 sind noch die
Semantic Wikis (Inhalt in maschinenlesbarer Form kommunizieren) und das
Collaborative Tagging (Erweitern der Webinhalte um Informationen in Form von
Beschriftungen) zu erwähnen.
Die Entwicklung des Web 3.0 hat für Unternehmen Auswirkungen. Zu einem führen
die Veränderungen im Web möglicherweise zu neuen Geschäftsmodellen oder mehr
Konkurrenz durch neue Ideen. Zum anderen können Techniken wie Semantic Wiki
und Collaborative Tagging als Enabler im Wissensmanagement wirken.
Es besteht allerdings die Frage, wie die enormen Mengen an Webdaten semantisch
annotiert werden sollen, also die Transformation von konventionellen Webseiten zu
reich annotierten Semantic-Web-Ressourcen. Dies soll unter Verwendung von
Ontologie-Editoren ermöglicht werden. „Die Tatsache, dass die Annotierung großer
Textmengen zu aufwendig ist, bleibt aber bestehen, so dass umfassendere
Aufgaben kaum realistisch machbar sind.“ ([SZ10], S. 36) Hier bestehen nun die
Chancen für Text Mining Methoden diese Probleme zumindest zum Teil zu lösen.
Neben der Eigennamenerkennung (Entity Recognition) zum Erkennen von Instanzen
und deren Zuordnung zu Klassen spielt auch die automatische
Schlüsselworterkennung (Keyword Recognition) zum Erkennen relevanter Themen in
einem Dokument eine Rolle. Zur Aufdeckung der Relationen wird die Automatische
Faktenerkennung (Fact/ Event Recognition) verwendet. Durch die Verwendung
dieser Methoden wird zumindest ein teilautomatisches Erstellen von Ontologien
ermöglicht. Beispiele für diesen Einsatz sind zu finden bei ([SZ10]).
2 Einordnung in die Wirtschaftsinformatik
22
2.6 Zusammenfassung
Das stetige Wachstum an Daten und speziell von Textdaten im sich permanent
erweiternden Unternehmensumfeld führt zur Notwendigkeit, Text Mining in Business
Intelligence Systeme zu integrieren. Dabei zeigen sich beste Einsatzmöglichkeiten im
Bereich der Competitive Intelligence, des Customer Relationship Management und
dem Enterprise Content Management. Das Wissensmanagement ist ein wichtiger
Bestandteil des BI und partizipiert von den durch Text Mining Tools eröffneten
Möglichkeiten vor allem in den Bereichen Wissensidentifikation und
Wissensdarstellung. Weiterhin wird Text Mining wird in der Gestaltung und dem
Aufbau des Semantic Web zukünftig eine wichtige Rolle spielen.
Nach der Feststellung der herausragenden Bedeutung des Text Mining im Kontext
der Betriebswirtschaft folgt im nächsten Kapitel ein Überblick über die Grundlagen
des Text Mining.
3 Grundlagen des Text Mining
23
3 Grundlagen des Text Mining
Die Möglichkeiten von Zugriff auf und die Speicherung von Information sind seit dem
Beginn des Internetzeitalters in der Mitte der 90 er Jahre enorm gewachsen. Es
lassen sich problemlos riesige Mengen von Informationen aus dem Internet
herunterladen und auf dem PC speichern. Durch die rasante Entwicklung in der
Speichertechnologie können auf diesem Weg Millionen von Internetseiten oder
hunderttausende Dokumente gespeichert werden. Dies hat zur Konsequenz, dass
ohne die Verwendung entsprechender Werkzeuge diese Informationen für den
Anwender kaum mehr erreichbar oder nutzbar sind. Die Gefahr des Information
Overload existiert erst seit der intensiven Nutzung des Internets und wird durch
weitere technologische Entwicklungen wie mobile und Cloud Computing weiter
verschärft auftreten (siehe Kapitel 2.1).
Das Problem dieser Fülle von Informationen ist also relativ neu; zuvor wurden
Informationen mühsam in Bibliotheken eingeholt, oft nur unter der Mithilfe eines
Bibliothekars oder proprietären Information Retrieval Systemen. Dagegen beginnt
heute eine Suche mit der Eingabe einer Frage in eine Suchmaschine; diese liefert
eine Liste mit relevanten Internetseiten oder entsprechenden Dokumenten. Der
Anwender wertet den Inhalt dieser aus, wählt die gewünschten Informationen zum
Speichern aus und ignoriert den Rest. Nun kann er die nächste Abfrage stellen. Aber
nicht nur Internetseiten dienen als Quellen von Informationen, sondern auch E-Mails,
lokale Dokumente oder Dateien aus dem Intranet der einer Unternehmung. Hinzu
kommen Sammlungen von Bild-, Audio- und Videodateien. All diese Dateien lassen
sich auf einer Festplatte speichern und, unter Verwendung von Dateinamen, in
Verzeichnissen organisiert. Diese Methode ist für eine überschaubare Menge von
Dateien durchaus ausreichend, genügt aber heutigen Ansprüchen kaum mehr, denn
letztlich bringt dieses Verfahren die Gefahr des Nichtauffindens von Informationen
und damit ihres Verlustes, obwohl sie doch gespeichert wurden. Für die Lösung
dieses Problems werden Software Tools benötigt, die sich der Ergebnisse der
Forschung in Information Retrieval, Natural Language Processing, Statistik,
3 Grundlagen des Text Mining
24
Künstliche Intelligenz und Informationstheorie bedienen. Diese Tools werden als Text
Mining Tools bezeichnet ([Ko06], S. 1 f.) und nachfolgend dargestellt..
In den folgenden Kapiteln werden so Definitionen und Sichtweisen auf das Text
Mining erörtert, seine Wurzeln und Zuordnung zu Fachgebieten untersucht,
verschiedene Konzepte betrachtet, der Vorgehensprozess erläutert und insgesamt
ein kurzer Überblick über statistische, mathematische und linguistische Grundlagen
des Text Mining gegeben.
3.1 Definitionsansätze des Text Mining
Die definitorischen Ansätze zum Text Mining sind vielfältig. Einführend vergleicht
Aggarwal die Unterschiede im Umgang mit strukturierten und textuellen Daten und
stellt fest: Strukturierte Daten werden mittels Datenbanksysteme verwaltet, Textdaten
hingegen, aufgrund des Mangels an Struktur, mittels Suchmaschinen. Im Gegensatz
zu Datenbankabfragen werden bei der Verwendung von Suchmaschinen
Schlüsselwörter abgefragt. Um die Effektivität und Effizienz von Suchmaschinen zu
erhöhen wurden innerhalb des Information Retrieval große Fortschritte im Bereich
von Text Clustering, Text Categorization, Text Summarization und
Empfehlungsdienste erreicht. Information Retrieval ist traditionell auf einen leichten
Zugang zu Informationen fokussiert, nicht auf deren Analyse – das ist das primäre
Ziel von Text Mining. Während das Ziel des Zugriffs auf Informationen darin liegt, die
richtige Information zur richtigen Zeit mit dem richtigen Anwender zu verbinden, sind
Text Mining Tools weiterführend in der Lage dem Anwender zu helfen, diese
Informationen zu analysieren und zu verstehen, um entsprechende Entscheidungen
treffen zu können. Andere Text Mining Tools haben die Aufgabe Textdaten zu
analysieren um interessante Muster, Trends oder Ausreißer zu entdecken ohne dass
eine Abfrage essentiell oder nötig wäre ([Ag12a], S. 2).
Diese knappe Beschreibung der Aufgaben von Text Mining Tools zeigt bereits die
große Bandbreite an Text Mining Aufgaben, die in der Literatur zu unterschiedlichen
Definitionen des Text Ming führen. Mehler/Wolff bemerken, dass „dieser einheitlichen
Problembeschreibung […] konkurrierende Textmining–Spezifikationen“
gegenüberstehen ([MW05], S. 2). Das schlägt sich auch in der Vielfalt der
3 Grundlagen des Text Mining
25
Namensgebungen in der Historie des Text Mining, wie zum Beispiel Textual Data
Mining, Text Knowledge Engineering, oder Knowledge Discovery in Texts nieder
([MW05], S. 2). Feldman.& Dagan haben 1995 den Begriff Knowledge Discovery in
Textual Databases (abgeleitet von Knowledge Discovery in Databases - KDD)
eingeführt ([FD95], S. 1). Hearst hat 1999 den Begriff Text Data Mining geprägt, aus
dem sich dann der heute verwendetet Begriff ableitet ([He99], S. 3). Entsprechend
dieser Vielzahl an Bezeichnungen existieren widerstreitende Aufgabenzuweisungen
und Definitionsansätze ([MW05], S. 2).
Mehler/Wolff differenzieren vier Perspektiven auf das Text Mining. Die erste
Sichtweise ist die, wie von Aggarwal beschriebene, Annäherung vom Information
Retrieval und beinhaltet eine Verbesserung durch Textzusammenfassungen und
Informationsextraktion ([MW05], S. 2 f.).
Als nächstes führen sie die Data Mining Perspektive auf. Sie sieht Text Mining als
eine Erweiterung des KDD auf textuelle Daten. Eine frühe Definition von Tan nimmt
diese Sichtweise auf:
"Text mining, also known as text data mining or knowledge discovery from textual databases,
refers generally to the process of extracting interesting and non-trivial patterns or knowledge
from unstructured text documents. It can be viewed as an extension of data mining or
knowledge discovery from (structured) databases. […]Text mining is a multidisciplinary field,
involving information retrieval, text analysis, information extraction, clustering, categorization,
visualization, database technology, machine learning, and data mining." ([Ta99], S. 65)
Zugleich erweitert die Definition von Tan durch den Verweis auf die
Multidisziplinarität mit benachbarten Disziplinen das Betrachtungsfeld in erheblichem
Maß.
Diese Multidisziplinarität ist die Grundlage der dritten Perspektive, der methodischen
Perspektive, die eine Methodenpluralität betont. Im Mittelpunkt stehen dabei
statistische Textanalysen wie Textkategorisierung, Textzusammenfassungen und
Informationsextraktion. Text Mining wir als eine Sammlung von Tools aus diesen
Themengebieten verstanden und ist keine selbstständige Methode. Feldman/Sanger
definieren Text Mining wie folgt:
3 Grundlagen des Text Mining
26
"Text mining can be broadly defined as a knowledge-intensive process in which a user
interacts with a document collection over time by using a suite of analysis tools." ([FS07], S.
1)
Heyer et al. verstehen Text Mining auch als Sammlung von Tools, allerdings
fokussieren sie vor allem auf die semantische und syntaktische Analyse und stellen
somit linguistische Verfahren in den Vordergrund:
"Mit dem Terminus Text Mining werden computergestützte Verfahren für die semantische
Analyse von Texten bezeichnet, welche die automatische bzw. semi-automatische
Strukturierung von Texten, insbesondere sehr große Mengen von Texten unterstützen."
([HQW08], S. 3)
Die wissensorientiert Perspektive als vierte Perspektive begründet sich vor allem in
der strikten Abgrenzung von Hearst in Bezug auf Linguistik und Information Retrieval
([MW05], S. 4).
"Text Mining is the discovery by computer of new, previously unknown information, by
automatically extracting information from different written resources. A key element is the
linking together of the extracted information together to form new facts or new hypotheses to
be explored further by more conventional means of experimentation." ([He03])
Felden wiederum erweitert diesen strengen Ansatz indem er schreibt, dass "[…]unter
Text Mining die maschinelle Entdeckung von Wissen in Textdokumenten verstanden
[wird], das, ausgenommen den Autoren, zuvor unbekannt war. Unter dem Begriff
Text Mining werden üblicherweise die Klassifikation, das Clustering sowie das
Abstracting subsumiert." ([Fe06a], S. 55). Entscheidend ist hierbei der Unterschied,
wie neues Wissen verstanden wird, nämlich als neues Wissen für den Anwender,
welches durchaus dem bekannten Wissen des Autors entsprechen kann:
"Im Gegensatz zum Data Mining sind die durch das Text Mining aufgespürten, unbekannten
Informationen nicht für jeden unbekannt. Der Autor des Dokumentes kannte die Information
und legte sie schriftlich nieder. Wichtig ist, dass die ermittelten Informationen für den
Rezipienten neu sind" ([Fe06b], S. 303)
Bei jüngeren Definitionen zeigt sich eine Vermischung der letzten beiden
Perspektiven, die vor allem die Interdisziplinarität und den Wissens– und
Informationsgewinn ohne klare Abgrenzungen unterstreichen. Als Beispiel sollen hier
die Definitionen von Kao/Poteet. und Ananiadou/McNaught dienen:
3 Grundlagen des Text Mining
27
“Text mining is the discovery and extraction of interesting, non-trivial knowledge from free or
unstructured text. This encompasses everything from information retrieval (i.e.,document or
web site retrieval) to text classification and clustering, to (somewhat more recently) entity,
relation, and event extraction”. ([KP10], S. 1)
“Text Mining is a complex, dynamic area, with many techniques and approaches being tried
out.” ([AM06b], S. 3)
Diese beiden Definitionen beschreiben aus meiner Sicht recht gut die Dynamik und
Interdisziplinarität des Forschungsgebietes Text Mining, welche im nächsten Kapitel
betrachtet wird.
3.2 Geschichte und Interdisziplinarität
„There a seven different text mining practice areas – that is, seven very different things that a
client […] could have in mind when talking about text mining.” ([Mi12], S. 30)
Miner unterteilt Text Mining in sieben Anwendungsbereiche und stellt diese in
Abbildung 3.1 dar ([Mi12], S. 31). Unterschieden werden hierbei die
Anwendungsbereiche Information Retrieval, Document Clustering, Document
Classification, Information extraction, Natural Language Processing, Concept
Extraction und Web Mining. Gleichzeitig sind die angrenzenden Forschungsgebiete
Bibliotheks- und Informationswissenschaften, Datenbanken, Data Mining, Künstliche
Intelligenz und Maschinelles Lernen, Statistik und Computerlinguistik und ihre
Überschneidungen bzw. Berührungen zu den einzelnen Gebieten zu erkennen.
3 Grundlagen des Text Mining
28
Abbildung 3.1 A Venn Diagram of the intersection of text mining and six related fields (shown as ovals) ([Mi12], S. 31)
Die sieben Bereiche und ihre Aufgabenstellungen sind Gegenstand der
nachfolgenden Tabelle 3.1 aufgelistet (nähere Erläuterungen hierzu erfolgen im
Kapitel 4 dieser Arbeit).
Bereich Aufgabenstellung
Information Retrieval Speicherung und Abruf von Text Dokumente,
Suchmaschinen und Schlüsselwortsuche
Document Clustering Gruppierung und Kategorisierung von Termen,
Textbruchstücken, Abschnitten oder Dokumenten unter
Verwendung von Data Mining Clustering Verfahren
Document Classification Gruppierung und Kategorisierung von Textbruchstücken,
Abschnitten oder Dokumenten unter Verwendung von Data
Mining Klassifikationsverfahren
Information extraction Identifikation und Extraktion relevanter Fakten und
Beziehungen; Erstellen strukturierter Daten aus
unstrukturierten und semistrukturierten Daten
Natural Language Processing Einfache Sprachverarbeitungs- und erkennungsaufgaben
(z.B. POS Tagging)
Concept Extraction Anordnung von Wörtern und Phrasen in semantisch
ähnliche Gruppen
Web Mining Data und Text Mining im Internet mit speziellen Fokus auf
die Vernetzung
Tabelle 3.1 Anwendungsbereiche des Text Mining und ihre Aufgabenstellungen
3 Grundlagen des Text Mining
29
Miners Verständnis des Text Mining ist also überaus breit angelegt. Felden stellt
hingegen fest:
"Hierfür werden Techniken aus verschiedenen wissenschaftlichen Disziplinen angewandt, zu
denen das Data Mining, das Information Retrieval, die Computerlinguistik, die Statistik sowie
Intelligente Software Agenten gehören." ([Fe06b], S. 284)
Diese Einschätzung widerspricht nicht Miners Darstellung, berücksichtigt aber im
Gegensatz dazu nur Teilaspekte, so dass in der weiteren Betrachtung Miners Modell
zu Grunde gelegt wird.
Die betonte Interdisziplinarität ist begründet in der Geschichte des Text Mining. Als
Text Mining sich als eigene Disziplin entwickelte, waren die oben aufgezählten
Anwendungsbereiche außer dem Web Mining, dass sich als ein Spezialgebiet des
Text Mining darstellt, bereits in ihren jeweiligen Fachdisziplinen etabliert. Damit lohnt
sich ein kurzer Blick auf die Geschichte der einzelnen Disziplinen.
Die Geschichte von Information Retrieval beginnt bereits in den 60ern, als erste
Computersysteme zu Verwaltung von unstrukturiertem Text gebaut wurden. Als in
den 80ern PCs auf diese System zugreifen konnten, hatte sich am Anfangsprinzip
des Verfahrens nichts geändert: Es wurden mittels Schlüsselwörtersuche Dokumente
gefunden. Ein Schlüsselwort ist ein Nomen oder eine Phrase, die in einem Dokument
auftreten. Erfahrene Anwender mit einem entsprechenden Expertenwissen über
themenbezogene Begriffe und Boolesche Operatoren fanden die relevanten
Informationen schnell. Bis in die Mitte der 90er Jahre wurden die Systems vor allem
in Hinblick auf Leistung und Konnektivität weiterentwickelt. Mit der rasanten
Entwicklung des Internet bekam Information Retrieval den anwenderfreundlicheren
Namen Suchmaschine, die Funktionen blieben aber die gleichen. Forscher arbeiten
unter Verwendung einfachen Sprachverarbeitungstechniken und
Empfehlungsdiensten an der Vereinfachung der Formulierung der Anfrage ([Ko06],
S. 4 f.).
Hierbei existieren zwei sich ähnelnde Prozesse, um auf Informationen aus einer
Dokumentensammlung zu gewinnen. Eine davon ist das oben beschriebene
Information Retrieval, das andere Information Extraction, welches bestimmte
Informationen aus Dokumenten extrahiert. Um dies erreichen zu können, ist es nötig
um die Menge des zu durchsuchenden Texts zu minimieren, den Inhalt in irgendeiner
3 Grundlagen des Text Mining
30
geeigneten Form zusammenzufassen. Um dies zu erreichen gab es in drei Bereichen
Entwicklungen: in den Bibliothekswissenschaften, in den Informationswissenschaften
und in der Computerlinguistik. Die Bibliothekswissenschaften beschäftigten sich in
diesem Zusammenhang mit der Indexerzeugung und der automatischen Erstellung
von Abstracts. Gegenstand der Forschung der Informationswissenschaften war die
Erstellung von Verknüpfungen zwischen Dokumenten, wie zum Beispiel von
Zitatverweisen. Im Bereich des NLP wurden in den 80er Jahren domänenabhängige
Parsing und Stemming Algorithmen entwickelt. Der Begriff Information Extraction
wurde 1987 im Rahmen der Message Understanding Conference vorgestellt (siehe
auch Kapitel 4.4) ([Mi12], S. 4 ff.).
Wie in Kapitel 3.1 erörtert bedient sich Text Mining auf Grund seiner
Entstehungsgeschichte vieler Algorithmen und Verfahren des Data Mining. Es
existieren ähnliche Aufgabenstellungen, der Unterschied besteht vor allem in der Art
der untersuchten Daten, da Data Mining sich im Gegensatz zu Text Mining mit
strukturierten Daten beschäftigt.
Zusammenfassend lässt sich konstatieren, dass viele Techniken und Algorithmen,
die heute auch dem Text Mining zuzurechnen sind, schon weit vor der Prägung des
Begriffs Text Mining entwickelt wurden. Daraus folgt ein hoher Grad an
Interdisziplinarität.
3.3 Konzepte im Rahmen des Text Mining
3.3.1 Dokumentensammlung und Dokument
Ausgangspunkt für Text Mining Prozesse sind die zu untersuchenden
Dokumentensammlungen. Im einfachsten Fall ist eine Dokumentensammlung eine
beliebige Gruppierung von Textbasierten Dokumenten. Die Anzahl der enthaltenen
Dokumente ist beliebig und kann von einigen Tausend bis zu vielen Millionen
reichen. Man kann in statische und dynamische Dokumentensammlungen
unterscheiden. Diese unterscheiden sich in der Frage, ob neue oder veränderte
Dokumente in die Untersuchung einbezogen werden sollen. Dabei kann eine hohe
Veränderungsrate von Dokumenten eine Optimierung für verschiedene
Komponenten des Text Mining Systems erfordern ([FS07], S. 2).
3 Grundlagen des Text Mining
31
Als Beispiel für eine Dokumentensammlung nennen Feldman/Sanger die Meta-
Datenbank PubMed, die durch das nationale Zentrum für Biotechnologische
Informationen (NCBI) entwickelt wurde. PubMed ist ein Online-Service der einen
Zugriff auf medizinische Artikel bezogen auf den gesamten Bereich der Biomedizin
ermöglicht. Für Forscher auf dem Gebiet des Text Mining ist diese
Dokumentensammlung deshalb von so große Bedeutung, weil sie mehr als 12
Millionen Forschungsberichte (Stand 2007) enthält. Der Publikationszeitraum dieser
Dokumente erstreckt sich von 1966 bis in die Gegenwart und monatlich kommen ca.
40000 neue Dokumente hinzu ([FS07], S. 2).
Text Mining Systeme können diese Dokumentensammlungen nicht direkt
verarbeiten. Vielmehr müssen Operationen für eine Datenvorverarbeitung ausgeführt
werden. Dabei werden verschiedene Techniken aus den Bereichen Information
Retrieval, Information Extraction und NLP verwendet, um aus den unstrukturierten,
original formatierten Inhalten einen temporäres strukturierten Datenformat zu
erzeugen. Diese so erstellten Zwischenrepräsentationen der Dokumente sind die
Grundlage für die eigentlichen Text Mining Operationen ([FS07], S. 2 f.).
Ein weiteres Grundelement des Text Mining ist das Dokument selbst. Ein Dokument
kann in den unterschiedlichsten Formen auftreten: Geschäftsberichte, Memos, E-
Mails, Forschungsberichte, Manuskripte, Artikel, Pressemitteilungen und
Nachrichten. Obwohl Textdokumente als unstrukturierte Daten anzusehen sind,
beinhalten sie aus linguistischer Perspektive sowohl eine semantische als auch
syntaktische Struktur. Oft haben diese Dokumente auch eine inhaltliche Struktur wie
Kapitel, Abschnitte oder auch den Namen des Autors, Kopf- und Fußzeilen und
Fußnoten. Dokumente, die bereits mit Metadaten versehen sind, wie zum Beispiel
HTML Dateien, XML Dateien oder PDF Dateien gelten zumindest als
semistrukturiert, erfüllen aber auch nicht dem Anspruch strukturierter Daten. Da
diese Datenform für den Text Mining Prozess benötigt wird ist eine strukturierte
Repräsentation der Dokumente durch den Vorgang der Merkmalsselektion notwendig
([FS07], S. 3).
3.3.2 Merkmalsselektion
In der Datenvorverarbeitungsphase werden durch verschiedene Vorgänge (siehe
Kapitel 3.4) viele verschieden Elemente aus einem natürlich sprachigen Dokument
3 Grundlagen des Text Mining
32
von einer unstrukturierteren Repräsentationsform in eine strukturierte Form
transformiert. Eine zentrale Aufgabe für den Einsatz von Text Mining Systemen
besteht hier in der Identifikation eines Satzes von Dokumentmerkmalen, die den
Inhalt des Dokuments ausreichend beschreiben. Dieser Vorgang heißt
Merkmalsselektion oder Merkmalsextraktion (feature selection, feature extraction)
Die Anzahl dieser Merkmale ist gewöhnlich sehr hoch und für die weitere
Verarbeitung ein limitierendes Problem. Weiterhin ist für diese Art der Repräsentation
eine geringe Datendichte festzustellen, denn nur ein geringer Anteil der Merkmale
eines Dokuments kommt in mehreren Dokumenten vor. Wird ein Dokument durch
einen binären Vektor dargestellt, so sind dann die meisten Elemente Null ([FS07], S.
4).
Der Vorgang der Merkmalsselektion spielt für die Weiterverarbeitung eine große
Rolle, da die Operationen der Text Mining Algorithmen auf die merkmalsbezogene
Darstellung zugreifen. Die Auswahl der Anzahl und der Art der Merkmale ist ein
Kompromiss zwischen ausreichend genauer Wiedergabe des kompletten Inhalts
eines Dokuments und der Effizienz und Korrektheit der Analyse ([FS07], S. 5).
Übliche Merkmale sind Zeichen, Wörter, Terme und Konzepte (Schlüsselwörter).
Diese Merkmale sind in bei Feldman/Sanger ([FS07], S. 5 f.) ausführlich
beschrieben, wobei die Autoren die Verwendung von Konzepten empfehlen, da sie
am besten auch semantische Inhalte weitergeben können. Konzeptbasierte
Repräsentationen können allerdings im Gegensatz zu termbasierten
Repräsentationen nicht automatisch erzeugt werden und sind zumeist
domänenabhängig. Sie werden im Vektorformat gespeichert ([FS07], S. 7).
Ebenso komm der Auswahl der zu berücksichtigen Merkmale von Dokumenten einer
Dokumentensammlung eine wichtige Rolle für den weiteren Verarbeitungsprozess
zu, da diese entscheidenden Einfluss auf die Geschwindigkeit der Verarbeitung und
die Qualität der Ergebnisse haben. Ausführliche Ausführungen zur
Merkmalsselektion findet man bei Miner und Weiss et al. ([Mi12], S. 29 ff.), ([WIZ12],
S. 35).
3 Grundlagen des Text Mining
33
3.3.3 Benutzeroberfläche
Die am meisten verbreitetste Art der Ergebnispräsentierung in Text Mining Systeme
ist ein Browser. Die Ergebnismenge ist meist sehr groß, so dass eine Navigation
zwischen den einzelnen Konzepten oder Dokumenten auf einfache Art und Weise
möglich sein muss. Visualisierungstools spielen eine immer größere Rolle, da es mit
ihnen möglich ist, auf einfachem Weg Muster zu erkennen. Beziehungen zwischen
den Schlüsselwörtern sind so besser erkennbar. Ursprünglich wurden nur statische
Grafiken angeboten, die Entwicklung führt aber hin zu interaktiven Grafiken wie in
Abbildung 3.2 zu sehen ist. Hier ist es für den Anwender möglich durch einfache
Mausklicks mit der grafischen Darstellung zu interagieren. Eine weitere Entwicklung
ist die Bereitstellung Abfragesprachen für den Anwender. Einige Text Mining
Systeme bieten die Möglichkeit an, eigene Abfragedialoge zu kreieren ([FS07], S. 10
f.).
Ontologien sind nicht nur eine Informationsquelle für semantische Analyseverfahren
([HW06], S. 25 ff.) oder Ergebnisse von Text Mining Projekten ([SZ10], S. 35 ff.)
sondern nach Bloehdorn et al. bieten sie dem Anwender die Möglichkeit mittels einer
ontologischen Benutzeroberfläche, in Text Mining Prozesse interaktiv einzugreifen
([BCH05], S. 87 ff.)
Abbildung 3.2 Example of a visualization tool - mapping concepts (keywords) within the context of categories by means of a category graph ([FS07], S. 11)
3 Grundlagen des Text Mining
34
Weitere Visualisierungsmöglichkeiten wie Histogramme, Self-Organizing Maps,
Baumdarstellungen und andere werden in ([FS07], S. 189 ff.) und ([He09], S. 281 ff.)
vorgestellt.
3.4 Modelle zur Vorgehensweise
Die einfachste, abstrakte Darstellung eines Text Mining Systems ist in Abbildung 3.3
zu sehen. Eingabemenge ist hier eine Dokumentensammlung und als Ergebnis
erhält man Muster, Verbindungsgraphen oder Trends. Der Anwender kann in den
Prozess eingreifen, indem nach der Sichtung der ersten Ergebnisse mittels eines
Browsers neue Abfragen definiert oder die Randbedingungen verändert werden
können, um dann einen erneuten Analysevorgang auszulösen. Diese stark
vereinfache Darstellung ist als Grundmodell für die weiteren Betrachtungen zu sehen
([FS07], S. 13).
Generell beruht der Aufbau eines Text Mining Systems nach Feldman/Sanger auf
den gleichen Prinzipien eines klassischen Data Mining Systems und wird in vier
Bereiche eingeteilt: Datenvorverarbeitungsphase, Core Mining Operationen,
Präsentationsschicht und Präzisionstechniken.
Abbildung 3.3 Iterative loop for user input and ouput ([FS07], S. 14)
Die Aufgaben der Datenvorverarbeitungsphase enthalten alle Routinen, Prozesse
und Methoden, die für eine Vorbereitung der Daten auf die eigentlichen Text Mining
Operationen notwendig sind. Dabei werden die Informationen der originalen
Datenquellen einer Dokumentensammlung so verarbeitet, dass sie in eine neue, von
3 Grundlagen des Text Mining
35
den Core Mining Operationen verarbeitbaren termbasierte oder konzeptbasierte
Repräsentation umgewandelt werden. Core Mining Operationen sind die
Kernprozesse eines Text Mining Systems, wie zum Beispiel die Musterentdeckung.
Höher entwickelte und domänenorientierte Text Mining Systeme greifen hier zur
Qualitätserhöhung ihrer Prozesse auf Wissensressourcen wie Taxonomien oder
Ontologien zu. In der Präsentationsschicht wird durch eine GUI eine
Browserfunktionalität für Abfragen zur Verfügung gestellt. Weiterhin gehören sowohl
Visualisierungstools als auch dialoggeführte Abfrageeditoren und –optimierer zu
dieser Schicht. Konfigurationen sind in der Benutzeroberfläche einstellbar und es
besteht die Möglichkeit, diese Einstellungen abzuspeichern. Die Präzisionstechniken
oder auch Postprozessoren enthalten Methoden, die redundante Informationen filtern
und die Ergebnisse optimieren ([FS07], S. 13 ff.).
Abbildung 3.4 Der Prozess des Text Mining ([HR06b], S. 288)
Hippner/Rentzmann schlagen, wie in Abbildung 3.4 zu sehen, ein differenziertes
Modell mit insgesamt sechs Prozessschritten vor. Der erste Schritt ist die
Aufgabendefinition. Dort wird die Problemstellung festgelegt und daraus die Text
Mining Ziele abgeleitet. Im nächsten Schritt, der Dokumentselektion, werden für die
Zielsetzung relevanten Dokumente identifiziert. In der darauffolgenden
Dokumentenaufbereitung werden, wie im Kapitel 3.3.2 beschrieben, mittels
Merkmalsextraktion neue, strukturierte Repräsentationen der Dokumente erzeugt.
Die nächste Phase ist die eigentliche Mining Phase, die Dokumente werden
klassifiziert, gruppiert und/ oder analysiert (siehe Kapitel 4). Im fünften Schritt werden
handlungsrelevante Ergebnisse herausgefiltert und bewertet. Zuletzt erfolgt die
Anwendung der Ergebnisse wie in Kapitel 5 dieser Arbeit beschrieben ([HR06b]).
3 Grundlagen des Text Mining
36
Abbildung 3.5 Text Mining Prozess ([Si06], S. 44)
Sullivan unterscheidet 4 Prozessschritte und ordnet diesen die nutzbaren
Technologien zu, wie in Abbildung 3.5 zu sehen ist. In der ersten Phase wird mittels
Information Retrieval aus einer großen Menge von Dokumenten eine Teilmenge
relevanter Dokumente gewonnen. Ziel ist es dabei, irrelevante Dokumente zu
eliminieren, um den gesamten Text Mining Prozess zu beschleunigen. Die
Vorverarbeitungsphase wird mit Verfahren der Computerlinguistik, statistischen
Verfahren und unter Verwendung möglicher vorhandener Makrostrukturen
durchgeführt. Ergebnis dieses Vorgangs sind strukturierte Daten, die zur
Weiterverarbeitung im dritten Schritt, Bewertung und Selektion, zur Verfügung
stehen. Diese werden dort Themengebieten zugeordnet und mit ähnlichen
Dokumenten gruppiert. Im letzten Schritt finden dann Mustererkennung und
Informationsextraktion statt. ([Su01], S. 324 ff.)
Allen drei Prozessmodellen ist gleich, dass die Datenvorverarbeitungsphase eine
entscheidende Rolle spielt. Dort werden Techniken des Natural Language
Processing verwendet für die morphologische, Syntaktische und semantische
Analyse zur Termextraktion verwendet (siehe Kapitel 4.7 dieser Arbeit).
Unterschiedlich bewertet werden jeweils Start und Endpunkt des Prozesses als auch
die Zuordnung der eigentlichen Mining Verfahren zu den einzelnen Prozessschritten.
3 Grundlagen des Text Mining
37
3.5 Algorithmen und Techniken
Die im Rahmen des Text Mining verwendeten Algorithmen und Techniken sind von
großer Zahl. Sie beruhen auf verschiedenen statistischen, mathematischen und
linguistischen Grundlagen und sind gut dokumentiert. Eine ausführliche Darstellung
der zur Verfügung stehenden Algorithmen ist nicht Gegenstand dieser Arbeit. Einen
guten Überblick geben Konchady und Weiss et al. in ([Ko06]) und ([WIZ12]). Des
Weiteren sind die Schriften von Aggarwal et al. und Banchs zu empfehlen ([Ag12]),
([Ba13]).
Eine Übersicht über eine kleine Auswahl der wichtigsten Algorithmen bietet Miner in
Tabelle 3.1.
Algorithmus Anwendungsgebiet
Naïve Bayes Document Classification
Conditional random fields Information Extraction
Hidden Markov models Information Extraction
k-means Clustering
Singular value decomposition (SVD) Document Classification, Clustering
Logistic regression Document Classification
Decision trees Document Classification
Neural network Document Classification
Support vector machines Document Classification
MARSplines Document Classification
Link analysis Concept Extraction
k-nearest neighbors Document Classification
Word clustering Concept Extraction
Regression Classification
Tabelle 3.2 In Text Mining verwendete Algorithmen und ihre Anwendungsgebiete ([Mi12], S. 34)
Eine Zusammenfassung des Kapitels Grundlagen bietet sich nicht an, da in den
vorangegangenen Kapiteln eine erhebliche Verdichtung an Informationen bereits
stattgefunden hat. Die Aufgabenstellungen für die in Kapitel 3.3 erwähnten
Anwendungsbereiche werden im nächsten Kapitel behandelt.
4 Anwendungsbereiche von Text Mining
38
4 Anwendungsbereiche von Text Mining
Die Unschärfe der Definition von Text Mining basierend auf seiner Interdisziplinarität,
seiner Herkunft aus verschieden Forschungsgebieten und der rasanten
Entwicklungen in der Informationstechnologie in Bezug auf Rechenleistung,
Speicherplatz, Netzwerke und Datenvielfalt erschweren eine Begrenzung der
Aufgabenstellungen und der jeweils zugeordneten Funktionen deutlich. Dabei
beinhaltet Text Mining selbst eine Reihe von Funktionen, deren Bereiche in diesem
Kapitel vorgestellt werden. Zunächst wird eine Übersicht in die Diskussion eingeführt,
die die Meinungen verschiedener Autoren vergleicht und so einen Überblick über die
Weite des Aufgabenfeldes bietet.
4.1 Themen des Text Mining
Eine sehr pragmatische Übersicht von Aufgaben des Text Mining geben
Cohen/Hersh, indem sie aus der Sicht der biomedizinischen Forschung
Anforderungen an diese Technologie stellen ([CH05]). Sie skizzieren die
Problemstellungen der Biomedizin, die vor allem aus der riesigen Menge von
Dokumenten, deren rasantem Wachstum und einer nicht vernetzten Herkunft aus
unterschiedlichen hoch spezialisierten Fachgebieten bestehen. Ziel der
biomedizinischen Forschung ist es, entdecktes Wissen in die medizinische Praxis in
Form von Diagnosen, Vorsorge und Interventionen zu überführen. Dieses Wissen,
über viele Dokumente ohne Verknüpfungen verteilt, kann nicht ohne eine technische
Lösung genutzt werden.
Die Autoren sehen einen Lösungsansatz im Einsatz von Text Mining Tools, um die
Forscher bei dem Umgang mit Information Overload zu unterstützen. "Text mining
and knowledge extraction are ways to aid researchers in coping with information
overload." ([CH05], S. 58) Sie grenzen Text Mining sowohl von Information Retrieval
(IR) und Text Summarization (TS) als auch vom Natural Language Processing ab.
4 Anwendungsbereiche von Text Mining
39
„The goal of biomedical text mining is therefore to allow researchers to identify
needed information more efficiently, uncover relationships obscured by the sheer
Volume of available information, and in general shift the burden of information
overload from the researcher to the computer by applying algorithmic, statistical and
data management methods to the vast amount of biomedical knowledge that exists in
the literature as well as the free text fields of biomedical databases.” ([CH05], S. 58)
Als konkrete Aufgabe definieren sie dann Entity Recognition, Text Classification,
Relationship Extraction, Synonym und Abbreviation Extraction und Hypothesis
Generation. Während die Begriffe Entity Recognition und Relationship Extraction
heute dem Feld der Information Extraction (IE) zugeordnet werden, ist Synonym und
Abbreviation Extraction dem Natural Language Processing (NLP) zugehörig.
Hotho et al. sehen in ihrem Text Mining Ansatz Natural Language Processing und
Information Retrieval nicht als Funktionsbereich, sondern nur als benachbarten
Forschungsbereich und Quelle für zu verwendete Techniken. Sie erweitern die
Funktionspalette um das Document Clustering und Document Classification unter
Berücksichtigung der Erfahrungen des Data Mining ([HNP05], S. 30ff.).
Ananiadou/McNaught fokussieren anders: „text mining comprises three major
activities: information retrieval[…]; information extraction[…]; and data mining, to find
associations among the pieces of information extracted from many different texts.”
([AM06a], S. 1). Es ist anzunehmen, dass sie dabei primär das Clustering als ein
Teilbereich des Data Mining meinen.
Hotho et al. hatten die Bereichen Text Streams (unter der Bezeichnung topic
tracking) und Text Summarization noch als zukünftige Text Mining Betätigungsfelder
gesehen. Konchady erweitert seine Funktionsaufzählung um jenes Text
Summarization und Text Streams (als Information Monitor bezeichnet), aber auch
um Question & Answer ([Ko06], S. 23 ff.). Er betont, dass einige dieser Funktion
streng genommen nicht der Text Mining Definition zugeordnet werden können. Dabei
verzichtet er auf den Begriff Information Retrieval und ersetzt ihn durch Search als
Weiterentwicklung von Information Retrieval.
Feldman/Sanger hingegen beschränken sich auf die Kernfunktionen Information
Extraction, Text Categorizing und Document Clustering ([FS07], S. X).
4 Anwendungsbereiche von Text Mining
40
Berry/Kogan führen erstmals den Begriff des Text Streams in ihrer
Zusammenfassung der Beiträge vom Workshop der SIAM Ninth International
Conference on Data Mining im Mai 2009 auf ([BK10]). In den Berichten zu den
Workshops dieser Konferenzen in den Jahren 2003 und 2007 hat Berry ([Be04]),
([BC08]) Clustering, Classification, Information Extraction, Information Retrieval und
Trend bzw. Anomaly Detection als Hauptthemengebiete bezeichnet.
Weiss führt zu den Kernfunktionen noch den Begriff Prediction (Prognose) für Text
Categorization ein ([We05], S. 48). Weiss et al. behandeln in ([WIZ12]) die vier
Gebiete Document Classification, Clustering and Organizing Documents, Information
Retrieval und Information Extraction. Hinzu kommt eine gesonderte Betrachtung von
Prediction und Evaluation im Rahmen von Text Mining Problemen.
Hoth
o
([H
NP
05
])
An
an
iad
ou
([A
M06
a])
Ko
ncha
dy
([K
o0
6])
Feld
ma
n
([F
S0
7])
Be
rry
([B
K1
0])
We
iss
([W
IZ1
2])
Ag
ga
rwa
l
([A
g1
2a
])
Min
er
([M
i12
])
Jahr 2005 2006 2006 2007 2010 2012 2012 2012
Information Retrieval O O2
O O
Information Extraction O O O O O3 O O O
Data Mining O
Document Classification O O4 O5 O O O O
Document Clustering O O O O O O O
Text Streams O6 O7 O O
Text Summarization O8 O O9 O10
Question & Answer O
Prediction O
Multimedia O
NLP O
Web Mining O11 O
Anomaly/Trend Detection
O Tabelle 4.1 Übersicht über Funktionsbereiche des Text Mining
2 Search
3 Text Extraction
4 Categorization
5 Text Categorization
6 Topic Tracking, Prognose für eine zukünftige Entwicklung
7 Information Monitor
8 Prognose für eine zukünftige Entwicklung
9 Sentiment Analysis wird explizit aufgeführt
10 Text Summarization wird auch wie Sentiment Analysis dem Bereich Concept Extraction zugeordnet
11 Social Media / Opinion Mining
4 Anwendungsbereiche von Text Mining
41
In Tabelle 4.1 ist zu sehen, wie verschiedene Autoren im Lauf der Zeit die Aufgaben
und Funktionen des Text Mining Ansatzes unterschiedlich bewertet haben.
Aggarwal bringt wie Konchady Text Summarization wieder in die Diskussion ein und
erweitert die betrachtete Datenbasis um Mulimediadaten vernachlässigt aber das
Thema Information Retrieval ([Ag12a]).
Miner spricht von sieben Anwendungsbereichen des Text Mining und ergänzt die
Auflistung von Konchady unter Auslassung von Text Streams und Question &
Answer um Web Mining und NLP ([Mi12], S. 31 f.). Gerade letzte Einstufung sorgt für
Diskussionen, aber da nach Miner typische Text Mining Projekte in der Praxis
Techniken von mehreren Bereichen in sich vereinen, ist nach seiner Auffassung eine
differenzierende Betrachtung von linguistischen Ansätzen gerechtfertigt. Diese
Haltung ist leitend für die in diesem Kapitel weiteren Betrachtungen.
Abbildung 4.1 Entscheidungsbaum zum Auffinden des Anwendungsbereichs in Hinblick auf Text
Ressource und Projektziel ([Mi12], S. 33)
Um die Vielfalt der Anwendungsbereiche bewältigen zu können, sind
Entscheidungshilfen nötig. Abbildung 4.1 zeigt einen Entscheidungsbaum mit dessen
4 Anwendungsbereiche von Text Mining
42
Hilfe man aus einer Aufgabenstellung heraus den passenden Anwendungsbereich
identifizieren kann.
Im ersten Schritt geht es um die Frage der Art der Textressource, die betrachtet
werden soll. Dabei wird der Begriff Dokument erweitert auf alle Arten von definierten
Texteinheiten wie auch Absätze, Sätze oder Tweets. Die folgende Frage bezieht sich
in beiden Fällen auf den Fokus des einzusetzenden Algorithmus: ist das Ziel das
Auffinden bestimmter Wörter und Dokumente oder eine Charakterisierung des
ganzen Sets. In Konsequenz bedeutet dies für die Dokumente eine Unterscheidung
in Suchen (IR) oder Sortieren, bei Wörtern in Finden bestimmter Informationen (IE)
oder Interpretation. Das Sortieren von Dokumenten wird unterschieden durch die
Frage nach dem Vorhandensein von Sortierkriterien. Sind solche Kategorien nicht
vorhanden liegt der Anwendungsbereich Document Clustering vor. Im anderen Fall
unterscheidet der Autor in Abhängigkeit von einer losen oder verlinkten
Dokumentsammlung in Document Classification oder Web Mining. Die letzte Frage
bezieht sich auf den Umstand, ob sich das Interesse des Anwenders auf die
Semantik (Concept Extraction) oder die Syntax bezieht (NLP).
Thema Anwendungsbereich
Keyword Search IR
Inverted Index IR
Document Clustering Document Clustering
Document Similarity Document Clustering
Feature Selection Document Classification
Dimensionality Selection Document Classification
Web Crawling Web Mining
Web Analytics Web Mining
Entity Extraction IE
Link Extraktion IE
Part Of Speech Tagging NLP
Tokenization NLP
Question Answering NLP
Topic Modeling Concept Extraction
Tabelle 4.2 Text Mining Themen Anwendungsbereichen zugeordnet nach ([Mi12], S. 34)
4 Anwendungsbereiche von Text Mining
43
Für einige klassische Fragestellungen ist in Tabelle 4.2 eine Übersicht
zusammengestellt, welche den Zusammenhang zwischen Thema und passenden
Anwendungsbereich illustriert.
In den nächsten Kapiteln werden einige Funktionsbereiche in den Bezeichnungen
nach Miner dargestellt. Bei der Betrachtung der einzelnen Punkte wird vorausgesetzt,
dass der Vorverarbeitungsprozess (siehe Kapitel 3.4) bereits erfolgt ist.
Auf Grund der Fülle und der Vielfalt der jeweils betrachteten Themen kann im
Rahmen dieser Arbeit nur ein kurzer Überblick über die charakteristischen Elemente
der einzelnen Themen gegeben und auf weiterführende Literatur verwiesen werden.
4.2 Document Classification
Miner versteht Document Classification als einen Prozess, Dokumente in zwei oder
mehrere Kategorien einzuteilen. Die einfachste Form ist die binäre Klassifikation.
Hier werden alle Dokumente einer betrachteten Sammlung genau zwei Kategorien
zugeordnet. Document Classification ist oft der erste Schritt in Vorbereitung weiterer
Text Mining Prozesse um eine Vorselektion der Dokumente aus einer Sammlung
vorzunehmen, kann aber auch als ein abgeschlossener Vorgang genutzt werden.
Das Ziel der Klassifikation besteht hier nicht in der Gewinnung von Information aus
den Dokumenten, sondern nur in deren Zuteilung zu einer Kategorie. Dabei gibt es
folgende grundsätzliche Vorgehensweise: Zuerst werden Eigenschaften der
Dokumente ausgewählt, die diese im betrachteten Kontext ausreichend beschreiben.
Danach werden die Dokumente auf diese Eigenschaften untersucht und in
Kategorien eingeordnet. Man unterscheidet hier zwischen einer binären
Klassifikation, die eine Einteilung in zwei Klassen bedeutet, und multiplen
Klassifikationen, deren Ergebnis eine Einteilung in mehrere Klassen oder eine
Hierarchie von Klassen ist. Ein einfaches Beispiel für die binäre Klassifikation ist die
Unterscheidung von email Nachrichten in „spam“ und „not spam“. Das gegenteilige
Beispiel ist eine Sortierung von Dokumenten in eine Ordnerstruktur. Grundsätzlich ist
diese Klassifikation ein analytischer Prozess, der einem zu untersuchenden
Dokument eine Klasse aus einem festgelegten Klassenkatalog zuordnet. Er bedient
4 Anwendungsbereiche von Text Mining
44
sich dabei statistischer Modelle, die Anwendung von regelbasierten Systemen ist
aber ebenfalls möglich ([Mi12], S. 881 ff.).
Der erste Schritt der Klassifikation besteht aus der Festlegung der Anzahl und der
Ordnung der Kategorien, denen die Dokumente zuzuordnen sind. Die Kategorien
sind so auszuwählen, dass deren Anzahl in ausreichendem Maße differenzierend
wirkt. Es ist zu klären, ob die gewählten Kategorien flach oder hierarchisch
organisiert sein sollen. Außerdem ist festzulegen, ob die Dokumente genau einer
oder mehrerer Kategorien zu geordnet werden sollen. Danach ist eine Zuordnung der
Merkmale eines Dokuments zu den Kategorien erforderlich. Die Merkmale können
sowohl bestimmte Eigenschaften des Dokuments wie Titel, Größe oder Dateinamen
als auch das Auftreten von Schlüsselwörtern im Text sein. Dieser Vorgang wird als
Feature Extraction (Merkmalsextraktion) bezeichnet und bestimmt den Umfang und
die Ziele der Datenvorverarbeitungsphase mit. Nach der
Datenvorverarbeitungsphase existiert dann für jedes Dokument ein numerischer
Merkmalsvektor. Diese Vektoren sind die Grundlage für Nutzung von
Klassifikationsalgorithmen, die ursprünglich für strukturierte Daten entwickelt wurden.
Die beiden bekanntesten Algorithmen für die Klassifizierung sind der naive Bayes
Klassifikator und die logistische Regression (oder Maximum Entropy Klassifikator).
Beide Klassifikatoren sind sogenannte supervised Klassifikatoren (überwachtes
Lernen) und benötigen für jede Kategorie einen Zuordnungsfall. Ein binärer
Klassifikator, der nach Konchady eine wichtige Rolle spielt, da er derzeit die
exaktesten Ergebnisse liefert, ist die Support Vector Machine (SVM). Jede Kategorie
hat einen separaten Klassifikator und die Dokumente werden auf jede Kategorie
einzeln geprüft12.
Zusammenfassend kann man sagen, dass Document Classification Text und
Dokumente vordefinierten Kategorien zuordnet. Wenn diese Kategorien nicht
vordefiniert werden, sondern automatisch generiert werden sollen, spricht man vom
Document Clustering. Dieses Verfahren wird im nächsten Kapitel betrachtet.
Document Classification ist eine der ältesten Disziplinen des Text Mining und basiert
auf umfangreiche Quellen, von denen hier einige aufgeführt sind: ([AC12a], S. 163
12
Weiterführende Ausführungen zu SVM sind zusätzlich zu den Angaben von Tabelle 4.3 in Berry und Kogan 2010, Bügel et al. 2009, Kao und Poteet 2010, Srivastava und Sahami 2009 und Ziegler 2012 zu finden.
4 Anwendungsbereiche von Text Mining
45
ff.), ([Ba13], S. 237 ff.), ([Br04]), ([HNP05], S. 30 ff.), ([FS07], S. 64 ff.), ([Ko06], S.
299 ff.), ([MRS09], S. 234 ff.), ([Mi12], S. 881 ff.), ([WIZ12], S. 43 ff.) und ([Ru10], S.
85 ff.)
4.3 Document Clustering
Das Clustering oder die Clusteranalyse ist nach Miner die älteste Technologie des
Text Mining und hat seine Wurzeln in einem militärischen Dokumentenabfragesystem
im 2. Weltkrieg und umfasst begrifflich einen Prozess einer automatischen
Identifizierung von ähnlichen Elementen um sie in sogenannten Clustern zu
gruppieren. Das Ziel vom Document Clustering besteht in der Gruppierung von
Dokumenten mit ähnlichem Inhalt ([Mi12], S. 959 ff.). Dabei kann das Document
Clustering sowohl als ein abgeschlossener Vorgang als auch als Bestandteil des
Datenvorverarbeitungsprozesses .eingesetzt werden
Clustering ist eine Methode des Unüberwachten Lernens (unsupervised learning), es
werden keine Trainingsbeispiele benötigt. Unüberwachtes Lernen ist hier nicht so
leistungsstark wie Überwachtes Lernen, aber vielseitiger einsetzbar. Im Text Mining
werden Clustering Algorithmen verwendet, um ähnliche Dokumente oder bestimmte
Wörter zu finden. Werden Dokumente mittels Clustering analysiert wird dieser
Vorgang Document Clustering genannt. Sind Wörter Gegenstand des Prozesses
nennt man diesen unter Berücksichtigung der gewählten Algorithmen Concept
Extraction oder Topic Modeling (siehe Abschnitt 4.8). Diese beiden Prozesse können
eng miteinander verknüpft sein: Nach einem ausgeführten Dokumenten Clustering
werden die Cluster oft anhand der am meisten vorkommenden Wörter bezeichnet.
Wort Cluster können hingegen genutzt werden, um Dokumente so zu kategorisieren
dass sie nach bestimmten Konzepten sortiert werden können ([Mi12], S. 960).
Die im Document Clustering verwendeten Algorithmen stammen aus den
Fachgebieten Statistik und Data Mining. Für den Prozess werden zwei Komponenten
benötigt: eine Methode zur Berechnung der Ähnlichkeit zwischen zwei Elementen,
um zu bestimmen, dass sie dem gleichen Cluster zugehörig sind. Dabei hängt das
Ähnlichkeitsmaß vom Datentyp ab. Das Abstandsmaß für Text ist oft eine Variante
des Vektorabstandsmaßes wie die Kosinus-Ähnlichkeit. Dann wird eine effiziente
4 Anwendungsbereiche von Text Mining
46
Methode benötigt um alle Elemente miteinander vergleichen zu können. Eine weitere
Schlüsselfrage ist die Anzahl der Cluster, die verwendet werden soll. Einige
Algorithmen benötigen diese Angabe, andere ermitteln die Anzahl durch die
Einhaltung bestimmter, vorher angegebener Randbedingungen, wie ein
Schwellenwert für das Abstandmaß., eine minimale oder maximale Größe der
Cluster, ein Maximum für die Anzahl der Cluster oder einem Maximalgrad der
Überlappung von benachbarten Clustern ([Mi12], S. 961).
Miner unterscheidet in die Clustering Algorithmen in die drei Hauptkategorien
hierarchisches, partitionierendes und spektrales Clustering. Das hierarchische
Clustering ordnet die Dokumente iterativ einer Baumstruktur von Clustern zu. Dies
geschieht entweder agglomerativ (beginnend mit der größten Anzahl von Clustern,
die dann zusammengefasst werden können) oder divisiv (ausgehend von einem
einzigen Cluster erfolgt eine Aufteilung). Beim partitionierenden Clustering werden
die Anzahl der Cluster und eine Startzuordnung durch den User festgelegt
(Initialization step in Abbildung 4.2). Der iterative Prozess ermittelt durch jeweilige
Mittelpunktbestimmung der Cluster (Updating step) und neuer Zuordnung der
Elemente (Assignement step) einen stabilen Zustand als Ergebnis, welches als Final
configuration bezeichnet wird. Das spektrale Clustering verwendet Matrix
Operationen für eine Dimensionsreduktion und erstellt Cluster, die auf diesen
reduzierten Dimensionen bestehen. Diese Verfahren ist eng verknüpft mit den
Begriffen Latent Semantic Indexing (LSI) und Singular Value Decomposition (SVD).
Abbildung 4.2 Beispiel für ein partitionierendes Clustering aus ([Ba13], S. 244)
4 Anwendungsbereiche von Text Mining
47
Vor dem eigentlichen Clustering müssen auch hier die Dokumente durch eine
Datenvorverarbeitungsphase in den Vektorraum überführt werden. Dabei wird jedes
Dokument durch einen Vektor repräsentiert. Die Wörter des Dokuments können dort
entweder binär (wenn existent 1, sonst 0), mit ihrer Anzahl des Vorkommens oder
einer gewichteten Zahl in Abhängigkeit von der Anzahl der betrachteten Dokumente.
Auf der Grundlage eines so erzeugten Vektorraummodells einer Sammlung von
Dokumenten gibt es zwei Methoden des Document Clustering: Direktes Clustering
und Dimensionsreduktion. Die erste Methode verwendet Algorithmen des
hierarchischen und des partitionierenden Clustering unter Verwendung von
Vektorabstandsmaßen wie dem Jaccard-Koeffizient und der oben erwähnten
Kosinus-Ähnlichkeit. Die zweite Methode kann durch Umwandlung des Textes in eine
numerische Darstellung durch Verwendung von Dimensionsreduktion zur
Abstandsmessung numerische Verfahren wie den Euklidischen Abstand verwenden
([Mi12], S. 961 ff.).
Das Ergebnis eines Clustering Prozesses wird am besten graphisch dargestellt.
Zusammenfassend kann man feststellen, dass Document Clustering dazu verwendet
wird, um Dokumente auf der Grundlage von Ähnlichkeit zu gruppieren und den
Anwender zum Entdecken und Verstehen von Zusammenhängen zwischen den
Dokumenten einer Dokumentensammlung zu befähigen.
Zur weiteren Vertiefung des Themas, das hier nur kurz angerissen werden konnte,
seien folgende Arbeiten empfohlen: ([AC12b], S. 77 ff.), ([Ba13], S. 242), ([FS07], S.
64 ff.), ([HNP05], S. 36 ff.), ([Ko06], S. 263 ff.), ([MRS09], S. 321 ff.), ([Ru10], S. 105
ff.) und ([WIZ12], S. 91 ff.)
4.4 Information Extraction
Information Extraction (IE) Systeme übernehmen nach Jiang im Text Mining eine
sehr bedeutende Aufgabe. Das Hauptziel von Information Extraction besteht darin,
strukturiere Informationen aus unstrukturiertem oder semi-strukturiertem Text zu
gewinnen. Wichtige Informationen wie Namen von Persönlichkeiten, Orten oder
Organisationen, die im Text enthalten sind, werden aus diesem extrahiert. Diese
Informationen können direkt einem Anwender oder anderen Anwendungen wie
4 Anwendungsbereiche von Text Mining
48
Suchmaschinen oder Datenbanken übergeben werden. Die Anwendungsgebiete von
Information Extraction sind breit gefächert, die speziellen Typen und Strukturen der
Informationen, die herausgefiltert werden sollen, hängen von den Anforderungen der
Weiterverarbeitung ab ([Ji12], S. 11 ff.).
Die Geschichte von Information Extraction reicht auf die 70er Jahre zurück, gewann
aber erst an Bedeutung mit der Einführung der von der DARPA13 imitierten und
gegründeten Message Understanding Conference (MUC) in den 90ern. Seit dieser
Zeit gibt es eine kontinuierliche Entwicklung von Information Extraction. Die ersten
MUC Konferenzen definierten Information Extraction als den Vorgang vordefinierte
Vorlagen mit Eingabefeldern entsprechend mit Informationen aus dem untersuchten
Text zu füllen. Dieser Vorgang ist sehr komplex und kann nicht ohne weiteres auf
andere Vorlagen übertragen werden. Somit beschloss die MUC-6 1995, einige
Unteraufgaben, die vorlagenunabhängig agieren, zu definieren. Dazu zählen Named
Entity Recognition (NER), Coreference Resolution und Relation Extraction([Ji12], S.
13 f.).
Die ersten IE Systeme waren zumeist regelbasierte Systeme und erreichten in der
Domäne, für die sie entwickelt wurden, beachtliche Ergebnisse. Der Aufwand für die
Entwicklung der entsprechenden Regeln ist aber sehr hoch und vor allem
domänenspezifisch. Deshalb fokussierte sich die Forschung mehr auf das
Maschinelle Lernen (ML) und somit werden aus der Klassifikation bekannt
Algorithmen des überwachten ML wie Support Vector Machines (SVM) und
Maximum Entropy Modelle eingesetzt ([Ji12], S. 14).
Eine interessante Entwicklung ist in der Forschung am Thema Open Information
Extraction zu sehen. Diese Systeme sollen alle nützlichen Entity Relation eines
großen, vielfältigen Korpus wie das des Internet extrahieren. Dabei sind die
Ergebnisse nicht nur die Parameter einer Relation sondern auch deren
Beschreibung. Information Extraction von semi-strukturierten Internetseiten ist so ein
Forschungsthema von Web Mining. Die Besonderheit ist hier, dass die strukturieren
Daten der HTML Tags in den Prozess mit einbezogen werden können. Diese
Systeme werden auch Wrapper genannt ([Ji12], S. 14 f.).
13
Defense Advanced Research Projects Agency (DARPA) ist eine Behörde des Verteidigungsministeriums der USA
4 Anwendungsbereiche von Text Mining
49
Named Entity Recognition ist die wichtigste Aufgabe innerhalb von Information
Extraction. Eine Named Entity ist ein Wort oder eine Reihe von Wörtern, die einen
Gegenstand der Realität benennen. Named Entity Recognition hat die Aufgabe diese
Namen aus einem Text heraus zu erkennen und ihn entsprechend vordefinierter
Typen zuzuordnen. Beim regelbasiertem Ansatz werden die Regelbasis manuell oder
durch überwachtes ML erstellt. Jeder Token im Text wird mit
Eigenschaftsbeschreibungen versehen und gegen die Regeln geprüft. Jede Regel ist
hierbei, mit einer Aktion wie dem Benennen einer Tokensequenz oder dem Festlegen
des Start- oder Endpunkts einer Entity belegt und wird bei Übereinstimmung für den
entsprechenden Token ausgeführt. Ein wichtiger Ansatz ist die Verwendung ML zur
Lösung als Sequence Labeling. Häufig verwendete Modelle sind das Hidden Markov
Modell (HMM) und das Maximum Entropy Markov Modell (MEMM) ([Ji12], S. 15 f.).
Eine weitere wichtige Aufgabe von Information Extraction ist in der Relation
Extraction zu sehen. Relation Extraction hat das Ziel, semantische Beziehungen
zwischen Entities im Text zu erkennen und zu benennen. Die Aufgabenstellung
basiert nach Jiang auf den Definitionen des Programms Automatic Content
Extraction (ACE) ([Ji12], S. 22). Zur Anwendung gelangen Feature-based und
Kernel-based Klassifikationsmethoden wie Sequence-based Kernel, Tree-based
Kernel und Composite Kernel. ([Ji12], S. 12 f.).
Obwohl das überwachte Maschinelle Lernen der dominierende Ansatz im IE ist,
werden auch sogenannte Weakly Supervised Methoden wie Bootstrapping für eine
semi-überwachte Relation Extraction eingesetzt. Mit dem weiteren Wachstum des
Internet erwartet Jiang, dass sich Information Extraction mit sehr viel mehr
unterschiedlichen und unscharfen, verrauschten Textdaten beschäftigen muss.
Außerdem stellt er fest:
“Weakly supervised and unsupervised methods will play a larger role in information
extraction. The various user-generated content on the Web such as Wikipedia articles will
also become important resources to provide some kind of supervisions.” ([Ji12], S. 35)
Weitergehende Informationen sind zu finden bei ([FS07], S. 94 ff.), ([HNP05], S. 36
ff.), ([Ko06], S. 151 ff.), ([Mi12], S. 921 ff.), ([WIZ12], S. 113 ff.)
4 Anwendungsbereiche von Text Mining
50
4.5 Information Retrieval
Information Retrieval (IR) ist nach Manning et al. das Auffinden von Material
(normalerweise Dokumenten) unstrukturierter Natur (normalerweise Text) welches
einen Informationsbedarf aus einer großen Sammlung (normalerweise auf
Computern gespeichert) befriedigt ([MRS09], S. 1).
Information Retrieval Systeme gab es schon lange vor dem Zeitalter des Internet, sie
waren aber nicht weit verbreitet. Sie arbeiteten mit Suchmethoden basierend auf
Schlüsselwörtern. Die Antwort auf eine Anfrage wurde als eine Liste mit Treffern
geliefert. Prinzipiell funktionieren auch so Internet Suchmaschinen. Die Internetseiten
von Suchmaschinen gehörten von Beginn der weiten Verbreitung des Internet an zu
den beliebtesten Seiten, weil sie zumeist schnell auf Anfragen mit Antworten
reagierten. Allerdings konnten die frühen Information Retrieval Systeme nur ein
Bruchteil der Informationen, auf die modernen Internet Suchmaschinen heute
zugreifen können, verarbeiten. Um den Anforderungen der Suche in immer größeren
Datenmengen gerecht zu werden wurden anspruchsvollere Crawler, Indizierungen
und Suchmethoden entwickelt. Das Ranking (die Reihenfolge der Präsentation der
Ergebnisse) war ursprünglich nur auf Textmerkmale bezogen, wurde dann aber um
eine Linkanalyse erweitert, um Manipulationen zu verhindern. Einen kurzen Abriss
über die Entwicklung von Suchmaschinen gibt Konchady in ([Ko06], S. 183 ff.)
Information Retrieval selbst ist jedoch nicht als klassisches Text Mining Thema zu
sehen. Dennoch zählen neben Konchady auch Miner und Weiss et al, um nur einige
zu nennen, Information Retrieval mit zum Text Mining ([Mi12], S. 31 ff.; [WIZ12], S.
75 ff.).
Weiss et al. gehen der Frage nach, ob Information Retrieval eine Form des Text
Mining ist. Sie vergleichen die Aufgabenstellungen von Information Retrieval und
Document Classification. Information Retrieval liefert auf eine Anfrage die
Dokumente, die zu dieser Anfrage passen. Es wird eine konkrete Anfrage gestellt,
die Dokumentensammlung wird durchsucht und eine Untermenge von relevanten
Dokumenten wird geliefert. Der Document Classification Prozess ist ein völlig
anderer: eine Dokumentenmenge wird untersucht, Entscheidungskriterien für eine
Klassifikation erlernt und dann werden diese Kriterien bei der Klassifizierung neuer
4 Anwendungsbereiche von Text Mining
51
Dokumente eingesetzt. Gemeinsam haben aber beide Verfahren das Einsetzen von
Ähnlichkeitsmaßen. Weiss et al. schlagen vor, diese Gemeinsamkeit zu nutzen und
somit speziell Methoden des Ermittelns der Ähnlichkeit von Dokumenten, die in
Information Retrieval schon eine lange Tradition haben, unter Beachtung der
Unterschiede beim Document Classification einzusetzen. So schlagen sie vor, ein
neues Dokument in Form eines Wort Vektormodells als Abfrage zu verwenden und
somit das ähnlichste Dokument und dessen Klassifikation für die des neuen
Dokuments zu verwenden ([WIZ12], S. 75 ff.).
Ein weiterer Aspekt der Zugehörigkeit von Information Retrieval zum Text Mining, ist
in der Notwendigkeit zu sehen, eine Vorselektion von Dokumenten in der
Datenvorverarbeitungsphase vorzunehmen.
Eine umfangreiche Abhandlung über Information Retrieval findet man bei ([MRS09]).
Banchs stellt unter der Bezeichnung Document Search verschiedene Suchverfahren
wie die Binäre Suche und die Vektorbasierte Suche vor und betont dabei die Große
Schnittmenge mit Information Retrieval Themen ([Ba13], S. 277 ff.).
4.6 Natural Language Processing
Natural Language Processing (NLP) verfolgt bei der Verarbeitung von Textdaten im
Gegensatz zu den bisher betrachteten Disziplinen keinen statistischen, sondern
einen linguistischen Ansatz, mit dem Ziel, die Bedeutung des untersuchten Textes zu
erfassen. Eine einfache, plakative Definition für das Natural Language Processing
liefern Kao/Poteet:
“Natural language processing (NLP), is the attempt to extract a fuller meaning representation
from free text. This can be put roughly as figuring out who did what to whom, when, where,
how and why.” ([KP10], S. 1)
Methoden des Natural Language Processing sind ein wichtiger Bestandteil der
Datenvorverarbeitungsphase. Hippner/Rentzmann beschreiben einen dreistufigen
Analyseprozess, der aus den Elementen morphologische Analyse, syntaktische
Analyse und semantische Analyse besteht. Im ersten Schritt wird der Text in einzelne
Wörter unterteilt (Tokenization) und diese auf ihren Wortstamm zurückgeführt
4 Anwendungsbereiche von Text Mining
52
(Stemming). Nachfolgend werden die Wörter mit Markierungen versehen, sie werden
annotiert. Diese Annotationen nehmen Part-of-Speech (POS) Tagger, hier werden
Wortarten zugeordnet, und Parser, die die Wortstellung in einem jeweiligen Satz
ermitteln, vor. POS Tagger greifen dabei auf Lexika14, in denen Wörter und
Wortarten, die sie annehmen können, erfasst sind, zu. Im letzten Schritt wird eine
semantische Analyse zur bedeutungsabhängigen Zerlegung von Text durchgeführt
([HR06b], S. 288 f.)
Hahn/Wermter entwerfen ebenfalls einen dreistufigen Prozess, bezeichnen den
ersten Teil aber als lexikalische Analyse und führen wie in Abbildung 4.3 zu
erkennen, die morphologische Analyse und POS Tagging, unter Zuhilfenahme eines
Lexikon, zusammen. Grund dafür ist die erreichte hohe Qualität der Wörterbücher,
die bereits nach der Tokenization eine Annotation mit Wortstamm und Wortart
ermöglichen ([HW06], S. 19 ff.).
Abbildung 4.3 Natural language system architecture for text mining for biology ([HW06])
14
Für die deutsche Sprache gibt es mit dem Wörterbuch des Projekts „Deutscher Wortschatz“ ein Vollformenlexikon Heyer et al. 2008, S. 54 f.
4 Anwendungsbereiche von Text Mining
53
4.7 Zusammenfassung
Beruhend auf der Interdisziplinarität und unterschiedlicher Auffassungen
verschiedener Autoren von der Definition der Anwendungsbereiche von Text Mining
wurden am Anfang des Kapitels verschiedene Kategorisierungen beschrieben und
verglichen. Ausgewählte Anwendungsbereiche wurden detaillierter erörtert. Die
Komplexität des Themas Text Mining gesamt, aber auch seiner Teilbereiche im
Detail, lässt im Rahmen dieser Arbeit keine tiefergehende Betrachtung zu. Abbildung
4.4 illustriert treffend die große Bandbreite an Themen und ihre Verknüpfungen, die
auf einen Blick die Komplexität und Vernetztheit der Anwendungsbereiche
nachvollziehbar macht.
Abbildung 4.4 Visualizing the seven text mining practice areas (ovals) and how specific text mining tasks (labels with ovals) exist at their intersections ([Mi12], S. 38)
Im nächsten Kapitel geht es darum, konkrete Anwendungsmöglichkeiten
vorzustellen, die zeigen, welche wertvollen Beiträge das Text Mining und die hier
theoretisch skizzierten Anwendungsbereiche leisten können.
5 Anwendungen
54
5 Anwendungen
Text Mining ist vielseitig einsetzbar und spielt vor allem in den Bereichen eine große
Rolle, die hauptsächlich mit Informationen in Textform konfrontiert werden. Im Kapitel
5 werden nun einige Beispiele für Anwendungsmöglichkeiten gezeigt. Dabei handelt
es sich jeweils um tatsächlich umgesetzte Projekte, konkrete Lösungsansätze,
dokumentieret Untersuchungen oder praktische Anwendungsvorschläge. Die
ausgewählten Beispiele orientieren sich dabei an den in Kapitel 2 aufgeführten
Bereiche der Wirtschaftsinformatik: Dem Wissensmanagement (5.1), der Competitive
Intelligence (5.2, 5.3), dem Customer Relationship Management (5.4, 5.5) und dem
Enterprise Content Management (5.1, 5.7). Ein hohes Einsatzpotenzial für Text
Mining wird im Gesundheitswesen gesehen (5.8). Ziel dieses Kapitels ist es, die
Bandbreite an Einsatzmöglichkeiten des Text Mining abzubilden. Dies erfordert die
Reduktion auf eine überblicksartige Darstellung und den Verweis auf weiterführende
Literatur. Auf die herausragende Rolle des Text Mining in den Naturwissenschaften,
hier vor allem in der Biologie und der Biochemie wird aufgrund der Fokussierung auf
Anwendungsgebiete in der Wirtschaftsinformatik bewusst verzichtet15. Erstes
Anwendungsbeispiel ist die Klassifikation im Rahmen des Wissensmanagement.
5.1 Dokumentenklassifikation im Rahmen des Wissensmanagement
Das explizite Wissen einer Unternehmung liegt zumeist in Form von Dokumenten
aus verschiedenen Quellen vor. Eine der Schlüsselfragen des Wissensmanagement
in Unternehmen ist die Organisation von Dokumenten in Kategorien in Form einer
Textklassifikation im Rahmen eines Dokumentenverwaltungssystems, die im
gesamten Unternehmen genutzt werden kann. Dabei spielt die Vergabe von
Metadaten, zumeist in Form von Schlagwörtern, eine große Rolle, denn nur so kann
gewährleistet werden, dass entsprechende Suchanfragen im Unternehmen zum
Auffinden der relevanten Dokumente führen. Bei der Zuordnung der Schlagwörter zu 15
Eine gute Übersicht liefern [CH05] und [AM06]
5 Anwendungen
55
einzelnen Dokumenten entstehen zwei Problemfelder. Einerseits ist diese Zuordnung
für den Autor oder Herausgeber sehr zeitaufwändig; andrerseits ist die Auswahl
eines oder mehrerer zutreffenderer Schlagwörter ohne Verwendung eines
Schlagwörterkatalogs nicht möglich. Zusätzlich erschwert wird die Aufgabe durch den
Umstand erschwert, dass zwischen unterschiedlichen Abteilungen unterschiedliche
Fachbegriffe für dasselbe Objekt existieren oder verschiedene Sichtweisen den Inhalt
eines Dokuments unterschiedlich bewerten. Dieses Problem ist in fusionierten
Unternehmen oder Mischkonzernen noch ausgeprägter zu beobachten. Um die
Tätigkeit der Dokumentenklassifizierung manuell ausführen zu können sind daher
ausgiebige Schulungen oder die Hilfe von ausgebildeten Bibliothekaren nötig
([KQP03], S. 526).
Kao et al. bieten hier eine Software gestützte Lösung mit dem System KM DocTEr,
dem Knowledge Management Document Text Evaluator an. Das System interagiert
bei der Klassifikation der Dokumente mit dem Anwender, indem es die Ergebnisse
einer automatischen Klassifizierung nutzt, Schlagwörter aus einem Katalog
vorschlägt und die entsprechenden Metadaten dem Dokument zufügt. Dieser Dialog
findet mittels eines Webportals unter Verwendung einer firmeneigenen Thesaurus
statt. Die Handhabung des Systems wird als einfach, flexibel einsetzbar und leicht zu
warten beschrieben. Vor dem Einsatz dieses Systems ist es notwendig, den
Thesaurus um die Beziehungen „Generalisierung-Spezialisierung“ und „is-related-to“
aus einer Taxonomie zu erweitern oder diesen nur aus der standardisierten Wortliste
des Unternehmens zu erstellen ([KQP03]).
Die Autoren beschreiben den Einsatz des Systems anhand eines speziellen Falls –
der Einrichtung eines virtuellen Bücherregals zum Thema Technologie bei Boeing.
Ziel ist es dabei, mit Hilfe der Erreichbarkeit von Informationen über vorhandene und
eingesetzte Technologien innerhalb des Unternehmens diese für alle Mitarbeiter
auffindbar zu machen. Die Autoren beschreiben weiter, wie der Thesaurus unter
Einbeziehung von Mitarbeitern und ihrer Dokumente aus den unterschiedlichen
Abteilungen und der Verwendung bereits vorhandener Schlagwortlisten erstellt wird
und das System praktisch angewandt wird. Das eingesetzte Webportal (Abbildung
5.1) ist so gestaltet, dass der Anwender nicht nur die vorgeschlagene Klassifikation
des betrachteten Dokuments erhält, sondern auch eine Liste mit den von ihm bereits
5 Anwendungen
56
vorher klassifizierten Dokumenten und ihnen jeweils zugeordneten Schlagwörtern zur
Verfügung gestellt bekommt.
Abbildung 5.1 Webportal von KM DocTEr ([KQP03], S. 526)
Die Autoren ziehen ein positives Fazit:
"KM DocTEr helps overcome a substantial obstacle in implementing Knowledge
Management within a a large enterprise. Users are notoriously reluctant to assign any kind of
metadata to documents, that they author oder maintain. This technology can either assign
keywords automatically to documents or allow the user to quickly and easily interact with the
controlled vocabulary to select the most appropriate knowledge categories." ([KQP03], S.
527)
Neben der hier beschrieben Anwendung des Text Mining im Wissensmanagement
sind auch Anwendungen im Rahmen der Competitive Intelligence dokumentiert, wie
die nachfolgende Darstellung einer Nachrichtenzusammenfassung durch
NewsBlaster zeigt.
5.2 Nachrichtenzusammenfassungen durch NewsBlaster
Das NewsBlaster System der Natural Language Processing Group der University of
Columbia verfolgt die Idee thematisch verwandte Texte aus Nachrichten
5 Anwendungen
57
zusammenzufassen und die Ergebnisse in einem Webportal zur Verfügung zu stellen
([Ne13]).
Heitmann stellt in seinem Aufsatz dieses System im konkreten Einsatz vor,
beschreibt dessen Aufbau und setzt es in Relation mit ähnlichen Ansätzen und
Lösungen wie Google News und NewsInEssence ([He06]). Er stellt hierbei fest, dass
„NewsBlaster ein sehr robustes System zum Zusammenfassen von Nachrichten,
welches durch die Verwendung von zwei verschieden konzipierten
Zusammenfassungsengines, MultiGen und DEMS, sehr flexibel auf verschiedene
Arten von Dokumentengruppen reagieren kann, und Zusammenfassungen erzeugt,
die schon jetzt […] eine Erleichterung bei der täglichen Orientierung im weltweiten
Nachrichtendschungel darstellen können“ ([He06], S. 172), ist.
NewsBlaster ist seit 2001 in Anwendung und erzeugt täglich einen Überblick über die
Nachrichten des Tages. Die Startseite von NewsBlaster ist das Einstiegsportal und
zeigt den Zeitpunkt der letzten Auswertung, den betrachteten Zeitraums sowie die
wichtigsten Zusammenfassungen zu den Themen „Top News“, “U.S.“, „World“,
“Science / Technology“, „Entertainment“ und „Sports“ an. Hinzu kommt als wichtigster
Bestandteil eine Zusammenfassung von Artikeln zum Topereignis des Tages. Die
Nachrichtenblöcke geben jeweils die Anzahl der zugrunde liegenden Artikel und
Links zu ähnlichen Themen an und verweisen jeweils auf eine Detailansicht. Die
Überschrift wird dabei vom System von einem der betrachteten Artikel, der als
repräsentativ für das gewählte Thema gilt, gewählt. Weiter werden die Quellen
aufgeführt und satzweise verlinkt. Die Texte selbst werden maschinell erzeugt. Eine
interessante Option ist das Angebot einer Visualisierung einer zeitlichen Abfolge, die
Zusammenhänge zu anderen Ereignissen darstellt, welche zu der Entwicklung des
betrachteten Ereignisses Beiträge leisten. Interessant erscheint auch die Möglichkeit,
Zusammenfassungen verschiedener Länder zu vergleichen. In Abbildung 5.2 ist die
Startseite vom 09.02.13 zu sehen.
5 Anwendungen
58
Abbildung 5.2 Aufruf von NewsBlaster vom 09.02.13 ([Ne13])
Die Entwicklung des NewsBlaster ist noch nicht zu Ende, denn nach Heitmann
werden verschiedene Weiterentwicklungen des Systems in Aussicht gestellt. Neben
einer Verbesserung der Qualität steht hier vor allem die Mehrsprachigkeit im
Mittelpunkt der Entwicklung ([He06]).
Eine weitere Anwendung im Kontext der Competitive Intelligence ist in der
automatischen Klassifikation von RSS-Feeds zu sehen, die Gegenstand des
folgenden Kapitels ist.
5.3 Automatische Klassifikation von RSS-Feeds für ein Informationsportal
Aktuelle Informationen über Wettbewerber und Märkte, neue Produkte,
Verbrauchertrends, Tendenzen in der öffentlichen Meinung und absehbare politische
Veränderungen sind für Unternehmen von existenzieller Bedeutung und werden in
5 Anwendungen
59
der Business Intelligence (BI) Subdomäne Competitive Intelligence (CI) behandelt
(siehe auch Kapitel 2.4.1). Eine Methode der Nachrichtenversorgung ist das
Abonnement mehrerer RSS Feeds zu bestimmten Schlagwörtern. Dieser Service
liefert den Abonnenten zeitnah neue Einträge in Form von Links zu den vollständigen
Meldungen mit relevanten Inhalten. Die Zuordnung und Priorisierung dieser
Meldungen muss dann firmenintern geleistet werden.
Steinecke/Straub berichten von einem Projekt mit dem Ziel, eine automatische
Auswertung der eingehenden RSS-Feeds in Bezug auf Artikelname,
Publikationsdatum, Quellenangabe, Informationsart und Priorität zur Vorbereitung
einer Veröffentlichung im unternehmensinternen Informationsportal zu leisten
([SS10], S. 97 ff.). Dieses Portal gibt verschiedene Kategorien vor, denen die
Nachrichten entsprechend zugeordnet werden. Dabei soll diese automatisch
ermittelte Zuordnung einem Administrator vorgeschlagen werden. Dieser kann dann
gegebenenfalls den Artikel für die Veröffentlichung im Portal freigeben. Der Prozess
ist in Abbildung 5.3 dargestellt. Die Spracherkennung ist als erste Phase der Analyse
zu sehen und ordnet die Nachricht einer Sprache zu. Die nächste Phase wird als
Cleansing bezeichnet. Hier werden nicht relevante Textteile beseitigt. In der
Annotationsphase werden die extrahierten Schlagwörter und deren Synonyme mit
dem vom Portal vorgegebenen Kategorien abgeglichen. Für jeden Feed und jede
darin identifizierte Kategorie wird nun ein Datensatz erzeugt und dem Administrator
zur Prüfung vorgelegt. Damit ist die Analysephase abgeschlossen. Nach
erfolgreicher Überprüfung wird die Nachricht freigegeben und erscheint im
unternehmensinternen Informationsportal.
Abbildung 5.3 Zielprozess zur automatischen Klassifikation von RSS-Feeds im Überblick ([SS10], S. 98)
Im Ergebnis stellen die Autoren fest, dass 70 % der Nachrichten korrekt klassifiziert
wurden. Die restlichen 30 % erhielten zwar die richtigen Schlagwörter waren aber
nicht im Interessenskontext des Unternehmens ([SS10]).
5 Anwendungen
60
Für die Analyse der RSS-Feeds kam die Software IBM Infosphere Warehouse® zur
Anwendung.
Im Folgenden werden zwei Anwendungen des Text Mining im Kontext des Customer
Relationship Managements gezeigt.
5.4 Anreicherung von Kundenprofilen in der Bankenbranche
Individuelle Kundenbeziehungen werden heute durch Annäherung von Produkten
und Dienstleistungen in Bezug auf Qualität, Funktionalität und Preis für die
Unternehmen immer wichtiger. Für die Realisierung dieser Beziehungen ist es
wichtig, eine möglichst hohe Zahl relevanter Informationen über den Kunden zu
erhalten, um seine Bedürfnisse und sein Verhalten besser einschätzen zu können.
Hippner/Rentzmann berichten über ein Gemeinschaftsprojekt des Lehrstuhls für
Wirtschaftsinformatik der Katholischen Universität Eichstätt-Ingolstadt und einer
Bank, wie solche Informationen anhand der Informationen aus Freitext in den Feldern
des Verwendungszwecks in Banküberweisungen gewonnen werden können
([HR06a], S. 99 ff.). Aufgabenstellung des Projekts war es, Möglichkeiten für die
Bankenbranche aufzuzeigen, “wie diese unstrukturierten Informationen mittels Text
Mining genutzt werden können, um Kundenprofile unter quantitativen und
qualitativen Aspekten anzureichern“ ([HR06a], S. 99).
Die Zielsetzung des Projekts beruht auf der Hypothese, dass sich aus dem Inhalt der
Verwendungszwecke von Überweisungen wichtige Begriffe ermitteln lassen, die den
Kunden besser beschreiben lassen und somit einen wertvollen Beitrag für die
nachhaltige Verbesserung der CRM-Aktivitäten der Bank liefern.
5 Anwendungen
61
Abbildung 5.4 Häufige Terme innerhalb der Daueraufträge ([HR06a], S. 104)
Die untersuchte Datenbasis bestand aus insgesamt 500000 Transaktionen
(Daueraufträge, Lastschriften, Gutschriften, EC-Zahlungen und Abhebungen an
Geldautomaten) die auf den Mai 2005 datieren. Für die Untersuchung wurden auf
Grund der guten Datenqualität und Langfristigkeit nur die Daueraufträge
(Sollbuchungen) herangezogen. Die Autoren beschreiben den Text Mining Prozess
speziell in Hinblick auf die Termextraktion. In Abbildung 5.4 sind die Häufigkeiten der
extrahierten Terme im Überblick zu ersehen.
Die ermittelten Terme lassen unterschiedliche Interpretation und Rückschlüsse z.B.
auf die Wohnsituation („Miete“), die Haushaltsstruktur („Haushaltsgeld“,
„Taschengeld“, „Unterhalt“), Geschäftsbeziehungen zu anderen Banken („Sparrate“,
“Darlehen“) und Kundenpotenzial für Bausparverträge („Bausparvertrag“) zu.
Besonders aussagekräftige Terme können in die Kundendatenbank einfließen und,
wie in Abbildung 5.5 zu sehen, in klassischen Data Mining Anwendungen im CRM
berücksichtigt werden. Durch die Aktualität der Daten können auf diesem Weg
oftmals veraltete Stammdaten eines Kunden aufgewertet und aktualisiert werden.
5 Anwendungen
62
Abbildung 5.5 Die Anreicherung der Kundendatenbank mit extrahierten Termen ([HR06a], S. 106)
Das erfolgreiche Projekt zeigt, „dass Text Mining eine quantitative Anreicherung von
Kundendatenbanken ermöglicht. Auch die Datenqualität des Data Warehouses lässt
sich mittels Text Mining verbessern, da zusätzliche Plausibilitätsprüfungen möglich
werden“ ([HR06a], S. 105).
Text Mining kann so aus Unternehmersicht einen wertvollen Beitrag zur Verbesserun
der Kundenbeziehungen liefern.
Ein weiteres Anwendungsbeispiel mit ähnlicher Zielsetzung ist in der Integration des
Text Mining in ein Metriksystem zu sehen.
5.5 Integration von Text Mining in ein Metriksystem zur Qualitätsbewertung
Für die Reklamationsbearbeitung in der Autoindustrie existiert ein Standard, die
sogenannte 8D-Methode. Die Bezeichnung 8D setzt sich zusammen aus Acht und
Disziplin, da acht obligatorische Disziplinen bei der Abarbeitung der Reklamation
erforderlich sind. Die Bearbeitung einer Reklamation erfolgt unter Verwendung eines
Formblatts mit der Bezeichnung 8D-Bericht. Diese acht Prozessschritte sind in
Abbildung 5.6 illustriert ([UM11]).
5 Anwendungen
63
Abbildung 5.6 8D Methode zur nachhaltigen Fehlerbeseitigung nach VDA ([UMB10], S. 1103)
Man kann erkennen, dass neben der Festlegung der beteiligten Mitarbeiter für die
Fehlerbehebung und der Fehlerbeschreibung ein detaillierter Weg der
Fehlerbeseitigung hin bis zur Abnahme und Kontrolle vorgegeben ist. Diese hier
entstehenden Berichte ermöglichen, insoweit sie fehlerfrei sind, dem Lieferanten eine
korrekte und effiziente Fehlerbehebung. Für die Gewährleistung eines
ordnungsgemäß ausgefüllten 8D-Berichts ist eine Mess- und Bewertungstechnik zur
Beurteilung der Qualität durch das Institut für Umformtechnik und Umformmaschinen
(IFUM) der Leibniz Universität Hannover und das IPH Institut für Integrierte
Produktion Hannover gGmbH in Form eines Metriksystems mit der Bezeichnung
MeSys entwickelt worden. Dabei wird das Ergebnis eines 8D-Schrittes in einem
Zahlenwert abgebildet.
Die besondere Herausforderung bei der Entwicklung dieses Systems bestand darin,
diese Qualitätsbewertung so weit wie möglich automatisch zu erstellen. ([UM11]),
([UMB10]). Zur Ermittlung der Metrikwerte entschied man sich für eine Kombination
aus automatischer und manueller Bewertung. Bestimmte Fragestellungen, wie die
nach Beurteilung der Verständlichkeit und der Aussagekraft von Freitexten oder die
technisch-organisatorische Bewertung der Wirksamkeit bestimmter
Sofortmaßnahmen, werden im System manuell bewertet, da hier eine automatische
Bewertung nicht möglich ist. Andere Aspekte wie formale Qualitätskriterien oder
Rechtschreibfehler in Freitexten werden dagegen durch Text Mining Algorithmen
automatisch bewertet. Dazu zählen auch eine Aktivsatzprüfung (Beurteilung der
5 Anwendungen
64
Verständlichkeit in allen Textfeldern), eine Nominalphrasenprüfung (Beurteilung der
Aussagekraft in allen Textfeldern) und eine Prüfung der Anzahl begründender
Konjunktionen(Beurteilung der Güte der Beschreibung der Fehlerursache), so dass in
Summe 22 Metriken automatisch ermittelt werden können.
Abbildung 5.7 Softwarekonzept von MeSys ([UMB10], S. 1106)
In Abbildung 5.7 ist die softwaretechnische Umsetzung des Systems durch die
Verwendung der webbasierten Software Fiber zu erkennen. Der Teil der
automatischen Qualitätsbewertung mittels Text Mining Techniken wurde durch die
Verwendung der Open Source Software UIMA (Unstructured Information
Management Architecture) realisiert. Die hier ermittelten Ergebnisse werden dem
Anwender in Form eines Ampelsystems innerhalb der fiber Oberfläche angezeigt, so
dass der Anwender bei der Bearbeitung der manuellen Bewertungen auf automatisch
ermittelte Defizite hingewiesen werden kann.
Zusammenfassend lässt sich festhalten, dass mit der Verwendung des
Metriksystems vor allem kleine und mittlere Unternehmen aus der
Automobilzuliefererindustrie die Wirtschaftlichkeit ihrer Produktion durch ein
effizientes Reklamationsmanagement steigern können ([UMB10]).
5 Anwendungen
65
5.6 Auswerten von Störmeldungen in einem Customer Service Center
Steinecke/Straub beschreiben ein Projekt mit der Zielsetzung, unstrukturierte Daten
innerhalb eines Ticketsystems eines Customer Service Center auszuwerten. Agenten
erfassen hier telefonisch angenommene Anfragen oder Informationen zu Störungen,
Gewährleistungen oder Schadensmeldungen und deren Lösungen in einem
Ticketsystem ([SS10], S. 93 ff.). Abbildung 5.8 zeigt die hierbei einzugebenden
Daten. Hier werden Metadaten wie Zeiten, Dringlichkeit, Kundenname, Bearbeiter,
Status (Allgemeine Informationen) und fixe Kategorisierungen (Einordnung in feste
Kategorien) sowie Freitext für die Problembeschreibung, Historie und Lösung
unterschieden.
Abbildung 5.8 Ticketerfassung ([SS10], S. 94)
Freitextlich erfasste Informationen waren vor Beginn der Umsetzung des Projekts
nicht auswertbar, so dass sich das Reporting bis dahin nur auf die Metadaten und die
Kategorisierungen beziehen konnte. Mit der Auswertung der Freitexte lassen sich
nun aber interessante Fragen beantworten. Neue Schlagwörter werden aus Tickets,
die der Kategorie „Sonstiges“ zugeordnet wurden, ermittelt und vorgeschlagen. Nach
der Projektrealisierung ist es nun möglich neue Probleme, die gehäuft auftreten,
besser zu erfassen und auf diese hinzuweisen. Wenn Schlagwörter in den Freitext
häufig gemeinsam auftreten können Korrelationen und Assoziationen zwischen ihnen
ermittelt werden.
5 Anwendungen
66
Die speziellen Probleme bei Freitexteingaben durch die Mitarbeiter sind in der
Eingabe unvollständiger Sätze, der Verwendung eines prozessspezifischen Jargons,
orthografische Fehler und Formulierungen in verschiedenen Sprachen zu sehen. Das
hat für die Vorverarbeitung der Freitexte die Konsequenz, verschiedene Module wie
Spracherkennung, Cleansing (Entfernung überflüssiger Textteile,
Rechtschreibkorrektur, Synonyme) und Annotation mit einzubeziehen. Für die
Textannotation wurden hierfür spezifische Wörterbücher unter Berücksichtigung
einer Konzepthierarchie erstellt. Für die Umsetzung des Projekts kam Software von
IBM (Infosphere Warehouse ® und Language®) und Cognos® in Anwendung
([SS10], S. 93 ff.).
Die nachfolgend beschriebene Möglichkeit einer semantischen Suche in Bibliotheken
hat Potential um im Rahmen von Enterprise Content Management eingesetzt zu
werden.
5.7 Semantische Suche in Bibliothekskatalogen
Die Suche nach relevanter Literatur in einer Bibliotheksdatenbank ist aufgrund der
Einschränkungen auf die Angaben wie Titel, Autor, Herausgeber, Verlag,
Erscheinungsjahr und ISBN Nummer sehr beschränkt. Konsequenz ist, dass die
Suchanfrage sehr genau und detailliert gestellt werden muss. Eine vorherige
Internetrecherche mit den üblichen Suchmaschinen ist im Vergleich wesentlich
ergiebiger und somit oft die Grundlage für eine folgende Suche in der Bibliothek.
Bonte et al. stellen eine Lösung in Form einer multilingualen semantischen Suche in
der Sächsischen Landesbibliothek – Staats- und Universitätsbibliothek Dresden
(SLUB) vor ([BGH12]). Ziele der Anwendung SLUBsemantics waren die
Ermöglichung einer thematischen Suche und die Realisierung von Erleichterungen
beim Auffinden fremdsprachiger Literatur. Dabei ist vor allem die Umsetzung der
ersten Idee, nämlich eine völlig zwanglose Formulierung einer Suchanfrage durch
den Anwender zu ermöglichen, von Interesse. In einer Suchanfrage müssen somit
keine Terme stehen, die den Metadaten im Bestandskatalog entsprechen, denn
SLUBsemantics erkennt automatisch den inhaltlichen Zusammenhang und gibt
Suchergebnisse auch in grafischer Form aus. Dabei werden alle Konzepte
5 Anwendungen
67
berücksichtigt, auf welche mehrdeutige Suchwörter einen Bezug haben können und
entsprechend dargestellt. Da gleichzeitig die Mehrsprachigkeit berücksichtigt wird
(aktuell sind Anfragen in deutscher, englischer und polnischer Sprache möglich)
ergibt eine Suche nach dem Filmtitel „Gone with the wind“ das nachfolgend
dargestellte Ergebnis in Abbildung 5.9. Wie zu sehen ist, werden auch
Verknüpfungen zur Romanvorlage und dessen Autorin, dem deutschen Titel oder
einzelnen Schauspielern angezeigt und laden zur Navigation durch Auswahl der
Ergebnisknoten ein.
Abbildung 5.9 Suchergebnis für die Eingabe „gone with the wind“ ([BGH12], S. 70)
Möglich wird dieses Ergebnis durch einen Rückgriff auf Wikipedia um die
Katalogdaten mit Verknüpfungen und semantischen Relationen zu versehen. Der
Vorgang der Verknüpfung der Katalogeinträge mit den externen
Informationsbeständen erfolgte automatisch unter Verwendung der „frei verfügbaren
Textinformationen der deutschen, englischen und polnischen Wikipedia sowie die
als Linked OpenData verfügbaren Normdaten der deutschen Nationalbibliothek“
([BGH12], S. 71).
5 Anwendungen
68
SLUBsemantics ist seit 2011 im Testeinsatz und verweist in der ersten Ausbaustufe
auf über 4 Millionen lokale Titeldaten. Das Potenzial dieser Suchtechnologie kann
sich auch in unternehmensinternen Dokumentsuchen entfalten. Sie kann nicht nur
bekanntes sondern auch bisher verborgenes wissen sicht- und nutzbar machen.
"Eine thematische Suche, die dem Anwender Suchfrage ermöglicht und dennoch alle
fachlich relevanten und naheliegenden Dokumente liefert, reduziert nicht nur den
Zeitaufwand für eine erfolgreiche Suche, sondern kann eben auch bisher verborgenes
Wissen aufdecken (Serendipity)." ([BGH12], S. 72f)
Besondere Relevanz erlangt das Text Mining aber im Gesundheitswesen.
5.8 Schneller Zugriff auf relevante medizinische Befunde
Die Medizin ist ein Fachgebiet mit einem hohen Anteil unstrukturierter Daten im
Bereich der Patientendaten hoch ist. Arztbriefe, Befunde, OP-Protokolle, EKG-
Kurven Röntgenbilder, CT-Bilder, um nur eine Auswahl zu nennen, bilden die
Datenbasis bei der Beurteilung des Krankheits- bzw. Genesungsverlaufs eines
Patienten. Die Haupttransportmittel der Kommunikation sind Sprache und vor allem
Text. Diese Texte müssen oft unter Zeitdruck und unter schwierigen
Arbeitsbedingungen verfasst werden. Deshalb besitzen digitale medizinische
Dokumentationen einige Besonderheiten. Die Texte sind im engeren Sinne
multilingual, da sehr häufig lateinische Begriffe verwendet werden. Sie enthalten oft
Schreibfehler orthografischer Natur oder sind grammatikalisch nicht korrekt. Sehr
häufig wird mit Abkürzungen gearbeitet, die von Fachgebiet zu Fachgebiet
verschiedene Bedeutungen haben können. Außerdem gibt es je nach
Forschungsstand und Philosophie des Hauses ein spezielles Vokabular, das
sprachliche Vereinbarungen und Gepflogenheiten widerspiegelt ([HGE07]).
Zu den Aufgaben eines Arztes gehört es, sich die für die Behandlung relevante
Informationen über einen Patienten zu beschaffen, in Notfällen innerhalb kürzester
Zeit. Aufgrund der großen Anzahl, ein typisches Beispiel ist in Abbildung 5.10 zu
sehen, und der Beschaffenheit der abgelegten Dokumente führt eine einfache
Datenbank- oder Textsuche meist nicht zu den gewünschten Ergebnissen. Um
diesen Zustand zu verändern ist eine Aufarbeitung der Dokumente notwendig um sie
5 Anwendungen
69
mit zusätzlichen Daten zu versehen, die bei einer Recherche genutzt werden
können. Bereits unterstützte und genutzte Codierungen (ICD, OPS, DRG) haben vor
allem eine abrechnungstechnische Relevanz oder haben Bezug zum Controlling und
eine untergeordnete medizinische Bedeutung. Die medizinischen Aussagen müssen
vielmehr aus den Befundtexten extrahiert werden und auf ein geeignetes
Begriffssystem abgebildet werden. Nach der semantischen Informationsextraktion
müssen die so gewonnenen Daten in einer Form repräsentiert werden, die sich als
Benutzerschnittstelle zur Informationsbeschaffung für Ärzte eignet.
Abbildung 5.10 Ausschnitt aus der elektronischen Krankenakte eines 2 1/2-jährigen Patienten mit über 300 Dokumenten ([HGE07])
Holzinger et al. zeigen in ihrer Arbeit auf, wie dies mit Hilfe von Text Mining Software
gelingen kann ([HGE07]). Dabei liegt der Schwerpunkt ihrer Betrachtungen auf der
Textanalyse der Freitexte, der semantischen Analyse. Hierfür benötigte Ontologien
wie das Unified Medical Language System (UMLS) oder „openGALEN“ sind
vorhanden. Probleme bei der semantischen Analyse von Befunden bereiten vor
allem die oben genannten Besonderheiten medizinischer Dokumentation. Es wird ein
Lösungsansatz aufgezeigt, der neben der Analyse auch erforderliche
Präsentationsformen der gewonnenen Informationen betrachtet und entsprechende
Anforderungen formuliert. Insgesamt ist zu erwarten, dass auf dieser Basis die
semantische Erschließung medizinischer Dokumentationen weiter zunehmen wird:
„Im Zuge der Weiterentwicklung der organisationsübergreifenden, vernetzten Patientenakte
[…] ist damit zu rechnen, dass die semantische Erschließung der medizinischen
Dokumentation immer mehr an Bedeutung gewinnen wird.. Die Synergien des ‚Semantic
5 Anwendungen
70
Web‘, insbesondere bei Basiswerkzeugen(Tokenizer, Visualisierungstools usw.), werden hier
wohl die Entwicklung weiter beschleunigen.“ ([HGE07], S. 77 f.)
Weitere Überlegungen und Ergebnisse beim Einsatz von Text Mining im
medizinischen Bereich finden sich auch bei ([HMH01]) und ([KMR11]), die jedoch
nicht näher vorgestellt werden, da es in diesem Kapitel um exemplarische
Anwendungsbeispiele geht.
Weiter, kurz dargestellte Anwendungen sind nachfolgend aufgeführt.
5.9 Weitere Einsatzgebiete und Anwendungsbeispiele
In der Finanzdienstleistungsbranche spielen korrekte und aktuelle Informationen für
Anlageentscheidungen eine große Rolle. Das Auffinden solcher Informationen ist
über herkömmliche Suchmaschinen ineffizient und sehr zeitaufwändig. Gerstl et al.
stellen hier eine Text Mining Anwendung eines Finanzunternehmens vor. Dieses
Unternehmen stellt seinen Kunden einen Informationsdienst zur Verfügung, der die
für die Interessenten relevanten Informationen schnell und zeitnah zur Verfügung
stellt. Ausgangspunkt ist ein Webcrawler. Dieser sammelt im Internet die
Informationen, die von verschieden Nachrichtendiensten und
Finanzinformationsdiensten zur Verfügung gestellt werden. Das System trennt die so
gewonnenen Texte nach Sprachen und erzeugt automatisch für jeden Text eine
Zusammenfassung. Anschließend werden die Texte einer bestehenden Taxonomie
zugeordnet. Für den Kunden ist nun eine Suche über Schlagwörter oder Kategorien
der Taxonomie möglich bzw. einer Kombination beider Auswahlen möglich. Somit
kann der Kunde gezielt auf relevante und aktuelle Daten dieses Informationsdienstes
zugreifen. Die beschriebene Lösung wurde mittels IBM Intelligent Miner for Text
umgesetzt ([GHK01], S. 46 f.).
Als ein weiteres wichtiges Einsatzgebiet erwähnen Gerstl et al. die Patentanalyse.
Bei einer geplanten Patentanmeldung oder der Suche nach Patenten in einem
bestimmten untersuchten technologischen Bereich ist es von entscheidender
Bedeutung, alle bereits existierenden Patente zu finden. Die Patente liegen schon
seit einiger Zeit in digitaler Form vor (in den USA seit 1971) und sind online
verfügbar. Eine Suche mit Schlagwörtern führt zu unvollständigen Ergebnissen, da
5 Anwendungen
71
wichtige Informationen und Zusammenhänge nur innerhalb der Patenttexte enthalten
sind. Inhaltsähnliche Patente könnten aber durch Dokumenten Clustering identifiziert
werden und in Gruppen für eine spätere Analyse zusammengefasst werden. Dabei
können über Distanzmaße die Zusammenhänge zwischen den Gruppen bestimmt
werden ([GHK01], S. 47).
Die Medienbranche steht vor der Herausforderung, dass nicht alle Artikel lokaler
Zeitungen digital oder sogar online vorhanden sind, aber dennoch von
überregionalem Interesse sein können. Eine Sichtung all dieser Zeitungen erscheint
zeitnah nicht möglich. Hier schlagen Gerstl et al. vor, die entsprechenden Zeitungen
zu scannen und über OCR-Lösungen zu digitalisieren .Die Texte werden automatisch
zusammengefasst, Schlagwörter erfasst und mit diesen Metadaten versehen in
einem Content Management System gespeichert. Danach erfolgt unter Verwendung
einer Taxonomie die Kategorisierung der Artikel. Diese Datenbasis kann dann
Kunden zur Verfügung gestellt werden, die dann gezielt Informationen nach
bestimmten Kategorien und Schlagwörtern suchen können ([GHK01], S. 47 f.).
Weiss et al. stellen die Filterfunktion des Mozilla E-Mail Clients Thunderbird in Bezug
auf Text Mining Techniken. Für die Empfänger von vielen E-Mails pro Tag ist es
unumgänglich ein Werkzeug zu besitzen, welches die eingehenden Nachrichten in
verschieden Ordner sortiert und Spam-Mails aussortiert. Der Anwender kann Regeln
festlegen, wie bezüglich bestimmter Zeichenketten oder sogenannter „regular
Expressions“ sowohl im Header als auch im Text der Nachricht diese einzuordnen
ist. Ein lernender Klassifizierer erkennt Spam-Mails und verschiebt sie in den
entsprechenden Ordner. Dieser Klassifizier wird angelernt, indem der Anwender
bestimmte E-Mails als Spam kennzeichnet bzw. vom System als Spam
vorgeschlagene Mails als Nicht-Spam markiert vor ([WIZ12], S. 174 ff.).
Wie die bisherigen Ausführungen zeigen, ist die Zahl der Einsatzgebiete immens.
Weitere Anwendungsbeispiele sind in der Versicherungswirtschaft, der
Literaturrecherche, den Naturwissenschaften oder aber dem Personalmanagement
zu sehen. Tabelle 5.1 nennt mögliche Anwendungsgebiete und zur Verfügung
stehende Dokumentationen.
5 Anwendungen
72
Versicherungswirtschaft Using Text Mining and Natural Language Processing for Health Care Claims Processing ([Po05])
Literaturrecherche Mining the content of the ACM Digital Library ([CR04], S. 109 ff.)
CRM Opinion Mining im Web 2.0 ([Ka09])
Patentrecherche Evaluierung eines Text-Mining-Systems zur Dokumentklassifizierung für das Patentinformationssystem der DaimlerChrysler AG ([Kl04])
Personalmanagement Text Mining supported Skill Monitoring ([Le11])
Finanzwirtschaft Advanced Text Mining Methods for the Financial Markets and Forecasting of Intraday Volatility ([Pi11])
Competitive Intelligence Mining Industry Literature for Business Intelligence ([FS07], S. 279 ff.)
Patentrecherche Patent Analysis Solution Leveraging a Commercial Text Analytics Platform ([FS07], S. 295 ff.)
Naturwissenschaften Mining Biological Pathway Information with GeneWays ([FS07], S. 307 ff.)
Tabelle 5.1 Weiter Anwendungsgebiete für das Text Mining
6 Fazit und Ausblick
73
6 Fazit und Ausblick
Die vorliegende Arbeit verfolgte das Ziel, das Text Mining als Methode zur
Exploration von Wissen in Stellung zu bringen. Wissen entsteht durch Verknüpfung
von Informationen, Informationen bestehen aus Daten. Daten und Informationen
umgeben uns auf vielfältige Weise und sind scheinbar immer und von überall her
erreichbar. Das Zeitalter des Internet, die rasante Entwicklung von
Speicherkapazitäten und Prozessorleistung, mobiles und Cloud Computing sind die
Katalysatoren für eine gigantische Erzeugung von Daten vielfältiger Art. Diese
Entwicklung führte zur Prägung der Begriffe „Big Data“ und „Information Overload“.
Diese Namensgebungen allein beschreiben schon ein wachsendes Problem, denn
ein Mehr an Daten und Informationen bedeutet nämlich nicht automatisch ein Mehr
an Wissen, da erst die passenden Informationen gefunden und dann verknüpft
werden müssen. Im Gegenteil erschwert die Datenflut sogar das Auffinden relevanter
Informationen. Erschwerend kommt hinzu, dass das Erfassen neuer Daten kaum
noch mit Restriktionen und Konventionen unterlegt ist. Verschärfend wirkt sich aus,
dass die Anwender ihre Daten in weitverzweigte Ordnersysteme mit einer Fülle von
Dateien als Folge anwenderfreundlicherer Software und Betriebssysteme
abspeichern können. Hinzu kommt, dass die gebräuchlichste Form der
menschlichen Kommunikation, nämlich die Sprache in Textform, für eine
Dateneingabe genutzt werden kann. Somit liegen immer mehr Daten in
unstrukturierter Form vor. Dieses Dilemma hat alle Bereiche der Gesellschaft erfasst
und schafft Herausforderungen, die auch im Kontext betriebswirtschaftlicher
Fragestellungen und speziell in der Wirtschaftsinformatik zu beachten sind.
In Unternehmen spielen Daten schon immer eine große Rolle, allerdings lagen sie
zumeist in wohl strukturierter Form in der Regel in Data Warehouses vor. Sie dienen
nicht nur als Grundlage für Planung, Organisation und Steuerung der Produktion
oder Managemententscheidungen; durch die Entwicklung des Data Mining sind sie
auch Quelle neuen Wissens, welches zu entscheidenden Wettbewerbsvorteilen
führen kann.
6 Fazit und Ausblick
74
Wie im 2. Kapitel gezeigt wurde, wächst der Anteil unstrukturierter Daten immer
weiter wächst. Da diese Daten auch zur Wissensgewinnung genutzt werden sollen
und dies mit Data Mining nicht möglich ist, entstand die Notwendigkeit der
Entwicklung und des Einsatzes von Text Mining Methoden. Viele Bereiche wie
Customer Relationship Management, Competitive Intelligence und Enterprise
Content Management bieten sich für den Einsatz dieser Verfahren an. Mittels Text
Mining ist es, wie an Beispielen in Kapitel 5 zu sehen, möglich, Wissen über Kunden,
Märkte, Konkurrenten, Produkte zu generieren und dieses in
Unternehmensentscheidungen einfließen zu lassen.
Die Bedeutung von Wissensmanagement in Unternehmen wächst, Text Mining spielt,
wie gezeigt, eine wichtige Rolle bei der Wissensidentifikation und
Wissensdarstellung. Neue Visualisierungsformen von Domänenwissen wie
Ontologien können mittels Text Mining geschaffen werden. Diese können wiederum
zur Navigation durch die Wissensbestände dieser Domäne genutzt werden und
Strukturen in die Fülle unstrukturierter Daten zu bringen.
Wissensexploration bedeutet mehr als nur die Aufdeckung neuen Wissens. Vielmehr
geht es auch um das Verfügbarmachen bereits bekannten Wissens. So ist das von
einem Autor in einem Dokument untergebrachte Wissen im herkömmlichen Sinne
zwar kein neues Wissen, für den Lesenden aber durchaus. Mittels Text Mining
Systeme kann man zum einen komplexe Dokumenten- oder Textsammlungen
kategorisieren und entsprechend ablegen und zum anderen die Möglichkeiten der
Suche durch die Verwendung semantischer Suchanfragen in solchen Bibliotheken
verbessern.
Die neue Evolutionsstufe des Internet – das Semantic Web, bedient sich vieler
Techniken aus dem Text Mining Forschungsgebiet. Das Semantic Web wird den
Zugang zu Wissen erleichtern, da im Gegensatz zur heutigen Situation eine
Suchanfrage nicht auf Schlüsselwörter begrenzt sein wird.
Zusammenfassend läßt sich festhalten, dass Text Mining ein sehr dynamisches
Forschungsfeld ohne klare Begrenzungen darstellt. Im Fokus der Entwicklungen
stehen dabei die Unterstützung mehrsprachiger Systeme, die Verbesserung der
Bedeutungsanalyse und die automatische Erzeugung von Ontologien. Um zukünftige
und erwartete im Bereich der zur Verfügung stehenden Daten bewältigen zu können,
6 Fazit und Ausblick
75
muss die Leistungsfähigkeit der Systeme deutlich verbessert werden Das in dem
System liegende Potenzial scheint noch nicht ausgeschöpft.
Schon jetzt leistet Text Mining einen wichtigen und wertvollen Beitrag um die
vorhandene Datenflut in geordnete Bahnen zu lenken, Wissen zu generieren,
letztlich den Information Overload zu verhindern oder zumindest zu managen.
Literaturverzeichnis
76
Literaturverzeichnis [AM11] Abts, Dietmar; Mülder, Wilhelm (2011): Grundkurs Wirtschaftsinformatik.
Eine kompakte und praxisorientierte Einführung. 7. Aufl. Wiesbaden: Vieweg + Teubner (Studium).
[Ag12a] Aggarwal, Charu C. (2012): An Introduction to Text Mining. In: Charu C. Aggarwal (Hg.): Mining Text Data. New York [u.a.]: Springer US, S. 1–10.
[Ag12] Aggarwal, Charu C. (Hg.) (2012): Mining Text Data. New York [u.a.]: Springer US.
[AC12a] Aggarwal, Charu C.; ChengXiang, Zhai (2012): A Survey Of Text Classification Algorithms. In: Charu C. Aggarwal (Hg.): Mining Text Data. New York [u.a.]: Springer US, S. 163–222.
[AC12b] Aggarwal, Charu C.; ChengXiang, Zhai (2012): A Survey of Text Clustering Algorithms. In: Charu C. Aggarwal (Hg.): Mining Text Data. New York [u.a.]: Springer US, S. 77–128.
[AM06a] Ananiadou, Sophia; McNaught, John (2006): Introduction. In: Sophia Ananiadou und John McNaught (Hg.): Text mining for biology and biomedicine. Boston: Artech House, S. 1–11.
[AM06b] Ananiadou, Sophia; McNaught, John (Hg.) (2006): Text mining for biology and biomedicine. Boston: Artech House.
[BK08] Baars, Henning; Kemper, Hans-George (2008): Management Support with Structured and Unstructured Data—An Integrated Business Intelligence Framework. In: Information Systems Management 25 (2), S. 132–148.
[Ba13] Banchs, Rafael E. (2013): Text Mining with MATLAB®. New York, NY [u.a.]: Springer.
[Ba06] Bange, Carsten (2006): Werkzeuge für Business Intelligence. In: HMD Praxis der Wirtschaftsinformatik (247), S. 63–73.
[Be04] Berry, Michael W. (Hg.) (2004): Survey of text mining. New York ;, Berlin ;, Heidelberg [u.a.]: Springer.
[BC08] Berry, Michael W.; Castellanos, Malu (Hg.) (2008): Survey of text mining II. Clustering, classification, and retrieval. International Workshop on Text Mining and its Applications; SIAM International Conference on Data Mining. New York ;, London: Springer.
[BK10] Berry, Michael W.; Kogan, Jacob (Hg.) (2010): Text mining. Applications and theory. SIAM International Conference on Data Mining. Chichester, U.K: Wiley.
[BM06] Bill, Thorsten; Michaeli, Rainer (2006): Competitive-Intelligence-Evolutionsphasen in der Praxis. In: HMD Praxis der Wirtschaftsinformatik (247), S. 74–83.
[BCH05] Bloehdorn, Stephan; Cimiano, Philipp; Hotho, Andreas; Staab, Steffen (2005): An Ontology-based Framework for Text Mining. In: LDV Forum Band 20 (Heft 1), S. 87–112.
Literaturverzeichnis
77
[Bo06] Bodendorf, Freimut (2006): Daten- und Wissensmanagement. Zweite, aktualisierte und erweiterte Auflage. Berlin, Heidelberg: Springer-Verlag Berlin Heidelberg (Springer-Lehrbuch).
[Bö07] Böhn, Martin (2007): ECM-Markt – ein Strukturierungsansatz. In: HMD Praxis der Wirtschaftsinformatik (258), S. 16–24.
[BGH12] Bonte, Achim; Glaß, Robert; Horn, Anne; Mittelbach, Jens (2012): Multilinguale Suche in Bibliothekskatalogen – ein semantischer Ansatz mit Open-Source-Software und Open Data. In: HMD Praxis der Wirtschaftsinformatik (283), S. 68–73.
[Br04] Brückner, Thomas (Spektrum, Akad. Verl., 2004): Textklassifikation. In: Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde, Hagen Langer et al. (Hg.): Computerlinguistik und Sprachtechnologie eine Einführung. 2. Aufl. München: Elsevier, S. 496–501.
[BKL09] Bügel, Ulrich; Knaf, Hagen; Laufs, Uwe (2009): Technologieentwicklung: Theoretische und praktische Unterstützung mit Data Mining. In: HMD Praxis der Wirtschaftsinformatik (268), S. 21–34.
[CR04] Carpineto, Claudio; Romano, Giovanni (2004): Concept data analysis. Theory and applications. Includes bibliographical references (p. [175]-195) and index. Chichester: Wiley.
[Ch01] Chen, Hsinchun Dr. (2001): Knowledge Management Systems - A Text Mining Perspective. Online verfügbar unter http://arizona.openrepository.com/arizona/bitstream/10150/106481/1/chenKMSi.pdf, zuletzt aktualisiert am 20.11.2001, zuletzt geprüft am 18.01.2013.
[CH05] Cohen, Aaron Michael; Hersh, William R. (2005): A survey of current work in biomedical text mining. In: Briefings in Bioinformatics 6 (1), S. 57–71.
[ES11] Eggert, Sandy; Stritzel, Martha (2011): 47 Business Intelligence Lösungen im Überblick. In: ERP Management (4), S. 50–55.
[ES12] Eggert, Sandy; Stritzel, Martha (2012): 63 CRM-Systeme im Vergleich. In: ERP Management (2), S. 46–59.
[Fe06a] Felden, Carsten (2006): Extraktion, Qualitätssicherung und Klassifikation unstrukturierter Daten. In: HMD Praxis der Wirtschaftsinformatik (247), S. 54–62.
[Fe06b] Felden, Carsten (2006): Text Mining als Anwendungsbereich von Business Intelligence. In: Peter Chamoni und Peter Gluchowski (Hg.): Analytische Informationssysteme. Business Intelligence-Technologien und -Anwendungen. Berlin Heidelberg: Springer-Verlag, S. 283–304.
[FD95] Feldman, Ronen; Dagan, Ido (1995): Knowledge Discovery in Textual Databases (KDT). In: Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95), S. 112–117.
[FS07] Feldman, Ronen; Sanger, James (2007): The text mining handbook. Advanced approaches in analyzing unstructured data. 1. Aufl. New York, NY [u.a.]: Cambridge Univ. Press.
Literaturverzeichnis
78
[Fi11] Findeisen, Dirk (2011): Wissensmanagement meets Business Intelligence. In: wissensmanagement (5), S. 34–37.
[GD01] Gabriel, Roland; Dittmar, Carsten (2001): Der Ansatz des Knowledge Managements im Rahmen des Business Intelligence. In: HMD Praxis der Wirtschaftsinformatik (222), S. 17–28.
[GHK01] Gerstl, Peter; Hertweck, Matthias; Kuhn, Birgit (2001): Text Mining: Grundlagen, Verfahren und Anwendungen. In: HMD Praxis der Wirtschaftsinformatik (222), S. 38–48.
[Gl01] Gluchowski, Peter (2001): Business Intelligence - Konzepte, Technologien und Einsatzbereiche. In: HMD Praxis der Wirtschaftsinformatik (222), S. 5–15.
[HW06] Hahn, Udo; Wermter, Joachim (2006): Levels of Natural Language Processing for Text Mining. In: Sophia Ananiadou und John McNaught (Hg.): Text mining for biology and biomedicine. Boston: Artech House, S. 13–41.
[He99] Hearst, Marti A. (1999): Untangling Text Data Mining. In: Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics. Proceedings of ACL'99: the 37th Annual Meeting of the Association for Computational Linguistics.
[He03] Hearst, Marti A. (2003): What Is Text Mining? Online verfügbar unter http://people.ischool.berkeley.edu/~hearst/text-mining.html, zuletzt aktualisiert am 17.10.2003, zuletzt geprüft am 16.02.2013.
[He09] Hearst, Marti A. (2009): Search user interfaces. 1. Aufl. Cambridge [u.a.]: Cambridge Univ. Press.
[HMH01] Heinze, Daniel T.; Morsch, Mark L.; Holbrook, John (2001): Text Mining Dictated Medical Records-AMIA2001. In: Suzanne Bakken (Hg.): A medical informatics odyssey. Visions of the future and lessons from the past ; the annual symposium of the American Medical Informatics Associaton ; proceedings ; November 3 - 7, 2001, Marriott Wardman Park Hotel, Washington, DC. Philadelphia: Hanley & Belfus (Journal of the American Medical Informatics Association, 8), S. 254–258.
[He06] Heitmann, Benjamin (2006): NewsBlaster: Zusammenfassungen von Nachrichten aus mehrere Quellen. In: René Witte und Jutta Mülle (Hg.): Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten. Universität Karlsruhe, Fakultät für Informatik, Institut für Programmstrukturen und Datenorganisation (IPD) (Interner Bericht 2006-5), S. 157–174.
[HQW08] Heyer, Gerhard; Quasthoff, Uwe; Wittig, Thomas (2008): Text Mining: Wissensrohstoff Text. Konzepte, Algorithmen, Ergebnisse. 1. Aufl., 1 korr. Nachdruck. Herdecke [u.a.]: W3L-Verl (IT lernen).
[HR06a] Hippner, Hajo; Rentzmann, Rene (2006): Text Mining zur Anreicherung von Kundenprofilen in der Bankenbranche. In: HMD Praxis der Wirtschaftsinformatik (249), S. 99–108.
[HR06b] Hippner, Hajo; Rentzmann, René (2006): Text Mining. In: Informatik Spektrum 29 (4), S. 287–290.
Literaturverzeichnis
79
[HGE07] Holzinger, Andreas; Geierhofer, Regina; Errath, Maximilian (2007): Semantische Informationsextraktion in medizinischen Informationssystemen. In: Informatik Spektrum 30 (2), S. 69–78.
[HNP05] Hotho, Andreas; Nürnberger, Andreas; Paaß Gerhard (2005): A Brief Survey of Text Mining. In: LDV Forum Band 20 (Heft 1), S. 19–62.
[Ji12] Jiang, Jing (2012): Information Extraction from Text. In: Charu C. Aggarwal (Hg.): Mining Text Data. New York [u.a.]: Springer US, S. 11–41.
[Ka09] Kaiser, Carolin (2009): Opinion Mining im Web 2.0 – Konzept und Fallbeispiel. In: HMD Praxis der Wirtschaftsinformatik (268), S. 90–99.
[KP10] Kao, Anne; Poteet, Stephen R. (Hg.) (2010): Natural language processing and text mining. London: Springer.
[KQP03] Kao, Anne; Quach, Lesley; Poteet, Steve; Woods, Steve (2003): User assisted text classification and knowledge management. In: Proceedings of the twelfth international conference on Information and knowledge management - CIKM '03: ACM Press, S. 524–527.
[KB06] Kemper, Hans-Georg; Baars, Henning (2006): Business Intelligence und Competitive Intelligence. IT-basierte Managementunterstützung und markt-/wettbewerbsorientierte Anwendungen. In: HMD Praxis der Wirtschaftsinformatik (247), S. 7–20.
[KBM10] Kemper, Hans-Georg; Baars, Henning; Mehanna, Walid (2010): Business Intelligence - Grundlagen und praktische Anwendungen. Eine Einführung in die IT-basierte Managementunterstützung. 3. Aufl. Wiesbaden: Vieweg + Teubner (Studium : Wirtschaftsinformatik).
[Kl04] Klamer, Petra (2004): Evaluierung eines Text-Mining-Systems zur Dokumentklassifizierung für das Patentinformationssystem der DaimlerChrysler AG. Diplomarbeit. Fachhochschule Stuttgart. Online verfügbar unter http://opus.bsz-bw.de/hdms/volltexte/2005/529/pdf/klamer.pdf, zuletzt geprüft am 05.11.2012.
[Ko08] Koch, Stefan (Hg.) (2008): Customer & supplier relationship management. Beziehungsmanagement ; betrieblicher CRM-Einsatz ; Identifizierung von CRM-Prozessen ; Relationship Banking ; CRM-Prozess-Outsourcing ; IT-Unterstützung im SRM ; Lieferantenqualifizierung ; CRM- und SRM-Fallstudien. Heidelberg: dpunkt-Verlag (HMD - Praxis der Wirtschaftsinformatik, 259).
[Ko06] Konchady, Manu (2006): Text mining application programming. Boston, Mass: Charles River Media.
[KMR11] Korkontzelos, Ioannis; Mu, Tingting; Restificar, Angelo; Ananiadou, Sophia (2011): Text mining for efficient search and assisted creation of clinical trials. In: Proceedings of the ACM fifth international workshop on Data and text mining in biomedical informatics. New York, NY: ACM, S. 43–50.
[LLS10] Laudon, Kenneth C.; Laudon, Jane Price; Schoder, Detlef (2010): Wirtschaftsinformatik. Eine Einführung. 2. Aufl. München [u.a.]: Pearson Studium (Pearson Studium).
Literaturverzeichnis
80
[Le11] Ledermüller, Karl (2011): Text Mining Supported Skill Monitoring. A Framework for Analyzing Job Announcements with Special Focus on Curriculum Planning and Spatial Applications. Dissertation. Wirtschaftsuniversität Wien. Institute for Banking Finance and Insurance. Online verfügbar unter http://epub.wu.ac.at/3174/1/skillmonitoring.pdf, zuletzt geprüft am 10.11.2012.
[Ma08] Manhart, Klaus Dr. (2008): Unstrukturierte Daten: Auf Datensuche mit Text Mining und Web Mining - computerwoche.de. Online verfügbar unter http://www.computerwoche.de/a/auf-datensuche-mit-text-mining-und-web-mining,1755558, zuletzt geprüft am 13.01.2013.
[MRS09] Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2009): Introduction to information retrieval. 1. Aufl. Cambridge [u.a.]: Cambridge Univ. Press.
[Ma12] Martin, Wolfgang (2012): Big-Data-Analyse verwandelt Kundenkenntnis in Marktwissen. In: - is report (03), S. 16–19.
[MW05] Mehler, Alexander; Wolff, Christian (2005): Perspektiven und Positionen des Text Mining. In: LDV Forum Band 20 (Heft 1), S. 1–18.
[Mi12] Miner, Gary (2012): Practical text mining and statistical analysis for non-structured text data applications. 1. Aufl. Waltham, MA: Academic Press.
[Ne13] NewsBlaster (2013): Columbia Newsblaster: Summarizing All the News on the Web (02/06/2013 - 02/09/2013). Online verfügbar unter http://newsblaster.cs.columbia.edu/, zuletzt aktualisiert am 09.02.2013, zuletzt geprüft am 09.02.2013.
[PBN11] Peris, Martina; Blinn, Nadine; Nüttgens, Markus; Japes, Jens; Schröder, Gerd; Keller, Gerhard (2011): IT-Werkzeuge zur Vermittlung von Kenntnissen betriebswirtschaftlicher Anwendungssoftware. In: HMD Praxis der Wirtschaftsinformatik (277), S. 28–37.
[Pi11] Pieper, Michael J. (2011): Advanced Text Mining Methods for the Financial Markets and Forecasting of Intraday Volatility. Dissertation. Karlsruhe Institute of Technology School of Economics and Business Engineering. Online verfügbar unter http://digbib.ubka.uni-karlsruhe.de/volltexte/documents/1953874, zuletzt geprüft am 04.11.2012.
[Po05] Popowich, Fred (2005): Using Text Mining and Natural Language Processing for Health Care Claims Processing. In: SIGKDD Explorations 7 (1), S. 59–66.
[Ri09] Riggert, Wolfgang (2009): ECM - Enterprise Content Management. Konzepte und Techniken rund um Dokumente ; mit 17 Tabellen. 1. Aufl. Wiesbaden: Vieweg + Teubner.
[Ru10] Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelligenter Datenanalyse ; mit … 7 Tabellen. 1. Aufl. Wiesbaden: Vieweg + Teubner (Computational intelligence).
[Ru07] Russom, Philipp (2007): TDWI Research Report : BI Search and Text Analytics. Online verfügbar unter http://download.101com.com/pub/tdwi/Files/TDWI_RRQ207_lo.pdf, zuletzt aktualisiert am 26.03.2007, zuletzt geprüft am 20.01.2013.
Literaturverzeichnis
81
[SZ10] Schneider, Gerold; Zimmermann, Heinrich (2010): Text-Mining-Methoden im Semantic Web. In: HMD Praxis der Wirtschaftsinformatik (271), S. 35–46.
[SSS12] Schroeck, Michael; Shockley, Rebecca; Smart, Janet; Romero-Morales, Dolores; Tufano, Peter (2012): Analytics: The real-world use of big data. Online verfügbar unter http://whitepaper.computerwoche.de/uploads/files/16aa8056c72de21815cf94d1abe16353024ca9ee.pdf, zuletzt aktualisiert am 15.10.2012, zuletzt geprüft am 20.01.2013.
[Si06] Siegmund, Carsten (2006): Einführung in Text Mining. In: René Witte und Jutta Mülle (Hg.): Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten. Universität Karlsruhe, Fakultät für Informatik, Institut für Programmstrukturen und Datenorganisation (IPD) (Interner Bericht 2006-5), S. 41–58.
[SS09] Srivastava, Ashok; Sahami, Mehran (Hg.) (2009): Text mining. Classification, clustering, and applications. Boca Raton, FL: CRC Press.
[SS10] Steinecke, Ute; Straub, Walter (2010): Unstrukturierte Daten im Business Intelligence - Vorgehen, Ergebnisse und Erfahrungen in der praktischen Umsetzung. In: HMD Praxis der Wirtschaftsinformatik (271), S. 91–101.
[Su01] Sullivan, Dan (2001): Document warehousing and text mining. Techniques for improving business operations marketing and sales. New York: Wiley.
[Ta99] Tan, Ah-hwee (1999): Text Mining: The state of the art and the challenges. Online verfügbar unter http://www3.ntu.edu.sg/home/ASAHTan/Papers/tm_pakdd99.pdf, zuletzt aktualisiert am 19.10.2000, zuletzt geprüft am 30.01.2013.
[UM11] Ullmann, Georg; Marchenko, Maxim (2011): Fehlerfreier Fehlerbericht. Qualitätsbewertung von 8D-Berichten mittels Text Mining. In: QZ - Qualität und Zuverlässigkeit 56 (7), S. 58-59.
[UMB10] Ullmann, Georg; Marchenko, Maxim; Behrens, Bernd-Arno; Overmeyer, Ludger (2010): Exzellentes Reklamationsmanagement. Text Mining basierte Qualitätsbewertung von 8D-Berichten. In: Zeitschrift für wirtschaftlichen Fabrikbetrieb (12), S. 1102–1107.
[Ul10] Ultes-Nitsche, Ulrich (2010): Web 3.0 – wohin geht es mit dem World Wide Web? In: HMD - Praxis der Wirtschaftsinformatik (271), S. 6–12.
[UW12] Urbanski, Jürgen; Weber, Matthias (2012): Big Data im Praxiseinsatz - Szenarien, Beispiele, Effekte. Online verfügbar unter http://www.bitkom.org/files/documents/Big_Data_BITKOM-Leitfaden_Sept.2012.pdf, zuletzt aktualisiert am 18.09.2012, zuletzt geprüft am 10.11.2012.
[We05] Weiss, Sholom M. (Hg.) (2005): Text mining. Predictive methods for analyzing unstructured information ; [includes free downloadable software]. New York, NY: Springer.
[WIZ12] Weiss, Sholom M.; Indurkhya, Nitin; Zhang, Tong (2012): Fundamentals of Predictive Text Mining. England: Springer London Ltd.
Literaturverzeichnis
82
[Za07] Zanasi, A. (Hg.) (2007): Text mining and its applications to intelligence, CRM and knowledge management. Southampton, UK: WIT Press.
[Zi06a] Ziegler, Cai-Nicolas (2006): Die Vermessung der Meinung. In: iX - Magazin für professionelle Informationstechnik (10), S. 106–109.
[Zi06b] Ziegler, Cai-Nicolas (2006): Text Mining: Reputation Intelligence und Sentiment Detection - Stummer Wächter. In: iX - Magazin für professionelle Informationstechnik (4), S. 116.
[Zi12] Ziegler, Cai-Nicolas (2012): Mining for strategic competitive intelligence. Foundations and applications. Berlin ;, New York: Springer.
Ehrenwörtliche Erklärung
Ich erkläre hiermit ehrenwörtlich, dass ich die vorliegende Arbeit selbstständig
angefertigt habe. Die aus fremden Quellen direkt oder indirekt übernommenen
Gedanken sind als solche kenntlich gemacht. Es wurden keine anderen als die
angegebenen Stellen und Hinweise verwandt.
Alle Quellen, die dem World Wide Web entnommen oder in einer sonstigen digitalen
Form verwendet wurden, sind der Arbeit beigefügt. Der Durchführung einer
elektronischen Plagiatsprüfung stimme ich hiermit zu. Die eingereichte Datei
entspricht der eingereichten Druckfassung.
Die vorliegende Arbeit wurde bisher keiner anderen Prüfungsbehörde vorgelegt und
auch noch nicht veröffentlicht.
Wismar, den 21.02.2013 Unterschrift
Ludwig Michael Seidel
Text Mining als Methode zur Wissensexploration:
Konzepte, Vorgehensmodelle, Anwendungsmöglichkeiten
Text gewinnt als Wissensrohstoff zunehmend an Bedeutung. Gleichzeitig vermehrt
sich die Zahl an zur Verfügung stehenden Informationen durch die Nutzung
moderner Informationstechnologien in hohem Maße an. Information ist jedoch nicht
mit Wissen zu verwechseln. Damit aus Daten tatsächlich Wissen generiert werden
kann, sind Techniken wie das Text Mining von überragender Bedeutung. Sie
erlauben, neues Wissen für den Anwender aus unstrukturierten Textdokumenten
effizient und strukturiert zu extrahieren. Hierzu kommen statistische und linguistische
Analyseverfahren zum Einsatz, die Informationen aufdecken und Muster erkennen.
In der Praxis bieten sich schon heute zahlreiche Anwendungsfelder, die in der
Zukunft noch weiter an Bedeutung zunehmen werden, um den Information Overload
zwar nicht zu verhindern, aber zumindest zu managen.
Text Mining as a method of knowledge exploration:
Concepts, process models, possible applications
Text as a resource of knowledge grows increasingly in importance. Simultaneously
the number of provided information increases by the use of modern information
technologies in a high level. However, information has not to be confused with
knowledge. In order that from data actually knowledge can be generated, techniques
like Text Mining are of prime importance. They enable the efficient and structured
extraction of new knowledge for users from unstructured textual documents. In order
to that statistic and linguistic analyzing proceedings can be used to explore
information and pattern recognition. Actually there are many practice areas winning
on acceptance in the future not for preventing but managing the information overload.
21.02.2013