Marcel Schönebergubicomp/...Aufgrund des nicht möglichen vollen API-Zugri˛s auf Twitter (der...

Projekt 1 Ausarbeitung

Marcel Schönebergmarcel.schoeneberg@haw-hamburg.de

Hochschule für Angewandte Wissenschaften Hamburg (HAW)Fakultät für Technik und InformatikDepartment Informatik

Zusammenfassung

Der folgende Bericht befasst sich mit den Arbeitsergebnissen von des ersten Projekts im

Masterstudium. Zunächst wird kurz eine Einführung in die Thematik samt der vom Autor

gesetzten Ziele) gegeben. Daraufhin wird ein Framwork vorgestellt, welches vom Autor

entwickelt wurde um die de�nierten Ziele zu erreichen. Anschliessend wird die vom Autor

gewählte Analysemethode samt ihrer Ergebnisse vorgestellt. Abschliessend befasst sich

das Fazit kritisch mit den Ergebnissen.

1 Einführung und Ziele

Im Umfeld der Datenverarbeitung und Analyse (z.B. Auswertung der Inhalte von sozialen

Netzwerken) treten Datenmengen auf, welche für Menschen alleine nicht zu bewerkstel-

ligen sind. Daher ist eine maschinelle Verarbeitung solcher Inhalte wünschenswert. Als

konkreter Anwendungsfall wurde die (Früh-)Erkennung von vorhandenen und aufkom-

menden Trends in sozialen Netzwerken [Sch13, siehe] gewählt.

Automatische Verfahren zur Textanalyse verstehen allerdings in aller Regel nicht die

Semantik der von Menschen getätigten Aussagen, allerdings ist dieses für viele grundlegen-

de Analysen auch zunächst nicht notwendig. Verschiedene Analysemethoden kommen mit

statistischen Ansätzen wie z.B. (vereinfacht) dem Zählen von Häu�gkeiten von Worten aus.

Diese können einen ersten Einblick in den Inhalt der zu analysierenden Daten gewähren

([Sch13, vgl.]). Ein etwas komplizierterer Ansatz besteht darin, die Daten zu clustern (und

sie damit in verschiedene Themenbereiche einzuteilen). Ein solcher Ansatz wird im Laufe

dieses Papiers näher beschrieben.

Diese Ansätze liefern eine grobe Basis für weitere Untersuchungen, vor allem der

angesprochene Clusteringansatz vermittelt im Optimalfall eine grobe Idee vom Inhalt

der Analysedaten. Allerdings sind verschiedene Verfahren mit diesem Ziel mathematisch

beliebig kompliziert, weswegen sich der Autor im Folgenden auf die praktische Anwendung

eines solchen Verfahrens konzentriert. Im günstigsten Fall sollen in der Analyse gefundene

Cluster aktuelle bzw. zukünftige Trends im Groben abdecken, so dass diese anhand von

clusterspezi�schen Schlagwörtern semantisch eingeordnet werden können.

2 Aufbau des Frameworks 2

Das übergeordnete Ziel ist die Erkennung und Analyse von (aufkommenden) Trends

in Texten (wie z.B. Beiträgen in sozialen Netzwerken). Diese Arbeit dient als Vorbereitung

zur Erreichung dieser Aufgabe. Hierzu muss als erstes ein Set von Testanalysedaten erstellt,

sowie eine Analyseumgebung aufgebaut und getestet werden. Darüber hinaus sollen erste

Analysen mit den beschriebenen Verfahren zeigen in wie weit die Ergebnisse hilfreich

sind. Aufbauend auf diesen Ergebnissen kann daraufhin im nächsten Projekt konkreter

auf das eigentliche Ziel hingearbeitet werden.

2 Aufbau des Frameworks

Die Ziele dieser Arbeit (Erstellung eines Datensets sowie dessen Analyse) sollen durch ein

durch den Autor entwickeltes Framework erleichtert werden. Die folgenden Abschnitte

beschreiben die Architektur, sowie die grobe Funktionsweise dieses Systems.

Abbildung 2 zeigt die grundsätzlichen Komponenten des Frameworks. Zunächst dient

’socialCrawl’ dazu ein Set von Analysedaten zu erstellen, dieses wird in einer relationalen

Datenbank verwaltet. Die Auswertung der vorliegenden Daten wird von der Analysekom-

ponente vorgenommen.

2.1 socialCrawl

Diese Komponente dient der Datenbescha�ung und ist in Java geschrieben. Die verschie-

denen Bestandteile der Komponente sind voneinander unabhängig, so das im Prinzip

verschiedene Datenquellen als Input benutzt werden können.

Die Datenbescha�ung ist in drei grundlegende Teilbereiche unterteilt, den Navigator,den Extractor, sowie den Storage. Diese bilden die verschiedenen Aspekte des (Social

Media) Crawlers ab.

Aufgrund des nicht möglichen vollen API-Zugri�s auf Twitter (der komfortable Zugri�

auf alle Daten wurde eingestellt und durch eine sehr limitierte Version ersetzt) wurde

ein anderer Ansatz gewählt. Der entwickelte Crawler greift indirekt auf die gewünsch-

ten Daten zu und nutzt hierzu den Browser, welcher durch das Selenium Framework

(http://www.seleniumhq.org/) ferngesteuert wird. Hierbei wird eine Twittersuche ge-

startet (im konkreten Fall zum Hashtag ’# Piraten’) und durch die (zeitlich geordnete)

2 Aufbau des Frameworks 3

Ergebnisliste iteriert bis ein Zieldatum erreicht wird. Diese Aufgabe der Seitennavigation

übernimmt der ’Navigator’.

Das so entstehende HTML-File hat einen fest de�nierten Aufbau, so dass mit der

Teilkomponente ’Extractor’ die gewünschten Datensätze eines Tweets anhand von HTML

und CSS-Eigenschaften (Cascading Style Sheets) extrahiert werden können. In der ge-

nutzten prototypischen Implementierung wird das HTML-File durch einen DOM-Parser

(Document Object Model) in die einzelnen Tweets zerlegt, aus diesen werden daraufhin

Daten wie Tweetautor, Datum und Inhalt extrahiert.

Die extrahierten Daten werden in einem Tweet-Objekt aggregiert und daraufhin durch

die ’Storage’-Komponente in einer MySQL Datenbank gespeichert. Abbildung 2.1 zeigt

das entsprechende Entity Relationship Model. Zu einem Tweet werden die wichtigsten

Eigenschaften (wie Autor, Datum, Inhalt und Hashtags) gespeichert. Hierbei kann ein

Tweet mehrere Hashtags (Keywords) enthalten, welche wiederum in mehreren Tweets

vorhanden sein können.

2.2 Datenset

Das Datenset welches die Grundlage der Analyse bildet ist eine Ansammlung von Tweets

des sozialen Netzwerkes Twitter. Es umfasst 27089 Datensätzen im Zeitraum vom 27.10.2011

bis zum 27.04.2014. Dieses Datenset wurde durch den entwickelten Crawler, unter Nutzung

der Twitter-Suchfunktion zum Hastag "#Piraten", von der Twitter-Website abgegri�en. Der

konkrete Suchterm bezieht sich auf die Piratenpartei Deutschland. Dieses hat den Vorteil,

dass die Analyseergebnisse mit der realen Entwicklung der Partei im Analysezeitraum (in

späteren Arbeiten) abgeglichen werden können um so eine grobe Einschätzung über den

Nutzen der Ergebnisse liefern zu können.

2.3 Analyse

Bei den folgenden Analysen wurde als technische Basis die Programmiersprache R (http://www.r-

project.org/) verwendet, diese ist speziell auf statistische Probleme zugeschnitten und

bietet durch eine Vielzahl von zusätzlichen Erweiterungen relativ gute Möglichkeiten. Die

im Folgenden hauptsächlich vom Autor verwendeten Pakete sind:

• tm1Dieses Packet bietet grundsätzliche Strukturen und Methoden zur maschinellen

Textverarbeitung (Dokumente, Korpus, Stopwordentfernung, Stemming usw.).

• topicmodels2Bietet eine Schnittstelle zur später genutzten LDA Implementierung

von David M. Blei.

vgl. http://cran.r-project.org/web/packages/tm/tm.pdf

vgl. http://cran.r-project.org/web/packages/topicmodels/topicmodels.pdf

3 Datenanalyse 4

• NLP3Ermöglicht es das später verwendete ’Natural Language Processing’ (NLP)

durchzuführen.

3 Datenanalyse

3.1 Themen erlernen mithilfe des LDA-Modells

Im folgenden Abschnitt wird ein Clusteringverfahren vorgestellt welches auf der latenten

Dirichlet Allocation [BNJ03] basiert. Dieses ist ein Basisverfahren, welches im Laufe

der Zeit um verschiedene Aspekte erweitert wurde und in verschiedenen Bibliotheken

implementiert ist (siehe z.B.http://cran.r-project.org/web/packages/topicmodels/topicmodels.pdf).

3.1.1 Modell der latenten Dirichlet Allocation

Die latente Dirichlet Allocation ist ein generatives Wahrscheinlichkeitsmodell für einen

Korpus (z.B. eine Sammlung von Textdokumenten). Die grundlegende Idee ist, dass jedes

Dokument aus einer Anzahl von Topics (auch Themen genannt) besteht (welche nach

außen nicht direkt sichtbar (d.h. latent) sind). Weiterhin ist jede Topic eine Mischung von

Wörtern anzusehen, diese bilden das Thema.

In diesem Modell sollen daher die verschiedenen Wörter (und letztendlich auch die

entsprechenden Dokumente) eines Korpus mit möglichst hoher Wahrscheinlichkeit einem

Thema zugeordnet werden. Die nun zugeordneten Themen bilden die späteren Cluster.

Basierend auf der Zuordnung von Wörtern und Dokumenten zu Themen (und damit Clu-

stern) lässt sich die Topiczusammensetzung eines Dokumentes bestimmen (beispielsweise:

20% Topic A, 70% Topic B sowie 10% Topic C). Darüber hinaus kann man anhand der

Keywords pro Cluster (z.B. die am häu�gsten benutzten Worte) Schlagwörter ermitteln

welche approximiert den Inhalt eines Topics (bzw. Clusters) wiedergegeben.

Grundlegend basiert die Themenzuordnung von LDA auf einem Lernverfahren welches

auf baiyescher Statistik fußt und den Methoden des unüberwachten Lernens zuzuordnen

ist. Weiterhin ist die Grundidee ein Bag-Of-Words Ansatz, welcher ein Dokument nur als

Ansammlung von Wörtern, allerdings ohne Semantik, ansieht.

3.1.2 Gibbs-Sampling

Nachdem die Basisidee von LDA erklärt wurde widmet sich der nächste Abschnitt der

grundlegenden Idee des Lernverfahrens welches die Topiczuordnung übernimmt.

Das Erlernen der Topicverteilung über einen Korpus ist ein Problem der bayischen Sta-

tistik. Eine Möglichkeit dieses anzugehen ist der Algorithmus des "Gibbs-Sampling"[Gri02,

vgl.]. Die Idee hinter dem Gibbs-Algorithmus ist es sich einer wahrscheinlichen Topicver-

teilung iterativ anzunähern. Hierzu wird einer ausgewählten Variable (z.B. einem Wort)

ein Wert zugewiesen, dieser basiert auf ihrer bedingten Wahrscheinlichkeit in Bezug auf

die anderen (bekannten) Wörter. Dieses Vorgehen basiert auf Markov-Ketten Monte Carlo

(MCMC) Methoden, welche Stichproben aus Wahrscheinlichkeitsverteilungen ermitteln.

vgl. http://cran.r-project.org/web/packages/NLP/NLP.pdf

3 Datenanalyse 5

Das Ergebnis der hierbei entstehenden Markov-Kette konvergiert nach beliebig vielen

Schritten mit der gesuchten (Topic)verteilung.

Abbildung 3.1.2 zeigt die Topicermittlung mittels Gibbs-Sampling im LDA Algorithmus

in Pseudocode.

Algorithm 1 Grundlegendes Vorgehen beim Lernen durch Gibbs Sampling

Input: Number of topics, Corpus of documents

Output: Words assigned to topics

//Initiale Topicvergabefor all<Documents in Corpus> do

for all<Words in actual Document> dotopicForWordInDocument← randomTopic

end forend for//Update der Themen aufgrund des Vorwissensfor all<Documents in Corpus> do

for all<Words in Document> dofor all <Topics> do

//Verhältnis von Wörtern des Dokumentes die Topic t zugewiesen sindProportionOfWordsAssignedToTopic← p(topic t | document d)

//Verhältnis von Zuweisungen des aktuellen Wortes an Topic t (über alle Dokumente)//Bedenke: w kann in verschiedenen Dokumenten anderen Topics zugewiesen seinProportionOfAssignmentToTopicOverallFromWord← p(word w | topic t)

end for//Neue Topic t mit Wahrscheinlichkeit p zuweisen (p =̂ Wahrscheinlichkeit von t generierte w)newTopicForWord← wordsAssignedToTopic ∗ topicsAssignedToWord

end forend for

Wie im Pseudocode zu sehen ist erhält der Algorithmus als Eingabe einen Kor-

pus, sowie die Anzahl von gewünschten Cluster/Themen. Dieses ist allerdings nur ei-

ne Zahl, sodass die gefunden Cluster später keine inhärente Semantik aufgrund des

Algorithmus besitzen. Nach der initialen zufälligen Topiczuordnung für jedes Word

in jedem Dokument des Korpus folgt der Updateschritt. Dieser berechnet die beiden

Wahrscheinlichkeiten p(topic t | document d) = count(words assigned to topic t, document)+αcount(topics assigned to document d)+K∗α so-

wie p(word w | topic t) = count(instances of word w assigned to topic t)+βcount(words assigned to topic t)+W∗β , hierbei sind α und β

Hyperparameter, welche dem Feintuning des Algorithmus dienen. Mit den berechneten

Wahrscheinlichkeiten wird dem aktuellen Wort eine neue Topicwahrscheinlichkeit zu-

gewiesen. Die entstehenden Cluster basieren letztendlich auf der Idee, dass gemeinsam

in einem Dokument vorkommende Wörter eine höhere Wahrscheinlichkeit haben einer

gemeinsamen Topic anzugehören. Der für diese Erklärung benötigte mathematische Hin-

tergrund übersteigt allerdings sowohl den Rahmen dieses Papers als auch das bis jetzt

gewonnene Verständnis des Autors.

Nach Abschluss des Algorithmus können die jeweiligen Topiczuweisungen, die Topic-

verteilung sowie ggf. Keywords pro Topic abgelesen werden.

3.2 Analysen

Die folgenden Abschnitte widmen sich verschiedenen Analysen, welche auf der Basis des

vorgestellten Algorithmus durchgeführt wurden.

3.2.1 Ziele

Ziel der Analysen ist es u.A. zu prüfen ob Äußerungen in dem sozialen Netzwerk Twitter

(zum Hashtag #Piraten) ansatzweise den von der Partei verfolgten Themen (vgl. https:

3 Datenanalyse 6

//www.piratenpartei.de/politik/themen/) entsprechen. Schlagwörter

für die Parteithemen sollten daher im Optimalfall (deutlich) in den von LDA gebildeten

Clustern hervorstechen. Ein weiterer Aspekt dem sich die Untersuchung widmet ist die

Trennschärfe der verschiedenen gefundenen Cluster. Ziel ist es herauszu�nden wie sich

die Verteilung der Topics, abhängig von der Korpusverarbeitung, verändert.

Vorverarbeitung und AnalysegrundlageDie folgenden Abschnitte beschreiben die grobe Vorverarbeitung der Daten, sowie die

Grundlagen der Analyse (Aufbau des Korpus, sowie Gewichtungsfunktionen).

Die Vorverarbeitung besteht aus mehreren Phasen und dient dazu einen einheitlicheren

Korpus zu scha�en. So dass Wörter mit selber Semantik möglichst auch syntaktisch gleich

sind und damit in der Analyse als Einheit betrachtet werden können.

• Kleinschreibung Dieser Schritt normiert alle vorkommenden Wörter auf eine

gemeinsame Schreibung, so ist ein späteres Verarbeiten nicht mehr case sensitive.

• Stopword Bereinigung Hierbei wird eine Liste von de�nierten Wörtern aus dem

Korpus entfernt, diese Wörter behindern im Allgemeinen eine weitere sinnvolle

Analyse. Beispiele für deutsche Stopwords sind z.B. Artikel und Bindewörter. Eine

vollständige Liste der in der verwendeten Stopwords ist zu �nden unter: http://snowball.tartarus.org/algorithms/german/stop.txt

• Stemming Das Stemming hat das Ziel Wörter mit selber bzw. ähnlicher Semantik

auf den gemeinsamen Wortstamm zu reduzieren. Dieses hat den Vorteil, dass Wörter

nach dem Stemming in statistischen Auswertungen zusammenfallen. Ein Beispiel

wäre das Reduzieren von Wörtern wie ’Wortes’ oder ’Wörter’ zum gemeinsamen

Stammbegri� ’Wort’.

• Gewichtung Ein weiterer Schritt der Vorverarbeitung ist die Gewichtung der ver-

schiedenen Wörter eines Korpus. Ein solcher Wert drückt z.B. aus wie wichtig

ein Wort im Gesamtzusammenhang ist oder wie häu�g ein Term vorkommt. Bei

den nachfolgenden Analysen wurden direkt und indirekt die Wichtungen Term-

frequency (TF; Vorkommen eines Terms im Dokument; ggf. normiert) und TF-IDF

(IDF; Inverse Document Frequency; tfi,j ∗ log(AnzahlderDokumenteni); allgemeine

Bedeutung eines Terms in Bezug auf den Korpus) benutzt.

Für die konkrete Analyse muss zunächst festgelegt werden wie viele Cluster (und

damit Themen) durch das LDA Verfahren gebildet werden sollen. Aufgrund der inhärenten

Kürze der einzelnen Eingangsdaten (Tweets bestehen maximal auf 140 Zeichen) ist eine

hohe Anzahl von zu bildenden Clustern/Themen eher unwahrscheinlich. Dieses würde

bei beispielsweise 100 Clustern bedeuten dass 140 Zeichen bis zu 100 Themen behandeln

können. Aus diesem Grund untersucht die Analyse nur drei Verschiedene Clusteranzahlen

(2,5 sowie 10). Ziel hierbei ist es zu untersuchen wie stark sich die Clusteranzahl auf die

Trennschärfe und Verteilung der Topics auswirkt.

Die konkreten Analysen bestehen aus zwei Teilen, zum einen den Untersuchungen auf

einem normalen Korpus (dieser hat nur die bereits dargelegte Vorverarbeitung durchlaufen).

Sowie ähnlichen Analysen auf einem Korpus welcher nur aus Nomen besteht. Darüber

hinaus wurden bei der Analyse des normalen Korpus verschiedene Gewichtungsmaße

3 Datenanalyse 7

für Worte untersucht. Die genannten drei Faktoren (Korpusaufbau, Gewichtung, sowie

Clusteranzahl) bilden den Kern der Analysen.

Des Weiteren sei noch einmal betont, dass die (semantische) Interpretation der ge-

fundenen Cluster bei dieser Analyse nicht maschinell durchgeführt wird. Diese geschieht,

aufgrund der berechneten Cluster (sowie deren Keywords) durch einen Menschen. Ein

(erfahrener) Analyst kann die Keywords in einen größeren Zusammenhang bringen und

so einem Cluster ein Label zuweisen welches ihn semantisch repräsentiert.

3.2.2 Analyse und Ergebnisse

Im Folgenden werden die durchgeführten Analysen und Ergebnisse vorgestellt. Hierbei

sollen vor allem die zwei Kernfragen beantworten werden ob 1) eine semantische Zuord-

nung der Cluster anhand der zugehörigen Keywords möglich ist 2) Wie die gefundenen

Cluster sich mit der Clusteranzahl bzw dem modi�zierten Korpus verändern.

3.2.3 Clustering eines normalen Korpus

Die folgende Analyse zeigt auf wie sich das LDA-Clustering auf einem gewöhnlichen

Korpus verhält. Dieses ist der naheliegende Ansatz, erfordert dennoch die beschriebene

Vorverarbeitung um die Daten aufzubereiten. Der erste Teil dieser Untersuchung nutzt

den gesamten Korpus (dessen Inhalt nach dem Termfrequency-Maß gewichtet wurde).

Der zweite Teil der Analyse macht sich das TF-IDF Maß zunutze. Hierbei wurden ca

10000 Worte aus dem Korpus entfernt, sodass er von 57698 Termen auf 47173 Terme

zusammenschrumpfte (jeweils angeordnet in 27079 Dokumenten). Diese Terme waren

diejenigen, welche laut TF-IDF Maß am schlechtesten bewertet waren (und sich damit

ähnlich wie Stopwords verhalten).

Als Ergebnis der Keywordanalyse der Cluster (und damit der semantischen Zuordnung

der Cluster) sind die Tabellen mit den jeweiligen 20 bedeutensten Clusterkeywords für

2,5 bzw. 10 Cluster im Anhang unter A zu �nden. Diese Ergebnisse sind zunächst recht

ernüchternd. Au�ällig ist, dass viele anscheinend nicht zusammenhängende Begri�e zu

Clustern zusammengefasst wurden (z.B. ’heut’, ’berlin’, ’uhr’ und ’morgen’; A Topic 2).

Darüber hinaus ist auch die Menge an Füllwörtern, sowie nicht aussagekräftigen Wörtern

ein Störfaktor welcher eine gute semantische Zuordnung behindert. Beispiele hierfür sind

’mal’, ’wer’, ’geht’ und ’unser’ (Cluster 1). Weiterhin scheint sich dieses Rauschen sowohl

im TF-Maß-Korpus (gekennzeichnet durch ’TermFreq’), sowie im von seltenen Wörtern

befreiten Korpus (’no sparse’ in den Tabellen) zu zeigen. Dieses deutet darauf hin, dass es

wenig bringt den Korpus von, im TF-IDF-Maß, schlecht bewerteten Worten zu befreien.

Betrachtet man nun die Clusteranzahl als letzten Faktor so zeigt sich, dass der Zweier-

cluster (A) durchaus, möglicherweise zusammenhängende, Themen abbildet (z.B. Topic

1 mit Parteinamen). Betrachtet man hierzu im Vergleich den Fünfercluster, so fällt vor

allem die zweite Topic auf (Parteinamen, ’wahl’, ’bundestagswahl’), welche durchaus als

Thema ’Bundestagswahl’ interpretiert werden könnte. Ähnliche Ergebnisse zeigt auch das

Clustering in 10 Themen, allerdings steigt hier auch das genannte Rauschen erneut an.

Zusammenfassend zeigt sich, dass das LDA Verfahren durchaus in der Lage ist sinnvolle

Cluster/Themengebiete zu bilden, allerdings ist das Rauschen ein durchaus kritischer

Faktor welcher u.a. von der Clusteranzahl mit bestimmt wird.

3 Datenanalyse 8

Die Gra�ken 3.2.3 zeigen die prozentuale Verteilung der Topics über den Korpus

(Anzahl von Dokumenten im Korpus die der Topic n zugeordnet sind). Hierbei stellen die

Untergra�ken a) - c) die Verteilung nach dem Termfrequency-Maß dar. Die Gra�ken d)

- f) basieren auf einem Korpus welcher bereinigt wurde von nur selten vorkommenden

Worten.

(a) (b) (c)

(d) (e) (f)

Fig. 1: Topicverteilung eines normalen Korpus: Termfrequency-Maß und Korpus

ohne seltene Terme (nach TF-IDF) im Vergleich (jeweils mit Topicanzahl 2,

5 und 10)

Zunächst ist es au�ällig, dass eine separate Untersuchung von normalen, sowie be-

reinigtem Korpus (Entfernung seltener Worte) auch bei dieser Untersuchung nicht loh-

nenswert scheint. Nahezu alle Topics weisen eine gleiche oder sehr ähnliche Verteilung

über den Korpus auf. Betrachtet man die Topicverteilung mit steigender Anzahl, so zeigt

sich, dass sich die weniger frequentierten Cluster bei höherer Anzahl allmählich einer

Gleichverteilung annähern. Dieses kann darauf hindeuten, dass die Trennschärfe der

Cluster abnimmt. Zu beobachten ist allerdings auch, dass die jeweils größten Cluster

sich au�älliger voneinander separieren als die folgenden kleineren. Demnach kann man

die These aufstellen, dass die größeren Cluster für LDA einfacher zu bestimmen waren,

während kleinere Cluster mehrdeutiger sind. Dieses müsste allerdings genauer untersucht

werden.

3 Datenanalyse 9

3.2.4 Clustering eines Nomen-basierten Korpus

Betrachtet man die vorherige Analyse fällt auf, dass vor allem ein Rauschen die Un-

tersuchung behindert. Dieses geht nach den Keywordtabellen A stark von bestimmten

Wortarten aus. Augenscheinlich sind die, bei dieser Analyse, nützlichsten Worte Nomen,

da diese am meisten Kontext vermitteln und somit eine semantische Einordnung erlauben.

Aus diesem Grund widmet sich der zweite Teil der Analyse einem Korpus welcher nur

aus Nomen besteht. Dieser Korpus basiert auf dem vorherigen, allerdings wurde natu-

ral language processing verwendet um die Nomen zu extrahieren. Die bereits erwähnte

Vorverarbeitung unterscheidet sich ansonsten nicht.

Die für den Korpus generierten Keywordcluster-Tabellen sind ebenfalls im Anhang zu

�nden. Diese zeigen wie erho�t weniger Rauschen und enthalten durchaus Schlagwör-

ter welche das Parteiprogramm der Piraten widerspiegeln (z.B. ’transparenz’, ’internet’,

’überwachung’, ’grundeinkommen’). Allerdings tauchen diese Begri�e nur selten in einem

gemeinsamen Cluster auf. Daher scheint es bei dieser Methode weniger sinnvoll einem

Cluster ein semantisches Label aufgrund seiner Keywords zuzuteilen. Diese Aussage ist

dabei unabhängig von der Anzahl der Cluster die gebildet werden. Im Vergleich zur ersten

Analyse hat man nun zwar ggf. eine bessere Stichwortliste zum Thema Piraten, allerdings

bilden die Cluster schlechtere Einheiten. Au�ällig ist auch, dass Begri�e welche in der

ersten Analyse auftauchten und durchaus nützlich waren (z.B. Parteinamen) nun nicht

mehr vorhanden sind. Dieses kann ggf. durch unzureichende Grammatik in Tweets erklärt

werden, so dass diese durch die NLP-Komponente nicht als Nomen erkannt wurden.

Die Gra�k 3.2.4 zeigt die Topicverteilung über dem auf Nomen basierenden Korpus.

Grundlegend zeigt sich hier ein ähnliches Bild wie in der vorherigen Analyse. Größere

Topiccluster sind stärker von kleineren abgegrenzt, während kleinere Cluster sich kaum in

der Größe unterscheiden. Au�ällig ist allerdings, dass die stärksten Cluster im Vergleich

zur ersten Analyse noch deutlicher geworden sind (die jeweils größten Cluster haben

noch einmal zwischen 3% und 5% an ’Abgrenzung’ zum nächst kleineren gewonnen).

Die Trennschärfe zwischen den Clustern hat also weiter zugenommen, so dass mehr

Dokumente den stärker ausgeprägten Themen zugeordnet werden.

(a) (b) (c)

Fig. 2: Topicverteilung eines nomenbasierter Korpus: Vergleich bei verschieden

vielen Topics

4 Fazit und zukün�ige Ziele 10

4 Fazit und zukün�ige Ziele

Die folgenden Abschnitte ziehen ein kurzes Fazit zu den Ergebnissen des in dieser Arbeit

vorgestellten Projektes.

Zunächst ist es im ersten Teil des Projekts gelungen ein brauchbares Datenset auf-

zubauen, auf welchem weitere Analysen durchgeführt werden können. Darüber hinaus

wurde durch eine erste Auswertung der Testdaten Wissen über diese gescha�en. Weiterhin

wurde durch die Arbeit mit der Analyseumgebung R ein grundlegend gutes Verständnis

für diese gewonnen, dieses wird für zukünftige Arbeiten wichtig sein. Zusammenfas-

send ist also eine grundlegende Arbeitsumgebung gescha�en worden, welche es erlaubt

weiterführende Untersuchungen durchzuführen.

Die im zweiten Teil dargelegten Analysen zeigen die Stärken des Topicclustering

durch Methoden des maschinellen Lernen anhand der latenten Dirichlet Allocation. Es

zeigt sich, dass sich auch auf einem Tweet basiertem Korpus (sehr kleine Dokumente)

durchaus thematische Cluster bilden lassen. Allerdings zeigt sich auch, dass dieses nur

eingeschränkt möglich ist. Bei den Analysen zeigte sich das Ausmaß von ’Rauschen’

welches die Untersuchungen behindert. Weiterhin zeigt sich, dass die zwei genutzten

Gewichtungsmaße für Terme (TF und TF-IDF) nahezu keinen Mehrwert liefern. Darüber

hinaus wurde gezeigt wie sich ein auf Nomen basierender Korpus auf die Analyse auswirkt

und welche Vor- und Nachteile dieses mit sich bringt. Es zeigt sich, dass der Clustering

Algorithmus weniger zusammenhängende Cluster bildet, diese dafür aber eine deutlichere

Topicverteilung liefern. Auch zeigte sich, dass es mit beiden Methoden grundsätzlich nur

mittelmäßig gut möglich ist einem Cluster anhand von Keywords ein semantisches Label

zuzuordnen. Grundlegend ist darüber hinaus auch anzumerken, dass die mathematische

Basis des Verfahrens recht komplex ist. Die Anwendung des Algorithmus ist dank diverser

vorhandener Implementierungen vergleichsweise einfach, allerdings ist es schwer (uner-

wartet schlechte) Ergebnisse zu erklären ohne den komplizierten statistischen Hintergrund

komplett zu verstehen.

Betrachtet man zukünftige Arbeiten so zeigt sich, dass linguistische Aspekte sich

durchaus vorteilhaft auf das Clustering auswirken können. Ein Aspekt der erst spät

in den Analysen aufgefallen ist, ist der Fakt, dass der Stemming Algorithmus in der

Vorverarbeitung der Daten nicht optimal funktioniert hat. Dieses wäre durchaus eine

mögliche Verbesserung in Bezug auf weitere Analysen. Ebenso könnten Kombinationen

aus Nomen und anderen Wortgruppen genauer untersucht werden, um den Nachteilen

die ein Nomen-basierter Korpus mit sich bringt entgegenzuwirken. Grundsätzlich zeigt

dieses Paper, dass maschinelles Textclustering auf Tweets durchaus Potenzial besitzt und

sinnvoll weiter untersucht werden kann.

Diese Arbeit widmete sich vor allem der Erkennung von aktuellen Trends und Themen.

Ein nächster Schritt kann die Verfolgung von Themen über die Zeit sein, denn trotz der

ernüchternden Ergebnisse dieses Projektes ist der Autor weiterhin von der Machbarkeit

der ursprünglichen Idee überzeugt. Eine potenziell nützliche Arbeit in diese Richtung ist

unter [Nik12] zu �nden.

Dennoch hat der Autor dieses Papers sich dazu entschlossen den Fokus seiner Arbeit

zu ändern und sich nicht mehr der Trenderkennung an sehr kurzen und unstrukturierten

Daten zu widmen. Zukünftige Arbeiten werden sich längeren redaktionell erstellten Texten

4 Fazit und zukün�ige Ziele 11

widmen, welche semi-strukturiert sind. Diese Texte stammen aus einem Pressearchiv eines

europäischen Zeitungsnetzwerkes. Dieses hat den Vorteil, dass die Artikel aufgrund ihrer

Länge deutlich mehr Informationen als ein Tweet enthalten. Darüber hinaus entfallen

auch große linguistische Herausforderungen, welche sich in Twitter z.B. durch die stark

komprimierte Ausdrucksweise darstellen. Ein weiterer wichtiger Aspekt welcher für die

neue Datenbasis spricht, ist die vorhandene Struktur (z.B. durch ausgewiesene Zusam-

menfassungen und Überschriften). Diese ermöglicht es im Vergleich zur Tweetsammlung

auf vollkommen andere Daten und Ansätze zurückzugreifen, da eine Überschrift oder

Zusammenfassung eine andere Sichtweise auf ein Dokument erlaubt als der eigentli-

che Artikeltext. All die genannten Vorteile führen zudem auch zu einer Veränderung

der Zielsetzung des Autors, welche nun darin besteht ein Artikelarchiv für die weitere

redaktionelle Arbeit eines Zeitschriftenverlags aufzubereiten um neue Erkenntnisse zu

ermöglichen.

Literatur

[BNJ03] Blei, David M. ; Ng, Andrew Y. ; Jordan, Michael I.: Latent Dirichlet Allocation.

In: J. Mach. Learn. Res. 3 (2003), März, 993–1022. http://dl.acm.org/citation.cfm?id=944919.944937. – ISSN 1532–4435

[Che] Chen, Edwin: Introduction to Latent Dirichlet Al-location, http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/

[Gri02] Griffiths, Tom: Gibbs sampling in the generativemodel of Latent Dirich-let Allocation, 2002

[Nik12] Nikolov, Stanislav: Trend or No Trend: A Novel Nonparametric Method

for Classifying Time Series. (2012), 11. http://dspace.mit.edu/bitstream/handle/1721.1/85399/870304955.pdf

[Sch13] Schöneberg, Marcel: Weak Signals. (2013). http://users.informatik.haw-hamburg.de/~ubicomp/projekte/master2013-aw1/schoeneberg/bericht.pdf

[Tan] Tang, Lei: Gibbs Sampling for LDA, http://leitang.net/presentation/LDA-Gibbs.pdf

[WTL] Wayne Tai Lee, Satpreet S.: Latent Dirichlet Allocation (LDA) for ML-IR Discussion Group, http://de.slideshare.net/WayneLee9/lda-oct3-2013

A Anhang 12

A Anhang

Tab. 1: Keywords bei 2 Topics (normaler Korpus)

Keyword # Topic 1 Topic 2TermFreq no sparse TermFreq no sparse

1 piraten piraten piraten piraten

2 mal mal berlin berlin

3 dass dass heut piratenpartei

4 mehr mehr piratenpartei heut

5 lieb lieb bitt bitt

6 partei partei via gibt

7 schon schon dank dank

8 warum warum neue neue

9 gibt via neuer neuer

10 link link uhr uhr

11 wer wer nrw nrw

12 wählen wählen unser unser

13 spd spd beim beim

14 fdp fdp morgen morgen

15 politik politik fordern fordern

16 grüne grüne artikel artikel

17 geht geht erst statt

18 macht macht statt beitrag

19 immer gut gerad pirat

20 gut immer beitrag gerad

Topic1

Topic2

Topic3

Topic4

Topic5

nosparse

iraten

piraten

iraten

piraten

partei

piraten

partei

olitik

partei

olitisch

parteien

litisch

tstatt

beitrag

terview

parteien

terstü

parteitag

arteitag

beitrag

errech

piraten

partei

übrig

ersach

lafelia

nterstü

stellen

errech

ersach

piraten

partei

pvielen

A Anhang 14

Topic1

Topic2

Topic3

Topic4

Topic5

nosparse

iraten

piraten

iraten

piraten

partei

piraten

partei

berlin

piraten

eitrag

terview

beitrag

arteitag

errech

terview

iraten

parteitag

terstü

olstein

terstü

hlesen

abrief

kreisverban

arteitag

gestern

mtisch

arteitag

otre�

übrig

arteitag

livestream

vielen

berich

kritisieren

ersach

afelia

pressem

itteilu

mtisch

lassen

altern

stream

tre�

halten

iraten

litisch

A Anhang 15

Topic6

Topic7

Topic8

Topic9

Topic10

nosparse

piraten

olitik

partei

parteien

litisch

stellen

besser

vielen

stellen

iraten

lstein

errech

dafelia

ersach

kreisverban

übrig

saarlan

litisch

kattasch

A Anhang 16

Tab. 7: Keywords bei 2 Topics (Nomenbasierter Korpus)

Keyword # Topic 1 Topic 21 piraten piraten

2 http piratenpartei

3 partei parteien

4 politik bundestag

5 uhr grünen

6 link pirat

7 artikel jahr

8 grüne leut

9 menschen demokrati

10 beitrag internet

11 thema problem

12 wwwyoutub wahlkampf

13 wahl arbeit

14 programm press

15 zeit welt

16 interview antrag

17 bundestagswahl morgen

18 transparenz recht

19 parteitag plakat

20 https medien

A Anhang 17

Keyword # Topic 1 Topic 2 Topic 3 Topic 4 Topic 51 piraten piraten piraten piraten piraten

2 bundestag piratenpartei http partei uhr

3 parteien programm link politik artikel

4 jahr press grüne thema grünen

5 wwwyoutub urheberrecht wahlkampf pirat problem

6 parteitag antrag bundestagswahl interview landtag

7 zeit beitrag recht internet morgen

8 kreisverband arbeit plakat transparenz leut

9 mitglied artikel tage welt stammtisch

10 grundeinkommen fraktion umfrag menschen themen

11 kritik sonntag demokrati tag kommentar

12 lieb bitt brief lieb blog

13 wähler parlament beitrag frauen vorstand

14 geld inhalt video medien jahren

15 buvo bundesparteitag piratenchef macht freiheit

16 infostand bild prozent wahl samstag

17 überwachung menschen stream land woch

18 demokrati diskuss bericht https bürger

19 menschen anträg afd fragen nrwpiraten

20 euro meinung end kandidaten dank

A Anhang 18

2 recht piratenpartei politik uhr pirat

3 piratenpartei vorstand wwwyoutub https jahr

4 inhalt frauen http stammtisch leut

5 urheberrecht nazi internet morgen plakat

6 wahl press bundesparteitag transparenz medien

7 bild polizei artikel dank partei

8 schmidtlepp interview zeit abend parteitag

9 demo chanc video samstag abenteu

10 ideen mitglied kommentar land macht

11 wahlprogramm 6piraten prozent stream grundeinkommen

12 debatt transparenz jahren interview storm

13 johannesponad glückwunsch bürger kreisverband parlament

14 linken ide vorsitzend aktion sonntag

15 zeitung quot bericht press unterstützung

16 brief staat wähler landesparteitag bge

17 woch ziel beitrag infostand gra�k

18 kandidaten anträg wochen mitg mai

19 unterschriften piratenfrakt woch info fefe

20 antrag problem bestandsdatenauskunft frau nachrichten

2 parteien partei http menschen beitrag

3 demokrati piratenpartei link lieb arbeit

4 geld landtag grüne thema wahlkampf

5 problem tag bundestagswahl programm themen

6 bundestag welt umfrag zeit fragen

7 grünen zukunft tage welt bundestag

8 frage hilf artikel basi programm

9 nrwpiraten netz wahl kritik angst

10 protest diskuss landtagswahl fraktion bitt

11 euro thüringen livestream erfolg freiheit

12 text netzpolitik afd meinung blog

13 thema parteitag wahlen wahlkampf grünen

14 petit kreisverband kommunalwahl artikel landtag

15 journalisten analys bürgerbeteiligung brunogertkramm thema

16 kinder fehler lqfb fall menschen

17 pressemitteilung 20piraten wahlkampf list rücktritt

18 bund programm jungen rassismus interview

19 liquid landesverband ponad piratenparteitag einladung

20 piratenchef piratinnen wähler gedanken teil

Marcel Schönebergubicomp/...Aufgrund des nicht möglichen vollen API-Zugri˛s auf Twitter (der...

Documents

Rechnerarchitektur SS 2012 - Cachekohärenz€¦ · Reduzierbar, falls sharing von Eintr agen verfolgt und nur dann Kopien aktualisiert 2.Exklusiven Zugri auf Block sicherstellen,

Nutzung von Hashtags für die Social Media Strategie · Social Media - Hashtags 4 Wer im Social Media Marketing aktiv unterwegs ist, kommt an den sogenannten Hashtags nicht mehr vorbei

Metaphorische Anwendung von Hashtags im digitalen sozialen

GREENSTORM MOBILITY GMBH · Weidach 4 · 6330 Kufstein ......Weitere Story-Tipps für eine bessere Reichweite • Füge #hashtags ein Grundsätzlich lässt sich in die Story nur 1

Nebenl au ge Programmierung: Praxis und Semantik Zugri auf ... · Deadlocks bei mehreren RessourcenTransactional Memory Beispiele Mutual-Exclusion Problem: Deadlock, wenn es nicht

KultUp - Tweet up your cultural life!

Social Media Hashtags - BIM CampDie wahre Bedeutung von «Digitalisierung» Digitalisierung . Digitale . Transformation . Ist eine Abkürzung für… Kann man kaufen – ausreichende

Tweet it like Trump: Persuasionseffekte bei ...€¦ · Womöglich ist es uns nicht gelungen, die Art und Weise wie Twitterbenutzer Tweets verarbeiten, im Experiment zu replizieren

Hashtags in Social Networks

Digitale Objekte in digitalen Öffentlichkeiten: Die Rolle von Hashtags in politischen Themenkarrieren

Michael Wendt Tweet 4U June 26, 2013 - uni-ulm.de filePage 4 Tweet 4U jM. Wendt jJune 26, 2013 1. Thema der Arbeit I Welt wird immer vernetzter I viele Nachrichten, die man nicht immer

Einander (besser) verstehen – Kommunikation im … Linkedin, Webinar, Tweet, Vocer Tablet, Kindle, ePub, iPad, iPod, iPhone GENERATIONENBRUCH !!! Elektronisches Erbe ??? Kinder sind

Hashtags - Erklärungen & Empfehlungen für Facebook von vi knallgrau

DIE RICHTIGE LAGERTECHNIK - WAS FÜR WEN? · kel, geht es u.a. um Lagerstrategien, um Arti-kelsegmentierung, um Zugri˜ shäu˚ gkeiten, Abmessungen und Gewichte. Diese Infor-mationen

SOCIAL MEDIA AUSWERTUNG Graubünden Via Spluga Media Auswertu… · TWITTER: AUSWERTUNG Likes und Retweets von 511 Followern 3 Klicks auf Links Top-Tweet: 630 Impressionen. INSTAGRAM:

Implemen Mathematik Informatik Doktor-Ingenieurseeger/myPapers/phd.pdf · En t wurf und Implemen tierung mehrdimensionaler Zugri sstrukturen V om F ac h bereic Mathematik und Informatik

nomy*nomy _08_09 Gastronomisch wertvoll. Spaß mit System Neue Läden The Cooking Ape, Frankfurt, Hausbar, Düsseldorf Trends tweet & feed, Ü100, Minibar, Hotel-Trends Bits & Pieces

SimFans.de Community Projekt #APOKALYPSEWELT...Ihr KÖNNT Sims für ein Wohngrundstück oder einfach so erstellen. Dazu bitte auch die jeweiligen Grundstück-Hashtags (Beispiel: #ApokalypseWelt02)

D WLAN Verbindung E Zugri˜ auf die Kamera über PC F ... · E Zugri˜ auf die Kamera über PC. 264 F Hardware-Installation G Wichtige Hinweise Das Foscam Cloud-Service Konto/Passwort

It\\'s time To Tweet Ueber Die Real-estate-Geschaeft