27
Steigerung der Qualität von Pressetexten Clustering und Qualitätsbestimmung von online Pressetexten White Paper von Andreas Woditschka und Thomas Niederl Wien, Dezember 2016

Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

Steigerung der Qualität von Pressetexten

Clustering und Qualitätsbestimmung von online Pressetexten

White Paper

von Andreas Woditschka und Thomas Niederl

Wien, Dezember 2016

Page 2: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

1

Vorwort 2

Einleitung 3 Problemstellung 3 Fragestellung 4 Zielsetzung 4

Hauptteil 5 Clustering Prozess 5

Pre-Processing 5 Keyword Extraction 7 Clustering 9 Lösungsansatz 10

Klassifizierung eines Artikels anhand eines Qualitätsscore (5 Qualitätskriterien) 13

Vielfalt 15 Relevanz 15 Unparteilichkeit 16 Sachgerechtigkeit (Richtigkeit der Information) 17 Verständlichkeit 17 Qualitätsscore 20 Beispiel zum Thema Vogelgrippe mit 8 online Artikeln 22

Schlussbetrachtung 23 Weitere Entwicklung 24

Abbildungsverzeichnis 26

Page 3: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

2

Vorwort „Nachricht ist der Oberbegriff für knapp und möglichst unparteiisch formulierte Informationen der Massenmedien“1 -- „Die Nachricht ist eine direkte, kompakte und möglichst objektive Mitteilung über ein neues Ereignis, das für die Öffentlichkeit wichtig und interessant ist“2 -- Nachrichten sind somit journalistische Beiträge, die ein gesellschaftlich bedeutsames Thema auf das Wesentliche reduziert darstellen und auf Wertungen des Geschehens durch den Journalisten verzichten3 --

1 Weischenberg, S. (2001). Nachrichten-Journalismus. Wiesbaden: Westdeutscher. 2 Schwiesau, D. & Ohler, J. (2003). Die Nachricht in Presse, Radio, Fernsehen, Nachrichtenagentur und Internet : ein Handbuch für Ausbildung und Praxis. München: Lit. 3 Roloff, E. K. (1982). Journalistische Textgattungen. München: Oldenbourg.

Page 4: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

3

Einleitung

Problemstellung Aktuell wird sehr viel diskutiert über die Qualität der Berichterstattung. Schlagworte wie “Lügenpresse”, Postfaktisch, FakeNews, Filterblasen und noch viele mehr beschreiben den Vertrauensverlust zu den klassischen und neuen Medienformen. Neue soziale Medien, Plattformen wie Facebook nehmen zudem immer größere Bedeutung ein. Die Sinkende Printverkäufe und schwindende Werbeeinnahmen lassen Medien immer mehr an der Kostenschraube drehen. Ein gutes Beispiel der nahen Vergangenheit ist die Einstellung des “Wirtschaftsblatts” aus wirtschaftlichen Gründen . Somit ist die letzte täglich erscheinende Wirtschaftszeitung Geschichte. Dem Entgegen zu wirken versuchen Medienunternehmen neue Einnahmequellen zu erschliessen z.B.: digitale Abos, mehr Werbung bzw. Berichterstattung mehr auszulagern. Ein Qualitätsverlust ist somit unumgänglich. Ein zweites sehr aktuelles Thema ist der Informationsüberfluss, sei es privat oder auch Beruflich. Wir werden permanent mit Informationen bespielt und überflutet. Es haben sich Ausdrücke wie digitale Adipositas4 etabliert. Push-notification, WhatsApp broadcast bot, TV, Radio, online Newsportale, Facebook, Twitter, LinkedIn um nur einige zu nennen, nehmen Einfluss darauf, uns eine Meinung zu bilden. Die US-Wahl hat nun auch gezeigt wie vertrauenswürdig der Konsum von sozialen Medien ist. Stimmen werden laut, dass eben diese sozialen Medien manipulierbar sind. Sie wählen anhand von Algorithmen bzw. sozialem Umfeld die Nachrichten für uns aus. Ein Ausdruck dafür ist Filter Bubble, man bekommt Informationen die unserer Meinung entsprechen. Ein gutes Beispiel lieferte ein Experiment zur US-Wahl. “Vielleicht sollten wir aufhören, überhaupt soziale Medien zu haben”, resümierte ein überzeugter Liberaler nach dem Experiment des Guardians 5 zu US-Wahl. Dabei wurden je 5 liberale und konservative mit den jeweiligen unterschiedlichen Nachrichten ihrer Präsidentenanwärter Hillary Clinton und Donald Trump bespielt. 2 Von den Probanden brachen das Experiment ab und eine Person von den übrigen 8 änderte seine Meinung. Dieser Art von Konsum zeigt auch eine gewisse Diskrepanz mit dem Pressekodex6 (Unabhängigkeit/Diskriminierung/Wahrhaftigkeit und Achtung der Menschenwürde/etc.).

4 informationelle Fettsucht - Quelle Goldmedia Trendmonitor 2016 5https://www.theguardian.com/us-news/2016/nov/16/facebook-bias-bubble-us-election-conservative-liberal-news-feed 6 Richtlinien für die publizistische Arbeit nach den Empfehlungen des Deutschen Presserats: http://www.presserat.de/fileadmin/user_upload/Downloads_Dateien/Pressekodex_BO_2016_web.pdf

Page 5: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

4

Fragestellung Wie Clustert man Ereignisse /Themen aus einer großen Anzahl von Artikeln? Wie misst man die Qualität eines Pressetextes?

Zielsetzung Qualität und Vertrauen in den Medien haben in letzter Zeit sehr unter dem Wandel gelitten. Wir haben es uns zum Ziel gesetzt durch neue technische Möglichkeiten in der Semantik und Textanalyse, den Nachrichten wieder mehr Vertrauen zu schenken. Auch die digitale Adipositas möchten wir durch eine Trennkost bekämpfen, damit der Rezipient die unabhängigen Informationen bekommt, die er für sich braucht.

Page 6: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

5

Hauptteil Um die Fragestellung zu beantworten wurde der Hauptteil in zwei Bereiche unterteilt. Zum Anfang werden Methoden diskutiert, wie aus der Menge an Nachrichten einzelne Ereignisse bzw. Themen, über die in mehreren Medien berichtet wird, zusammengefasst werden. Anschließend soll aus diesem Cluster der bestmögliche Artikel anhand der Qualitätskriterien ausgewählt werden.

Clustering Prozess Da sich unsere Arbeit zum Beginn auf Österreich fokussiert, wurde die Anzahl der Nachrichten-Artikel in Österreich pro Tag berechnet. Jeder der rund 5.000 Journalisten7 (die im Print & Online-Bereich tätig sind) schreibt im Schnitt einen Artikel pro Tag8. Diese Menge an Artikel befasst sich dabei mit ähnlichen bzw. gleichen Themen und Ereignissen. Um den qualitativ besten Artikel auswählen zu können, ist es zunächst notwendig, diese Artikel zu clustern. Dieser Clustering Prozess ist dabei in drei Bereiche zu unterteilen. Zum einen wird der Text mittels Pre-Processing vorbereitet. Anschließend werden die wichtigsten Keywords extrahiert. Abschließend sollen durch verschiedene Clustering-Methoden Themen-Cluster erstellt werden.

Pre-Processing Im Bereich des Pre-Processsing werden in der Literatur folgende Schritte vorgeschlagen:

Literatur A B C D E F G H I J K

Extraction / Tokenization ✔ ✔ ✔ ✔ ✔ ✔ ✔

Stop Word Elimination ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Stemming ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Pruning ✔ ✔ ✔ ✔

Term Weighting ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Dimension Reduction ✔ ✔ ✔ Abbildung 1: Übersicht von Pre-Processing Schritten

7 Österreichs Journalistinnen und Journalisten Eine empirische Untersuchung der Strukturen des Berufsstandes, Kraus et al (2007) http://www.mhw.at/cgi-bin/file.pl?id=135 8 In der Regel ein Artikel pro Redaktor und Tag, Fumagalli (2014) http://medienwoche.ch/2014/11/17/in-der-regel-ein-artikel-pro-redaktor-und-tag/

Page 7: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

6

Literatur bzgl. Pre-Processing:

A. Text Document Preprocessing and Dimension Reduction Techniques for Text Document Clustering (2014) Kadhim et al | http://uksim.info/icaiet2014/CD/data/7910a069.pdf

B. Comparison Clustering using Cosine and Fuzzy set based Similarity Measures of Text Documents (2014) Goyal et al |https://arxiv.org/pdf/1505.00168.pdf

C. Preprocessing Techniques for Text Mining - An Overview (2015) Vijayarani et al| http://www.ijcscn.com/Documents/Volumes/vol5issue1/ijcscn2015050102.pdf

D. Practical Skills for Document Clustering in R ∗ (2010) Stewart | http://faculty.washington.edu/jwilker/tft/Stewart.LabHandout.pdf

E. AUTOMATIC DOCUMENT CLUSTERING (2015) Pardeshi et al | http://www.iaeme.com/MasterAdmin/UploadFolder/AUTOMATIC%20DOCUMENT%20CLUSTERING/AUTOMATIC%20DOCUMENT%20CLUSTERING.pdf

F. PATTERN DISCOVERY AND DOCUMENT CLUSTERING USING K-MEANS, PAM AND HAC (2016) Hussain et al | http://www.ijtra.com/view/pattern-discovery-and-document-clustering-using-k-means-pam-and-hac-.pdf

G. A Frequent Concepts Based Document Clustering Algorithm (2010) Baghel et al | http://www.ijcaonline.org/volume4/number5/pxc3871171.pdf

H. Collaborative Document Clustering (2006) Hammouda et al | http://www.siam.org/meetings/sdm06/proceedings/041hammoudak.pdf

I. A SURVEY ON OPTIMIZATION APPROACHES TO TEXT DOCUMENT CLUSTERING (2013) Jensi et al | https://arxiv.org/pdf/1401.2229.pdf

J. A Comparison of Document Clustering Techniques (2000) Steinbach et al | glaros.dtc.umn.edu/gkhome/fetch/papers/docclusterKDDTMW00.pdf

K. A Survey of Text Clustering Algorithms (2012) Aggarwal et al | https://pdfs.semanticscholar.org/88c2/5e2481ba49cbac75575485cba1759fa4ebcc.pdf

Daraus lassen sich daher folgende Prozessschritte ableiten:

1. Tokenization 2. Stop Word Elimination 3. Stemming (meistens mittels Porter-Algorithmus)

Um das bestmögliche Ergebnis beim Clustering zu erhalten, ist die Auswahl der richtigen Wörter / Ausdrücke von entscheidender Bedeutung. Aus diesem Grund widmet sich der folgende Abschnitt der Auswahl der richtigen Keyword Extraction Methode.

Page 8: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

7

Keyword Extraction Zum Anfang soll dabei ein Überblick über alle möglichen Methoden gegeben werden:

Abbildung 2: Übersicht von Keyword-Extraction Methoden9

Beschäftigt man sich mit der aktuellen Literatur zu Keyword-Extraction, werden mehrheitlich statistische Methoden, wie TF-IDF behandelt. Diese sind “best known and most commonly used for keyword extraction”. 10 Etliche neuere Methoden adaptieren auch TF-IDF bzw. basieren auf deren Grundlage. Diese übertreffen den geläufigen TF-IDF-Algorithmus hinsichtlich Genauigkeit und Treffsicherheit zum Teil auch signifikant, wie Experimente zeigen.11 Aber auch graphen-basierte Methoden zeigen Vorteile auf, wie die Unabhängigkeit vom Thema und Sprache genauso wie die niedrige Eintrittsbarrieren, da keine fortgeschrittenen sprachwissenschaftlichen Fähigkeiten benötigt werden. Außerdem können diese auch für Text-Klassifizierung und Textzusammenfassungen angewandt werden.12 Vergleicht man Keyword-Extraction-Algorithmen auch hinsichtlich verschiedener Dokumentenlänge wird deutlich, dass auch anderen unsupervised Methoden wie der Informativeness-based Keyword Extraction Ansatz bessere Ergebnisse liefern als der TF-IDF. Bei näherer Betrachtung wird jedoch deutlich, dass dies vor allem der besseren Erfassung von Textelementen und nicht aufgrund der höheren Genauigkeit bei der Zuordnung geschuldet ist.13 In Bezug auf Keyword Extraction darf die spätere Verwendung natürlich auch nicht vergessen werden, da dies als geschlossener Prozess betrachtet werden muss. Aus diesem Grund sind nachfolgende zwei Artikel besonders erwähnenswert, da diese Keyword-Extraction in Bezug auf Nachrichten-Artikel zum Thema hatten: 9 An Overview of Graph-Based Keyword Extraction Methods and Approaches (2015) Beliga et al | Journal of Information and Organizational Sciences Vol 39, No 1. (https://jios.foi.hr/index.php/jios/article/download/938/724) 10 Survey of Keyword Extraction Techniques (2012) Lott, http://www.cs.unm.edu/~pdevineni/papers/Lott.pdf 11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12 An Overview of Graph-Based Keyword Extraction Methods and Approaches (2015) Beliga et al | Journal of Information and Organizational Sciences Vol 39, No 1. 13 Informativeness-based Keyword Extraction from Short Documents (January 2013) Toivanen |Communications in Computer and Information Science (https://www.researchgate.net/publication/269280274)

Page 9: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

8

Im ersten Paper versuchten die Autoren über den Vergleich von sechs verschiedenen TF-IDF Varianten Nachrichten-Texte zusammenzufassen. Dabei setzten sie auf die Vorgehensweise des TTF (Table Term Frequency), die Keywords aus bestimmten Themenbereichen in temporären Tabellen zwischenspeicherte. Außerdem empfehlen sie, bedeutungslose Wörter aus diesen Tabellen auf Basis von Tabellen-Quer-Vergleichen zu beseitigen.14 Auch im zweiten Paper wurden Nachrichten-Texte untersucht. Dabei wurde der Fokus auf die Themen-Erkennung und -Nachverfolgung gelegt. Hierbei konnte festgestellt werden, dass mehrere Durchläufe zur Themen-Zuordnung die Ergebnisse signifikant verbesserten. Außerdem wurden festgestellt, dass die Priorisierung der Keywords ebenfalls signifikante Verbesserungen erzielte.15 Aber auch im reinen Bezug auf die Keyword-Extraction werden Zweistufige-Verfahren empfohlen. Dabei sollen zuerst Themen-Zusammenhänge und Begriffs-Wichtigkeits-Messwerte ausgenutzt werden um Trainingsdaten aufzubauen. Mit diesem soll im Anschluss der SVM-Klassifizierer (Support-Vector-Machine) ausgebildet werden, um die richtigen Keywords zu extrahieren.16 Neueste Ansätze gehen nun in hin zur Verwendung eines Corpus, um Thema und Subthema zu erkennen. Dabei werden kleinere Vektoren auf Absatz-Basis konstruiert. Dies hat nicht nur den Vorteil, dass diese leichter zu verarbeiten sind, sondern dass auch die Verarbeitungs- geschwindigkeit deutlich reduziert wird. Außerdem konnte aufgezeigt werden, dass die Hälfte der aufeinander folgenden Absätze Subthemen-technisch zusammengefügt werden kann. Mehrere Untersuchen zeigten dabei, dass mit dieser Vorgehensweise eine 80% Treffsicherheit des Wortes zum Thema unsupervised erreicht werden kann. Festgehalten werden muss jedoch auch, dass die Subthemenerkennung in unterschiedlichen Themenbereichen unterschiedlich gut funktioniert.17 Neuere Forschungsergebnisse zeigen jedoch auch den Einsatz und die Berechtigung von anderen unsupervised statistische Methoden, wie der LDA (Latent Dirichlet allocation) auf.18 Leider muss bei diesem die Anzahl der Themen vor der Berechnung festgelegt werden. 19

Clustering Von entscheidender Bedeutung für die Performance des Prozesses ist auch die Auswahl des passenden Clustering-Algorithmus. Dabei kann grundsätzlich in zwei verschieden Techniken unterschieden werden:

14 News Keyword Extraction for Topic Tracking, Lee (2008) Networked Computing and Advanced Information Management, 2008. NCM '08.Fourth International Conference on Networked Computing and Advanced Information Management http://ieeexplore.ieee.org.uaccess.univie.ac.at/stamp/stamp.jsp?arnumber=4624203 15 Topic Detection based on Keyword in 2011 International Conference on Mechatronic Science, Electric Engineering and Computer August 19-22, 2011, Jilin, China http://ieeexplore.ieee.org.uaccess.univie.ac.at/stamp/stamp.jsp?arnumber=6025502 16 UNSUPERVISED TWO-STAGE KEYWORD EXTRACTION FROM SPOKEN DOCUMENTS BY TOPIC COHERENCE AND SUPPORT VECTOR MACHINE, Chen (2012) IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) http://ieeexplore.ieee.org.uaccess.univie.ac.at/stamp/stamp.jsp?arnumber=6289053 17 Automatize Document Topic and Subtopic Detection with Support of a Corpus Global Conference on Contemporary Issues in Education, GLOBE-EDU 2014, 12-14 July 2014, Las Vegas, USA http://ac.els-cdn.com.uaccess.univie.ac.at/S1877042815017279/1-s2.0-S1877042815017279-main.pdf 18 An Unsupervised Bayesian Modelling Approach to Storyline Detection from News Articles, Zhou et al (2015) EMNLP 2015 : Conference on empirical methods in natural language processing (http://www.emnlp2015.org/proceedings/EMNLP/pdf/EMNLP225.pdf) 19 Topicmodelle, Heyer et al (2011) Universität Leipzig (asv.informatik.uni-leipzig.de/uploads/document/file_link/376/TMI05_Topicmodelle1.pdf)

Page 10: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

9

Abbildung 3: Übersicht von Clustering Algorithmen20

Bei partitionierten Clustering-Techniken konstruiert der Algorithmus Teilmengen der Daten, bei denen jeder Cluster auf Eigenschaften wie den Abstand zum Mittelpunkt des Clusters optimiert wird. Bei den hierarchischen Methoden werden Hierarchien von Clustern erzeugt. Bei diesem Ansatz kann auch noch in Bottom-Up (agglomerative) bzw. Top-Down (Divisive) unterschieden werden. Abseits dieser zwei Techniken gibt es noch weitere Verfahren, die sich überwiegend auf spezielle Probleme oder bestimmte Anwendungsfälle fokussieren. Dazu zählen Dichtebasierte Verfahren, Rasterbasierte Verfahren, Modellbasierte Verfahren und Kategorie-basierte Verfahren. Was macht dabei Cluster Algorithmen besonders effizient und effektiv? Darauf gibt es leider keine klare Antwort. Methoden die bei einem Datensatz gut performen können bei einem anderen Datensatz wieder schlecht abschneiden, abhängig von der Größe, Dimensionalität sowie der verwendeten Zielfunktion und Struktur.21 Grundsätzlich wäre der k-Means-Algorithmus als mögliche Methode in Betracht gezogen worden, da dieser für seine Effizienz in großen Datenmengen besonders bekannt ist.22 Leider werfen jedoch mehrere Cluster-Algorithmen das Problem auf, dass die Anzahl der Cluster vor dem Durchlauf genau festgelegt werden muss. Diese Einstellung beeinflusst im

20 Data Clustering Techniques Qualifying Oral Examination Paper, Periklis (2002) http://www.cs.toronto.edu/~periklis/pubs/depth.pdf 21 Data Clustering Techniques Qualifying Oral Examination Paper, Periklis (2002) http://www.cs.toronto.edu/~periklis/pubs/depth.pdf 22 Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values, Huang (1998) Data Mining and Knowledge Discovery, 9/98, Volume 2, Issue 3, pp 283–304 (http://link.springer.com/article/10.1023/A:1009769707641)

Page 11: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

10

Anschluss die Performance entscheidend.23 Unglücklicherweise zählt auch der k-means-Algorithmus zu diesen Methoden.24 Da die Anzahl der Cluster aber auch während des Cluster-Vorgangs erkannt werden kann, wurden dichtebasierte Clustering-Methoden näher betrachtet, da diese dies leisten können.25 Dabei werden Cluster basierend auf den Abstand der einzelnen Objekte zueinander gruppiert. Die Formen der Cluster können dabei willkürlich sein, da der generelle Ansatz lautet, den Cluster “wachsen” zu lassen, solange die Dichte der Objekte in der Nachbarschaft einen gewissen Schwellenwert nicht unterschreitet. Alle Objekte, die nicht im Cluster-Bereich liegen, werden dabei als Rauschen bezeichnet. Eine größere Anzahl an Cluster wird dabei als gut betrachtet, da dies üblicherweise das Rauschen reduziert bzw. besser erkennt.26 Zu diesen Methoden zählen unter anderem DBSCAN und OPTICS, die nachfolgend verglichen werden. DBSCAN wird dabei als geläufig in der wissenschaftlichen Literatur erachtet. Auch erkennt DBSCAN mehr Cluster als OPTICS. 27 OPTICS hingegen schlägt DBSCAN hinsichtlich Laufzeit. 28 Außerdem wird die Zugehörigkeit eines Objekts zu einem Cluster durch einen numerischen Wert und nicht durch einen boolean Wert wie bei DBSCAN ausgedrückt. 29 Festgehalten werden muss jedenfalls, dass Clusteranalysen ein iterativer Prozess sind, der mehrere Entwicklungspfade einschließt. Die Auswahl des richtigen Algorithmus ist dabei abhängig vom jeweiligen Datensatz. Das Durchlaufen mehrerer Optimierungen und das Feintuning des Algorithmus steht dabei in starkem Zusammenhang mit den erwarteten Ergebnis bzw. dem Anwendungsfall.30

Lösungsansatz Festgehalten wird, dass die Texte zuerst mittels Pre-Processing vorbereitet werden. Dabei werden folgende Prozessschritte durchlaufen:

1. Pre-Processing 1.1. Tokenization 1.2. Stop Word Elimination

23 CLUSTERING METHODS, Rokach (2005) Data Mining and Knowledge Discovery Handbook, Chapter 15 https://www.cs.swarthmore.edu/~meeden/cs63/s16/reading/Clustering.pdf 24 Comparative Analysis of K-Means and Fuzzy CMeans Algorithms, Ghosh et al (2013) (IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 4, No.4, 2013 S 46 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.683.5131&rep=rep1&type=pdf#page=46) 25 A Survey of Clustering Techniques, Rai et al (2010) International Journal of Computer Applications (0975 – 8887) Volume 7– No.12, October 2010 (https://pdfs.semanticscholar.org/e9c0/1ff0a823114473ad773cf18e6f0e91a1adf2.pdf) 26 An Empirical Evaluation of Density-Based Clustering Techniques, Shah et al (2012) International Journal of Soft Computing and Engineering (IJSCE) ISSN: 2231-2307, Volume-2, Issue-1, March 2012 (http://icdst.org/pdfs/files1/f35f1e99c9b9d6252cf66b4455f0d59d.pdf) 27 A Comparative Analysis of Density Based Clustering Techniques for Outlier Mining, Prabahari et al (2014) INTERNATIONAL JOURNAL OF ENGINEERING SCIENCES & RESEARCH TECHNOLOGY - 3(11): Nov 2014 (http://www.ijesrt.com/issues%20pdf%20file/Archives-2014/November-2014/A%20Comparative%20Analysis%20of%20Density%20Based%20Clustering%20Techniques%20for%20Outlier%20Mining.pdf) 28 Analysis of Mass Based and Density Based Clustering Techniques on Numerical Datasets, Awasthi et al (2013) Journal of Information Engineering and Applications Vol.3, No.4 http://www.iiste.org/Journals/index.php/JIEA/article/download/5311/5400 ) 29 Density-based clustering with DBSCAN and OPTICS, Wowczko (2013) Institute of Technology, Blanchardstown, (http://www.academia.edu/8142139/Density_Based_Clustering_with_DBSCAN_and_OPTICS_-_Literature_Review) 30 Evaluating Clustering Techniques, Timašjov (2014) Institute of Computer Science, University of Tartu (http://ds.cs.ut.ee/Members/hadachi/dss-fall-2014/Dmitri-Timasjov-final-report.pdf)

Page 12: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

11

1.3. Stemming (meistens mittels Porter-Algorithmus) Da leider in deutsche Sprache kein WordNet Corpus verfügbar ist, wird als nächster Prozessschritt eine Erweiterte Variante des TF-IDF gewählt. Diese Vorgehensweise wird herangezogen, da erweiterte TF-IDF Methoden mit 79%31 bzw. 86%32 Genauigkeit ähnliche Werte aufweisen wie Corpus-Methoden. Aus gegebenem Anlass wird dabei eine Kombination von zwei Ansätzen aus der Literatur favorisiert, die beide in Bezug auf Nachrichtentexte angewandt wurden. Zum einen wird der Ansatz des TTF (Table Term Frequency) herangezogen, um Keywords aus bestimmten Themenbereichen zu extrahieren und in temporären Tabellen zwischenzuspeichern. 33 Dabei soll auch die Priorisierung der Keywords beachtet werden. Da regelmäßig neue Nachrichten-Artikel erscheinen, muss dieser Prozess in regelmäßigen Abständen durchgeführt werden. Diese Tatsache wird sich zunutze gemacht, da mehrere Durchläufe die Themen-Zuordnung auch signifikant verbessern. 34 Abschließend sollen bedeutungslose Wörter aus den Tabellen auf Basis von Tabellen-Quer-Vergleichen beseitigt werden. 35

2. Keyword Extraction: 2.1. Klassische TF-IDF als Basis für TTF 2.2. Berechnung des TTF mit einem Schwellenwert von 60% unter

Berücksichtigung des TF-IDF-Werts 2.3. Entfernung der bedeutungslosen Wörter auf Basis der Standardabweichung

aller Themenbereiche Auch hinsichtlich des Clusterings wird eine Kombination von zwei Ansätzen favorisiert. Dabei wird zuerst durch einen stochastischen Prozess (DBSCAN-Martingale) die Anzahl der Cluster abgeschätzt. Anschließend werden die Nachrichten-Artikel den Themen mittels LDA zugewiesen. Diese Vorgehensweise übertrifft sämtliche state-of-the-art Methoden bei vier verschiedenen Text-Körpern hinsichtlich erkannter Cluster und Laufzeit.36 LDA steht dabei für Latent Dirichlet allocation. Dabei wird jedes Element als ein Kombination der zugrundeliegenden Themen erachtet. Diese Methode, die Blei et al 2003 publizierte, war seither Thema hunderter wissenschaftlicher Paper, die den ursprünglichen Ansatz laufend verbesserten.37 31 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 32 Informativeness-based Keyword Extraction from Short Documents (January 2013) Toivanen |Communications in Computer and Information Science (https://www.researchgate.net/publication/269280274) 33 News Keyword Extraction for Topic Tracking, Lee (2008) Networked Computing and Advanced Information Management, 2008. NCM '08.Fourth International Conference on Networked Computing and Advanced Information Management http://ieeexplore.ieee.org.uaccess.univie.ac.at/stamp/stamp.jsp?arnumber=4624203 34 Topic Detection based on Keyword in 2011 International Conference on Mechatronic Science, Electric Engineering and Computer August 19-22, 2011, Jilin, China http://ieeexplore.ieee.org.uaccess.univie.ac.at/stamp/stamp.jsp?arnumber=6025502 35 News Keyword Extraction for Topic Tracking, Lee (2008) Networked Computing and Advanced Information Management, 2008. NCM '08.Fourth International Conference on Networked Computing and Advanced Information Management http://ieeexplore.ieee.org.uaccess.univie.ac.at/stamp/stamp.jsp?arnumber=4624203 36 A Hybrid Framework for News Clustering Based on the DBSCAN-Martingale and LDA, Gialampoukidis et al (2016) Proceedings of International Conference on Machine Learning and Data Mining in Pattern Recognition 37 Latent Dirichlet Allocation in R, Ponweiser (2012) Diplomarbeit an der WU Wien, Institute for Statistics and Mathematics (http://epub.wu.ac.at/3558/1/main.pdf)

Page 13: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

12

3. Clustering 3.1. DBSCAN-Martingale zur Abschätzung der Cluster 3.2. LDA zur Zuordnung der Themen zu einem Cluster

Dieser neueste Ansatz wurde unter der Apache Lizenz 2.0 als Freie Software veröffentlicht. Der Quellcode wurde dabei in der Programmiersprache R offengelegt.38 Das Ergebnis dieses Prozesses sollte alle Artikel zu einem gleichen Thema in einem gemeinsamen Cluster darstellen, um daraus den qualitativ besten Artikel auswählen zu können. Aufgrund der Tatsache dass über Ereignisse meist zeitgleich bzw in einem Fenster von rund 72 Stunden berichtet wird, werden zur Clustering auch nur die Artikel herangezogen, die nicht älter als 72 Stunden sind. Dies ist auch der Tatsache geschuldet, dass bei rund 500 Wörter pro Artikel (je nach Medium unterschiedlich) pro Tag rund 2.500.000 Wörter verarbeitet werden müssen. Da der IDF (Inverse Document Frequency) Score die Wichtigkeit des Wortes in allen Dokumenten abbildet, würde der Prozessschritt des “Term Weighting” schon nach einigen Tagen sehr viel Rechenleistung in Anspruch nehmen - nach einer Woche müssten bei der Neuberechnung eines Artikels rund 17,5 Mio. Wörter neu berechnet werden. Deshalb wird auch in Erwägung gezogen, dass der IDF Score auch nicht bei jedem neuen Artikel berechnet, sondern gebündelt ein mal am Tag für alle Dokumente, die nicht älter sind als 7 Tage. Dabei wird dabei angenommen, dass die Häufigkeit der Wörter in Dokumenten in diesem Zeitfenster (35.000 Artikel / 17,5 Mio. Wörter) der Häufigkeit der Wörter im allgemeinen Gebrauch widerspiegelt. Der hier aufgezeigte Lösungsansatz wurde auf Basis aktueller Literatur und unter Bezugnahme auf den gegebenenen Datensatz ausgewählt. Mögliche alternative Methoden, wie das Hidden-Markov Modell oder die Berücksichtigung des Autors können Thema weiterer Arbeiten sein.

38 https://github.com/MKLab-ITI/topic-detection

Page 14: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

13

Klassifizierung eines Artikels anhand eines Qualitätsscore (5 Qualitätskriterien) In der Literatur “Nachrichtenqualität aus Sicht der Mediennutzer”39 wurden mehrere Studien (siehe Abbildung 3) zum Thema Qualitätskriterien untersucht.

Abbildung 4: Vergleich mehrer Studien zum Thema Qualitätskriterien

Nach genauerem Vergleich wurden folgende 5 Qualitätskriterien bestimmt und diese wurden in dieser Arbeit als Ausgangspunkt herangezogen.

Vielfalt Sachgerechtigkeit Relevanz Unparteilichkeit Verständlichkeit

Meinungsvielfalt Richtigkeit Vollständigkeit/W-Fragen

Ausgewogenheit Meinungen

Einfachheit

Quellenvielfalt Genauigkeit Analytische Qualität

Ausgewogenheit Quellen

Gliederung/ Ordnung

Transparenz Aktualität Neutralität Kürze/Prägnanz

soziale Relevanz

Anregende Zusätze

Kohärenz Abbildung 5: 5 Qualitätskriterien mit deren Aufgliederung

Diese Qualitätskriterien wurden in der oben genannten Literatur in mehreren Studien untermauert.

39 Voigt J. (2016). Nachrichtenqualität aus Sicht der Mediennutzer. Wie Rezipienten die Leistung des Journalismus beurteilen können. Research. Springer Verlag

Page 15: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

14

Abbildung 6: Wichtigkeitsrankings von Qualitätskriterien aus Rezipientensicht40

Um auch relevante Daten für den österreichischen Markt zu besitzen, wurden zwei eigene Umfragen erstellt und diese über einen social media Kanal verteilt.

Abbildung 7: Ergebnis zweier Usertest

40 Voigt J. (2016). Nachrichtenqualität aus Sicht der Mediennutzer. Wie Rezipienten die Leistung des Journalismus beurteilen können. Research. Springer Verlag

Page 16: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

15

Es wird nun versucht diese Qualitätsmerkmale genauer zu analysieren und mögliche automatisierte Kennzahlen zu definieren.

Vielfalt Meinungsvielfalt: Gegen den Einbezug lässt sich argumentieren, dass einzelne Beiträge tendenziell von größerem Umfang sein müssen, um diese Forderung überhaupt erfüllen zu können. Außerdem könnte die stete Konfrontation mit widersprüchlichen Informationen die Verarbeitungskapazität der Rezipienten bei der Nachrichtenrezeption beeinträchtigen41 Technischer Lösungsansatz: Durch die Verwirrung des Rezipienten durch zu viele Meinungen, wird dieses Qualitätskriterium nicht betrachtet bzw. als feature candidate definiert Quellenvielfalt: je mehr desto besser, gilt auch hier. Aus der grösstmöglichen Anzahl von Artikeln zu einem Ereignis, sollte der “beste” ausgewählt werden. Technischer Lösungsansatz: Durch den Einsatz von RSS-Feeds, kann die größtmögliche Anzahl an Deutschsprachigen Nachrichten analysiert und bewertet werden (ca. 100 unterschiedliche Feeds in Österreich).

Relevanz W-Fragen: Folgende Fragen Wer, Was, Wann, Wo und Warum sollten durch einen Artikel beantwortet werden Technischer Lösungsansatz: Die Texte der Artikel werden durch Algorithmen in unterschiedliche Tags (Schlüsselwörter) in Zusammenspiel mit dbpedia definiert. Diese können dann über die Vollständigkeit eines Artikels aussagen. Realisierbarkeit in Ausarbeitung Analytische Qualität:42 Folgen, Umstände, Vorereignisse, Geschichte, Prognosen, Bewertung und Forderungen zu einem Ereignis Technischer Lösungsansatz: derzeit noch kein Lösungsansatz vorhanden Aktualität: zeitliche Relevanz Technischer Lösungsansatz: Jeder Artikel hat einen Zeit- und Datumsstempel, dieser kann verwendet werden um eine Aktualität zu bestimmen soziale Relevanz: was sagt mein Umfeld (Filter Bubble) Technischer Lösungsansatz: Durch einen sozialen Filter, können sogenannte Filter Bubbles entstehen. Mein Blickfeld ist durch meine soziale Umgebung eingeschränkt. Dadurch ist es kein objektives Qualitätskriterium

Unparteilichkeit Ausgewogenheit Meinung: Analyse und Bewertung der Einseitigkeit eines Artikels Technischer Lösungsansatz: Der Artikel wird mit dem Deutschen Polarisations Lexikon (Institut Linguistik, Zürich) verglichen und ausgewertet 41 Ruhrmann, G. (1989). Rezipient und Nachricht. Struktur und Prozess der Nachrichtenrekonstruktion. Opladen: Westdeutscher. 42 Van Dijk, T. A. (1988). News as Discourse. Hillsdale, N.J.: Erlbaum

Page 17: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

16

Berechnung der Kennzahl Kam:

pWörter/Zeilen ratio Kam

> 10% 3

2 - 10% 5

< 2% 10 Abbildung 8: Definition der Kennzahl Kam

Ausgewogenheit Quellen: keine Filter Bubbles in Bezug auf Medium (immer das gleiche Nachrichtenportal) Technischer Lösungsansatz: Da wir immer alle Artikel miteinander vergleichen können, können sich keine persönlichen Filter ergeben Neutralität43: Neutral ist lediglich eine sachliche und unpersönliche Darstellungsweise. Wertende Begriffe und Formulierungen sowie Emotionalisierung, Personalisierung und Stereotypisierung gelten hingegen als Indiz für einen Verstoß gegen das Neutralitätsgebot 44 Technischer Lösungsansatz: Vergleich aller Wörter mit Wörtern einer Neutralitäts Bibliothek Berechnung der Kennzahl Kn:

nWörter/Zeilen ratio Kn

80-85% 3

85-90% 5

90-100% 10 Abbildung 9: Definition der Kennzahl Kn

Sachgerechtigkeit (Richtigkeit der Information) ist empirisch nicht überprüfbar. Um es trotzdem in der Bewertung einfließen zu lassen, können logische Aussagen und Fakten auf Richtigkeit/Widerspruchsfreiheit sowie Genauigkeit geprüft werden. Zusätzlich wird die Transparenz (Angaben von externen Quellen bzw. Zitaten) als Zeichen einer Wahrheitsgetreuen Wiedergabe definiert. Transparenz: Annahme: Transparenz herrscht vor, wenn in jeder 10 Zeile ein Zitat bzw. am Ende des Textes externe Quellen angegeben werden Technischer Lösungsansatz:

43 Weiss, H.-J. & Trebbe, J. (1994). Öffentliche Streitfragen in privaten Fernsehprogrammen. Zur Informationsleistung von RTL, SAT1 und PRO7. Opladen: Leske + Budrich. 44 McQuail, D. (1992). Media Performance. Mass Communication and the Public Interest. London: Sage.

Page 18: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

17

Quellenangaben = externe Links (nicht Werbelinks und keine internen Links) Berechnung der Kennzahl Kt:

Quellen/Zeilen ratio Kt

0.2-0.5 3

0.5-0.8 5

0.8-1.2 10

1.2-1.5 5

> 1.5 3 Abbildung 10: Definition der Kennzahl Kt

Verständlichkeit Verständlichkeit Indikatoren lassen sich meist nur auf Verstehens Untersuchungen beim Rezipienten oder aus theoretischer begründeten Annahmen zum Verstehensprozess ableiten45 Unser Ansatz hierfür ist es den Artikel anhand seines Textaufbaus zu bewerten: Einfachheit: Um die Lesbarkeit eines Textes zu ermitteln, wird der Flesch-Wert46 eines Artikels berechnet. Gute und verständliche Texte haben einen Wert von mindestens 60. Technischer Lösungsansatz: Um den Flesch-Wert berechnen zu können, braucht man die Wortanzahl, die Satzanzahl und die Silbenanzahl des Textes. ASL (Average Sentence Length): Die durchschnittliche Satzlänge (ASL - Average Sentence Length) ist die Anzahl der Worte im Text geteilt durch die Anzahl der Sätze des Textes. ASW (Average Number of Syllables per Word): Die durchschnittliche Silbenanzahl pro Wort ist die Silbenanzahl des gesamten Textes geteilt durch die Anzahl der Worte im Text

Flesch-Reading-Ease-Score

Lesbarkeit Verständlich für Ke

0 - 30 Sehr schwer Akademiker 3

30 - 50 Schwer 7

50 - 60 Mittelschwer 10

60 - 70 Mittel 13 - 15 jährige Schüler

10

70 - 80 Mittelleicht 7

45 Fahr, A. (2001). Katastrophale Nachrichten? Eine Analyse der Qualität von Fernsehnachrichten. München: Reinhard Fischer 46 https://de.wikipedia.org/wiki/Lesbarkeitsindex

Page 19: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

18

80 - 90 Leicht 5

90 - 100 sehr Leicht 11 - jährige Schüler 2 Abbildung 11: Definition der Kennzahl Ke

Gliederung/Ordnung: äußere Struktur, Anzahl der Absätze im Verhältnis zur Zeile Annahme: der ideale Absatz47 besteht aus 4-5 Zeilen, eine Zeile besteht aus 12 Wörtern Technischer Lösungsansatz: Berechnung der Kennzahl Kg:

Zeilen/Absatz ratio Kg

0-2 5 3 8

4-5 10 6-8 8

8-10 6 10-20 3

Abbildung 12: Definition der Kennzahl Kg Kürze/Prägnanz: aufs Wesentliche beschränkt, knapp, Inhalt im Verhältnis zur Textlänge. Annahme: mindestens ein wichtiges Schlüsselwort des Clusters sollte in einer Zeile vorhanden sein Technischer Lösungsansatz: Berechnung der Kennzahl Kk:

topTag/Absatz ratio Kk

0.2 - 0.5 3 0.5 - 0.8 5 0.8 - 1.5 10 1.5 - 2 5

> 2 3

47 http://t3n.de/news/content-marketing-blog-facebook-tweet-laenge-549249/

Page 20: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

19

Abbildung 13: Definition der Kennzahl Kk

anregende Zusätze: Ausrufe, Zitate, Bilder Annahme: mindestens ein Zitat bzw. Bild pro Absatz Technischer Lösungsansatz: Berechnung der Kennzahl Kz:

Zitate+Media/ratio Kz

0.1 - 0.2 2

0.2 - 0.5 5

0.5 - 1 10

1.2 - 1.5 5

> 1.5 2 Abbildung 14: Definition der Kennzahl Kz

Kohärenz: inhaltlicher Zusammenhang Technischer Lösungsansatz: derzeit noch kein Lösungsansatz vorhanden

Page 21: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

20

Qualitätsscore Der Qualitätsscore (Qscore) ist nun die Summe aller definierten Kennzahlen (Kx) mit seiner Gewichtung (Gx)48

Nach genauerer Betrachtungen wurden für den Qualitätsscore folgende Merkmale (grün markiert), welche automatisiert bewertet werden können, definiert. Diese Merkmale sollen ausreichend sein, um einen Artikel so zu bewerten, dass dem Kunden der lesenswerteste (qualitativ beste) Artikel präsentiert wird.

Vielfalt Sachgerechtigkeit Relevanz Unparteilichkeit Verständlichkeit

Meinungsvielfalt Richtigkeit Vollständigkeit/ W-Fragen

Ausgewogenheit Meinungen Kam (12%)

Einfachheit Ke (9%)

Quellenvielfalt Kq (5%)

Genauigkeit Analytische Qualität

Ausgewogenheit Quellen

Gliederung/ Ordnung Kg (9%)

Transparenz Kt (9%)

Aktualität Ka (26%)

Neutralität Kn (12%)

Kürze/Prägnanz Kk (9%)

soziale Relevanz

Anregende Zusätze Kz (9%)

Kohärenz

5% 9% 26% 24% 36% Abbildung 15: Aktuelle Machbarkeitstabelle der Qualitätsmerkmale + Gewichtung

Die Qualitätswahrnehmung ist nicht gleich stark mit der Gesamtbewertung einer Nachricht zusammenhängend49. Ursache hierfür ist, dass Rezipienten eine individuelle Wahrnehmung über die Qualität besitzen (siehe Abbildung). Die Gewichtung der einzelnen Merkmale wird dynamisch implementiert und wird sich mit der Zeit adaptiv auf die Rezipienten einstellen. Als Ausgangsbasis der Berechnung wird der Schlüssel in Abbildung 17 zur Berechnung angenommen.

48 Die genaue Gewichtung und Berechnung des Qualitätsscore wird durch ein empirisches Verfahren erst ermittelt 49 Dahinden, U., Kaminski, P. & Niederreuther, R. (2004). 'Content is King' - Qualitätsbeurteilung aus Angebots- vs. Rezipientenperspektive. In K. Beck, W. Schweiger & W. Wirth (Hrsg.), Gute Seiten, schlechte Seiten. Qualität in der Onlinekommunikation (S. 103–126). München: Reinhard Fischer.

Page 22: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

21

Abbildung 16: Qualitätserwartung Basis: n=1407-1419 50

50 Voigt J. (2016). Nachrichtenqualität aus Sicht der Mediennutzer. Wie Rezipienten die Leistung des Journalismus beurteilen können. Research. Springer Verlag

Page 23: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

22

Beispiel zum Thema Vogelgrippe mit 8 online Artikeln

Abbildung 17: Vergleich 8 Vogelgrippe Artikeln

Dabei wurden insgesamt 3581 Wörter, 676 Schlüsselwörter (sogenannte Tags), 22 Zitate, 12 multimedia Daten (Bilder, Videos, Podcast. etc.) und 2 externe Quellen analysiert.

Gewicht. KennZ. Salzb.

N. Presse Kleine

Zeitung Standard Krone Kurier ORF Heute Quellenvielfalt 5% Kq 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 Transparenz 9% Kt 0.45 0.45 0.45 0.9 0.45 0.27 0.45 0.9 Aktualität 26% Ka 2.08 2.34 2.08 2.34 2.6 2.6 2.08 2.6 Ausgewogenheit Meinungen 12% Kam 1.2 1.2 1.2 1.2 1.2 1.2 1.2 1.2 Neutralität 12% Kn 0.6 0.6 0.6 0.6 0.6 0.6 0.6 0.6 Einfachheit 9% Ke 0.63 0.63 0.9 0.63 0.63 0.9 0.63 0.63 Gliederung/Ordnung 9% Kg 0.27 0.72 0.27 0.72 0.72 0.27 0.9 0.9 Kürze/Prägnanz 9% Kk 0.9 0.9 0.9 0.9 0.45 0.27 0.45 0.9 Anregende Zusätze 9% Kz 0.45 0.45 0.45 0.9 0.9 0.45 0.45 0.45

Qscore 7.08 7.79 7.35 8.69 8.05 7.06 7.26 8.68 Abbildung 18: Beispielbewertung von Artikeln zum Thema Vogelgrippe

Page 24: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

23

Schlussbetrachtung Dieses Papier beschreibt die technische Realisierbarkeit von zwei essentiellen Herausforderung der Analyse von Pressetexten. Zum einen die Gruppierung von Artikeln und die Bestimmung der Qualität eines Textes. Die hier aufgeführten Möglichkeiten sind ein erstes Wurf um zu zeigen, dass eine Realisierung mit Hilfe von Algorithmen möglich ist. Eine Verfeinerung besonders in der Gewichtung und Berechnung der Qualitätsmerkmale sowie Auswahl des Cluster Algorithmus bedarf noch einer tieferen Analyse und wird mit Hilfe von Usertest verifiziert werden. -- Demokratische Systeme basieren im Wesentlichen auf dem Prinzip der freien Meinungsbildung, welches in Deutschland aus Artikel 5 Absatz 1 des Grundgesetzes abgeleitet werden kann.51 --

51 Sommermann, K.-P. (2005). Demokratiekonzepte im Vergleich. In H. Bauer, P. M. Huber & K.-P. Sommermann (Hrsg.), Demokratie in Europa (S. 191–224). Tübingen: Mohr Siebeck.

Page 25: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

24

Weitere Entwicklung Wie im Abschnitt Clustering Prozess dargelegt, können alternative Methoden, wie das Hidden-Markov Modell oder die Berücksichtigung des Autors Thema weiterer Forschungsprojekte sein. In dem Prozess der Informations-Zusammenstellung könnte dabei die Meinung des Autors von besonderem Interesse sein. Diese wäre anhand eines Artikels schwer zu erkennen, könnte jedoch durch die Stimmungsanalyse mehrerer Artikel aufgezeigt werden.52 Schlussfolgerten Forscher noch vor einigen Jahren, dass “all the sentiment analysis tasks are very challenging.” 53, so kann heute die Analyse von einzelnen Standpunkten je User geleistet werden. Dies wird dadurch begründet, da seit einigen Jahren die Aufmerksamkeit von Forschern und der Industrie auf deren Entwicklung liegt, da dies für Social-Media-Organisation von großer Bedeutung ist. Dabei sind die Extrahierung des Standpunkts sowie die Extrahierung des Objekts die größten Herausforderungen. Dazu werden unter anderem lernende Algorithmen wie das Hidden-Markov Modell bzw. Themen-Modelle wie MG-LDA vermehrt eingesetzt. 54 Aber auch für die Analyse des Medienechos für Firmen sind diese Ansätze von großer Bedeutung, da dadurch Zeit bei der Erkennung von wichtigen Statements gespart werden kann. 55 Problem von Filter-Bubbles Diese Entwicklung führte jedoch zu der Problematik von “Filter-Bubbles”, die Eli Pariser in seinem Buch “The Filter Bubble: What the Internet is Hiding from You” aufzeigt. Diese entstehen, weil Webseiten versuchen, algorithmisch vorauszusagen, welche Informationen bzw. Standpunkte der Benutzer auffinden möchte. Dabei bezieht er sich auf Aussagen wie: “The future of the web is about personalization… You can define personalization in a number of different ways, but however you do it, it dramatically changes our online experience.”56 “It will be very hard for people to watch or consume something that has not in some sense been tailored for them” 57 “A squirrel dying in front of your house may be more relevant to your interests right now than people dying in Africa.”58

52 Opinion mining and sentiment analysis (2008) Pang et al | Foundations and trends in information retrieval 2.1-2 (2008): 1-135. (http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf) 53 Sentiment Analysis and Subjectivity (2010) Liu | Handbook of Natural Language Processing, Second Edition, (https://www.cs.uic.edu/~liub/FBS/NLP-handbook-sentiment-analysis.pdf) 54 Aspect and Entity Extraction for Opinion Mining (2013) Zhang et al | Data Mining and Knowledge Discovery for Big Data Volume 1 S 1-40 (https://www.cs.uic.edu/~lzhang3/paper/ZhangLiu-AEEE.pdf) 55 Extraction of Statements in News for a Media Response Analysis (2013) Scholz et al | Proceedings of the 18th International Conference on Applications of Natural Language to Information Systems, Heidelberg, Springer S 1- 12 56 Tapan Bhat, Yahoo Vice President at the “Next Web conference” in Amsterdam (http://technology.timesonline.co.uk/tol/news/tech_and_web/the_web/article1883175.ece ) 57 Eric Schmidt, Google, Interview mit Holman W. Jenkins Jr. im Wall Street Journal, am 14. August 2010 http://www.wsj.com/articles/SB10001424052748704901104575423294099527212 58 Mark Zuckerberg, Facebook in “the facebook effect” by David Kirkpatrick, Virgin Books (2010)

Page 26: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

25

Die nachfolgenden Auszüge aus Christoph Kappes Diskussion “Filter Bubble - Warum die Gefahren der Filter Bubble überschätzt werden”, führt zu der Conclusio, dass es keine Alternative zu Filtern gibt und gab, die Filter jedoch inhaltsneutral sein sollten oder, wo sie es nicht sind, dem Nutzer die Selektionskriterien zugänglich machen: “Wird das Internet mehr und mehr zu einer Maschine, die weniger zur Erweiterung unseres Horizonts beiträgt, als dass die Vorurteile des jeweiligen Nutzers bestätigt? … Ausgangspunkt dieser Thesen ist die Beobachtung, dass Suchmaschinen und soziale Netzwerke dem Nutzer je nach politischer Grundhaltung unterschiedliche Dokumente und Fundlisten präsentieren. … Google gelingt dies, indem es für die Suchergebnisse 57 personenbezogene Merkmale erfasst. … in Summe werden über zweihundert Kriterien zur Filterung der Ergebnisse verwendet, die als Geschäftsgeheimnis niemals veröffentlicht werden. … Dies hat sich 2009 noch verstärkt, da Google seither je nach Such- und Klickverhalten unterschiedliche Ergebnisse liefert. Daraus wird eine Wahrscheinlichkeit für persönliche Relevanz von Treffern ermittelt. Sichtbar wird dieses Problem auch bei sozialen Netzwerken wie Facebook, die Statusmeldungen und andere Beiträge nach einer Reihe von Kriterien gewichten und auf dieser Basis nur ausgewählte Artikel anzeigen. Es geht dabei stets darum, anhand des Klickverhaltens Interessensvorlieben zu erkennen und für künftige Selektionen zu berücksichtigen. Der Grund dieses Vorgehens ist nachvollziehbar: Anbieter wollen nur Werbung zeigen, die die richtige Zielgruppe erreicht. Nun gab es allerdings vor dem Internet in den herkömmlichen Medien Informationsprozesse, die als “Filter” fungieren. Aus der Vielzahl von Ereignissen wählte eine Redaktion nur einen sehr geringen Teil aus. Dies diente nicht nur der Vermeidung von Fehlern und Wiederholungen, sondern auch der optimalen Gewichtung und “Bouquet”-Bildung für die Zielgruppe. Auch der Konsument herkömmlicher Medien erhält also immer gefilterte Inhalte… was zeigt, warum die “Filter Bubble” nicht die bedrohliche Ausnahme, sondern Normalität ist. Durch die Globalisierung und dadurch hervorgerufene Nachrichtenexplosion gibt es in einer digitalisierten Gesellschaft keine Alternative mehr zu Filtern, die Frage ist einzig, wie diese Filter arbeiten sollen. … Die werbefinanzierten Geschäftsmodelle der meisten Anbieter geben jedenfalls Anlass zur Skepsis. … Es gab und gibt keine Alternative zu Filtern, doch sollten Filter inhaltsneutral sein oder, wo sie es nicht sind, dem Nutzer die Selektionskriterien zugänglich machen.” 59

59 Filter Bubble - Warum die Gefahren der Filter Bubble überschätzt werden, Kappes (2012) Merkur 3/12 http://christophkappes.de/wp-content/uploads/downloads/2012/06/TZD_Kappes-Christoph_-Filter-Bubble.pdf

Page 27: Steigerung der Qualität von Pressetexten11 An Extended Keyword Extraction Method (2012) Hong et al | 2012 International Conference on Applied Physics and Industrial Engineering 12

26

Abbildungsverzeichnis Abbildung 1: Übersicht von Pre-Processing Schritten S. 5 Abbildung 2: Übersicht von Keyword-Extraction Methoden S. 7 Abbildung 3: Übersicht von Clustering Algorithmen S. 9 Abbildung 4: Vergleich mehrer Studien zum Thema Qualitätskriterien S. 13 Abbildung 5: 5 Qualitätskriterien mit deren Aufgliederung S. 13 Abbildung 6: Wichtigkeitsrankings von Qualitätskriterien aus Rezipientensicht S. 14 Abbildung 7: Ergebnis zweier Usertest S. 14 Abbildung 8: Definition der Kennzahl Kam S. 16 Abbildung 9: Definition der Kennzahl Kn S. 16 Abbildung 10: Definition der Kennzahl Kt S. 17 Abbildung 11: Definition der Kennzahl Ke S. 18 Abbildung 12: Definition der Kennzahl Kg S. 18 Abbildung 13: Definition der Kennzahl Kk S. 19 Abbildung 14: Definition der Kennzahl Kz S. 19 Abbildung 15: Aktuelle Machbarkeitstabelle der Qualitätsmerkmale + Gewichtung S. 20 Abbildung 16: Qualitätserwartung Basis: n=1407-1419 S. 21 Abbildung 17: Vergleich 8 Vogelgrippe Artikeln S. 22 Abbildung 18: Beispielbewertung von Artikeln zum Thema Vogelgrippe S. 22