Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Preview:

DESCRIPTION

Themen finden, Themen beschreiben in Zusammenhang mit Meinungen, Vielfalt und Lokalisierung

Citation preview

EC Project 257859

Von Information zu Wissen Einsichten Gewinnen

Prof. Dr. Steffen Staab

Institute for Web Science and Technologies

Business Communities

• Informationsökosystem– Angestellte– Geschäftspartner, Kunden– Öffentlichkeit

Werte

GelegenheitenRisiken

08.09.12 2Steffen Staab, staab@uni-koblenz.de

Anwendungsfälle

Business PartnersExtranet

EmployeesIntranet

Public DomainInternet

SAP Community Network (SCN)Lotus Connections MeaningMine

Communities• Customers• Partners• Suppliers• Developers

Business value• Products support• Services• Find business partners

Communities• Employees• Working groups• Interest Groups• Projects

Business value• Task relevant information• Collaboration• Innovation

Communities• Social media• News• Web fora• Public communities

Business value• Topics• Opinions• Service for partners

Volume• 6,000 posts/day• 1,700,000 subscribers• 16GB log/day

Volume• 4,000 posts/day• 386,000 employees• 1.5GB content/day

Volume• 1,400,000 posts/day• 708,000 web sources• 45GB content/day

08.09.12 3Steffen Staab, staab@uni-koblenz.de

Information Verstehen

• Finden von Themen

• Meinungen zu Themen:– Topic-opinion analysis

• Z.B. positive und negative Meinungen zu Produkten

• Diversität von Meinungen– Vermeiden von „group think“

• Lokalisierung von Themen– Globale Themen vs regionale Themen

• Z.B. Nachtflugverbot am Frankfurter Flughafen

– Themen, die sich zeitlich ändern• XML - 2000• Soziale Netzwerke - 2010

08.09.12 4Steffen Staab, staab@uni-koblenz.de

Einfaches Beispiel: Yahoo Nachrichten

08.09.12 5Steffen Staab, staab@uni-koblenz.de

Kommentare

• Viele Kommentare

• Verschiedene Meinungen

• Verschieden wichtige Kommentare

Wie macht man Wissen aus der

Informationsflut?

08.09.12 6Steffen Staab, staab@uni-koblenz.de

Erster Schritt: Extraktion

08.09.12 7Steffen Staab, staab@uni-koblenz.de

Zweiter Schritt: Themen erkennenTorpedo attack

Spiritualism

Religion

Erkannte

Themen

Zweiter Schritt: Themen erkennen

more..

more..

Dritter Schritt: Themenbasierte Übersicht

08.09.12 10Steffen Staab, staab@uni-koblenz.de

MEINUNGEN ZU THEMEN

Werkzeug für Themen & Meinungen

Was ist eine Meinung?

Vokabelsammlungen für Meinungen, Gefühle, etc.

ANEW – Affective Words for English Terms (http://csea.phhp.ufl.edu/media/anewmessa

ge.html)– Valence– Arousal– Dominance

ADUW, POMS,….

LIWC – Linguistic Inquiry and Word Count (http://www.liwc.net/)

– social– posemo– negemo– affect– anx– anger– sad– feel– ….

08.09.12 14Steffen Staab, staab@uni-koblenz.de

Vocabulary example: ANEW

ValenceArousal Dominance Freq

Mean SD Mean SD Mean SD Word

rescue 7.70 1.24 6.53 2.56 6.45 2.29 15

gun 3.47 2.48 7.02 1.84 3.53 2.72 118

hopeful 7.10 1.46 5.78 2.09 5.41 1.92 12

ignorance 3.07 2.25 4.39 2.49 4.41 2.38 16

crash 2.31 1.44 6.95 2.44 3.44 2.21 20

confident 7.98 1.29 6.22 2.41 7.68 1.94 16

improve 7.65 1.16 5.69 2.15 6.08 2.25 39

….

08.09.12 15Steffen Staab, staab@uni-koblenz.de

Verschiedene Meinungen für ein Thema

Vierter Schritt: Übersicht nach Thema und Meinung

08.09.12 16Steffen Staab, staab@uni-koblenz.de

DIVERSITÄT VON MEINUNGEN

Diversität von Themen und Meinungen

Review 1 of 498"A Review for 99% of us"Judging by most of the bad reviews by 12 year old kids, I doubt most of these people even own the new iPhone. so let me give you the real lowdown from …

Review 2 of 498"Hype reloaded reloaded: (still) 25 % quality, 75 % hype" Overexpensive, overhyped phone with nice, cool (and also counter-productive) touch-screen interface to show-off.…

Welche Kommentare soll ich lesen, wenn ich ein zutreffendes Gesamtbild erhalten

möchte?

Beobachtungen zu Produktkommentaren

Initiale Kommentare sind oft lang – und bezahlt (Nicht die Stimme der Nutzer)

Leser stimmen darüber ab, welcher Kommentar hilfreich ist (Rich get richer)

Quantität != Qualität Kürzere Kommentare of objektiver und präziser

Viel redundante Information in den Kommentaren

Ziel: Bestmögliche Abdeckung der verschiedenen Produkteigenschaften und Meinungen

FREuD Analyse und Vorschläge

08.09.12 20Steffen Staab, staab@uni-koblenz.de

FREuD Vorschläge

Review: 1Apps dont crash, native apps open quicker, voice controls, video funtionality same cosmetic shape as last years 3G New features such as video and voice control along with the speed boost make the 3GS a great upgrade …

Review : 3I am trying to find out what the pros and cons of this phone are but I haven't been able to because so far everyone here is discussing AT&T , MMS, and tethering. Please people, take it elsewhere and let someone review the darned phone…

Review : 2With the addition of new hardware features Apple has also fractured the once very simple and unified ecosystem that OSX Mobile represented. To exploit new features developers now need to decide if they want to support …

Review : 4The iPhone 3GS is virtually the same as its 3G predecessor. The improvements (3.2 megapixel camera, magnetometer, slightly faster processor) are hardly exciting, and the fact that many of the software …..

08.09.12 21Steffen Staab, staab@uni-koblenz.de

LOKALISIERUNG VON THEMEN

34,707 Flickr Bilder mit Geodaten

Chevrolet

BMWAudi

PontiacChevrolet

Mercedes

Audi

CitroenBMW

Chevrolet

BMW

MercedesBMW

Audi

Fiat

Pontiac

CitroenPeugeot

Renault

34,707 Flickr photos containing car brandschevrolet, pontiac, cadillac, gmc, buick, audi, bmw, mercedesbenz, fiat, peugeot, citroen, renault (removed: event-like images tagged by autoshow, show, race, racing)

08.09.12 23Steffen Staab, staab@uni-koblenz.de

Gibt es Gebiete in denen Themen dominieren?

Chevrolet

BMWAudi

PontiacChevrolet

Mercedes

Audi

CitroenBMW

Chevrolet

BMW

MercedesBMW

Audi

Fiat

Pontiac

CitroenPeugeot

Renault

citroenrenaultpeugeotbmw

bmwaudimercedesfiatcitroen

chevroletpontiacbmwmercedesaudi

08.09.12 24Steffen Staab, staab@uni-koblenz.de

Geographical network construction

Data points Spatial region centroids Geographical network

08.09.12 25Steffen Staab, staab@uni-koblenz.de

Visualisation

chevrolet 0.35bmw 0.18cadillac 0.16pontiac 0.09gmc 0.07buick 0.06audi 0.05

bmw 0.29audi 0.18fiat 0.10citroen 0.09renault 0.09peugeot 0.08mercedesbenz 0.06chevrolet 0.05

08.09.12 26Steffen Staab, staab@uni-koblenz.de

Visualisation

fiat 0.66bmw 0.10citroen 0.09renault 0.05

pontiac 0.92bmw 0.63mercedesbenz 0.17audi 0.13

renault 0.28citroen 0.22peugeot 0.15bmw 0.10audi 0.09fiat 0.07

08.09.12 27Steffen Staab, staab@uni-koblenz.de

Von Information zu Wissen

• Themen in Dokumenten / Web 2.0 erkennen

• Themen verstehen– Meinungen– Diversität– Lokation

• Räumlich• Zeitlich• Sozial

• Beispiele– Nachrichtenkommentare– Produktkommentare– Flickr

08.09.12 28Steffen Staab, staab@uni-koblenz.de

Unser Know-How!

Ihre Informationen!

Ihre Einsichten!

VIELEN DANK FÜR IHRE AUFMERKSAMKEIT!

http://robust-project.eu/

http://west.uni-koblenz.de/

08.09.12 29Steffen Staab, staab@uni-koblenz.de

Unser Know-How!

Ihre Informationen!

Ihre Einsichten!

Bibliographie

Naveed, Nasir; Gottron, Thomas; Sizov, Sergej; Staab, Steffen (2012): FREuD: Feature-Centric Sentiment Diversification of Online Discussions. In: WebSci'12: Proceedings of the 4th International Conference on Web Science. ACM, 2012.

Sergej Sizov: GeoFolk: latent spatial semantics in web 2.0 social media. Proc. of Conf. on Web Search and Data Mining 2010: 281-290, AAAI.

Nasir Naveed, Sergej Sizov, Steffen Staab: ATTention: Understanding Authors and Topics in Context of Temporal Evolution. European Conference on Information Retrieval 2011: 733-737. Springer, 2011.

Some of the described work is currently being prepared for publication.

Recommended