30
EC Project 257859 Von Information zu Wissen Einsichten Gewinnen Prof. Dr. Steffen Staab Institute for Web Science and Technologies

Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Embed Size (px)

DESCRIPTION

Themen finden, Themen beschreiben in Zusammenhang mit Meinungen, Vielfalt und Lokalisierung

Citation preview

Page 1: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

EC Project 257859

Von Information zu Wissen Einsichten Gewinnen

Prof. Dr. Steffen Staab

Institute for Web Science and Technologies

Page 2: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Business Communities

• Informationsökosystem– Angestellte– Geschäftspartner, Kunden– Öffentlichkeit

Werte

GelegenheitenRisiken

08.09.12 2Steffen Staab, [email protected]

Page 3: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Anwendungsfälle

Business PartnersExtranet

EmployeesIntranet

Public DomainInternet

SAP Community Network (SCN)Lotus Connections MeaningMine

Communities• Customers• Partners• Suppliers• Developers

Business value• Products support• Services• Find business partners

Communities• Employees• Working groups• Interest Groups• Projects

Business value• Task relevant information• Collaboration• Innovation

Communities• Social media• News• Web fora• Public communities

Business value• Topics• Opinions• Service for partners

Volume• 6,000 posts/day• 1,700,000 subscribers• 16GB log/day

Volume• 4,000 posts/day• 386,000 employees• 1.5GB content/day

Volume• 1,400,000 posts/day• 708,000 web sources• 45GB content/day

08.09.12 3Steffen Staab, [email protected]

Page 4: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Information Verstehen

• Finden von Themen

• Meinungen zu Themen:– Topic-opinion analysis

• Z.B. positive und negative Meinungen zu Produkten

• Diversität von Meinungen– Vermeiden von „group think“

• Lokalisierung von Themen– Globale Themen vs regionale Themen

• Z.B. Nachtflugverbot am Frankfurter Flughafen

– Themen, die sich zeitlich ändern• XML - 2000• Soziale Netzwerke - 2010

08.09.12 4Steffen Staab, [email protected]

Page 5: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Einfaches Beispiel: Yahoo Nachrichten

08.09.12 5Steffen Staab, [email protected]

Page 6: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Kommentare

• Viele Kommentare

• Verschiedene Meinungen

• Verschieden wichtige Kommentare

Wie macht man Wissen aus der

Informationsflut?

08.09.12 6Steffen Staab, [email protected]

Page 7: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Erster Schritt: Extraktion

08.09.12 7Steffen Staab, [email protected]

Page 8: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Zweiter Schritt: Themen erkennenTorpedo attack

Spiritualism

Religion

Page 9: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Erkannte

Themen

Zweiter Schritt: Themen erkennen

Page 10: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

more..

more..

Dritter Schritt: Themenbasierte Übersicht

08.09.12 10Steffen Staab, [email protected]

Page 11: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

MEINUNGEN ZU THEMEN

Page 12: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Werkzeug für Themen & Meinungen

Page 13: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Was ist eine Meinung?

Page 14: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Vokabelsammlungen für Meinungen, Gefühle, etc.

ANEW – Affective Words for English Terms (http://csea.phhp.ufl.edu/media/anewmessa

ge.html)– Valence– Arousal– Dominance

ADUW, POMS,….

LIWC – Linguistic Inquiry and Word Count (http://www.liwc.net/)

– social– posemo– negemo– affect– anx– anger– sad– feel– ….

08.09.12 14Steffen Staab, [email protected]

Page 15: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Vocabulary example: ANEW

ValenceArousal Dominance Freq

Mean SD Mean SD Mean SD Word

rescue 7.70 1.24 6.53 2.56 6.45 2.29 15

gun 3.47 2.48 7.02 1.84 3.53 2.72 118

hopeful 7.10 1.46 5.78 2.09 5.41 1.92 12

ignorance 3.07 2.25 4.39 2.49 4.41 2.38 16

crash 2.31 1.44 6.95 2.44 3.44 2.21 20

confident 7.98 1.29 6.22 2.41 7.68 1.94 16

improve 7.65 1.16 5.69 2.15 6.08 2.25 39

….

08.09.12 15Steffen Staab, [email protected]

Page 16: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Verschiedene Meinungen für ein Thema

Vierter Schritt: Übersicht nach Thema und Meinung

08.09.12 16Steffen Staab, [email protected]

Page 17: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

DIVERSITÄT VON MEINUNGEN

Page 18: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Diversität von Themen und Meinungen

Review 1 of 498"A Review for 99% of us"Judging by most of the bad reviews by 12 year old kids, I doubt most of these people even own the new iPhone. so let me give you the real lowdown from …

Review 2 of 498"Hype reloaded reloaded: (still) 25 % quality, 75 % hype" Overexpensive, overhyped phone with nice, cool (and also counter-productive) touch-screen interface to show-off.…

Welche Kommentare soll ich lesen, wenn ich ein zutreffendes Gesamtbild erhalten

möchte?

Page 19: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Beobachtungen zu Produktkommentaren

Initiale Kommentare sind oft lang – und bezahlt (Nicht die Stimme der Nutzer)

Leser stimmen darüber ab, welcher Kommentar hilfreich ist (Rich get richer)

Quantität != Qualität Kürzere Kommentare of objektiver und präziser

Viel redundante Information in den Kommentaren

Ziel: Bestmögliche Abdeckung der verschiedenen Produkteigenschaften und Meinungen

Page 20: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

FREuD Analyse und Vorschläge

08.09.12 20Steffen Staab, [email protected]

Page 21: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

FREuD Vorschläge

Review: 1Apps dont crash, native apps open quicker, voice controls, video funtionality same cosmetic shape as last years 3G New features such as video and voice control along with the speed boost make the 3GS a great upgrade …

Review : 3I am trying to find out what the pros and cons of this phone are but I haven't been able to because so far everyone here is discussing AT&T , MMS, and tethering. Please people, take it elsewhere and let someone review the darned phone…

Review : 2With the addition of new hardware features Apple has also fractured the once very simple and unified ecosystem that OSX Mobile represented. To exploit new features developers now need to decide if they want to support …

Review : 4The iPhone 3GS is virtually the same as its 3G predecessor. The improvements (3.2 megapixel camera, magnetometer, slightly faster processor) are hardly exciting, and the fact that many of the software …..

08.09.12 21Steffen Staab, [email protected]

Page 22: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

LOKALISIERUNG VON THEMEN

Page 23: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

34,707 Flickr Bilder mit Geodaten

Chevrolet

BMWAudi

PontiacChevrolet

Mercedes

Audi

CitroenBMW

Chevrolet

BMW

MercedesBMW

Audi

Fiat

Pontiac

CitroenPeugeot

Renault

34,707 Flickr photos containing car brandschevrolet, pontiac, cadillac, gmc, buick, audi, bmw, mercedesbenz, fiat, peugeot, citroen, renault (removed: event-like images tagged by autoshow, show, race, racing)

08.09.12 23Steffen Staab, [email protected]

Page 24: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Gibt es Gebiete in denen Themen dominieren?

Chevrolet

BMWAudi

PontiacChevrolet

Mercedes

Audi

CitroenBMW

Chevrolet

BMW

MercedesBMW

Audi

Fiat

Pontiac

CitroenPeugeot

Renault

citroenrenaultpeugeotbmw

bmwaudimercedesfiatcitroen

chevroletpontiacbmwmercedesaudi

08.09.12 24Steffen Staab, [email protected]

Page 25: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Geographical network construction

Data points Spatial region centroids Geographical network

08.09.12 25Steffen Staab, [email protected]

Page 26: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Visualisation

chevrolet 0.35bmw 0.18cadillac 0.16pontiac 0.09gmc 0.07buick 0.06audi 0.05

bmw 0.29audi 0.18fiat 0.10citroen 0.09renault 0.09peugeot 0.08mercedesbenz 0.06chevrolet 0.05

08.09.12 26Steffen Staab, [email protected]

Page 27: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Visualisation

fiat 0.66bmw 0.10citroen 0.09renault 0.05

pontiac 0.92bmw 0.63mercedesbenz 0.17audi 0.13

renault 0.28citroen 0.22peugeot 0.15bmw 0.10audi 0.09fiat 0.07

08.09.12 27Steffen Staab, [email protected]

Page 28: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Von Information zu Wissen

• Themen in Dokumenten / Web 2.0 erkennen

• Themen verstehen– Meinungen– Diversität– Lokation

• Räumlich• Zeitlich• Sozial

• Beispiele– Nachrichtenkommentare– Produktkommentare– Flickr

08.09.12 28Steffen Staab, [email protected]

Unser Know-How!

Ihre Informationen!

Ihre Einsichten!

Page 29: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

VIELEN DANK FÜR IHRE AUFMERKSAMKEIT!

http://robust-project.eu/

http://west.uni-koblenz.de/

08.09.12 29Steffen Staab, [email protected]

Unser Know-How!

Ihre Informationen!

Ihre Einsichten!

Page 30: Von Information zu Wissen - Einsichten Gewinnen - Text Mining

Bibliographie

Naveed, Nasir; Gottron, Thomas; Sizov, Sergej; Staab, Steffen (2012): FREuD: Feature-Centric Sentiment Diversification of Online Discussions. In: WebSci'12: Proceedings of the 4th International Conference on Web Science. ACM, 2012.

Sergej Sizov: GeoFolk: latent spatial semantics in web 2.0 social media. Proc. of Conf. on Web Search and Data Mining 2010: 281-290, AAAI.

Nasir Naveed, Sergej Sizov, Steffen Staab: ATTention: Understanding Authors and Topics in Context of Temporal Evolution. European Conference on Information Retrieval 2011: 733-737. Springer, 2011.

Some of the described work is currently being prepared for publication.