35
Institute for Web Science & Technologies WeST Retrieval auf Twitter Was man aus 140 Zeichen lernen kann Dr. Thomas Gottron [email protected]

Retrieval auf Twitter - phil-fak.uni-duesseldorf.de · 23.67 Terme Chance 19.79 . ... event, beer tastings & more. 10 carichardson Seattle and Beer: I went to Seattle last weekend

  • Upload
    lethu

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Institute for Web Science & Technologies – WeST

Retrieval auf Twitter

Was man aus 140 Zeichen lernen kann

Dr. Thomas Gottron

[email protected]

Thomas Gottron Düsseldorf, 27.1.2012 2 Retrieval auf Twitter

Retrieval auf Twitter

beer

Rang User Tweet 1 LoriAG beer

2 Crushdwinebar beer!!

3 Skippertaylor BEER

4 BigMacScola Beer

5 VANiamore beer.......

6 CindyMcManis To beer or not to beer on Beer Summit ?

7 silverlakewine beer beer beer beer beer beer beer. Simple 3pm

8 eldoradobar http://ping.fm/p/Bnra7 - In!!! BEER, BEER, BEER,

BEER, BEER, BEER, BEER, BEER, BEER, BEER,

9 tonx Lompoc. beer beer beer beer beer beer beer beer beer

beer. http://twitpic.com/l68ld

10 punkeyfunky Beer beer beer beer beer beer beer beer beer beer beer

beer beer. Er, guess what I'm looking forward to?

Thomas Gottron Düsseldorf, 27.1.2012 3 Retrieval auf Twitter

Überblick

Hintergrund

Steilkurs Information Retrieval

Twitter: Besonderheiten und Eigenheiten

Aus 140 Zeichen „lernen“

Längennormalisierung

Interestingness

Praxis

TREC Microblog Track

LiveTweet

Zusammenfassung

Thomas Gottron Düsseldorf, 27.1.2012 4 Retrieval auf Twitter

Hintergrund

Steilkurs Information Retrieval

Thomas Gottron Düsseldorf, 27.1.2012 5 Retrieval auf Twitter

Vektorraummodell

Klassisches Modell

Basis von

Dokumente als Vektoren

Anfrage als Vektor

Ähnliche Vektoren ~ ähnliche

Inhalte

TF-IDF Gewichte

𝑤 𝑡𝑗 , 𝑑𝑖 = tf 𝑡𝑗 , 𝑑𝑖 ∙ log𝑁

df 𝑡𝑗

Kosinusmaß

sim 𝑑𝑖 , 𝑞 = cos 𝑑 𝑖 , 𝑞 =𝑑 𝑖 ∙ 𝑞

𝑑 𝑖 ∙ 𝑞

𝑡1

𝑡2

𝑑 1

𝑑 2

𝑑 3 𝑑 4

𝑞

Thomas Gottron Düsseldorf, 27.1.2012 6 Retrieval auf Twitter

Statische Qualitätsmaße

Allgemeine Gütekriterien

unabhängig von Anfrage

Beispiele

Fehlerfreiheit

Lesbarkeit

PageRank

Anwendung

Ranking

Filter

„Bonuspunkte“ beim Relevanzwert

A B

C D

E

F G

Thomas Gottron Düsseldorf, 27.1.2012 7 Retrieval auf Twitter

Hintergrund

Twitter: Besonderheiten und

Eigenheiten

Thomas Gottron Düsseldorf, 27.1.2012 8 Retrieval auf Twitter

Länge der Tweets

Längenbeschränkung: maximal 140 Zeichen

0

50000

100000

150000

200000

250000

300000

350000

400000

450000

500000

1 5 9

13

17

21

25

29

33

37

41

45

49

53

57

61

65

69

73

77

81

85

89

93

97

101

105

109

113

117

121

125

129

133

137

141

# T

weets

Zeichen

Ungewöhnliche Verteilung der Dokumentlängen

Thomas Gottron Düsseldorf, 27.1.2012 9 Retrieval auf Twitter

Wörter in Tweets

140 Zeichen, wenige doppelte Wörter

1

10

100

1000

10000

100000

1000000

10000000

100000000

0 1 2 3 4 5 6 7 8 9 10111213141516171819202122232425262728293031323334353639414243444647

# T

weets

Max TF in Tweet

85% aller Tweets enthalten kein Wort doppelt

𝑤 𝑡𝑗 , 𝑑𝑖 = 𝐭𝐟 𝒕𝒋, 𝒅𝒊 ∙ log𝑁

df 𝑡𝑗

Binärer Wert!

Thomas Gottron Düsseldorf, 27.1.2012 10 Retrieval auf Twitter

Suchverhalten der Nutzer

Web

2-4 Suchterme

Allgemeine Begriffe

Suchintentionen

• Navigation

• Information

• Ressourcen

Thema kennen lernen

Twitter

1-2 Suchterme

Spezielle Begriffe

Suchintentionen

• Zeitnahe Informationen

• Trends

• Leute

Thema verfolgen

Thomas Gottron Düsseldorf, 27.1.2012 11 Retrieval auf Twitter

Aus 140 Zeichen „lernen“

Längennormalisierung

Thomas Gottron Düsseldorf, 27.1.2012 12 Retrieval auf Twitter

Längennormalisierung: Motivation

Wieso sind manche Dokumente länger?

Verbosity hypothesis: Geschwätzigkeit

Ein langes Dokumente wiederholt sich

Kurze Dokumente bevorzugt, da gleicher Inhalt

Scope hypothesis: thematische Breite

Ein langes Dokument behandelt mehr Themen

Kurze Dokumente bevorzugt, da fokussierter

Intuition:

Auf Twitter gelten diese Hypothesen nicht.

Thomas Gottron Düsseldorf, 27.1.2012 13 Retrieval auf Twitter

Verbosity hypothesis für Twitter?

Sind lange Tweets geschwätzig?

Betrachte Länge der Tweets und Anzahl wiederholter

Wörter

Korrelation (Spearman‘s Rank)

𝜌 = 0.377

Lange Tweets sind nicht geschwätzig!

Thomas Gottron Düsseldorf, 27.1.2012 14 Retrieval auf Twitter

Scope hypothesis für Twitter?

Sind lange Tweets thematisch breit?

LDA:

100 Themen

Tweets als Mischung verschiedener Themen

Beobachtung

8,5% der Tweets keinen Bezug zu irgendeinem Thema

Beobachtung auf den restlichen Tweets:

• 77,1% werden von höchstens einem Thema dominiert

• 99,6% werden von höchstens zwei Themen dominiert

Lange Tweets sind thematisch fokussiert!

Thomas Gottron Düsseldorf, 27.1.2012 15 Retrieval auf Twitter

Längennormalisierung für Twitter

Nicht nötig!

Schadet es?

JA:

Lange Tweets werden als unfokussiert betrachtet.

Kurze Tweets werden bevorzugt!

„Optimal“: nur Anfrageterm!

Pubs brewing their own beer: a list for Düsseldorf http://bit.ly/w2GZrV

I want more beer!

Beer

Thomas Gottron Düsseldorf, 27.1.2012 16 Retrieval auf Twitter

Aus 140 Zeichen „lernen“

Interessante Nachrichten

Thomas Gottron Düsseldorf, 27.1.2012 17 Retrieval auf Twitter

Interessante Inhalte

Konzept der „Relevanz“ im IR:

Dokument beschäftigt sich inhaltlich mit Thema

Auf Twitter zusätzlich:

Zeitnah

Aktueller Trend

Informativ

Interestingness

Tweet beschäftigt sich mit Thema und ist interessant!

Frage: Wie finde ich heraus was interessant ist ???

Thomas Gottron Düsseldorf, 27.1.2012 18 Retrieval auf Twitter

Retweets

Retweet zeugt von Qualität

„Interessant für andere“

Idee:

Lerne Retweets

vorherzusagen!

Wahrscheinlichkeit für

Retweet als Maß für

Interestingness

Thomas Gottron Düsseldorf, 27.1.2012 19 Retrieval auf Twitter

Vorhersagemodell

Ziel: Vorhersage einer Wahrscheinlichkeit

Logistische Regression

𝑓 𝑧 = 1

1 + 𝑒−𝑧

𝑧 = 𝑤0 + 𝑤1𝑥1 + 𝑤2𝑥2 + 𝑤3𝑥3 + ⋯+ 𝑤𝑛𝑥𝑛

𝑥𝑖: Features

𝑤𝑖: Gewichte

Trainieren auf alten Tweets und Retweets

Thomas Gottron Düsseldorf, 27.1.2012 20 Retrieval auf Twitter

Featuregewichte

Feature Dimensions Weight

Intercept (a priori Tendenz) -5.45

Nachricht

Direkte Nachricht -147.89

Username 146.82

Hashtag 42.27

URL 249.09

Sentiment

Valence -26.88

Arousal 33.97

Dominance 19.56

Emoticon Positiv -21.8

Negativ 9.94

Interjektion Positiv 13.66

Negativ 8.72

Satzzeichen ! -16.85

? 23.67

Terme Chance 19.79

Thomas Gottron Düsseldorf, 27.1.2012 21 Retrieval auf Twitter

Gewichte der Themen

Topic Weight

social media market post site web tool traffic network 27.54

follow thank twitter welcome hello check nice cool people 16.08

credit money market business rate economy home 15.25

christmas shop tree xmas present today wrap finish 2.87

home work hour long wait airport week flight head -14.43

twitter update facebook account page set squidoo check -14.43

cold snow warm today degree weather winter morning -26.56

night sleep work morning time bed feel tired home -75.19

Thomas Gottron Düsseldorf, 27.1.2012 22 Retrieval auf Twitter

beer

Re-Ranking mit Interestingness

Rang Username Tweet 1 BeeracrossTX UK beer mag declares "the end of beer writing." @StanHieronymus says not so in the US.

http://bit.ly/424HRQ #beer

2 narmmusic beer summit @bspward @jhinderaker no one had billy beer? heehee #narm - beer summit

@bspward @jhinde http://tinyurl.com/n29oxj

3 beeriety Go green and turn those empty beer bottles into recycled beer glasses! | http://bit.ly/2src7F

#beer #recycle (via: @td333)

4 hblackmon Great Divide beer dinner @ Porter Beer Bar on 8/19 - $45 for 3 courses + beer pairings.

http://trunc.it/172wt

5 nycraftbeer Interesting Concept-Beer Petitions.com launches&hopes 2help craft beer drinkers enjoy beer

they want @their fave pubs. http://bit.ly/11gJQN

6 carichardson Beer Cheddar Soup: Dish number two in my famed beer dinner series is Beer Cheddar

Soup. I hadn’t had too.. http://bit.ly/1diDdF

7 BeerBrewing New York City Beer Events - Beer Tasting - New York Beer Festivals - New York Craft Beer

http://is.gd/39kXj #beer

8 delphiforums Love beer? Our member is trying to build up a new beer drinker's forum. Grab a #beer and

join us: http://tr.im/pD1n

9 Jamie_Mason #Baltimore Beer Week continues w/ a beer brkfst, beer pioneers luncheon, drink & donate

event, beer tastings & more. http://ping.fm/VyTwg

10 carichardson Seattle and Beer: I went to Seattle last weekend. It was my friend’s stag - he likes

beer - we drank beer.. http://tinyurl.com/cpb4n9

Thomas Gottron Düsseldorf, 27.1.2012 23 Retrieval auf Twitter

Praxis

TREC Microblog Track 2011

Thomas Gottron Düsseldorf, 27.1.2012 24 Retrieval auf Twitter

TREC

Text REtrieval Conference

Evaluation von Retrieval Systemen

Microblog Track 2011

16.000.000 Tweets

2 Wochen

49 „Topics“ (Anfragen)

Aufgabe: Filtern

Beschränkung

Offiziell: kein externes Wissen!

Nur englische Tweets

Zeitlicher Bezug der Topics

Erweiterung von Relevanz zu Interessantheit (!!!)

Thomas Gottron Düsseldorf, 27.1.2012 25 Retrieval auf Twitter

WeST @ TREC Microblog Track 2011

Kerninfo:

Lucene

keine Längennormalisierung

Interestingness

4 Konfigurationen:

WESTfilter: Retrieval über Lucene, Ausfiltern von un-

interessanten Tweets

WESTfilext: wie WESTfilter, aber mit Sentiments

WESTrelint: wie WESTfilter aber re-ranking nach

Interestingness

WESTrlext: wie WESTrelint, aber mit Sentiments

Thomas Gottron Düsseldorf, 27.1.2012 26 Retrieval auf Twitter

Ergebnisse

Filtern signifikant besser als re-ranking

Sentiments nachteilig (nicht signifikant)

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

P5 P10 P15 P20 P30 R-prec bpref MAP nDCG

Sco

re

Metric

WESTfilter WESTfilext WESTrelint WESTrlext

Thomas Gottron Düsseldorf, 27.1.2012 27 Retrieval auf Twitter

Ergebnisse

Effektiv vor allem bei kurzen Anfragen

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 4 5 6 7

MA

P

Query Length (word count)

WESTfilext WESTfilter WESTrelint WESTrlext

Thomas Gottron Düsseldorf, 27.1.2012 28 Retrieval auf Twitter

Praxis

LiveTweet

Thomas Gottron Düsseldorf, 27.1.2012 29 Retrieval auf Twitter

Online Version des Interestingness Systems

Datenbasis:

Twitter streaming API: sample

1% aller Tweets

Architektur:

Zeitblöcke der Tweets

Analysekomponente mit

REST API

Web Frontend für Nutzer

Thomas Gottron Düsseldorf, 27.1.2012 30 Retrieval auf Twitter

LiveTweet

http://livetweet.west.uni-koblenz.de/

Thomas Gottron Düsseldorf, 27.1.2012 31 Retrieval auf Twitter

Testen von Tweets

Eingabe:

„Pubs brewing their own beer: a list for ...“

Düsseldorf

Berlin

Munich

Koblenz

Thomas Gottron Düsseldorf, 27.1.2012 32 Retrieval auf Twitter

Zusammenfassung

Twitter ist anders!

Andere Dokumente, andere Nutzer

Interessante und relevante Tweets finden

Etablierte Methoden im Retrieval überdenken

Was jetzt?

Soziales Netzwerk berücksichtigen (follower, list)

Andere Nutzeraktionen (reply, star, mention)

Twittern über LiveTweet ;-)

Thomas Gottron Düsseldorf, 27.1.2012 33 Retrieval auf Twitter

Vielen Dank!

Kontakt:

WeST – Institute for Web Science and Technologies

Universität Koblenz-Landau

[email protected]

@tgottron @kunegis @arifah77 @nnaveed

Thomas Gottron Düsseldorf, 27.1.2012 34 Retrieval auf Twitter

Referenzen

1. Munmun De Choudhury, Yu-Ru Lin, Hari Sundaram, K. Selçuk Candan, Lexing Xie, and Aisling Kelliher.

How does the data sampling strategy impact the discovery of information diffusion in social media? In

Proc. Conf. on Weblogs and Social Media, pages 34–41, 2010.

2. William P. Jones and George W. Furnas. Pictures of relevance: A geometric analysis of similarity

measures. Journal of the American Society for Information Science, 38:420–442, 1987.

3. Gerard Salton and Michael J. McGill. Introduction to Modern Information Retrieval. McGraw-Hill Book

Company, New York, 1983.

4. Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine.

Comput. Netw. ISDN Syst., 30(1-7):107–117, 1998.

5. Jaime Teevan, Daniel Ramage, and Merredith Ringel Morris. #Twittersearch: a comparison of microblog

search and web search. In Proceedings of the fourth ACM international conference on Web search and

data mining, WSDM ’11, pages 35–44, New York, NY, USA, 2011. ACM.

6. Amit Singhal, Chris Buckley, and Mandar Mitra. Pivoted document length normalization. In SIGIR ’96:

Proceedings of the 19th annual international ACM SIGIR conference on Research and development in

information retrieval, pages 21–29, New York, NY, USA, 1996. ACM.

7. David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. Journal of Machine

Learning Research, 3:993–1022, 2003.

8. Nasir Naveed, Thomas Gottron, Jérôme Kunegis, and Arifah Che Alhadi. Bad news travel fast: A

content-based analysis of interestingness on twitter. In WebSci ’11: Proceedings of the 3rd International

Conference on Web Science, 2011.

9. Nasir Naveed, Thomas Gottron, Jerome Kunegis, and Arifah Che Alhadi. Searching microblogs: Coping

with sparsity and document quality. In CIKM’11: Proceedings of 20th ACM Conference on Information

and Knowledge Management, 2011.

10. Arifah Che Alhadi, Steffen Staab, and Thomas Gottron. Exploring user purpose writing single tweets. In

WebSci ’11: Proceedings of the 3rd International Conference on Web Science, 2011.

Thomas Gottron Düsseldorf, 27.1.2012 35 Retrieval auf Twitter

Referenzen

11. T. Gottron and N. Lipka, A comparison of language identification approaches on short, query-style texts,

in ECIR ’10: Proceedings of the 32nd European Conference on Infor-mation Retrieval, pp. 611–614, Mar.

2010.

12. A. Che Alhadi, T. Gottron, J. Kunegis, and N. Naveed, Livetweet: Microblog retrieval based on

interestingness, in TREC’11: Proceedings of the Text Retrieval Conference 2011, 2011.

13. A. Che Alhadi, T. Gottron, J. Kunegis, and N. Naveed, Livetweet: Monitoring and predicting interesting

microblog posts, in ECIR’12: Procedings of the 34th European Conference on Information Retrieval,

2012. in preparation.

The research leading to these results has received funding from the European Community's

Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 257859, ROBUST