Upload
lethu
View
217
Download
0
Embed Size (px)
Citation preview
Institute for Web Science & Technologies – WeST
Retrieval auf Twitter
Was man aus 140 Zeichen lernen kann
Dr. Thomas Gottron
Thomas Gottron Düsseldorf, 27.1.2012 2 Retrieval auf Twitter
Retrieval auf Twitter
beer
Rang User Tweet 1 LoriAG beer
2 Crushdwinebar beer!!
3 Skippertaylor BEER
4 BigMacScola Beer
5 VANiamore beer.......
6 CindyMcManis To beer or not to beer on Beer Summit ?
7 silverlakewine beer beer beer beer beer beer beer. Simple 3pm
8 eldoradobar http://ping.fm/p/Bnra7 - In!!! BEER, BEER, BEER,
BEER, BEER, BEER, BEER, BEER, BEER, BEER,
9 tonx Lompoc. beer beer beer beer beer beer beer beer beer
beer. http://twitpic.com/l68ld
10 punkeyfunky Beer beer beer beer beer beer beer beer beer beer beer
beer beer. Er, guess what I'm looking forward to?
Thomas Gottron Düsseldorf, 27.1.2012 3 Retrieval auf Twitter
Überblick
Hintergrund
Steilkurs Information Retrieval
Twitter: Besonderheiten und Eigenheiten
Aus 140 Zeichen „lernen“
Längennormalisierung
Interestingness
Praxis
TREC Microblog Track
LiveTweet
Zusammenfassung
Thomas Gottron Düsseldorf, 27.1.2012 4 Retrieval auf Twitter
Hintergrund
Steilkurs Information Retrieval
Thomas Gottron Düsseldorf, 27.1.2012 5 Retrieval auf Twitter
Vektorraummodell
Klassisches Modell
Basis von
Dokumente als Vektoren
Anfrage als Vektor
Ähnliche Vektoren ~ ähnliche
Inhalte
TF-IDF Gewichte
𝑤 𝑡𝑗 , 𝑑𝑖 = tf 𝑡𝑗 , 𝑑𝑖 ∙ log𝑁
df 𝑡𝑗
Kosinusmaß
sim 𝑑𝑖 , 𝑞 = cos 𝑑 𝑖 , 𝑞 =𝑑 𝑖 ∙ 𝑞
𝑑 𝑖 ∙ 𝑞
𝑡1
𝑡2
𝑑 1
𝑑 2
𝑑 3 𝑑 4
𝑞
Thomas Gottron Düsseldorf, 27.1.2012 6 Retrieval auf Twitter
Statische Qualitätsmaße
Allgemeine Gütekriterien
unabhängig von Anfrage
Beispiele
Fehlerfreiheit
Lesbarkeit
PageRank
Anwendung
Ranking
Filter
„Bonuspunkte“ beim Relevanzwert
A B
C D
E
F G
Thomas Gottron Düsseldorf, 27.1.2012 7 Retrieval auf Twitter
Hintergrund
Twitter: Besonderheiten und
Eigenheiten
Thomas Gottron Düsseldorf, 27.1.2012 8 Retrieval auf Twitter
Länge der Tweets
Längenbeschränkung: maximal 140 Zeichen
0
50000
100000
150000
200000
250000
300000
350000
400000
450000
500000
1 5 9
13
17
21
25
29
33
37
41
45
49
53
57
61
65
69
73
77
81
85
89
93
97
101
105
109
113
117
121
125
129
133
137
141
# T
weets
Zeichen
Ungewöhnliche Verteilung der Dokumentlängen
Thomas Gottron Düsseldorf, 27.1.2012 9 Retrieval auf Twitter
Wörter in Tweets
140 Zeichen, wenige doppelte Wörter
1
10
100
1000
10000
100000
1000000
10000000
100000000
0 1 2 3 4 5 6 7 8 9 10111213141516171819202122232425262728293031323334353639414243444647
# T
weets
Max TF in Tweet
85% aller Tweets enthalten kein Wort doppelt
𝑤 𝑡𝑗 , 𝑑𝑖 = 𝐭𝐟 𝒕𝒋, 𝒅𝒊 ∙ log𝑁
df 𝑡𝑗
Binärer Wert!
Thomas Gottron Düsseldorf, 27.1.2012 10 Retrieval auf Twitter
Suchverhalten der Nutzer
Web
2-4 Suchterme
Allgemeine Begriffe
Suchintentionen
• Navigation
• Information
• Ressourcen
Thema kennen lernen
1-2 Suchterme
Spezielle Begriffe
Suchintentionen
• Zeitnahe Informationen
• Trends
• Leute
Thema verfolgen
Thomas Gottron Düsseldorf, 27.1.2012 11 Retrieval auf Twitter
Aus 140 Zeichen „lernen“
Längennormalisierung
Thomas Gottron Düsseldorf, 27.1.2012 12 Retrieval auf Twitter
Längennormalisierung: Motivation
Wieso sind manche Dokumente länger?
Verbosity hypothesis: Geschwätzigkeit
Ein langes Dokumente wiederholt sich
Kurze Dokumente bevorzugt, da gleicher Inhalt
Scope hypothesis: thematische Breite
Ein langes Dokument behandelt mehr Themen
Kurze Dokumente bevorzugt, da fokussierter
Intuition:
Auf Twitter gelten diese Hypothesen nicht.
Thomas Gottron Düsseldorf, 27.1.2012 13 Retrieval auf Twitter
Verbosity hypothesis für Twitter?
Sind lange Tweets geschwätzig?
Betrachte Länge der Tweets und Anzahl wiederholter
Wörter
Korrelation (Spearman‘s Rank)
𝜌 = 0.377
Lange Tweets sind nicht geschwätzig!
Thomas Gottron Düsseldorf, 27.1.2012 14 Retrieval auf Twitter
Scope hypothesis für Twitter?
Sind lange Tweets thematisch breit?
LDA:
100 Themen
Tweets als Mischung verschiedener Themen
Beobachtung
8,5% der Tweets keinen Bezug zu irgendeinem Thema
Beobachtung auf den restlichen Tweets:
• 77,1% werden von höchstens einem Thema dominiert
• 99,6% werden von höchstens zwei Themen dominiert
Lange Tweets sind thematisch fokussiert!
Thomas Gottron Düsseldorf, 27.1.2012 15 Retrieval auf Twitter
Längennormalisierung für Twitter
Nicht nötig!
Schadet es?
JA:
Lange Tweets werden als unfokussiert betrachtet.
Kurze Tweets werden bevorzugt!
„Optimal“: nur Anfrageterm!
Pubs brewing their own beer: a list for Düsseldorf http://bit.ly/w2GZrV
I want more beer!
Beer
Thomas Gottron Düsseldorf, 27.1.2012 16 Retrieval auf Twitter
Aus 140 Zeichen „lernen“
Interessante Nachrichten
Thomas Gottron Düsseldorf, 27.1.2012 17 Retrieval auf Twitter
Interessante Inhalte
Konzept der „Relevanz“ im IR:
Dokument beschäftigt sich inhaltlich mit Thema
Auf Twitter zusätzlich:
Zeitnah
Aktueller Trend
Informativ
Interestingness
Tweet beschäftigt sich mit Thema und ist interessant!
Frage: Wie finde ich heraus was interessant ist ???
Thomas Gottron Düsseldorf, 27.1.2012 18 Retrieval auf Twitter
Retweets
Retweet zeugt von Qualität
„Interessant für andere“
Idee:
Lerne Retweets
vorherzusagen!
Wahrscheinlichkeit für
Retweet als Maß für
Interestingness
Thomas Gottron Düsseldorf, 27.1.2012 19 Retrieval auf Twitter
Vorhersagemodell
Ziel: Vorhersage einer Wahrscheinlichkeit
Logistische Regression
𝑓 𝑧 = 1
1 + 𝑒−𝑧
𝑧 = 𝑤0 + 𝑤1𝑥1 + 𝑤2𝑥2 + 𝑤3𝑥3 + ⋯+ 𝑤𝑛𝑥𝑛
𝑥𝑖: Features
𝑤𝑖: Gewichte
Trainieren auf alten Tweets und Retweets
Thomas Gottron Düsseldorf, 27.1.2012 20 Retrieval auf Twitter
Featuregewichte
Feature Dimensions Weight
Intercept (a priori Tendenz) -5.45
Nachricht
Direkte Nachricht -147.89
Username 146.82
Hashtag 42.27
URL 249.09
Sentiment
Valence -26.88
Arousal 33.97
Dominance 19.56
Emoticon Positiv -21.8
Negativ 9.94
Interjektion Positiv 13.66
Negativ 8.72
Satzzeichen ! -16.85
? 23.67
Terme Chance 19.79
Thomas Gottron Düsseldorf, 27.1.2012 21 Retrieval auf Twitter
Gewichte der Themen
Topic Weight
social media market post site web tool traffic network 27.54
follow thank twitter welcome hello check nice cool people 16.08
credit money market business rate economy home 15.25
christmas shop tree xmas present today wrap finish 2.87
home work hour long wait airport week flight head -14.43
twitter update facebook account page set squidoo check -14.43
cold snow warm today degree weather winter morning -26.56
night sleep work morning time bed feel tired home -75.19
Thomas Gottron Düsseldorf, 27.1.2012 22 Retrieval auf Twitter
beer
Re-Ranking mit Interestingness
Rang Username Tweet 1 BeeracrossTX UK beer mag declares "the end of beer writing." @StanHieronymus says not so in the US.
http://bit.ly/424HRQ #beer
2 narmmusic beer summit @bspward @jhinderaker no one had billy beer? heehee #narm - beer summit
@bspward @jhinde http://tinyurl.com/n29oxj
3 beeriety Go green and turn those empty beer bottles into recycled beer glasses! | http://bit.ly/2src7F
#beer #recycle (via: @td333)
4 hblackmon Great Divide beer dinner @ Porter Beer Bar on 8/19 - $45 for 3 courses + beer pairings.
http://trunc.it/172wt
5 nycraftbeer Interesting Concept-Beer Petitions.com launches&hopes 2help craft beer drinkers enjoy beer
they want @their fave pubs. http://bit.ly/11gJQN
6 carichardson Beer Cheddar Soup: Dish number two in my famed beer dinner series is Beer Cheddar
Soup. I hadn’t had too.. http://bit.ly/1diDdF
7 BeerBrewing New York City Beer Events - Beer Tasting - New York Beer Festivals - New York Craft Beer
http://is.gd/39kXj #beer
8 delphiforums Love beer? Our member is trying to build up a new beer drinker's forum. Grab a #beer and
join us: http://tr.im/pD1n
9 Jamie_Mason #Baltimore Beer Week continues w/ a beer brkfst, beer pioneers luncheon, drink & donate
event, beer tastings & more. http://ping.fm/VyTwg
10 carichardson Seattle and Beer: I went to Seattle last weekend. It was my friend’s stag - he likes
beer - we drank beer.. http://tinyurl.com/cpb4n9
Thomas Gottron Düsseldorf, 27.1.2012 24 Retrieval auf Twitter
TREC
Text REtrieval Conference
Evaluation von Retrieval Systemen
Microblog Track 2011
16.000.000 Tweets
2 Wochen
49 „Topics“ (Anfragen)
Aufgabe: Filtern
Beschränkung
Offiziell: kein externes Wissen!
Nur englische Tweets
Zeitlicher Bezug der Topics
Erweiterung von Relevanz zu Interessantheit (!!!)
Thomas Gottron Düsseldorf, 27.1.2012 25 Retrieval auf Twitter
WeST @ TREC Microblog Track 2011
Kerninfo:
Lucene
keine Längennormalisierung
Interestingness
4 Konfigurationen:
WESTfilter: Retrieval über Lucene, Ausfiltern von un-
interessanten Tweets
WESTfilext: wie WESTfilter, aber mit Sentiments
WESTrelint: wie WESTfilter aber re-ranking nach
Interestingness
WESTrlext: wie WESTrelint, aber mit Sentiments
Thomas Gottron Düsseldorf, 27.1.2012 26 Retrieval auf Twitter
Ergebnisse
Filtern signifikant besser als re-ranking
Sentiments nachteilig (nicht signifikant)
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
P5 P10 P15 P20 P30 R-prec bpref MAP nDCG
Sco
re
Metric
WESTfilter WESTfilext WESTrelint WESTrlext
Thomas Gottron Düsseldorf, 27.1.2012 27 Retrieval auf Twitter
Ergebnisse
Effektiv vor allem bei kurzen Anfragen
0
0.05
0.1
0.15
0.2
0.25
0.3
1 2 3 4 5 6 7
MA
P
Query Length (word count)
WESTfilext WESTfilter WESTrelint WESTrlext
Thomas Gottron Düsseldorf, 27.1.2012 29 Retrieval auf Twitter
Online Version des Interestingness Systems
Datenbasis:
Twitter streaming API: sample
1% aller Tweets
Architektur:
Zeitblöcke der Tweets
Analysekomponente mit
REST API
Web Frontend für Nutzer
Thomas Gottron Düsseldorf, 27.1.2012 30 Retrieval auf Twitter
LiveTweet
http://livetweet.west.uni-koblenz.de/
Thomas Gottron Düsseldorf, 27.1.2012 31 Retrieval auf Twitter
Testen von Tweets
Eingabe:
„Pubs brewing their own beer: a list for ...“
Düsseldorf
Berlin
Munich
Koblenz
Thomas Gottron Düsseldorf, 27.1.2012 32 Retrieval auf Twitter
Zusammenfassung
Twitter ist anders!
Andere Dokumente, andere Nutzer
Interessante und relevante Tweets finden
Etablierte Methoden im Retrieval überdenken
Was jetzt?
Soziales Netzwerk berücksichtigen (follower, list)
Andere Nutzeraktionen (reply, star, mention)
Twittern über LiveTweet ;-)
Thomas Gottron Düsseldorf, 27.1.2012 33 Retrieval auf Twitter
Vielen Dank!
Kontakt:
WeST – Institute for Web Science and Technologies
Universität Koblenz-Landau
@tgottron @kunegis @arifah77 @nnaveed
Thomas Gottron Düsseldorf, 27.1.2012 34 Retrieval auf Twitter
Referenzen
1. Munmun De Choudhury, Yu-Ru Lin, Hari Sundaram, K. Selçuk Candan, Lexing Xie, and Aisling Kelliher.
How does the data sampling strategy impact the discovery of information diffusion in social media? In
Proc. Conf. on Weblogs and Social Media, pages 34–41, 2010.
2. William P. Jones and George W. Furnas. Pictures of relevance: A geometric analysis of similarity
measures. Journal of the American Society for Information Science, 38:420–442, 1987.
3. Gerard Salton and Michael J. McGill. Introduction to Modern Information Retrieval. McGraw-Hill Book
Company, New York, 1983.
4. Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine.
Comput. Netw. ISDN Syst., 30(1-7):107–117, 1998.
5. Jaime Teevan, Daniel Ramage, and Merredith Ringel Morris. #Twittersearch: a comparison of microblog
search and web search. In Proceedings of the fourth ACM international conference on Web search and
data mining, WSDM ’11, pages 35–44, New York, NY, USA, 2011. ACM.
6. Amit Singhal, Chris Buckley, and Mandar Mitra. Pivoted document length normalization. In SIGIR ’96:
Proceedings of the 19th annual international ACM SIGIR conference on Research and development in
information retrieval, pages 21–29, New York, NY, USA, 1996. ACM.
7. David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. Journal of Machine
Learning Research, 3:993–1022, 2003.
8. Nasir Naveed, Thomas Gottron, Jérôme Kunegis, and Arifah Che Alhadi. Bad news travel fast: A
content-based analysis of interestingness on twitter. In WebSci ’11: Proceedings of the 3rd International
Conference on Web Science, 2011.
9. Nasir Naveed, Thomas Gottron, Jerome Kunegis, and Arifah Che Alhadi. Searching microblogs: Coping
with sparsity and document quality. In CIKM’11: Proceedings of 20th ACM Conference on Information
and Knowledge Management, 2011.
10. Arifah Che Alhadi, Steffen Staab, and Thomas Gottron. Exploring user purpose writing single tweets. In
WebSci ’11: Proceedings of the 3rd International Conference on Web Science, 2011.
Thomas Gottron Düsseldorf, 27.1.2012 35 Retrieval auf Twitter
Referenzen
11. T. Gottron and N. Lipka, A comparison of language identification approaches on short, query-style texts,
in ECIR ’10: Proceedings of the 32nd European Conference on Infor-mation Retrieval, pp. 611–614, Mar.
2010.
12. A. Che Alhadi, T. Gottron, J. Kunegis, and N. Naveed, Livetweet: Microblog retrieval based on
interestingness, in TREC’11: Proceedings of the Text Retrieval Conference 2011, 2011.
13. A. Che Alhadi, T. Gottron, J. Kunegis, and N. Naveed, Livetweet: Monitoring and predicting interesting
microblog posts, in ECIR’12: Procedings of the 34th European Conference on Information Retrieval,
2012. in preparation.
The research leading to these results has received funding from the European Community's
Seventh Framework Programme (FP7/2007-2013) under grant agreement n° 257859, ROBUST