Twitter-Daten in der sozialwissenschaftlichen Forschung – Möglichkeiten und Herausforderungen

Preview:

DESCRIPTION

Veranstaltung im Rahmen der GESIS-Workshop-Reihe, siehe http://www.gesis.org/veranstaltungen/gesis-workshops/2014-twitter/. Die Folien beginnen mit einer allgemeinen Einführung in Twitter - wer Twitter bereits selbst nutzt, kann ab Folie 46 einsteigen.

Citation preview

Twitter-Daten in der sozialwissenschaftlichen Forschung:

Möglichkeiten und Herausforderungen

16. Oktober 2014, 10:30-17:00 17. Oktober 2014, 9:30-15:00

GESIS Workshop, Köln

Dr. Katrin Weller, katrin.weller@gesis.org, @kwelle

1

Herzlich Willkommen!

2

Aufbau des Workshops

Ziele

• Twitter als Datenquelle kennenlernen

• Einschätzen lernen, was mit Twitter-Daten möglich ist, und was nicht

• Überblick über Herangehensweisen, Methoden, Stand der Forschung, Schwierigkeiten

3

Aufbau des Workshops Tag 1: Möglichkeiten

10:30-10:45 Begrüßung

10:45-11:45 Was ist Twitter? Eine Einführung mit Übung.

11:45-12:30 Überblick über den Stand der Twitter-Forschung, Teil I

12:30-13:30 Mittagessen

13:30-15:00 Überblick über den Stand der Twitter-Forschung, Teil II

15:00-15:30 Kaffeepause

15:30-17:00 Möglichkeiten zur Datenerhebung: Tools und Rahmenbedingungen

(anschließend optional: gemeinsames Abendessen)

4

Aufbau des Workshops

Tag 2: Herausforderungen

9:30-10:30 Übung mit Beispieldatensatz

10:30-11:00 Kaffeepause

11:00-12:30 Forschungsethik, Repräsentativität, Reproduzierbarkeit

12:30-13:30 Mittagspause

13:30-15:00 Übung zur Studien-Konzeption: Was geht, was geht nicht?

(anschließend optional: Einzelberatung für konkrete Forschungsprojekte)

5

Unterrichtsmaterialien

• Folien werden online zur Verfügung gestellt: http://de.slideshare.net/katrinweller

• Weiterführende Informationen: http://kwelle.wordpress.com/2013/08/14/some-useful-resources-for-starting-twitter-research/#more-100

• Sammelband Twitter & Society als PDF für Teilnehmer verfügbar

• Test-Datensätze nicht weitergeben!

6

Fragen? Jederzeit gerne!

7

Vorstellung

• Interessen, Forschungshintergrund

• Erwartungen

• Konkrete Pläne mit Twitterdaten?

8

Was ist Twitter? Eine Einführung mit

Übung

9

Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/

Twitter – Eine Einführung

10

gegründet in 2006, eigenständige Plattform seit 2007

Jack Dorsey (2000): “twttr sketch”. http://www.flickr.com/photos/jackdorsey/182613360/

11

Twitter 2014

12

Twitter in Zahlen

• March 2012: 140 million active users and 340 million Tweets a day

• December 2012: more than 200 million users

• USA, 2012: 15% of online adults use Twitter

• Germany, 2012: 4% of population

PEW Internet: http://www.pewinternet.org/Reports/2012/Twitter-Use-2012.aspx

Twitter Blog: http://blog.twitter.com/2012/03/twitter-turns-six.html

@twitter: https://twitter.com/twitter/status/281051652235087872

ARD/ZDF online Studie http://www.ard-zdf-onlinestudie.de/fileadmin/Online12/0708-2012_Busemann_Gscheidle.pdf

15

16

Randnotizen

• Trends 2012: Olympics, Wahlen in USA.

• Twitter-Nutzer mit den meisten Followern?

• Foto mit den meisten Retweets 2012:

https://2012.twitter.com/de/golden-tweets.html

18

Randnotizen

• Trends 2012: Olympics, Wahlen in USA.

• Twitter-Nutzer mit den meisten Followern?

• Foto mit den meisten Retweets 2014:

https://twitter.com/TheEllenShow/status/440322224407314432/photo/1

19

Oktober 2014, http://twittercounter.com/pages/100

20

Und wie funktioniert das?

21

Und wie funktioniert das?

Tweet = max. 140 Zeichen

22

Followers / Followees

Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Network or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA.

23

24

Timeline

25

Retweet (RT)

Kooti, F., Yang, H., Cha, M., Gummadi, K.P. & Mason, W.A. (2012). The Emergence of Conventions in Online Social Networks. Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2012), Dublin.

26

@message (@mention) ≠ direct message

27

#hashtags

28

#hashtags - Suchen

29

#hashtags - Suchen

30

#hashtags + Trends

06 Oktober 2013 14 Oktober 2013

31

Trends

32

URLs

33

Fotos

34

Favorites

35

Nutzerprofile

36

Nutzerprofile: „verified“

37

Übung

38

Übung 1: Suchen

• Nach Tweets:

– mit und ohne Hashtag

• Nach Personen

– nach dem offiziellen Account der eigenen Institution

– nach einem verifizierten Account

• (Suchen ohne Login: https://twitter.com/search-home)

39

Übung 2: Account anlegen

Neuer Account: https://twitter.com/signup

Tipp: kurze Namen wählen!

Wer keinen eigenen Account anlegen möchte:

Twitter Test-Account: @learn_2_tweet

Passwort: --------------

40

Übung 3: Folgen

• 2-3 interessante Accounts aussuchen und diesen folgen

• Min. einem anderen Kursteilnehmer folgen

• Zurück-folgen!

41

Übung 4: Tweets schreiben

• zuerst einen ‚normalen‘ Tweet

• dann einen mit Hashtag

• und dann eine @message an einen anderen Kursteilnehmer

• und nun noch ein Retweet

• und einen Tweet favorisieren

42

Übung 5: Hashtag auswählen

• Einen gemeinsamen Hashtag für den Workshop festlegen

43

Übung 6: Trending topics

• Die Trending Topics ansehen

– Für Deutschland

– Weltweit

– Für ein anderes Land oder für die eigene Heimatstadt

44

Übung 7: Direct message schreiben

• Einem anderen Teilnehmer eine direct message schicken.

45

Überblick über den Stand der Twitter-Forschung,

Teil I: Twitter-Forschung in

Zahlen

46

The bigger picture Social media research 2000-today

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000No. of publications (Scopus)

47

Social Media Ecology

• Plattform-spezifische Studien dominieren, wenig zu plattformübergreifenden Fragestellungen.

• Links von Twitter zu anderen Plattformen und zurück.

• Multi-Postings

48

Twitter vs. Facebook

50

Andere Internetdaten für Sozialwissenschaftler?

• Social Networks (z.B. Facebook): Beziehungen, Verhalten • Ebay: Kaufverhalten, Preisentwicklung • Wikipedia: Versionshistorie von „umstrittenen“ Themen. • Google: Häufigkeiten von Suchbegriffen • Kommentare • Bewertungen: Amazon, Movie Ratings, … • Video on Demand: Netflix, Lovefilm, YouTube, … • RFID Chips für Interaktionen • Voting Advice Applications: Wahl-O-Mat

51

Entwicklung der Twitter-Forschung

52

Twitter-Forschung nach Disziplinen

53

Scopus 2006-2013: Twitter-Publikationen aus 70 Ländern

54

Top journals for social media research (social science papers)

0 20 40 60 80 100 120

Information Communication and Society

Public Relations Review

Econtent

Profesional De La Informacion

Proceedings of the Asist Annual Meeting

New Media and Society

First Monday

Procedia Social and Behavioral Sciences

18th Americas Conference on Information Systems…

Cutting Edge Technologies in Higher Education

(TITLE-ABS-KEY("social media") OR TITLE-ABS-KEY("social web") OR TITLE-ABS-KEY("social software") OR TITLE-ABS-KEY("web 2.0")) AND PUBYEAR > 1999

55

Sozialwissenschaftliche Twitter-Forschung

56

Big DATA? 2013: twitter and election

No. of Tweets No. Of publications (2013)

0-500 3

501-1.000 4

1.001-5.000 1

5.001-10.000 1

10.001-50.000 7

50.001-100.000 4

100.001-500.000 5

500.001-1.000.000. 3

1.000.001-5.000.000 3

mehr als 5.000.000 3

mehr als 100.000.000 1

mehr als 1.000.000.000 1

keine/ungenaue Angabe 13

Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript.

57

Big Data?

• Nicht die Größe ist entscheidend, sondern die Art der Daten und die damit verbundenen ggf. neuartigen Einblicke New Data.

• Die neuen Daten werfen aber auch viele neue Fragen

auf, v.a. bezüglich der Methoden.

58

Vergleichbarkeit von Studien?

• Beispiel Wahlen

– Verschiedene Erhebungszeiträume

– Verschiedene Analysemethoden

– Verschiedene Größenordnungen

– Verschiedene Fallstudien

59

Year of election

Name of election Country/region No. of papers (2013)

Date of election

2008 40th Canadian General Election Canada 1 14.10.2008

2009 European Parliament election, 2009 Europe 1 07.06.2009

2009 German federal election, 2009 Germany 2 27.09.2009

2010 2010 UK general election United Kingdom 4 06.05.2010

2010 South Korean local elections, 2010 South Korea 1 02.06.2010

2010 Dutch general election, 2010 Netherlands 2 09.06.2010

2010 Australian federal election, 2010 Australia 1 21.08.2010

2010 Swedish general election, 2010 Sweden 1 19.09.2010

2010 Midterm elections / United States House of Representatives elections, 2010 USA 4 02.11.2010

2010 Gubernational elections: Georgia USA 1 02.11.2010

2010 Gubernational elections: Ohio USA 1 02.11.2010

2010 Gubernational elections: Rhode Island USA 1 02.11.2010

2010 Gubernational elections: Vermont USA 1 02.11.2010

2010 2010 superintendent elections South Korea 1 17.12.2010

2011 Baden-Württemberg state election, 2011 Germany 1 27.03.2011

2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.2011

2011 Scottish parliament election 2011 Scotland 1 05.05.2011

2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.2011

2011 Norwegian local elections, 2011 Norway 2 12.09.2011

2011 2011 Danish parliamentary election Denmark 2 15.09.2011

2011 Berlin state election, 2011 Germany 2 18.09.2011

2011 Gubernational elections: West Virginia USA 1 04.10.2011

2011 Gubernational elections: Louisiana USA 1 22.10.2011

2011 Swiss federal election, 2011 Switzerland 1 23.10.2011

2011 2011 Seoul mayoral elections South Korea 1 26.10.2011

2011 Gubernational eletions: Kentucky USA 1 08.11.2011

2011 Gubernational elections: Mississippi USA 1 08.11.2011

2011 Spanish national election 2011 Spain 1 20.11.2011

2012 Queensland State election Australia 1 24.03.2012

2012 South Korean legislative election, 2012 South Korea 1 11.04.2012

2012 French presidential election, 2012 France 2 22.04.2012

2012 Mexican general election, 2012 Mexico 1 01.07.2012

2012 United States presidential election, 2012 / United States House of Representatives elections, 2012

USA 17 06.11.2012

2012 South Korean presidential election, 2012 South Korea 2 19.12.2012

2013 Ecuadorian general election, 2013 Ecuador 1 17.02.2013

2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.2013

2013 Paraguayan general election, 2013 Paraguay 1 21.04.2013

60

W

elle

r, K

. (2

01

4).

Tw

itte

r u

nd

Wah

len

: Zw

isch

en 1

40

Zei

chen

un

d M

illia

rden

vo

n T

wee

ts. I

n: R

. Rei

cher

t (E

d.)

, Big

Dat

a: A

nal

ysen

zu

m

dig

ital

en W

and

el v

on

Wis

sen

, Mac

ht

un

d Ö

kon

om

ie (

pp

. 23

9-2

57).

Bie

lefe

ld:

tran

scri

pt.

Year of election

Name of election Country/region No. of papers (2013)

Date of election

2008 40th Canadian General Election Canada 1 14.10.2008

2009 European Parliament election, 2009 Europe 1 07.06.2009

2009 German federal election, 2009 Germany 2 27.09.2009

2010 2010 UK general election United Kingdom 4 06.05.2010

2010 South Korean local elections, 2010 South Korea 1 02.06.2010

2010 Dutch general election, 2010 Netherlands 2 09.06.2010

2010 Australian federal election, 2010 Australia 1 21.08.2010

2010 Swedish general election, 2010 Sweden 1 19.09.2010

2010 Midterm elections / United States House of Representatives elections, 2010 USA 4 02.11.2010

2010 Gubernational elections: Georgia USA 1 02.11.2010

2010 Gubernational elections: Ohio USA 1 02.11.2010

2010 Gubernational elections: Rhode Island USA 1 02.11.2010

2010 Gubernational elections: Vermont USA 1 02.11.2010

2010 2010 superintendent elections South Korea 1 17.12.2010

2011 Baden-Württemberg state election, 2011 Germany 1 27.03.2011

2011 Rhineland-Palatinate state election, 2011 Germany 1 27.03.2011

2011 Scottish parliament election 2011 Scotland 1 05.05.2011

2011 Singapore’s 16th parliamentary General Election Singapore 1 07.05.2011

2011 Norwegian local elections, 2011 Norway 2 12.09.2011

2011 2011 Danish parliamentary election Denmark 2 15.09.2011

2011 Berlin state election, 2011 Germany 2 18.09.2011

2011 Gubernational elections: West Virginia USA 1 04.10.2011

2011 Gubernational elections: Louisiana USA 1 22.10.2011

2011 Swiss federal election, 2011 Switzerland 1 23.10.2011

2011 2011 Seoul mayoral elections South Korea 1 26.10.2011

2011 Gubernational eletions: Kentucky USA 1 08.11.2011

2011 Gubernational elections: Mississippi USA 1 08.11.2011

2011 Spanish national election 2011 Spain 1 20.11.2011

2012 Queensland State election Australia 1 24.03.2012

2012 South Korean legislative election, 2012 South Korea 1 11.04.2012

2012 French presidential election, 2012 France 2 22.04.2012

2012 Mexican general election, 2012 Mexico 1 01.07.2012

2012 United States presidential election, 2012 / United States House of Representatives elections, 2012

USA 17 06.11.2012

2012 South Korean presidential election, 2012 South Korea 2 19.12.2012

2013 Ecuadorian general election, 2013 Ecuador 1 17.02.2013

2013 Venezuelan presidential election, 2013 Venezuela 1 14.04.2013

2013 Paraguayan general election, 2013 Paraguay 1 21.04.2013

61

Top 5 Herausforderungen in der Twitter Forschung

• Representativeness and validity

• Cross-platform studies

• Comparisons

• Multi-method approaches

• Context and meaning

Bruns, Axel, and Katrin Weller. 2014. "Twitter data analytics – or: the pleasures and perils of studying Twitter (guest editorial for special issue)". Aslib Journal of Information Management 66 (3): 246-249. http://www.emeraldinsight.com/toc/ajim/66/3.

62

Zwischenfazit zum Forschungsstand

• Wachsendes Forschungsinteresse an Social Media allgemein, v.a. in der Informatik.

• Das Interesse an Twitter ist besonders groß.

63

Überblick über den Stand

der Twitter-Forschung, Teil II: Twitter-Forschung

in Themen

64

pointless babble?

65

Frühe Twitter-Forschung

• Java et al. (2007) identifizieren einen Großteil an Tweets als “daily chatter”.

• Pear Analytics study: 40% of tweets are pointless babble (Kelly, 2009).

Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: understanding microblogging usage and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis (WebKDD/SNA-KDD ’07). ACM, New York, NY, USA, 56-65. DOI=10.1145/1348549.1348556 http://doi.acm.org/10.1145/1348549.1348556 Kelly, R. (2009). Twitter Study. Pear Analytics, retrieved from http://www.pearanalytics.com/wp-content/uploads/2012/12/Twitter-Study-August-2009.pdf

66

Twitter Evolution

• Kommunikation bei Twitter entwickelt sich weiter • @-Symbol für Antworten (Honeycutt & Herring, 2009) • Retweets

Neue Studien untersuchen Kommunikationsstruktur und Netzwerke

Honeycutt, C., and Herring, Susan C. (2009). Beyond microblogging: Conversation and collaboration via Twitter. Proceedings of the Forty-Second Hawaii International Conference on System Sciences.Los Alamitos, CA IEEE Press. Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a Social Net k or a News Media? In Proceedings of the 19th International World Wide Web (WWW) Conference, April 26-30, 2010, Raleigh NC, USA.

67

De-benalizing Twitter!

Rogers, R. (2014). Preface. In: Weller, K. et al. (Hrsg.): Twitter and Society. New York: Peter Lang.

68

Was wird erforscht?

69

Warum Twitter?

• Neue / andere Einblicke in Kommunikation

• „ephemeral“ data

• Twitter-Nutzung verstehen

• (Twitter als Abbild der Gesellschaft?)

70

Methoden

Content analysis Survey (interview) (experiment)

71

Wie wird geforscht?

72

73

Methoden (in der Sozialw. Twitter Forschung)

Weller, K. (2014). What do we get from Twitter – and what not? A close look at Twitter research in the social sciences. Knowledge Organization. 41(3), 238-248

Methoden

• In der Forschung: viele Case Studies

• Noch wenig methodische Standards – aber es tut sich derzeit eine Menge

• Viele Möglichkeiten, zu experimentieren & Neues zu entdecken

74

Standard-Metriken?

75

• Anzahl der Tweets in einem Zeitraum

• Anzahl der Nutzer mit min. einem Tweet

• Tweets pro Nutzer

• Structural Analysis of Tweets:

– Original tweets, RTs, (modified RTs), @message

– Tweets mit URLs

Beispiel für einen Zeitverlauf: #mla09

Zeitachse: Messung in Stunden

An

zah

l der

Tw

eets

pro

Stu

nd

e

Graphik von Cornelius Puschmann

76

Beispiel für ein Personennetzwerk basierend auf RTs

Graphik von Cornelius Puschmann

77

Beispiel für Personeninformationen: #www2010

Aktivität einzelner Personen: Tweetanzahl (#www2010)

0

20

40

60

80

100

120

140

160

180

200

An

zah

l Tw

eet

s

78

Personeninformationen Aktivität einzelner Personen: @-Nachrichten (#mla09)

0

5

10

15

20

25

30

35

40

An

zah

l @-N

ach

rich

ten

@-Nachrichten gesendet @-Nachrichten empfangen

79

Inhaltsanalyse

80

• CAQDAS Computer-Assisted Qualitative Data AnalysiS

– (z.B. MAXQDA, QDAMiner, ATLAS.ti, Qualrus, Nvivo)

– Speech Act Analyse

– Statistische Auswertungen

Einspänner, J., Dang-Anh, M., & Thimm, C. (2014). Computer-assisted content analysis of Twitter data. In: Weller, K., Bruns, A., Burgess, J., Mahrt, M., Puschmann, C. (Eds): Twitter and Society (pp. 97-108). New York et al.: Peter Lang.

Sentiment Analyse

81

Automatische Berechnung von emotionalen Tonalitäten von Tweets.

Benötigt werden Wörterbücher mit Sentiment-Werten, z.B. ANEW.

Generell mit Vorsicht zu betrachten.

Für deutsche Tweets besonders kritisch.

Besondere Fallstudien

82

83

http://www.cci.edu.au/node/1362

The Australian Twitter-Sphere

von Axel Bruns

http://www.jeuneafrique.com/Article/ARTJAWEB20130215165826/internet-libreville-accra-addis-abebareseaux-sociaux-les-capitales-africaines-de-twitter-quartier-par-quartier.html#Tunis

84

Mobilität

Livehood Project

Daten: Foursquare (via Twitter)

http://livehoods.org/maps/montreal

85

Stimmungen in US-Tweets

87

htt

p:/

/ww

w.c

cs.n

eu

.ed

u/h

om

e/am

islo

ve/t

wit

term

oo

/

Interaktion

Paßmann, J., Boeschoten, T., & Shäfer, M.T. (2014). The Gift of the Gab: Retweet Cartels and Gift Economies on Twitter. In K. Weller, A. Bruns, J. Burgess, M. Mahrt & C. Puschmann (Eds.), Twitter and Society. New York et al.: Peter Lang.

88

1. FC Köln (@fckoeln)

Borussia Mönchengladbach (@VfLBorussia)

BVB Dortmund 09 II (@BVB)

FC Bayern München (@BayMuenchen)

FC Schalke 04 II (@s04, official)

FC Schalke 04 I (@FCSchalke04, inofficial)

Hamburger SV (@HSV)

SV Werder Bremen I (@Werder_Bremen)

SV Werder Bremen II (@werderbremen)

0

10000

20000

30000

40000

50000

60000

70000

80000

Jun 11 Jul 11 Aug 11 Sep 11 Oct 11 Nov 11 Dec 11 Jan 12 Feb 12 Mar 12 Apr 12 May 12 Jun 12

nu

mb

er

of

follo

we

rs

month 1. FC Augsburg (@FCAugsburg) 1. FC Kaiserslautern (@Rote_Teufel)* 1. FC Köln (@fckoeln)1. FC Nürnberg (@1_fc_nuernberg) 1. FSV Mainz 05 (1FSVMainz05) 1899 Hoffenheim (achtzehn99)Bayer 04 Leverkusen (@bayer04fussball) Borussia Mönchengladbach (@VfLBorussia) BVB Dortmund 09 I (@BVBDortmund09)BVB Dortmund 09 II (@BVB) FC Bayern München (@BayMuenchen) FC Schalke 04 II (@s04, official)FC Schalke 04 I (@FCSchalke04, inofficial) Hamburger SV (@HSV) Hannover 96 I (@ichbin96)Hannover 96 II (@hannover96) Hertha BSC Berlin (@HerthaBSC)* SC Freiburg (@sc_freiburg)SV Werder Bremen I (@Werder_Bremen) SV Werder Bremen II (@werderbremen) VfB Stuttgart (@VfB)

Bruns, Axel, Katrin Weller, and Stephen Harrington. 2014. "Twitter and sports: football fandom in emerging and established markets". InTwitter and society, edited by Katrin Weller, Axel Bruns, Jean Burgess, Merja Mahrt, and Cornelius Puschmann, 263-280. New Yort u.a.: Peter Lang.

Follower-Zahlen

Bruns, A., & Burgess, J. (2012). Notes towards the scientific study of Twitter. In Tokar, A., Beurskens, M., Keuneke, S., Mahrt, M., Peters, I., Puschmann, C., van Treeck, T., & Weller, K. (Eds.). (2012). Science and the Internet (pp. 159-169). Düsseldorf: Düsseldorf University Press http://nfgwin.uni-duesseldorf.de/sites/default/files/Bruns.pdf

91

Hashtags

Mediale Kommunikation

Groshek, J., & Groshek, M. C. (2013). Agenda trending: Reciprocity and the predictive capacity of social networking sites in

intermedia agenda setting across topics over time. Media and Communication, 1(1), 15-27. doi: 10.12924/mac2013.01010015

92

Forschungsbereiche

93

Ausgewählte Forschungsbereiche

94

Politikwissenschaft

• Kommunikationsverhalten v.a. im Wahlkampf

• Stimmungen im Wahlkampf

• Interaktionen zwischen Parteien

• eDemocracy

Beispiel: Twitter & Wahlen

0

10

20

30

40

50

60

2008 2009 2010 2011 2012 2013

Twitter and elections (Scopus and Web of Science)

Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript.

95

Twitter & Wahlen

• Zahlreiche Fallstudien

• Wenig Vergleichmöglichkeiten

• Kaum Langzeitstudien

• Teilweise Bezüge zu anderen Datenquellen

96

Election Prediction?

• Zahlreiche Ansätze

• Bisher keine reproduzierbaren Ergebnisse

Daniel Gayo-Avello: No, You Cannot Predict Elections with Twitter. IEEE Internet Computing 16(6): 91-94 (2012) PT Metaxas, E Mustafaraj, D Gayo-Avello (2011). How (not) to predict elections. In Privacy, security, risk and trust (PASSAT), 2011

97

Ausgewählte Forschungsbereiche

98

Kommunikations- und Medienwissenschaft

• Übertragung von Methoden der Medienanalyse

• Brand communication

• Crisis communication

• Verschiedene Zielgruppen, verschiedene Kommunikationssituationen

• Rolle von @messages, RTs etc.

Krisenkommunikation

• Disaster Response

• Unternehmenskrisen

99

Diskussion

Welche Themenbereiche/Methoden interessieren besonders?

Eigene Erfahrungen/ Anknüpfungspunkte?

100

Möglichkeiten zur Datenerhebung:

Tools und Rahmenbedingungen

101

Tools

102

Tools für verschiedene Zwecke

Twitter-Nutzung

Twitter-Forschung

Data Collection

Data Analysis / Manipulation

103

Co-tweeting * follower recommendation * automatic tweets * twitterwalls * data visualization * URL monitoring * follower visualization * communities * hashtag meanings * trends

Tools für die Nutzung von Twitter

104

TweetDeck

105

Tweetdeck online http://www.tweetdeck.com/

106

Foto: http://www.zephoria.org/thoughts/archives/2009/11/24/spectacle_at_we.html

Twitter Walls

107

Vorsicht: Aktivitätskennwerte

• Tweetstats.com

• Klout

• Twitalyzer

• Twittercounter

• …

108

Tools zur Datensammlung & Rahmenbedingungen

109

Social Media Daten

• Texte

• Bilder

• Videos

• Multimedia

• Connections I (friends, followers)

• Connections II (links)

• Connections/Actions (likes, favs, comments, downloads)

• (Metadata: Zeitstempel, Geodaten)

110

Wie erhält man die Daten?

111

API

https://dev.twitter.com/docs/api/1.1 https://dev.twitter.com/blog

Twitter APIs

112

• API = Application Programming Interface

• Zugang, um Daten für Anwendungen/Apps zu verwenden

• Nicht explizit für die wissenschaftliche Nutzung vorgesehen

• Streaming API, Rest APIs, Search API

Gaffney, D., & Puschmann, C. (2014). Data Collection on Twitter. In Weller et al. (Eds). Twitter and Society (pp. 55-68). New York, et al.: Peter Lang.

Twitter APIs

113

1. STREAMING API

- push-basiert, Live-Stream

- Public stream vs. User stream

- Forscher brauchen Tools, die eine Verbindung zu diesem Stream aufrecht erhalten.

- Nicht rückwirkend

- Suche nach Keywords, Usern, Geo-codes

Twitter APIs

114

2. REST + SEARCH API

• Eingeschränkte Anzahl Anfragen pro Stunde

• Verschiedene Möglichkeiten, die Twitter-Oberfläche „ferngesteuert“ zu bedienen, u.a. die Suche

• Liefert u.a. Suchergebnisse aus kürzlich veröffentlichten Tweets

• Social graph data (wer folgt wem)

• Trending topics

• Und vieles mehr

https://dev.twitter.com/docs/using-search

115

116

117

https://dev.twitter.com/console

Eige

ne

Use

r-ID

fin

de

n:

htt

p:/

/ww

w.id

fro

mu

ser.

com

/

Ausprobieren: GET /statuses/mentions_timeline.json

118

Datensammlung?

119

Herausforderungen:

Archivierung in Echtzeit Eingeschränkte Anteile

„historische“ Tweets

• verschwinden nicht, sind aber über die Suche nach wenigen Tagen i.d.R. nicht mehr auffindbar – Alternativ: über die ID abfragen

– Über Nutzerprofilseiten sind Tweets noch zugänglich (max. die letzten 3200 Tweets eines Nutzers).

• bilden Twitters Geschäftsmodell hohe Kosten

120

Volumenbegrenzungen

• Normal (Spritzer): max. 1% des aktuellen Datenvolumens

• Gardenhose: ca. 10%

• Firehose: kompletter Zugang

Geschäftsmodell!

Morstatter et al. (2013): http://www.aaai.org/ocs/index.php/ICWSM/ICWSM13/paper/viewFile/6071/6379

121

Rechtlicher Rahmen

• Terms of Services: https://twitter.com/tos

• Twitter Privacy Policy: https://twitter.com/privacy

• Developer’s Rules of the Road: https://dev.twitter.com/terms/api-terms

Privilegierte Zugänge

• Kooperationspartner mit Firehose Zugang (Whitelist)

• Data Grants – Ausschreibung: 6 aus 1300 https://blog.twitter.com/2014/twitter-datagrants-selections

• MIT Laboratory for Social Machines. http://newsoffice.mit.edu/2014/twitter-

funds-mit-media-lab-program-1001

• (Library of Congress) http://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-

library-of-congress/

124

Möglichkeiten

• Zufällige Tweets aus der gesamten Twitter-Datenbasis sammeln

• Tweets mit bestimmten Eigenschaften

• Tweets von bestimmten Autoren

• Follower Netzwerke

126

Möglichkeiten

• Eigenes Programm schreiben

• Vorhandene Skripte anderer Wissenschaftler weiterverwenden

• Kostenlose Tools zur Datensammlung (müssen i.d.R. auf eigenem Server installiert werden)

• Desktopbasierte Programme (laufen nicht kontinuierlich)

• Kostenpflichtige Tools mit limitiertem Zugriff

• Vollzugriff über offizielle Reseller

• (Archivierte Datensammlungen nachnutzen)

• Copy Paste

127

Tools

• Viele noch in Entwicklung

• Nicht immer mit Support

128

Datasift

130

Datasift

131

Datasift

• Preismodell:

– Monatsgebühr plus Preise pro abgerufene Daten

– Historische Tweets sind teurer als aktuelle

http://dev.datasift.com/docs/billing

132

TOPSY

133

134

135

Übung

http://topsy.com

- Bei Topsy suchen nach a) einem Nutzer, b) einem Stichwort, c) einem Hashtag.

- Bei Topsy Analytics zwei Nutzer und zwei Hashtags vergleichen.

- Auffälligkeiten?

136

YourTwapperkeeper

137

YourTwapperkeeper

138

Tweet Archivist

http://www.tweetarchivist.com

139

Tweet Archivist

140

141

TweetArchivist

Übung:

Verschiedene Suchen ausprobieren: http://www.tweetarchivist.com/SetLanguage

142

TAGS

http://mashe.hawksey.info/2014/10/need-a-better-twitter-archiving-google-sheet-tags-v6-0-is-here/

143

DiscoverText https://www.discovertext.com/

http://www.screencast.com/t/opNfbdoVnaC

145

DiscoverText

146

Datensammlung in der Praxis

Datenquelle Anzahl Keine Angabe 11

Manuelle Datensammlung auf der Twitter-Website (Copy-Paste / Screenshot)

6

Twitter API (one näheren Angaben) 8

Twitter Search API 3

Twitter Streaming API 1

Twitter Rest API 1

Twitter API user timeline 1

Selbstgeschriebenes Programm mit Zugriff auf Twitter APIs 4

Twitter Gardenhose 1

Offizielle Reseller (Gnip, DataSift) 3

YourTwapperKeeper 3

Andere Drittanbieter (z.B. Topsy) 6

Von Kooperationspartner erhalten 1

Weller, K. (2014). Twitter und Wahlen: Zwischen 140 Zeichen und Milliarden von Tweets. In: R. Reichert (Ed.), Big Data: Analysen zum digitalen Wandel von Wissen, Macht und Ökonomie (pp. 239-257). Bielefeld: transcript.

Twitter and Election (2013 papers)

147

NodeXL Network Analysis

Sammelt Daten aus (u.a.): Facebook, Twitter,

• YouTube, Flickr, Wikipedia

148

NodeXL http://nodexl.codeplex.com/

149

NodeXL NodeXLGraphGallery.org

150

COSMOS

Burnap, P., Rana, O., Williams, M., Housley, W., Edwards, A., Morgan, J, Sloan, L. and Conejero, J. (2014) ‘COSMOS: Towards an Integrated and Scalable Service for Analyzing Social Media on Demand’, International Journal of Parallel, Emergent and Distributed Systems. DOI:10.1080/17445760.2014.902057

http://cosmosproject.net/

151

Spezielle Tools

Textanalyse / NLP • Allgemein: Discover text: http://discovertext.com/ • Twitter NLP: http://www.ark.cs.cmu.edu/TweetNLP/ Sentiment Analysis • SentiStrength Analysing Folllower numbers • What Happened Then? Using Approximated Twitter Follower Accession to

Identify Political Events. Tony Hirst, blog post March 4, 2013: http://tiny.cc/twitter-references

153

Gibt es noch mehr?

154

Sammlungen

• Max Planck Institut, Twitter tools: http://twitter-app.mpi-sws.org/

• Statistical Cybermetrics Research Group Wolverhampton: http://cybermetrics.wlv.ac.uk/resources.htm

• Liste von Twitter und Facebook Collection Tools, curated by Deen Freelon: https://docs.google.com/document/d/1UaERzROI986HqcwrBDLaqGG8X_lYwctj6ek6ryqDOiQ/edit

155

Erste Herausforderungen

159

Herausforderungen

• Technisch: in den meisten Fällen sind technische Grundkenntnisse erforderlich

• Technisch: Datenverlust / Server downtime

• Praktisch: Rechtzeitig planen, was gesammelt werden soll

• Rechtlich: Zugangsbeschränkungen

• Finanziell: Daten einkaufen

160

Herausforderungen

black box

161

Herausforderungen

• Zugänglichkeit

• Data Sharing

• Änderungen (moving target)

• Manipulation (z.B. Twitter Bomb) & Spam

• Personalisierte Ergebnisse

• Fehlende Reproduzierbarkeit und Nachvollziehbarkeit

162

Social Media Data

• Texte • Bilder • Videos • Multimedia • Connections I (friends, followers) • Connections II (links) • Connections/Actions (likes, favs, comments,

downloads)

163

Sonderfall: URLs

• URL Shortener: bit.ly und co.

• Gekürzte URLs müssen wieder de-codiert werden – und zwar möglichst zeitnah

• Verfahren dauert lange

164

Übung mit Beispieldatensatz

Landtagswahl NRW 2012

166

• Vorgezogene Wahl am 13. Mai 2012.

• Rot-grüne Mehrheit, Kraft bleibt Ministerpräsidentin

• CDU schlechtestes Ergebnis seit 1947, Rücktritt Röttgen

• Piratenpartei erstmals im Landtag

• Linke scheitert an 5%-Hürde

http://de.wikipedia.org/wiki/Landtagswahl_in_Nordrhein-Westfalen_2012

Fallstudie: Twitter bei der Landtagswahl NRW

- Welche Fragestellungen könnten in diesem Zusammenhang interessant sein?

- Welche Daten werden dafür benötigt?

Landtagswahl bei Twitter

168

Hashtag Tweets (27.03.-15.06.13)

#ltw12 5.656

#ltwnrw 11.116

#ltw2012 165

#ltwnrw12 1.621

#ltwnrw2012 27

#nrw12 41.106

#nrw2012 1.991

Total (ohne Dubletten) 56.145

Demmer, C.J., & Weller, K. (2013). Stimmungsschwankungen bei Twitter? Eine Sentiment-Analyse anhand von Tweets nach der Landtagswahl in Nordrhein-Westfalen 2012. In H.-C. Hobohm (Ed.), Proceedings of the 13th International Symposium of Information Science (ISI 2013), Potsdam, March 2013 (pp. 482-485). Glückstadt: Hülsbusch.

Personen und Parteien bei Twitter

@nrwspd @gruenenrw @cdunrw_de

@fdp_nrw @dielinkenrw @piratennrw

Personen und Parteien bei Twitter

@hannelorekraft (Sylvia Löhrmann) (Norbert Röttgen)

@c_lindner Katharina Schwabedissen @Nick_Haflinger

CSV importieren

CSV importieren

Wer diskutiert mit?

• Aufgabe: #nrw12 oder #ltw12 oder #tlwnrw Tweets öffnen

• Nutzer identifizieren, die min. einen Tweet geschrieben haben.

• Wie viele Nutzer haben genau einen Tweet?

• Wie sieht die Verteilung der Tweets pro User aus?

• Wer sind die fünf aktivsten Nutzer?

Hashtag-Diskussion 27.03.-15.06.2013

174

• 10.438 User

• Davon 5.048 mit mehr als 1 Tweet

• 2.046 mit mehr als 5 Tweets

0

100

200

300

400

500

600

700

1 501 1001 1501 2001

Tweets pro User

Was machen die Kandidaten?

• Aufgabe: einen der Kandidaten auswählen, Dateien fromKandidat und atKandidat öffnen

• Wie viele Tweets hat „ihr Kandidat“ veröffentlicht?

• Wie viele @messages und Retweets hat „ihr“ Kandidat erhalten?

• Was wurde besonders häufig geretweetet?

Netzwerk: Bundestagswahl

176

following

Lietz, H., Wagner, C., Bleier, A., & Strohmaier, M. (2014). When politicians talk: Assessing online conversational practices of political parties on twitter. In International AAAI Conference on Weblogs and Social Media (ICWSM2014), Ann Arbor, MI, USA, June 2-4, 2014.

mentioning retweeting

Weitere Einblicke

• #ltw12 Tweets

• Wie viele Tweets haben einen Geo-Code?

• Tweets im Zeitverlauf?

177

Zeitverlauf Bundestagswahl

Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.

Zeitverlauf Bundestagswahl

Gummer, T., Roßmann, J., & Wolf, C. (2014). Candidates’ Twitter Use in the German Election 2013. Presentation at the General Online Research 2014, Cologne, Germany.

Tweet-Inhalte

1. Manuelle Codierung

– Ca. 10 Tweets lesen – was fällt auf?

– Zu zweit: versuchen Sie einen Entwurf für die Codierung von Tweet-Inhalten aufzustellen

Tweet-Inhalte

2. Automatische Analyse möglich? – Problem: deutschsprachige Texte

– http://sentistrength.wlv.ac.uk/ ausprobieren mit einzelnen englischen Tweets (z.B. Twitter suche nach election https://twitter.com/search)

Diskussion

• Welche Fragestellungen wären interessant?

182

Was kommt zuerst?

• Forschungsfrage?

• Daten?

184

Big Data vs. Sinnvolle Forschungsfragen

Forschungsethik, Repräsentativität,

Reproduzierbarkeit

ETHIK

186

Ethik

Forschungsethik

• Anonymisierung/Pseudonymisierung möglich bzw. nötig?

• Richtlinien für den Umgang mit Personendaten?

Aktuelle Hinweise

• So wenig personenbezogene Daten wie möglich teilen

• Tweet-Sammlungen nicht öffentlich zur Verfügung stellen

Privacy

• Informed Consent?

• Öffentlichkeit der Daten?

• Bislang keine Standards, aber Diskussionen.

188

Nutzernamen

• Nutzernamen nennen?

• Tweets zitieren?

– „normale“ Nutzer vs. Prominente

– Viel-zitierte Inhalte

• Was ist noch problematisch?

Rechtlicher Rahmen

Twitter‘s Nutzungsbedingungen

Datenschutzbestimmungen

Repräsentativität

Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final

13

29

14

44

17

51

32

56

44

69

54

74

44

82

67

87

75

87

73

99

0

20

40

60

80

100

% w

ho d

o m

ore

than n

eve

r

ViceCreativeproduc-

tion

Blog-ging

School&

work

Info-tain-ment

Commer-cial

activity

Enter-tain-ment

Classicnews

Infor-mationseeking

Social-ize

OxIS current users: 2013 N=1,613

Figure 2: Activities of Twitter Users & Non-users

Twitter user Non-user

Repräsentativität

Repräsentativität

Blank, G. (2014). Who uses Twitter? Representativeness of Twitter Users. Presentation at General Online Research GOR 14. Retrieved from: http://conftool.gor.de/conftool14/index.php?page=downloadPaper&filename=Blank-Who_uses_Twitter_Representativeness-119.pptx&form_id=119&form_version=final

34

26

812

1814

10

1712

2328

333035

0

20

40

60

80

100

% w

ho h

ave

done m

ore

th

an n

eve

r

InterestPolitical activities

Interestin politics

Sendpolitical

message

ContactMP online

Re-postpoliticalnews

Politicalcommenton SNS

Findpolitical

facts

Signonline

petition

OxIS current users: 2013 N=1,613

Figure 6: Political Activities of Twitter Users

Twitter user Non-user

Repräsentativitätsprobleme auf mehreren Ebenen

“About a third of all UK Internet users have a twitter profile; a subset of that group are the active tweeters who produce the bulk of content; and then a tiny subset of that group (about 1%) geocode their tweets (essential information if you want to know about where your information is coming from).”

Graham M. (2012). Big data and the end of theory?". The Guardian. Retrieved from: http://www.theguardian.com/news/datablog/2012/mar/09/big-data-theory

Repräsentativität

• “estimating demographic data from a sample of more than 113 million Twitter users collected during July 2012”

• “Of the 48% of Twitter users for which we could identify gender, approximately 45% were male and approximately 47% were female.”

L.Sloan, J.Morgan, W.Housley, M.L.Williams, A.Edwards, P.Burnap, and O.Rana, Knowing the tweeters: Deriving sociologically relevant demographics from twitter, Sociological Res. Online, 18 (2013).

Gefahren durch fehlende Repräsentativität

• Diskussion: Menschen, die durch Big Data nicht repräsentiert sind

http://streetbump.org

Siehe auch: http://www.wired.com/2014/03/potholes-big-data-crowdsourcing-way-better-government/

Repräsentativität?

• Spam / Bots

Repräsentativität?

beeinflusst von:

• Nutzerzahlen

• Zeitpunkt/Dauer der Datenerhebung

• Datenauswahl

Wie Stichproben festlegen? Wie Zeiträume auswählen?

Beispiel: letzte x tweets vs. Jeden xten Tweet.

Herausforderung

• Stichprobe ziehen, z.B. 500 Accounts von deutschen Twitter-Nutzern?

Verlässlichkeit

200

• Verifizierte Accounts

• Verifizierte Inhalte?

A definitive guide to verifying digital content for emergency coverage http://verificationhandbook.com/

201

202

today vs. tomorrow

Reproduzierbarkeit

203

Die gleichen Daten zweimal erheben?

Mit bestehenden Datensätzen arbeiten?

Übung zur Studien-Konzeption: Was geht,

was geht nicht?

Studien planen

Forschungsablauf (ideal)

Studie planen

Daten erheben

Daten auswerten

(Daten archivieren)

Studien planen

• Was soll untersucht werden?

• Warum brauche ich dafür Twitter-Daten?

• Welche Art Twitter-Daten benötige ich?

• Vorab-Recherche! (Thema, Keywords, Akteure, besondere Vorkommnisse).

Kriterien zur Datenerhebung

208

Typischerweise:

- Tweets eines bestimmten Nutzers

- Tweets, die einen Nutzer erwähnen

- Tweets, die ein Wort (Zeichenkette) oder ein Hashtag enthalten

Diverse weitere, z.B.

- Anzahl und Namen der Follower eines Accounts

- Tweets, die eine bestimmte URL (domain) enthalten

- Zufällige Tweets in einem bestimmten Zeitraum

- Tweets mit Geo-Code

- Uvm.

Datensammlung

• Nutzer-bezogen

• Themen-bezogen

• Struktur-bezogen

Probleme

• Wie lange / wie häufig sollen Daten gesammelt werden?

• Mit welcher Technik sollen Daten gesammelt werden?

• Mit welchen Suchkriterien sollen Daten gesammelt werden?

• Wie sollen die Daten später ausgewertet werden?

• Wer soll alles damit arbeiten?

Auswertung

Inhaltsanalysen Quantitative

Analysen

Technische Feinheiten

• Manuelle vs. Button Retweets

• URLs erkennen und auflösen

• @messages vs. @mentions

• Informationen über einzelne Twitter-Nutzer herausfinden

• Hashtag vs. Volltextsuche

Datenbereinigung

• Mehrere Datensätze zusammenfügen und dabei Dubletten entfernen.

• ‚False positives‘ entfernen (z.B. bvb)

• Ggf. Dateiformate für die Bearbeitung in Analysetools anpassen

Datenmanagement

• Versionierung – Metadaten

• Dokumentation des Erhebungs- und Bereinigungsprozesses

• Sicherungskopien

6. Übung: Studien planen

Studiendesign

Wählen Sie eine der folgenden Fragestellungen / Szenarien

• Welche Daten werden benötigt?

• Wie können diese erhoben werden? Wie muss vorgegangen werden?

• Was muss beachtet werden?

• Welche Probleme können auftreten?

Kurzpräsentation des eigenen Ansatzes

Fall 1

• Disaster Response bei einer Naturkatastrophe

– Nachrichten melden drohende Unwetter und Hochwasser in Nordrhein-Westfahlen.

– Untersucht werden soll wie verschiedene Akteure Twitter zur Krisenkommunikation nutzen.

Fall 2

• Twitter als TV Backchannel bei einem Sportgroßereignis (z.B. Fußball-WM)

– Wie agieren und interagieren verschiedene Fan-Gruppen?

– Untersucht werden sollen Aktivitäten im Verlauf des Turniers.

Ihre Ergebnisse

Was geht? Was geht nicht?

• Alle Tweets, die sich auf ein bestimmtes Ereignis beziehen?

• Alle Tweets eines Nutzers?

• Alle Personen, die zu einer bestimmten Gruppe gehören (z.B. Bundestagskandidaten)

• Alle Tweets, die auf eine bestimmte Webseite verlinken?

Was geht? Was geht nicht?

• Alle Tweets, die sich auf ein bestimmtes Ereignis beziehen?

• Alle Tweets eines Nutzers?

• Alle Personen, die zu einer bestimmten Gruppe gehören (z.B. Bundestagskandidaten)

• Alle Tweets, die auf eine bestimmte Webseite verlinken?

„Lessons learnt“

1.

Man muss die Twitter-Dynamik kennen, um mit Twitter-Daten arbeiten zu

können.

2.

Twitter als Moving Target: alles kann sich

verändern!

3.

Ideal: Erst die Forschungsfrage, dann

die Datenerhebung.

4.

Aber: Twitter-Daten immer rechtzeitig (live)

erheben!

5.

Man erhält i.d.R. nur einen Ausschnitt aus

Twitter

6.

Bestimmte Daten sind nicht oder nur gegen

Geld erhältlich

7.

Sorgfältige Planung und Dokumentation sind

entscheidend

Fazit und Feedback

Vielen Dank für Ihre Teilnahme!

Dr. Katrin Weller ● GESIS Leibniz Institut für Sozialwissenschaften

katrin.weller@gesis.org ● @kwelle ● http://katrinweller.net