22
Korpusbasierte Online- Dialoganalyse am Beispiel Twitter Agnes Mainka Heinrich-Heine-Universität Düsseldorf 2. DGI-Konferenz 22. und 23. März 2012, Düsseldorf

Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

Embed Size (px)

DESCRIPTION

Dieser Artikel diskutiert das Vorgehen und die Ergebnisse einer Dialoganalyse auf der Microbloggingplattform Twitter. Dialoge werden zum einen durch Metadaten aus der Twitter API und zum andern durch korpuslinguistische Annotation des Machinese Phrase Taggers von Connexor eruiert. Die Ergebnisse der Untersuchungen zeigen, dass die Metainformationen von Twitter Konversationen auffindbar machen können, jedoch sind zusätzliche Informationen nötig, um einen thematischen Dialog aus diesen Konversationen zu filtern. Für diese Problematik wird hier der Vergleich von Nominalphrasen als ein möglicher Lösungsansatz untersucht.

Citation preview

Page 1: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

Agnes MainkaHeinrich-Heine-Universität Düsseldorf

2. DGI-Konferenz22. und 23. März 2012, Düsseldorf

Page 2: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 2

Fragestellungen

23.03.2012

1. Kann man Dialoge auf Twitter automatisch extrahieren?

2. Gibt es eine typische Zeitspanne für Dialoge?

3. Kann man thematische Dialoge mittels automatischer „Part of Speech Tagging“-Analyse finden?

Page 3: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 3

Neue Herausforderungen der Dialoganalyse durch Onlinediskurse

23.03.2012

Analyse von oralen Konversationen:„Die Kunst des Gesprächs“

Neue Technologien wie Handys verändern Gesprächsverläufe

Gespräche finden zunehmend in sozialen Netzwerken statt

Smartphones machen es möglich, von überall an Online-Dialogen teilzunehmen

Page 4: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 4

Dialoge auf Twitter

23.03.2012

Emoticons

Umgangssprache

Mehrsprachig

Abkürzungen

Tippfehler

RT @Irgendwer

Reden über @Irgendwer

@Paul

Paul

@Hans

@Paul

Paul

Lara

@Lara

Lara

@Paul

Page 5: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 5

Korpuserstellung

23.03.2012

Zugriff auf die Tweets über die Twitter-API

Möglichkeiten und Begrenzung des Zugriffs auf die Dialoge über die Twitter-Timeline:

• Lokale Sicherung der Timeline ist nur begrenzt möglich

• Es sind max. 100 Anfragen pro Stunde über die Twitter-API möglich

• Abrufe der Timelines sind auf die letzten 200 Tweets begrenzt

• Daten können als JSON oder XML gespeichert werden

Page 6: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 6

Korpuserstellung

23.03.2012

Arbeitsschritte:

31.08.2011: Download der Timelines der ersten 20 Nutzer (JSON)

31.08.2011: Speicherung der Tweets vom 29.8. bis 31.8.

31.08.2011: Herausfiltern aller @Mentions aus dem Tweetbestand ohne RT @User

31.08.2011: Download aller Timelines der @Mentions

31.08.2011: Wiederholung der Schritte 3 und 4 (viermal)

02.09.2011: Aktualisierung der vorhandenen Timelines

05.09.2011: Aktualisierung der vorhandenen Timelines

Page 7: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

7

Korpuserstellung

23.03.2012 @Agnieszka_M

Korpus:

• „RT @User“ wurden aus dem Untersuchungskorpus herausgefiltert

• 241 Timelines wurden lokal gespeichert

• Untersuchungsgegenstand sind alle öffentlich geposteten Tweets zwischen Montag dem 29. August 2011 und Sonntag dem 04. September 2011

• Nur 19 % (5.570 Tweets) des Korpus für die weitere Untersuchung verwendet, da sie min. eine @Mention enthalten

Daten der 20 Start-Twitternutzer Min. Max.

Account erstellt 2006 2011Tweets gepostet 386 45957

Follower 80 1148In Listen 5 166

Page 8: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 8

Fragestellung 1:Kann man Dialoge auf Twitter automatisch extrahieren?

23.03.2012

Metainformationen der JSON-DateiBezeichnung in der Json Datei (Twitter-Timeline)

Bedeutung

„screen_name“ Enthält den Benutzernamen des Nutzers, der den Tweet verfasst hat. (Jeder Benutzername ist eindeutig, da er nur einmal an einen Benutzer vergeben wird)

„id“ Enthält eine eindeutige ID, die jedem Tweet zugeordnet wird.

„text“ Enthält den Text des Tweets.

„created_at“ Enthält das Datum, an dem der Tweet gepostet wurde.

„in_reply_to_status_id“ Enthält die ID des Tweets auf den der Text Bezug nimmt.

„in_reply_to_screen_name“ Enthält den Benutzernamen des Nutzers, auf den der Text Bezug nimmt.

Page 9: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 9

Automatische Extraktion von Dialogen

23.03.2012

Extraktion von Dialogketten mit Python

id = 1

Tweet 1

in reply to = 1

id = 2

Tweet 2

in reply to = 2

id = 3

Tweet 3

Page 10: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 10

Automatische Extraktion von Dialogen

23.03.2012

Extraktion von Dialogketten mit Python

Anzahl der Turns

Anza

hl d

er D

ialo

gkett

en

Page 11: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 11

Fragestellung 2:Gibt es eine typische Zeitspanne für Dialoge?

23.03.2012

Zeitlicher Abstand zwischen Tweets in einem Dialog

• Untersuchung der Zeit im Mittel hat kein eindeutiges Ergebnis gebracht

• Nur in 14 der 86 Dialogketten haben sich drei Twitternutzer beteiligt, sonst waren es zwei Nutzer

• Durchschnittlicher Turnwechsel zwischen zwei und sieben Minuten

• Schnellste Antwort: acht Sekunden• Späteste Antwort: eine Woche

Page 12: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 12

Fragestellung 2:Gibt es eine typische Zeitspanne für Dialoge?

23.03.2012

Zeitlicher Abstand zwischen Tweets in einem Dialog

Page 13: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 13

Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden?

23.03.2012

Twitternutzer 5

token len text lemma syntax morpho form time noun phrase

1462216 7 grenzen grenzen @MAIN V INF

1462224 3 los los @ADVL ADV

1462228 3 ich ich @NH PRON

1462232 4 frag fragen @MAIN V IMP

1462237 4 mich ich @NH PRON

1462242 3 bis bis @PREMARK CS

1462246 5 heute heute @ADVL ADV

1462252 3 wie wie @PREMARK PREP

1462256 2 du du @NH PRON

1462259 4 dein dein @PREMOD PRON

1462264 3 Abi Abi @NH N Prop NP-Single

1462268 9 geschafft schaffen @MAIN V PCP PERF

1462278 4 hast haben @MAIN V IND PRES

Automatische Annotation durch den Machinese Phrase Tagger von Connexor

Page 14: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 1423.03.2012

Was ist eine Nominalphrase (NP) ?Was ist ein Nominalkopf (NH)?

Satz

Nominal-phrase

Artikel

Der

Nomen

Mann

Verbal-phrase

Verb

isst

Nominal-phrase

Artikel

den

Nomen

Apfel

NP

NP

NH

NH

Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden?

Page 15: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 1523.03.2012

Anzahl der erkannten Nominalköpfe in einem Tweet

Beispiel für 16 NHs:

Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden?

Page 16: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 1623.03.2012

Anzahl der erkannten Nominalphrasen in einem Tweet

Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden?

Page 17: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 1723.03.2012

Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden?

Page 18: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

18

Probleme der Phrasenanalyse

23.03.2012 @Agnieszka_M

Verwendung von Pronomen

Geplauder ohne Themenbezug

Frage: „wa“ – Antwort „jepp“ ???

Ausruf auf ersten Tweet – keine NP

„Sowas“ – Bezug auf das Ereignis ohne übereinstimmenden NH

Paula

@Paula

Sahra

Paula

@Sahra

@Sahra

@Sahra

@Sahra

Bernd

Peter

Page 19: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 19

Probleme der Phrasenanalyse

23.03.2012

• Nur ein kleiner Teil der Dialoge kann so erkannt werden:• 10,7 % der 402 untersuchten Dialogketten weisen eine Übereinstimmung der

Nominalköpfe auf

• Initiale Tweets, die kein „Thema“ haben, können demnach auch nicht thematisch passend beantwortet werden

• @-Funktion beabsichtigt nicht immer einen Dialog

• Linguistische Schwierigkeiten: • Verwendung von Pronomen und Ellipsen• Semantik

Page 20: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 20

Zusammenfassung

23.03.2012

1. Kann man Dialoge auf Twitter automatisch extrahieren?• Metainformationen der JSON (oder XML)-Ausgabe machen es möglich über die

Angabe „in_reply_to_status_id“ Dialoge automatisch zu finden

2. Gibt es eine typische Zeitspanne für Dialoge?• Ein Großteil der untersuchten Twitternutzer antworten in weniger als fünf

Minuten auf einen Tweet

3. Kann man thematische Dialoge mittels automatischer „Part of Speech Tagging“-Analyse finden? • Nur 10 % der Twitternachrichten, die mit dem „reply_to_status_id“-Wert

deklariert werden, besitzen einen gleichen Nominalkopf

Andere Möglichkeiten?• Verbesserung der Ergebnisse durch Verwendung von Thesauri oder Ontologien

• Die Auswertung eignet sich nur für Konversationen die ein Thema diskutieren und nicht nur Geplauder enthalten

Page 21: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

@Agnieszka_M 2123.03.2012

Vielen Dank!

Heinrich-Heine-Universität Dü[email protected]

@Agnieszka_MFolien auf Slideshare: Agnes Mainka

Page 22: Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

22

Quellen:

23.03.2012 @Agnieszka_M

Cheng, N., Chandramouli, R., & Subbalakshmi, K. P. (2011). Author gender identification from text. Digital Investigation, 8(1), 78-88.Crystal, D. (2011). Internet Linguistics. New York: Routledge.Finin, T., Murnane, W., Karandikar, A., Keller, N., Martineau, J., & Dredze, M. (2010). Annotating named entities in Twitter data with crowdsourcing. In: Association for Computational Linguistics (Hrsg.), Proceedings of the NAACL Workshop on Creating Speech and Text Language Data With Amazon's Mechanical Turk. Fraas, C., & Pentzold, C. (2008). Online-Diskurse – Theoretische Prämissen, methodische Anforderungen und analytische Befunde. In: I. H. Warnke & J. Spitzmüller (Hrsg.), Methoden der Diskurslinguistik. Sprachwissenschaftliche Zugänge zur transtextuellen Ebene (S. 291-326).Franke, W. (2000). Konzepte linguistischer Dialogforschung. In: K. Brinker (Hrsg.), Text- und Gesprächslinguistik: ein internationales Handbuch zeitgenössischer Forschung (S. 346-362). Walter de Gruyter.Galanova, O., & Sommer, V. (2011). Neue Forschungsfelder im Netz. Erhebung, Archivierung und Analyse von Online-Diskursen als digitale Daten. In: S. Schomburg, C. Leggewie, H. Lobin & C. Puschmann (Hrsg.), Digitale Wissenschaft: Stand und Entwicklung digital vernetzter Forschung in Deutschland (S. 89-97). HBZ: Köln.Garton, L., Haythornthwaite, C., & Wellman, B. (1999). Studying On-Line Social Networks. In: S. Jones (Hrsg.), Doing Internet Research: Critical Issues and Methods for Examining the Net (S. 75-105). Thousand Oaks, CA: SAGE Publications, Inc.Jansen, B. J., Zhang, M., Sobel, K., & Chowdury, A. (2009). Twitter power: Tweets as electronic word of mouth. Journal of the American Society for Information Science and Technology, 60(11), 2169-2188.Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: Understanding microblogging usage and communities. In: Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis at ACM SIGKDD, San Jose, California (S. 56-65). New York: ACM.Kress, G. R. (2009). Multimodality: a social semiotic approach to contemporary communication. London: Taylor & Francis.Kress, G. R., & van Leeuwen, T. (2001). Multimodal discourse. The modes and media ofcontemporary communication. London: Arnold.Mainka, A. (2010). Twitter: „Gezwitscher“ oder gezielte Informationsvermittlung? Information, Wissenschaft & Praxis, 61(2), 77-82.McEnery, T. (2003). Corpus Linguistics. In: R. Mitkov (Hrsg.), The Oxford Handbook of Computational Linguistics. Oxford Handbooks in Linguistics (S. 448–463). Oxford: Oxford University Press.McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. Meier, S. (2008). (Bild-)Diskurs im Netz. Konzept und Methode für eine semiotische Diskursanalyse im World Wide Web. Köln: Halem.O’Reilly, T., Milstein, S., & Lang, J. W. (2009). Das Twitter-Buch. Köln: O’Reilly Verlag.Schmölders, C. (1986). Die Kunst des Gesprächs. München: Deutscher Taschenbuchverlag München.Stringhini, G., Kruegel, C., & Vigna, G. (2010). Detecting spammers on social networks. In: Proceedings of the 26th Annual Computer Security Applications Conference on - ACSAC ’10 . Thimm, C., Dang-Anh, M., & Einspänner, J. (2011). Diskurssystem Twitter: Semiotische und handlungstheoretische Perspektiven. In: M. Anastasiadis & C. Thimm (Hrsg.), Social Media – Theorie und Praxis digitaler Sozialität (S. 265-286). Frankfurt/New York: Peter Lang (i.Dr.).Weller, K., Dröge, E., & Puschmann, C. (2011). Citation Analysis in Twitter: Approaches for Defining and Measuring Information Flows within Tweets during Scientific Conferences. In: M. Rowe, M. Stankovic, A. Dadzie, & M. Hardey (Hrsg.), CEUR Workshop Proceedings Vol. 718. (S. 1-12). Crete, Greece.Zappavigna, M. (2011). Ambient affiliation: A linguistic perspective on Twitter. New Media & Society, 13(5), 788 -806.Bilder:http://www.flickr.com/photos/matthamm/3383916444/http://kfolta.blogspot.com/2010/12/scintillating-dinner-conversations.htmlTwittertoaster: http://twitoaster.com/