Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Optionen von automatischer Sprachanalyse für die Untersuchung von öffentlicher Kommunikation im Internet
Dr. Michael Eble und Dr. Daniel Stein
Vortrag auf der Tagung „Digital Methods – Innovative Ansätze zur Analyse öffentlicher Kommunikation im Internet“
Wien, 8. November 2013
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Ziel des Vortrags
…ist es, den methodischen Herausforderungen der Online-Inhaltsanalyse von audio-visuellen Medieninhalten verschiedene Ansätze aus dem Bereich der automatischen Sprachanalyse gegenüberzustellen.
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Aufbau des Vortrags
1. Öffentliche Kommunikation im Internet
2. Methodische Herausforderungen
3. Automatische Sprachanalyse
4. Transfer und Ansätze für die Analyse
5. Fazit und Ausblick
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
ÖFFENTLICHE KOMMUNIKATION IM INTERNET
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Öffentliche Kommunikation im Internet
Öffentliche Kommunikation: Gesamtheit aller Kommunikationsvorgänge, die in der Öffentlichkeit stattfinden und Transparenz-, Validierungs- und Orientierungsfunktionen erfüllen
Verschränkung von Öffentlichkeiten: Publizistische Angebote und Anschlusskommunikation sind geprägt von inhaltlich und technisch miteinander vernetzten (audio-visuellen) Medieninhalten
Vgl. Neidhardt 1994, S. 7ff.; Donges/Imhof 2005; Schmidt 2011, 2013; van Eimeren und Frees 2012, S. 371ff
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Steigende Bedeutung von audio-visuellen Inhalten
• Verfügbare Korpora an gesprochener Sprache wachsen durch
• Verstärkte journalistische Videoproduktion
• Digitalisierung und Öffnung von Medienarchiven
• User Generated Content auf Social-Web-Plattformen
• Untersuchung mittels (Online-)Inhaltsanalyse
• „systematischen, intersubjektiv nachvollziehbaren Beschreibung inhaltlicher und formaler Merkmale von Mitteilungen“
Früh 2007, S. 27ff.
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
METHODISCHE HERAUSFORDERUNGEN
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Methodische Herausforderungen
1. Zugänglichkeit: Automatischer Zugriff auf audio-visuelle Medieninhalte in Mediatheken und Social-Web-Plattformen
2. Dezentralität: Identifikation und Verarbeitung der Bezüge zwischen Kommunikaten auf verschiedenen Plattformen
3. Flüchtigkeit: Planbare und unplanbare Löschung von Daten sowie limitierter rückwärtsgerichteter Zugriff
4. Volumina: Erhebung und Auswertung; abhängig vom Untersuchungsinteresse und -zeitraum
Vgl. Eble 2013, S. 150ff.; Welker und Wünsch 2010; Zeller und Wolling 2010
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
AUTOMATISCHE SPRACHANALYSE
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Funktionsweise von automatischer Sprachanalyse
Qu
ell
e:
Fra
un
ho
fer
IAIS
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
AVATecH: Advancing Video/Audio Technology in Humanities Research
• Erschließung von unbekannten Sprachen im AV-Archiv des Max-Planck-Instituts für Psycholinguistik
• Herausforderung: Hoher Aufwand für die manuelle Transkription der Audiodaten
• Ziel: Reduktion durch automatische Verfahren und Bereitstellung entsprechender Tools
• Ergebnis : Reduktion des manuellen Aufwandes um bis zu 70 Prozent
• http://tla.mpi.nl/projects_info/avatech/
Vgl. Auer et al. 2010; Masneri et al. 2010; Wittenburg et al. 2010
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
AUVIS: Audio-visuelles Data Mining…
• … am Beispiel der Ereignissegmentierung in multimodalen Sprachdaten
• Automatische Audioanalyse durch
• Suche anhand von Beispielen
• Sprachunabhängige Synchronisation von Text und Tonaufnahmen
• Automatische Gestenanalyse
• http://tla.mpi.nl/projects_info/auvis/
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
AXES: Access to Audiovisual Archives
• Herausforderung: Schwierige Zugänglichkeit von AV-Archiven in Medienorganisationen
• Ziel: Cross-Modal Entity Linking in AV-Daten
• Verfahren: Erkennen von Personen anhand von Sprache und Gesicht sowie Volltextsuche durch Spracherkennung läuft
• http://www.axes-project.eu/
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
LinkedTV: Television linked to the Web
• Ausgangspunkt: Silos von verwandten AV-Inhalten
• Ziel: Inhaltliche Verknüpfung von TV- und Web-Inhalten
• Verfahren: Spracherkennung sowie Fingerprinting zur automatischen Medienresonanzanalyse
• http://www.linkedtv.eu/
Vgl. Bardeli et al. 2012
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Frei verfügbare Tools: EXMARaLDA und ELAN
• EXMARaLDA: Werkzeuge für die computergestützte Transkription und Annotation gesprochener Sprache, sowie für das Erstellen und Auswerten von entsprechenden Korpora. http://www.exmaralda.org/
• ELAN: Software zur Annotation von Audio- und Video-Daten. Annotationen können ein Satz, ein Wort, ein Kommentar, eine Übersetzung oder eine Beschreibung von Eigenschaften sein. http://tla.mpi.nl/tools/tla-tools/elan/
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Übersicht über exemplarische Anbieter von Diensten
Anbieter
Produkt
Exemplarische Leistungsmerkmale Unterstützte
Datentypen
Unterstützte
Sprachen
1 3Play Media
Transcription
Service
Kombination von automatischen und manuellen
Verfahren, um gesprochene Videoinhalte in
zeitsynchrone Text-inhalte umzuwandeln; u. a. für
Untertitel
Digitale Audio-Video-
Daten mit
gesprochener Sprache
(z. B. Nachrichten-
Sendungen,
Dokumentationen,
Reportagen oder
Podcasts)
Englisch,
Französisch,
Spanisch
2 Greenbutton
InCus
Bereitstellen von automatischen Verfahren über
Web-Schnittstellen (API), um gesprochene
Videoinhalte in zeitsynchrone Textinhalte
umzuwandeln
Englisch
3 Ramp
MediaCloud
Bereitstellen von automatischen Verfahren auf einer
Web-Service-Plattform, um z. B. Multimedia Indexing
innerhalb von Microsoft SharePoint zu ermöglichen
Englisch
4 SpeakerText
API & Captionbox
Kombination von automatischen und manuellem
Verfahren, um gesprochene Videoinhalte in
zeitsynchrone Textinhalte umzuwandeln
Englisch
5 VeeSeo
SaaS API
Automatische Verfahren, um gesprochene
Videoinhalte in zeitsynchrone Textinhalte
umzuwandeln
Deutsch
Qu
ell
e:
Eb
le u
nd
Kir
ch 2
012;
Eb
le u
nd
Kir
ch 2
013
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
TRANSFER UND ANSÄTZE FÜR DIE ANALYSE
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Szenarien zur Analyse von audio-visuellen Inhalten
Szenario 1: Semi-automatische Segmentierung und Labeling zur Unterstützung des Browsens in Field Recordings
Szenario 2: Semi-automatisches Labeling von Interviewern und Themen
Interviewer
recordings
J
Annotated field recordings
for quick skimmingSubject
recordings
Audio analysis
Prior knowledge
Unstructured
field recordings
Annotated field recordings
for quick skimming
Audio analysis
Prior knowledge
J
Qu
ell
e:
Fra
un
ho
fer
IAIS
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Szenario 1: Browsen in Field Recordings
ELAN
Unstructured
field recordings
??
Segmentation of
audio stream
Detection of
speech segments
Estimate/Define
number of different
speakers
Selection of some
non-speech segments
Detect individual
speakers
User Feedback
Automatic System
Enables researcher to
skip through segments
Interesting for
concept detection
(interview, single
speaker, ...)
Field recording
metadata
!
Filter non-audio
segments
Determine silence
length
ELAN
Unstructured
field recordings
??
Segmentation of
audio stream
Detection of
speech segments
Estimate/Define
number of different
speakers
Selection of some
non-speech segments
Detect individual
speakers
User Feedback
Automatic System
Enables researcher to
skip through segments
Interesting for
concept detection
(interview, single
speaker, ...)
Field recording
metadata
!
Filter non-audio
segments
Determine silence
length
Qu
ell
e:
Fra
un
ho
fer
2013
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Szenario 2: Analyse von Interviews
ELAN
Unstructured
field recordings
Training statistical
model of a single
speaker
Detection of
speech segments
with speaker
Selection of some
speaker examples
Create subsets of
desired speaker
Create annotation
for desired
speaker
User Feedback
Automatic System
Speaker subset
Field recording
metadata
Annotated
field recordings
!
Enables researcher to
skip to next
interviewer segment
Equals interviewer
removal
Qu
ell
e:
Fra
un
ho
fer
IAIS
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
FAZIT
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Automatische Spracherkennung: Automatisierte Transkription gesprochener Wörter in eine Schriftform zur Erschließung (Speech to Text)
Sprechersegmentierung und -erkennung: Automatisierte Abgrenzung und Identifikation der Personen in audio-visuellen Medieninhalten (Speaker identification)
vgl. Schwenninger et al. 2013
Anwendungen von automatischer Sprachanalyse
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Desiderata bzgl. der automatischen Sprachanalyse
…bezogen auf die Herausforderungen:
Zugänglichkeit und Dezentralität: Software-Werkzeuge zur automatischen Erhebung von audio-visuellen Medieninhalten in Mediatheken und Social-Web-Plattformen unter Berücksichtigung ihrer Bezüge
Flüchtigkeit und Volumina: Software-Werkzeuge zur Automatisierung der Erhebung (im Sinne einer kontinuierlichen Medienbeobachtung) sowie zur automatischen Vorverarbeitung
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
HERZLICHEN DANK!
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Quellen
Auer, E./Russel, A./Sloetjes, H./Wittenburg, P./Schreer, O./Masnieri, S./Schneider, D./ Tschöpel, S. (2010): Elan as flexible annotation framework for sound and image processing detectors. In: Proceedings of the seventh international conference on Language Resources and Evaluation (LREC 2010).
Bardeli, R., Schwenninger, J., & Stein, D. (2012). Audio Fingerprinting for Media Synchronisation and Duplicate Detection. In Media Synchronisation Workshop, Berlin, Germany, October 2012. 4 Seiten.
Donges, P., & Imhof, K.: Öffentlichkeit im Wandel. In: H. Bonfadelli, O. Jarren, & G. Siegert (Hrsg.), Einführung in die Publizistikwissenschaft (2. Auflage, S. 147-175). Bern, Stuttgart, Wien: Haupt.
Eble, Michael & Kirch, Sebastian (2012): Metadaten aus der Cloud: Technologien und Anwendungsfälle der Medienerschließung mittels Software as a Service. In: Bernhard Mittermaier (Hrsg.): Vernetztes Wissen - Daten, Menschen, Systeme. Proceedings zur WissKom 2012 – 6. Konferenz der Zentralbibliothek Forschungszentrum Jülich, S. 135-147.
Eble, Michael & Kirch, Sebastian (2013): Wissenstransfer und Medienerschließung: Werkzeuge für die Integration von Multimedia-Inhalten in das Wissensmanagement. In: Open Journal of Knowledge Management, 7(1), S. 42–46.
Eble, Michael (2013). Medienmarken im Social Web: Wettbewerbsstrategien und Leistungsindikatoren von Online-Medien aus medienökonomischer Perspektive. Berlin u.a.: LIT.
Früh, W. (2007). Inhaltsanalyse: Theorie und Praxis. Konstanz: UVK.
Masneri, S., Schreer, O., Schneider, D., Tschöpel, S., Bardeli, R., Bordag, R., Auer, E., Sloetjes, H., & Wittenburg, P. (2010). Towards semi-automatic annotations for video and audio corpora. In Proceedings of the 4th Workshop on the Representation and Processing of Sign Languages: Corpora and Sign Language Technologies (LREC 2010).
McMillian, S. J. (2000). The Microscope and the moving Target :The Challenge of applying Content Analysis to the World Wide Web. Journalism and Mass Communication Quarterly, 77(1), 80-98.
Neidhardt, F. (1994): Öffentlichkeit, öffentliche Meinung, soziale Bewegungen. In F. Neidhardt (Hrsg.), Öffentlichkeit, öffentliche Meinung, soziale Bewegungen (S. 7-41). Wiesbaden: Westdeutscher Verlag.
Schmidt, J. (2011). Das neue Netz :Merkmale, Praktiken und Folgen des Web 2.0. 2. Auflage. Konstanz :UVK.
Schmidt, J (2013). Onlinebasierte Öffentlichkeiten: Praktiken, Arenen und Strukturen. In C. Fraas, S. Meier, & C. Pentzold, C. (Hrsg.), Online-Diskurse. Theorien und Methoden transmedialer Online-Diskursforschung. Köln: Herbert von Halem Verlag.
Schwenninger, J., Stein, D., & Stadtschnitzer, M. (2013). Automatic Parameter Tuning and Extended Training Material: Recent Advances in the Fraunhofer Speech Recognition System. In Proceedings Workshop Audiosignal- und Sprachverarbeitung, Koblenz, Germany, September 2013. 8 Seiten. [im Erscheinen]
Van Eimeren, B., & Frees, B. (2012). Ergebnisse der ARD/ZDF-Onlinestudie 2012. Media Perspektiven, (7-8), 362-379.
Welker, M, & Wünsch, C. (Hrsg., 2010). Die Online-Inhaltsanalyse. Forschungsobjekt Internet. Köln: Herbert von Halem Verlag.
Wittenburg, P./Auer, E./Sloetjes, H./Schreer, O./Masnieri, S./Schneider, D/Tschöpel, S. (2010): Automatic annotation of media field recordings. In: Proceedings of the forth international Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, 2010.
Zeller, F. , & Wolling, J. (2010). Struktur- und Qualitätsanalyse publizistischer Onlineangebote: Überlegungen zur Konzeption der Online-Inhaltsanalyse. Media Perspektiven, (3), 143-153.
© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Kontakt
Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Abteilung NetMedia
Schloss Birlinghoven
53754 Sankt Augustin
Dr. Michael Eble
Wissenschaftlicher Mitarbeiter
Telefon 00 49 22 41 / 14 34 06
E-Mail [email protected]
WWW www.iais.fraunhofer.de/eble.html