Optionen von automatischer Sprachanalyse für die Untersuchung … · 2013-12-04 · • Verstärkte journalistische Videoproduktion ... & Stein, D. (2012). Audio Fingerprinting for

© Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Optionen von automatischer Sprachanalyse für die Untersuchung von öffentlicher Kommunikation im Internet

Dr. Michael Eble und Dr. Daniel Stein

Vortrag auf der Tagung „Digital Methods – Innovative Ansätze zur Analyse öffentlicher Kommunikation im Internet“

Wien, 8. November 2013


Ziel des Vortrags

…ist es, den methodischen Herausforderungen der Online-Inhaltsanalyse von audio-visuellen Medieninhalten verschiedene Ansätze aus dem Bereich der automatischen Sprachanalyse gegenüberzustellen.


Aufbau des Vortrags

1. Öffentliche Kommunikation im Internet

2. Methodische Herausforderungen

3. Automatische Sprachanalyse

4. Transfer und Ansätze für die Analyse

5. Fazit und Ausblick


ÖFFENTLICHE KOMMUNIKATION IM INTERNET


Öffentliche Kommunikation im Internet

Öffentliche Kommunikation: Gesamtheit aller Kommunikationsvorgänge, die in der Öffentlichkeit stattfinden und Transparenz-, Validierungs- und Orientierungsfunktionen erfüllen

Verschränkung von Öffentlichkeiten: Publizistische Angebote und Anschlusskommunikation sind geprägt von inhaltlich und technisch miteinander vernetzten (audio-visuellen) Medieninhalten

Vgl. Neidhardt 1994, S. 7ff.; Donges/Imhof 2005; Schmidt 2011, 2013; van Eimeren und Frees 2012, S. 371ff


Steigende Bedeutung von audio-visuellen Inhalten

• Verfügbare Korpora an gesprochener Sprache wachsen durch

• Verstärkte journalistische Videoproduktion

• Digitalisierung und Öffnung von Medienarchiven

• User Generated Content auf Social-Web-Plattformen

• Untersuchung mittels (Online-)Inhaltsanalyse

• „systematischen, intersubjektiv nachvollziehbaren Beschreibung inhaltlicher und formaler Merkmale von Mitteilungen“

Früh 2007, S. 27ff.


METHODISCHE HERAUSFORDERUNGEN


Methodische Herausforderungen

1. Zugänglichkeit: Automatischer Zugriff auf audio-visuelle Medieninhalte in Mediatheken und Social-Web-Plattformen

2. Dezentralität: Identifikation und Verarbeitung der Bezüge zwischen Kommunikaten auf verschiedenen Plattformen

3. Flüchtigkeit: Planbare und unplanbare Löschung von Daten sowie limitierter rückwärtsgerichteter Zugriff

4. Volumina: Erhebung und Auswertung; abhängig vom Untersuchungsinteresse und -zeitraum

Vgl. Eble 2013, S. 150ff.; Welker und Wünsch 2010; Zeller und Wolling 2010


AUTOMATISCHE SPRACHANALYSE


Funktionsweise von automatischer Sprachanalyse

Qu

ell

e:

Fra

un

ho

fer

IAIS


AVATecH: Advancing Video/Audio Technology in Humanities Research

• Erschließung von unbekannten Sprachen im AV-Archiv des Max-Planck-Instituts für Psycholinguistik

• Herausforderung: Hoher Aufwand für die manuelle Transkription der Audiodaten

• Ziel: Reduktion durch automatische Verfahren und Bereitstellung entsprechender Tools

• Ergebnis : Reduktion des manuellen Aufwandes um bis zu 70 Prozent

• http://tla.mpi.nl/projects_info/avatech/

Vgl. Auer et al. 2010; Masneri et al. 2010; Wittenburg et al. 2010

https://exchange.iais.fraunhofer.de/owa/redir.aspx?C=Z6zcbYDzoEOxf3tZd3paYCWYQb5rr9AIfaY3rrQtZwiAmF8r3pkDlQH48YW8vLQmjmPEx-OzmQQ.&URL=http://tla.mpi.nl/projects_info/avatech/

https://exchange.iais.fraunhofer.de/owa/redir.aspx?C=Z6zcbYDzoEOxf3tZd3paYCWYQb5rr9AIfaY3rrQtZwiAmF8r3pkDlQH48YW8vLQmjmPEx-OzmQQ.&URL=http://tla.mpi.nl/projects_info/avatech/


AUVIS: Audio-visuelles Data Mining…

• … am Beispiel der Ereignissegmentierung in multimodalen Sprachdaten

• Automatische Audioanalyse durch

• Suche anhand von Beispielen

• Sprachunabhängige Synchronisation von Text und Tonaufnahmen

• Automatische Gestenanalyse

• http://tla.mpi.nl/projects_info/auvis/

https://exchange.iais.fraunhofer.de/owa/redir.aspx?C=Z6zcbYDzoEOxf3tZd3paYCWYQb5rr9AIfaY3rrQtZwiAmF8r3pkDlQH48YW8vLQmjmPEx-OzmQQ.&URL=http://tla.mpi.nl/projects_info/auvis/


AXES: Access to Audiovisual Archives

• Herausforderung: Schwierige Zugänglichkeit von AV-Archiven in Medienorganisationen

• Ziel: Cross-Modal Entity Linking in AV-Daten

• Verfahren: Erkennen von Personen anhand von Sprache und Gesicht sowie Volltextsuche durch Spracherkennung läuft

• http://www.axes-project.eu/

https://exchange.iais.fraunhofer.de/owa/redir.aspx?C=Z6zcbYDzoEOxf3tZd3paYCWYQb5rr9AIfaY3rrQtZwiAmF8r3pkDlQH48YW8vLQmjmPEx-OzmQQ.&URL=http://www.axes-project.eu/





LinkedTV: Television linked to the Web

• Ausgangspunkt: Silos von verwandten AV-Inhalten

• Ziel: Inhaltliche Verknüpfung von TV- und Web-Inhalten

• Verfahren: Spracherkennung sowie Fingerprinting zur automatischen Medienresonanzanalyse

• http://www.linkedtv.eu/

Vgl. Bardeli et al. 2012

https://exchange.iais.fraunhofer.de/owa/redir.aspx?C=Z6zcbYDzoEOxf3tZd3paYCWYQb5rr9AIfaY3rrQtZwiAmF8r3pkDlQH48YW8vLQmjmPEx-OzmQQ.&URL=http://www.linkedtv.eu/


Frei verfügbare Tools: EXMARaLDA und ELAN

• EXMARaLDA: Werkzeuge für die computergestützte Transkription und Annotation gesprochener Sprache, sowie für das Erstellen und Auswerten von entsprechenden Korpora. http://www.exmaralda.org/

• ELAN: Software zur Annotation von Audio- und Video-Daten. Annotationen können ein Satz, ein Wort, ein Kommentar, eine Übersetzung oder eine Beschreibung von Eigenschaften sein. http://tla.mpi.nl/tools/tla-tools/elan/

http://www.exmaralda.org/



http://tla.mpi.nl/tools/tla-tools/elan/





Übersicht über exemplarische Anbieter von Diensten

Anbieter

Produkt

Exemplarische Leistungsmerkmale Unterstützte

Datentypen

Unterstützte

Sprachen

1 3Play Media

Transcription

Service

Kombination von automatischen und manuellen

Verfahren, um gesprochene Videoinhalte in

zeitsynchrone Text-inhalte umzuwandeln; u. a. für

Untertitel

Digitale Audio-Video-

Daten mit

gesprochener Sprache

(z. B. Nachrichten-

Sendungen,

Dokumentationen,

Reportagen oder

Podcasts)

Englisch,

Französisch,

Spanisch

2 Greenbutton

InCus

Bereitstellen von automatischen Verfahren über

Web-Schnittstellen (API), um gesprochene

Videoinhalte in zeitsynchrone Textinhalte

umzuwandeln

Englisch

3 Ramp

MediaCloud

Bereitstellen von automatischen Verfahren auf einer

Web-Service-Plattform, um z. B. Multimedia Indexing

innerhalb von Microsoft SharePoint zu ermöglichen

Englisch

4 SpeakerText

API & Captionbox

Kombination von automatischen und manuellem

Verfahren, um gesprochene Videoinhalte in

zeitsynchrone Textinhalte umzuwandeln

Englisch

5 VeeSeo

SaaS API

Automatische Verfahren, um gesprochene

Videoinhalte in zeitsynchrone Textinhalte

umzuwandeln

Deutsch

Qu

ell

e:

Eb

le u

nd

Kir

ch 2

012;

Eb

le u

nd

Kir

ch 2

013


TRANSFER UND ANSÄTZE FÜR DIE ANALYSE


Szenarien zur Analyse von audio-visuellen Inhalten

Szenario 1: Semi-automatische Segmentierung und Labeling zur Unterstützung des Browsens in Field Recordings

Szenario 2: Semi-automatisches Labeling von Interviewern und Themen

Interviewer

recordings

J

Annotated field recordings

for quick skimmingSubject

recordings

Audio analysis

Prior knowledge

Unstructured

field recordings

Annotated field recordings

for quick skimming

Audio analysis

Prior knowledge

J

Qu

ell

e:

Fra

un

ho

fer

IAIS


Szenario 1: Browsen in Field Recordings

ELAN

Unstructured

field recordings

??

Segmentation of

audio stream

Detection of

speech segments

Estimate/Define

number of different

speakers

Selection of some

non-speech segments

Detect individual

speakers

User Feedback

Automatic System

Enables researcher to

skip through segments

Interesting for

concept detection

(interview, single

speaker, ...)

Field recording

metadata

!

Filter non-audio

segments

Determine silence

length

ELAN

Unstructured

field recordings

??

Segmentation of

audio stream

Detection of

speech segments

Estimate/Define

number of different

speakers

Selection of some

non-speech segments

Detect individual

speakers

User Feedback

Automatic System


skip through segments

Interesting for

concept detection

(interview, single

speaker, ...)

Field recording

metadata

!

Filter non-audio

segments

Determine silence

length

Qu

ell

e:

Fra

un

ho

fer

2013


Szenario 2: Analyse von Interviews

ELAN

Unstructured

field recordings

Training statistical

model of a single

speaker

Detection of

speech segments

with speaker

Selection of some

speaker examples

Create subsets of

desired speaker

Create annotation

for desired

speaker

User Feedback

Automatic System

Speaker subset

Field recording

metadata

Annotated

field recordings

!


skip to next

interviewer segment

Equals interviewer

removal

Qu

ell

e:

Fra

un

ho

fer

IAIS


FAZIT


Automatische Spracherkennung: Automatisierte Transkription gesprochener Wörter in eine Schriftform zur Erschließung (Speech to Text)

Sprechersegmentierung und -erkennung: Automatisierte Abgrenzung und Identifikation der Personen in audio-visuellen Medieninhalten (Speaker identification)

vgl. Schwenninger et al. 2013

Anwendungen von automatischer Sprachanalyse


Desiderata bzgl. der automatischen Sprachanalyse

…bezogen auf die Herausforderungen:

Zugänglichkeit und Dezentralität: Software-Werkzeuge zur automatischen Erhebung von audio-visuellen Medieninhalten in Mediatheken und Social-Web-Plattformen unter Berücksichtigung ihrer Bezüge

Flüchtigkeit und Volumina: Software-Werkzeuge zur Automatisierung der Erhebung (im Sinne einer kontinuierlichen Medienbeobachtung) sowie zur automatischen Vorverarbeitung


HERZLICHEN DANK!


Quellen

Auer, E./Russel, A./Sloetjes, H./Wittenburg, P./Schreer, O./Masnieri, S./Schneider, D./ Tschöpel, S. (2010): Elan as flexible annotation framework for sound and image processing detectors. In: Proceedings of the seventh international conference on Language Resources and Evaluation (LREC 2010).

Bardeli, R., Schwenninger, J., & Stein, D. (2012). Audio Fingerprinting for Media Synchronisation and Duplicate Detection. In Media Synchronisation Workshop, Berlin, Germany, October 2012. 4 Seiten.

Donges, P., & Imhof, K.: Öffentlichkeit im Wandel. In: H. Bonfadelli, O. Jarren, & G. Siegert (Hrsg.), Einführung in die Publizistikwissenschaft (2. Auflage, S. 147-175). Bern, Stuttgart, Wien: Haupt.

Eble, Michael & Kirch, Sebastian (2012): Metadaten aus der Cloud: Technologien und Anwendungsfälle der Medienerschließung mittels Software as a Service. In: Bernhard Mittermaier (Hrsg.): Vernetztes Wissen - Daten, Menschen, Systeme. Proceedings zur WissKom 2012 – 6. Konferenz der Zentralbibliothek Forschungszentrum Jülich, S. 135-147.

Eble, Michael & Kirch, Sebastian (2013): Wissenstransfer und Medienerschließung: Werkzeuge für die Integration von Multimedia-Inhalten in das Wissensmanagement. In: Open Journal of Knowledge Management, 7(1), S. 42–46.

Eble, Michael (2013). Medienmarken im Social Web: Wettbewerbsstrategien und Leistungsindikatoren von Online-Medien aus medienökonomischer Perspektive. Berlin u.a.: LIT.

Früh, W. (2007). Inhaltsanalyse: Theorie und Praxis. Konstanz: UVK.

Masneri, S., Schreer, O., Schneider, D., Tschöpel, S., Bardeli, R., Bordag, R., Auer, E., Sloetjes, H., & Wittenburg, P. (2010). Towards semi-automatic annotations for video and audio corpora. In Proceedings of the 4th Workshop on the Representation and Processing of Sign Languages: Corpora and Sign Language Technologies (LREC 2010).

McMillian, S. J. (2000). The Microscope and the moving Target :The Challenge of applying Content Analysis to the World Wide Web. Journalism and Mass Communication Quarterly, 77(1), 80-98.

Neidhardt, F. (1994): Öffentlichkeit, öffentliche Meinung, soziale Bewegungen. In F. Neidhardt (Hrsg.), Öffentlichkeit, öffentliche Meinung, soziale Bewegungen (S. 7-41). Wiesbaden: Westdeutscher Verlag.

Schmidt, J. (2011). Das neue Netz :Merkmale, Praktiken und Folgen des Web 2.0. 2. Auflage. Konstanz :UVK.

Schmidt, J (2013). Onlinebasierte Öffentlichkeiten: Praktiken, Arenen und Strukturen. In C. Fraas, S. Meier, & C. Pentzold, C. (Hrsg.), Online-Diskurse. Theorien und Methoden transmedialer Online-Diskursforschung. Köln: Herbert von Halem Verlag.

Schwenninger, J., Stein, D., & Stadtschnitzer, M. (2013). Automatic Parameter Tuning and Extended Training Material: Recent Advances in the Fraunhofer Speech Recognition System. In Proceedings Workshop Audiosignal- und Sprachverarbeitung, Koblenz, Germany, September 2013. 8 Seiten. [im Erscheinen]

Van Eimeren, B., & Frees, B. (2012). Ergebnisse der ARD/ZDF-Onlinestudie 2012. Media Perspektiven, (7-8), 362-379.

Welker, M, & Wünsch, C. (Hrsg., 2010). Die Online-Inhaltsanalyse. Forschungsobjekt Internet. Köln: Herbert von Halem Verlag.

Wittenburg, P./Auer, E./Sloetjes, H./Schreer, O./Masnieri, S./Schneider, D/Tschöpel, S. (2010): Automatic annotation of media field recordings. In: Proceedings of the forth international Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, 2010.

Zeller, F. , & Wolling, J. (2010). Struktur- und Qualitätsanalyse publizistischer Onlineangebote: Überlegungen zur Konzeption der Online-Inhaltsanalyse. Media Perspektiven, (3), 143-153.

http://juwel.fz-juelich.de:8080/dspace/bitstream/2128/4699/1/Bibliothek_21.pdf






http://www.community-of-knowledge.de/beitrag/wissenstransfer-und-medienerschliessung-werkzeuge-fuer-die-integration-von-multimedia-inhalten-in-d/




Kontakt

Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Abteilung NetMedia

Schloss Birlinghoven

53754 Sankt Augustin

Dr. Michael Eble

Wissenschaftlicher Mitarbeiter

Telefon 00 49 22 41 / 14 34 06

E-Mail [email protected]

WWW www.iais.fraunhofer.de/eble.html

mailto:[email protected]

http://www.iais.fraunhofer.de/eble.html

Documents

Optionen von automatischer Sprachanalyse für die Untersuchung … · 2013-12-04 · • Verstärkte journalistische Videoproduktion ... & Stein, D. (2012). Audio Fingerprinting for