28
Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von AV-Medien

Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

Embed Size (px)

Citation preview

Page 1: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

Dr. Sven StrobelDPG - Arbeitsgruppe Information

18. März 2015, Berlin

Content Mining des TIB|AV-PortalsAutomatische Analyse und Verschlagwortung von AV-Medien

Page 2: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

22

Content Mining des TIB|AV-Portals

1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals

Inhalt

Page 3: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

3

Profil• Medienspezifisches Portal für wissenschaftliche Videos aus Technik & Naturwissenschaften• Automatische Videoanalyse mit Szenen-, Sprach-, Text- und Bilderkennung

av.getinfo.de

1. TIB|AV-Portal

Entwicklung: KNM und HPI (2011-2014)

Online-Gang: 29. April 2014

Zielgruppe• Wissenschaftler, Lehrende, Lernende

Inhalte• Videos aus Forschung und Lehre (Technik & Naturwissenschaften) • 2700 Videos / 1900 Filmnachweise (Feb. 2015)• Das Meiste unter Open Access

Page 4: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

44

Content Mining des TIB|AV-Portals

1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals

Inhalt

Page 5: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

55

2. Sammlungsprofil

• AV-Medien aus Wissenschaft und Lehre zu den Kernfächern der Technischen Informationsbibliothek:

• Architektur• Chemie• Informatik• Mathematik• Physik• Technik

Page 6: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

66

Sammlungsprofil

• Aus den genannten Fachgebieten werden u.a. folgende Materialien gesammelt:

• Aufzeichnungen von Konferenzbeiträgen, Vorlesungen und Podiumsdiskussionen

• Aufzeichnungen von Experimenten aus Forschung und Entwicklung

• Interviews• Massive Open Online Courses (MOOCs)• Dokumentationen von Forschungsarbeiten und -ergebnissen• filmische Vorstellungen von 3D-Modellen (z.B. aus Architektur)• Modellierung, Simulationen und Vorstellung von Spezialsoftware

Materialien

Page 7: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

77

Content Mining des TIB|AV-Portals

1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals

Inhalt

Page 8: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

8

3. Automatische VideoanalyseÜberblick über Prozesskette

• Zitierung und permanente Verlinkung• visuelles Inhaltsverzeichnis / zielgenauer Zugriff• Suche im geschriebenen Text des Videos

• Suche im gesprochenen Text des Videos

• Suche nach Bildmotiven

• Suche nach semantisch verknüpften Schlagworten

Ingest: AV-Medien + manuelle Metadaten 3.1 DOI-Vergabe 3.2 Szenenerkennung

3.3 Texterkennung

3.4 Spracherkennung

3.5 Bilderkennung

4. Named Entity Recognition

Page 9: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

9

3.1 DOI-VergabeDOI und MFI

Der Digital Object Identifier (DOI)

• … ist ein eindeutiger und permanenter digitaler Identifikator für Objekte wie z.B. AV-Medien.

• … wird durch den DOI-Service der TIB vergeben.

Verlinkung und Zitierung des gesamten Videodokuments

Der Media Fragment Identifier (MFI)

• … wird dem DOI hinzugefügt, um Teile des Videos zu adressieren.

Verlinkung und Zitierung einzelner Sekunden des Videos

Page 10: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

10

3.1 DOI-Vergabe

DOI

MFI

Page 11: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

11

3.2 Szenenerkennung

visuelles Inhaltsverzeichnis: Überblick über den Inhalt des Videos

• Shot Boundary Detection segmentiert das Video anhand von Bildmerkmalen in einzelne Segmente.

zielgenauer Zugriff auf Videoinhalt

Page 12: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

12

3.2 Szenenerkennung

Automatische Erkennung eines Schnittes anhand von

Kopf, S. (2006): Computergestützte Inhaltsanalyse von digitalen Videoarchiven. Dissertation, Mannheim.

• Helligkeit / Kontrast• Farbverteilung• Kanten

Page 13: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

13

3.2 Szenenerkennung

visuelles Inhaltsverzeichnis

zielgenauer Zugriff

Page 14: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

14

3.3 Texterkennung

Volltextsuche in den geschriebenen Texten des Videos (Texteinblendungen, Vorlesungsfolien …)

• Optical Character Recognition (OCR) indexiert geschriebene Sprache im Video und macht sie somit durchsuchbar.

Page 15: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

15

3.3 TexterkennungTexteinblendung

Page 16: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

16

3.3 TexterkennungVorlesungsfolie

Page 17: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

17

3.4 Spracherkennung

Volltextsuche im gesprochenen Text des Videos

• Speech to Text notiert die gesprochene Sprache im Video in Form eines Transkripts.

Page 18: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

18

3.4 Spracherkennung

Page 19: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

19

3.5 Bilderkennung

Suche nach Bildmotiven wie z.B. Computeranimation, Experiment oder Mikroskopie

• Visual Concept Detection indexiert das Bewegtbild mit fächerübergreifenden und fachspezifischen visuellen Konzepten.

Manuell annotierte Keyframes

Liegt Konzept vor?

Keyframe

Falls ja

„Experiment“

Verschlagwortung des Labels

Training

Klassifikator, Label „Experiment“

Page 20: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

20

3.5 Bilderkennung

Page 21: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

2121

Content Mining des TIB|AV-Portals

1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals

Inhalt

Page 22: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

22

4. Automatische Verschlagwortung der AV-Medien

• Named Entity Recognition: Zuordnung von Begriffen eines Referenzvokabulars auf analysierte Textinhalte.

Named Entity Recognition

GND = Gemeinsame Normdatei

63.000 GND-Sachbegriffe

Referenzvokabular

OCR-TranskriptOCR-Transkript

OCR-Transkript

OCR-Transkript

SprachtranskriptSprachtranskript

SprachtranskriptSprachtranskript

Analysierte Textinhalte

Page 23: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

23

Named Entity RecognitionMapping der GND-Sachbegriffe

disambiguiereThermodynamik

Kontext

finde Mapping-Kandidaten im OCR-

/Sprachtranskript

ThermodynamikThermodruckThermoanalyseThermoanzugThermeThermalbad...

ThermodynamikWärmelehreWärmetheorie…

Bezeichner

http://d-nb.info/gnd/4059827-5

Page 24: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

24

Verschlagwortung auf Segmentebene

Page 25: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

2525

Vorteile der automatischen Verschlagwortung

1. GND-Sachbegriffe werden als Indexterme verwendetstandardisierte Erschließung mit kontrolliertem Vokabular

zielgenaue Suche innerhalb des Videos

höhere Precision (Genauigkeitsrate) im Retrieval

2. GND-Sachbegriffe werden zeitbezogen entsprechend der Videosegmentierung zugewiesen

3. GND-Sachbegriffe werden fachbezogen zugewiesen (z.B. Physikvokabular für Physikvideos)

4. GND-Sachbegriffe stehen in semantischen Beziehungen zueinanderErweiterung der Treffermenge durch Einbezug von Synonymen, Ober- und Unterbegriffen

Page 26: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

2626

Content Mining des TIB|AV-Portals

1. TIB|AV-Portal2. Sammlungsprofil3. Automatische Videoanalyse4. Automatische Verschlagwortung der AV-Medien5. Mehrwert des Portals

Inhalt

Page 27: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

2727

5. Mehrwert des TIB|AV-Portals

Rezipienten Produzenten

• Innovative Suchmöglichkeiten• Mehrsprachige Suche• Segmentgenauer Zugriff• Segmentgenaues Zitieren • Herunterladen, Bestellen, Lizenzieren• Einbetten auf anderen Webseiten • Empfehlungen

• Video-Upload• Hosting • Qualitätsprüfung• Standardisierte Erschließung• Sprachtranskription• DOI-Vergabe• Langzeitarchivierung• Rechtssicherheit

Page 28: Dr. Sven Strobel DPG - Arbeitsgruppe Information 18. März 2015, Berlin Content Mining des TIB|AV-Portals Automatische Analyse und Verschlagwortung von

Vielen Dank für Ihre Aufmerksamkeit!