31
Metadaten – Struktur, Analyse, Suchsystematik Ergebnisse Focus Group 2 Dr. Harald Sack Hasso-Plattner-Institut für Softwaresystemtechnik Universität Potsdam cinearchive digital, 25. März 2009

Metadaten - eine (extrem) kurze Einführung

Embed Size (px)

DESCRIPTION

Präsentation vom Abschlusskongress des Projekts 'Cinearchiv digital' im fx.center Babelsberg am 25.3.2009.

Citation preview

Page 1: Metadaten - eine (extrem) kurze Einführung

Metadaten – Struktur, Analyse, SuchsystematikErgebnisse Focus Group 2

Dr. Harald Sack

Hasso-Plattner-Institut für Softwaresystemtechnik

Universität Potsdam

cinearchive digital, 25. März 2009

Page 2: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

2

Metadaten Struktur, Analyse, Suchsystematik Ergebnisse Focus Group 2

InhaltTeil I: Dr. Harald Sack, HPI Potsdam

1. Metadaten - eine kurze Einführung

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse

Teil II: Prof. Dr. Angela Schreyer, FH Potsdam

3. Metadaten in Videoportalen im Vergleich

Teil III: Dr. Patrick Ndjiki-Nya, HHI Berlin

4. Automatische Audio-/Videoanalyse zur Metadatengewinnung

Page 3: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

Hasso Plattner Institut für IT Systems EngineeringUniversität Potsdam

• im Oktober 1998 im Rahmen einer Public Private Partnership gegründet

• An-Institut der Universität Potsdam

• zwei universitäre Informatik-Studiengänge IT Systems Engineering mitAbschlüssen

• Bachelor of Science (6 Semester) und

• Master of Science (4 Semester)

• 10 Professuren und 438 Studenten (WS08/09)

• 284 Bachelor Studenten

• 154 Master Studenten

3

Page 4: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

4

Teil 1: Dr. Harald Sack, HPI Potsdam

1. Metadaten - eine kurze Einführung

1.1 Motivation

1.2 Metadaten Definitionen

1.3 strukturierte vs. unstrukturierte Metadaten

1.4 semantische Metadaten

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse

2.1 Teilnehmer

2.2 Metadaten Bedarfsanalyse

2.3 cinearchiv digital Metadaten Schema

Page 5: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.1 Motivation

Wie findet man etwas in einem audiovisuellen Archiv?

• Damit audiovisuelle Daten einer computergestützten gezielten Suche zugänglich werden, müssen Beschreibungen, Schlüsselwörter, etc. üblicherweise Textform vorliegen.

5

Page 6: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.1 Motivation

Wie findet man etwas in einem audiovisuellen Archiv?

6

automatische inhaltliche Analyse ist • schwierig und• berechnungs-/speicheraufwändig

Marlene Dietrich ????????

„...ich bin von Kopf bis Fuß...“

{

Page 7: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.1 Motivation

7 Wie findet man etwas in einem audiovisuellen Archiv? • Suche in traditionellen

(textbasierten) Medien

• Digitalisierung, Texterfassung, Texterkennung und Suche ist bereits auf hohem Niveau möglich und skalierbar

• Suche in audiovisuellen Medien

• Digitalisierung

• Erschließung

• manuell

• automatisiert

• zusätzliche Dimension (Zeit)

Page 8: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.1 Motivation

8 Wie findet man etwas in einem audiovisuellen Archiv? • Fazit: Wir benötigen textuelle Beschreibungen

• des Inhalts

• des Produktionsprozesses

• der technischen Parameter

• etc....

Metadaten

Page 9: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

9

Teil 1: Dr. Harald Sack, HPI Potsdam

1. Metadaten - eine kurze Einführung

1.1 Motivation

1.2 Metadaten Definitionen

1.3 strukturierte vs. unstrukturierte Metadaten

1.4 semantische Metadaten

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse

2.1 Teilnehmer

2.2 Metadaten Bedarfsanalyse

2.3 cinearchiv digital Metadaten Schema

Page 10: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.2 Metadaten Definitionen

10 Metadaten

„Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia)

„Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985)

„Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C)

Page 11: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.2 Metadaten Definitionen

11 Metadaten• einfaches Beispiel: Bücher und bibliografische Metadaten

Identifikation über• ISBN / ISSN• Autor(en)• Titel• ...

Klassifikation über• Kategorien• Schlüsselwörter• Abstract / Zusammenfassung• ...

Page 12: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

12

Teil 1: Dr. Harald Sack, HPI Potsdam

1. Metadaten - eine kurze Einführung

1.1 Motivation

1.2 Metadaten Definitionen

1.3 strukturierte vs. unstrukturierte Metadaten

1.4 semantische Metadaten

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse

2.1 Teilnehmer

2.2 Metadaten Bedarfsanalyse

2.3 cinearchiv digital Metadaten Schema

Page 13: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten

13 Strukturierte Metadaten• bestehen aus Name-Werte Paaren (Autor = „Böll, Heinrich“)

• sind typisiert (Autor ist vom Typ „Zeichenkette“)

• Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung(z.B. Standardisierung bei Cublin Core)

• Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt

des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren

oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder

Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das

Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt

des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).....

Page 14: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten

14 Strukturierte Metadaten• können hierarchisch strukturiert werden (Taxonomie)

Tierreich (Animalia)

Wirbeltiere

Mensch (Homo)

Moderner Mensch (Homo sapiens)

Menschenartige (Hominidae)

Primaten

Säugetiere (Mammaliae)

Mehrzeller (Eukaria)

Page 15: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten

15 Strukturierte Metadaten• Klassifikationssysteme

• z.B. Dewey Decimal System

DDC 22 (2003)• 4 Bände• 4000 Seiten• 45.000 Klassen• 96.000 Registerbegriffe

Hauptklassen000 Inf.-Wiss., allg. Werke100 Philosophie200 Religion300 Sozialwissenschaften400 Sprachen500 Naturwissenschaften600 Technik (Angew. Wiss.)700 Künste800 Literatur900 Geschichte

DDC 1 (1876)• 44 Seiten

Page 16: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten

16 Unstrukturierte Metadaten• als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet,

deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) inhalt.

• Bsp.: Inhaltsangabe/abstract

Josef von Sternbergs Geschichte vom Fall eines bigotten Kleinbürgers gehört zu den größten Leistungen des deutschen Films überhaupt - ein stilistisch brillanter, vom Expressionismus beeinflusster Klassiker mit 'starmaking quality'. 'Der blaue Engel' machte Marlene Dietrich berühmt und begründete zugleich ein Rollenprofil, das auch ihre späteren amerikanischen Arbeiten mit Sternberg prägen sollte: das der Verführerin, die gewissermaßen ihrer eigenen Sinnlichkeit ausgeliefert ist....

Page 17: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten

17 Autoritative vs. nicht-autoritative Metadaten• Autoritative Metadaten

stammen von einer zuverlässigen (autoritativen) Quelle, wie z.B.

• dem Autor der Original-Daten

• einem ausgewiesenen Experten

• Nicht-autoritative Metadatenstammen von einer prinzipiell unzuverlässigen Quelle, wie z.B.

• den Benutzern

• prominentes Beispiel: Social Tagging Systeme

Page 18: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten

18 Kollaborative Annotation -- Social Tagging

AutorRessource

Benutzer

autoritativeMetadaten

Apfel

Frucht

nicht-autoritativeMetadaten

Apfel

apple

Obst

Frühstück

kaufen

Page 19: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.3 strukturierte vs. unstrukturierte Metadaten

19 Kollaborative Annotation -- Social Tagging

Page 20: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

20

Teil 1: Dr. Harald Sack, HPI Potsdam

1. Metadaten - eine kurze Einführung

1.1 Motivation

1.2 Metadaten Definitionen

1.3 strukturierte vs. unstrukturierte Metadaten

1.4 semantische Metadaten

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse

2.1 Teilnehmer

2.2 Metadaten Bedarfsanalyse

2.3 cinearchiv digital Metadaten Schema

Page 21: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.4 semantische Metadaten

21 Semantische Metadaten• sind strukturierte/unstrukturierte Metadaten

• Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie) und daher maschinenlesbar (und maschinenverstehbar)

"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“

(Thomas R. Gruber, 1993)

Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante

Begriffe, Beziehungen)

Explizit: Bedeutungen aller Begriffe definiert

Formal: maschinenverstehbar

Gemeinsam: Konsens bzgl. Ontologie

Page 22: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.4 semantische Metadaten

22 Semantische Metadaten• Beispiel

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

Springer Verlag

ist ein

HaraldSack

ist eine

Digitale Kommunikation

ist ein

1..n

1..n

Mann

Frauist eine

ist eine

Page 23: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.4 semantische Metadaten

23 Semantische Metadaten• erlauben die Festlegung formaler Axiome

• z.B. „Es ist nicht möglich, dass das Publikationsdatum vor dem Geburtsdatum eines Autors der Publikation liegt.“

• erlauben das Ziehen von Schlussfolgerungen

• z.B. Alle Menschen sind sterblich. Sokrates ist ein Mensch. Daher ist Sokrates sterblich.

• Daher ist es mit semantischen Metadaten möglich, implizit vorhandenes Wissen, explizit zu machen

Page 24: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

1. Metadaten - eine kurze Einführung1.4 semantische Metadaten

24 Semantische Metadaten für Audiovisuelle Daten

ZeitMetadaten

Metadaten

Metadaten

Metadaten Metadaten

Metadaten

z.B. bibliografische Daten, geografische Daten, enzyklopädische Daten, ....

Page 25: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

25

Teil 1: Dr. Harald Sack, HPI Potsdam

1. Metadaten - eine kurze Einführung

1.1 Motivation

1.2 Metadaten Definitionen

1.3 strukturierte vs. unstrukturierte Metadaten

1.4 semantische Metadaten

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse

2.1 Teilnehmer

2.2 Metadaten Bedarfsanalyse

2.3 cinearchiv digital Metadaten Schema

Page 26: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse2.1 Teilnehmer

26 Focus Group 2 - Metadaten•ArchivInForm GmbH

•Bundesarchiv-Filmarchiv

•DEFA Stiftung

•Deutsches Musikarchiv

•Deutsche Nationalbibliothek

•Deutsches Rundfunkarchiv

•Fachhochschule Potsdam

•Fraunhoher Intelligente Analyse- und Informationssysteme

•Grundy UFA

•Fraunhofer Institut für Nachrichtentechnik, Heinrich-Hertz

•Hasso-Plattner-Institut für IT Systems Engineering

•Hochschule für Film und Fernsehen "Konrad Wolf"

•In2 search interfaces developement Ltd.

Page 27: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse2.2 Metadaten Bedarfsanalyse

27 Metadaten -Bedarfsanalyse• zu klärende Fragen

• aktuelle Entwicklungen im Audio-/Video-Mining

• Hilfsmittel für Archivare

• Fortschreitende Automatisierung, wo befinden wir uns?

• Metadatenstandards?

• automatische und semi-automatische Erschließung

• Feststellung Status Quo

Ausgangspunkt und Diskussionsgrundlage:Statuspapier zur Metadatenerfassung

Page 28: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse2.2 Metadaten Bedarfsanalyse

28 Metadaten -Bedarfsanalyse• Arbeitsgrundlage: definierte Anforderungen der Focus Groups 1 und 3

• Focus Group 1:

• Digitalisierung erfolgt durchweg in HD

• Focus Group 3:

• In einer zu realisierenden Anwendung sollen nach folgenden Entitäten gesucht werden können

• Personen

• Orte

• Gebäude / Landmarks

• Ereignisse

Page 29: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse2.3 Cinearchiv Digital Metadaten Schema

29 Metadaten Schema• hierarchischer Aufbau

• Kollektion / Sammlung

• Einzelmedium

• Mediensegment

• weitere Untergliederung der Metadaten in

• strukturelle, deskriptive Metadaten

• inhaltsbezogene Metadaten

• inhaltliche Metadaten für Kollektionen / Einzelmedien können aus Metadaten für Mediensegmente erschlossen werden.

Page 30: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

30

Teil 1: Dr. Harald Sack, HPI Potsdam

1. Metadaten - eine kurze Einführung

1.1 Motivation

1.2 Metadaten Definitionen

1.3 strukturierte vs. unstrukturierte Metadaten

1.4 semantische Metadaten

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse

2.1 Teilnehmer

2.2 Metadaten Bedarfsanalyse

2.3 cinearchiv digital Metadaten Schema

Page 31: Metadaten - eine (extrem) kurze Einführung

cinearchiv digital, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam 23. Mai 2009

31

Metadaten Struktur, Analyse, Suchsystematik Ergebnisse Focus Group 2

InhaltTeil I: Dr. Harald Sack, HPI Potsdam

1. Metadaten - eine kurze Einführung

2. Focus Group 2 - Teilnehmer und Arbeitsergebnisse

Teil II: Prof. Dr. Angela Schreyer, FH Potsdam

3. Metadaten in Videoportalen im Vergleich

Teil III: Dr. Patrick Ndjiki-Nya, HHI Berlin

4. Automatische Audio-/Videoanalyse zur Metadatengewinnung