176
Metadaten für Medienarchive Dr. Harald Sack Hasso-Plattner-Institut Softwaresystemtechnik GmbH Universität Potsdam 09. April 2014 Mittwoch, 9. April 14

Metadaten für Medienarchive

Embed Size (px)

DESCRIPTION

Archivseminar "Metadaten für Medienarchive" vom 9. April 2014, Potsdam.

Citation preview

Page 1: Metadaten für Medienarchive

Metadatenfür Medienarchive

Dr. Harald SackHasso-Plattner-Institut Softwaresystemtechnik GmbH

Universität Potsdam09. April 2014

Mittwoch, 9. April 14

Page 2: Metadaten für Medienarchive

2

Metadaten für MedienarchiveDr. Harald Sack

• 1990 Dipl.-Inform., Universität der Bundeswehr, München• 2002 Dr. rer. nat., Universität Trier• 2003 PostDoc, Universität Jena• 2009 Senior Researcher, Hasso Plattner Institut, Universität Potsdam

Mittwoch, 9. April 14

Page 3: Metadaten für Medienarchive

http://hpi.uni-potsdam.de/

Hasso Plattner Institute für IT Systems EngineeringUniversität Potsdam

Mittwoch, 9. April 14

Page 4: Metadaten für Medienarchive

• Research Topics• Semantic Web Technologies• Knowledge Engineering• Knowledge Mining• Multimedia Analysis & Retrieval• Information Retrieval• Data/Information Visualization

• Research Projects:

Hasso Plattner Institut für IT Systems EngineeringSemantic Technologies & Multimedia Retrieval Research Group

Mittwoch, 9. April 14

Page 6: Metadaten für Medienarchive

http://semex.hpi.uni-potsdam.de/semex/

Mittwoch, 9. April 14

Page 7: Metadaten für Medienarchive

7

C. Hentschel, H. Sack, et al., Open up cultural heritage in video archives with mediaglobe, I2CS 2012

http://semex.hpi.uni-potsdam.de/semex/

Mittwoch, 9. April 14

Page 8: Metadaten für Medienarchive

Mittwoch, 9. April 14

Page 9: Metadaten für Medienarchive

Kurze Vorstellungsrunde

• Name, Organisation

• Erfahrung(en) mit Metadaten?

• Erwartung(en) an das Seminar?

Mittwoch, 9. April 14

Page 10: Metadaten für Medienarchive

Metadaten für Medienarchive

Mittwoch, 9. April 14

Page 11: Metadaten für Medienarchive

Metadaten für Medienarchive

Agenda

•Einführung ins Thema

•Metadatenstandards

•semantische Metadaten

•Linked (Open) Data

•Beispiele

Mittwoch, 9. April 14

Page 12: Metadaten für Medienarchive

Mittwoch, 9. April 14

Page 13: Metadaten für Medienarchive

13

Wie kann ich etwas finden...?Mittwoch, 9. April 14

Page 14: Metadaten für Medienarchive

14

Wie kann ich etwas wiederfinden...?Mittwoch, 9. April 14

Page 15: Metadaten für Medienarchive

Turmbau zu Babel, Pieter Brueghel, 1563

Wie beschaffen wir uns eigentlich Informationen....?

Mittwoch, 9. April 14

Page 16: Metadaten für Medienarchive

Turmbau zu Babel, Pieter Brueghel, 1563

16

•Wie beschaffen wir uns eigentlich Informationen über Dinge?

•...über abstrakte Konzepte?

•...etwa über ein Buch?

ⓒ Harald Sack

•...über einen Film?

ⓒ Friedrich Murnau Stiftung

Information und wie man sie findet

Mittwoch, 9. April 14

Page 17: Metadaten für Medienarchive

17

Wir schlagen einfach unter dem jeweiligen NAMEN nach...

Mittwoch, 9. April 14

Page 18: Metadaten für Medienarchive

18

•...Wir schlagen einfach unter den entsprechenden Namen nach

„Rache / Revenge“„Brave New World“

ⓒ Harald Sack

„Der blaue Engel“

ⓒ Friedrich Murnau Stiftung

Information und wie man sie findet

Mittwoch, 9. April 14

Page 19: Metadaten für Medienarchive

19

Brave New World

siehe auch Schöne neue Welt Welt wohin? : ein Roman der Zukunft

Wackere neue Welt : ein Roman der Zukunft

kontrolliertes Vokabular

Information und wie man sie findet•...früher ging man in die Bibliothek

Mittwoch, 9. April 14

Page 20: Metadaten für Medienarchive

20

Information und wie man sie findet•...früher ging man in die Bibliothek

Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“

II 1, 2506, 34548

Metadaten

Identifier/Locator

Mittwoch, 9. April 14

Page 21: Metadaten für Medienarchive

21

Information und wie man sie findet

http://www.worldcat.org

•...heute geht man ins WWW

Mittwoch, 9. April 14

Page 22: Metadaten für Medienarchive

22

Information und wie man sie findet

http://www.worldcat.org

•...heute geht man ins WWW

Mittwoch, 9. April 14

Page 23: Metadaten für Medienarchive

Wie finde ich etwas in einem Medienarchiv?

Mittwoch, 9. April 14

Page 24: Metadaten für Medienarchive

24Was sind

Metadaten?

Mittwoch, 9. April 14

Page 25: Metadaten für Medienarchive

25„Metadaten sind Daten, die Informationen über andere Daten enthalten“ und „Metadaten werden benötigt, um in der Lage zu sein, einen bestimmten Zweck zu erfüllen (oder) ein bestimmtes Ergebnis zu erreichen“ (informelle Definition, Wikipedia)

„Metadaten sind strukturierte, kodierte Daten, die Charakteristika informationstragender Entitäten beschreiben, zum Zweck der Identifikation, Recherche, Beurteilung und der Verwaltung der damit beschriebenen Entitäten.“ (W.R. Durell, 1985)

„Metadaten sind maschinenlesbare Informationen über elektronische Ressourcen oder andere Dinge“ (W3C)

Metadaten

Mittwoch, 9. April 14

Page 26: Metadaten für Medienarchive

Warum Metadaten?• Zugang zu Informationen/Objekten ermöglichen• Automatische Verarbeitung• Interoperabilität• Datenaustausch und Datenintegration• Sichtbarkeit erhöhen

(z.B. Search Engine Optimization)• ...

Mittwoch, 9. April 14

Page 27: Metadaten für Medienarchive

•Einfaches Beispiel:bibliografische Metadaten

27

Identifikation überISBN / ISSNAutor(en)Titel...

Klassifikation überKategorienSchlüsselwörterAbstract / Zusammenfassung...

Mittwoch, 9. April 14

Page 28: Metadaten für Medienarchive

Metadatenarten

28

Grundlegende Metadatenarten im Dokumentenmanagement. vgl. Schütz (2004) Dokumentenmanagement S. 340.

Mittwoch, 9. April 14

Page 29: Metadaten für Medienarchive

Metadatenarten

29

Formen von Metadaten. vgl. Stock (2008) Wissensrepräsentation S. 123 ff.

Mittwoch, 9. April 14

Page 30: Metadaten für Medienarchive

Charakteristika von Metadaten

30

Charakteristika und Eigenschaften von Metadaten. vgl. Gilliland (2008) Setting the Stage S. 9 ff.

Mittwoch, 9. April 14

Page 31: Metadaten für Medienarchive

Funktionale Einteilung von Metadaten

31

kashyap und Sheth (1998)

Mittwoch, 9. April 14

Page 32: Metadaten für Medienarchive

Ausprägungsformen von Metadaten32

• strukturierte Metadaten• strukturierte typisierte Metadaten• unstrukturierte Metadaten• semantische Metadaten bzw.

semantisch annotierte Metadaten• autoritative Metadaten• nicht-autoritative Metadaten• kollaborativ erstellte Metadaten• ...

Mittwoch, 9. April 14

Page 33: Metadaten für Medienarchive

33

• Title: Namen des Objekts. • Creator: Personen, Organisationen oder Dienste, die in erster Linie für den Inhalt des Objekts verantwortlich sind, z.B. Autorinnen oder Autoren. • Subject: Thema (topic) des Objekts, typischerweise Stichwörter, Deskriptoren oder Elemente eines Klassifikationssystems. • Description: Beschreibung des Inhalts des Objekts als Text, z.B. als Abstract oder Inhaltsverzeichnis. • Publisher: Personen oder Organisationen, die dafür verantwortlich sind, das Objekt zugänglich zu machen. • Contributor: Personen oder Organisationen, die wesentliche Beiträge zum Inhalt des Objekts geleistet haben, aber nicht unter Creator genannt sind (Herausgebende, Übersetzerinnen, Illustratoren).

....

Strukturierte Metadaten

•bestehen aus Name-Werte Paaren (Autor = “Böll, Heinrich“)

•sind typisiert (Feld “Autor“ ist vom Typ Zeichenkette)

•Semantik strukturierter Daten beruht auf gemeinsamer Vereinbarung (z.B. Standardisierung bei Dublin Core)

Mittwoch, 9. April 14

Page 34: Metadaten für Medienarchive

34

Tierreich (Animalia)

Wirbeltiere

Mensch (Homo)

Moderner Mensch (Homo sapiens)

Menschenartige (Hominidae)

Primaten

Säugetiere (Mammaliae)

Mehrzeller (Eukaria)

Strukturierte Metadaten

•können hierarchisch strukturiert werden (Taxonomie)

Tierreich (AnimaliaWirbeltiere

Mensch (Homo)

Moderner Mensch (Homo sapiens)

Menschenartige (Hominidae)

Primaten

Säugetiere (Mammaliae)

Mehrzeller (Eukaria)

Mittwoch, 9. April 14

Page 35: Metadaten für Medienarchive

35

Hauptklassen000 Inf.-Wiss., allg. Werke100 Philosophie200 Religion300 Sozialwissenschaften400 Sprachen500 Naturwissenschaften600 Technik (Angew. Wiss.)700 Künste800 Literatur900 Geschichte

DDC 23 (2011)•4 Bände•4000 Seiten•45.000 Klassen•96.000 Registerbegriffe

DDC 1 (1876)•44 Seiten

Strukturierte Metadaten

• Klassifikationssystemez.B. Dewey Decimal System

Mittwoch, 9. April 14

Page 36: Metadaten für Medienarchive

Unstrukturierte Metadaten

• als unstrukturierte Metadaten werden textuelle Metadaten bezeichnet, deren Semantik nicht durch vorherige Vereinbarung festgelegt ist, sondern durch ihren (natürlichsprachlichen) Inhalt.

• Bsp.: Inhaltsangabe/abstract

36

Über die Entstehung der Arten von Charles Darwin (englisch: On the Origin of Species), veröffentlicht am 24. November 1859, ist ein wissenschaft l iches Buch, das als grundlegendes Werk der Evolutionsbiologie gilt. Sein vollständiger Titel lautet: On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Als 1872 die sechste Auflage, das war die letzte von Darwin selbst bearbeitete, erschien, wurde der Kurztitel zu: The Origin of Species abgeändert. Darwin stellte in seinem Buch die wissenschaftliche Theorie vor, dass sich Populationen von Lebewesen im Laufe von Generationen durch den Prozess der natürlichen Selektion evolutionär verändern. Er lieferte zahlreiche Belege für die Vorstellung, dass die Vielfalt der heute existierenden Organismen von gemeinsamen Vorfahren abstammt. Auf Darwins Reise mit der HMS Beagle in den 1830er Jahren sammelte er erste Hinweise für seine Vorstellungen und vermehrte diese später durch Experimente und wissenschaftliche Korrespondenz....

Mittwoch, 9. April 14

Page 37: Metadaten für Medienarchive

37

Autoritative vs. nicht-autoritative Metadaten

• Autoritative Metadatenstammen von einer zuverlässigen (autoritativen) Quelle, wie z.B. • dem Autor der Original-Daten• einem ausgewiesenen Experten

Mittwoch, 9. April 14

Page 38: Metadaten für Medienarchive

38

Autoritative vs. nicht-autoritative Metadaten

• Nicht-autoritative Metadatenstammen von einer prinzipiell unzuverlässigen Quelle, wie z.B.• den Benutzern• prominentes Beispiel: Social

Tagging Systeme

Mittwoch, 9. April 14

Page 39: Metadaten für Medienarchive

39

AutorRessource

Benutzer

autoritative Metadaten

Apfel

Frucht

Apfel

apple

Obst

Frühstück

kaufen

Kollaborative Annotation -- Social Tagging

© E.C. Publications, Inc.

nicht-autoritative Metadaten

Mittwoch, 9. April 14

Page 40: Metadaten für Medienarchive

40

Kollaborative Annotation -- Social Tagging

http://www.wordle.net/

Mittwoch, 9. April 14

Page 41: Metadaten für Medienarchive

Metadaten für Medienarchive

Agenda

•Einführung ins Thema

•Metadatenstandards

•semantische Metadaten

•Linked (Open) Data

•Beispiele

Mittwoch, 9. April 14

Page 42: Metadaten für Medienarchive

Standardisierung

Mittwoch, 9. April 14

Page 43: Metadaten für Medienarchive

Warum Standards?

Standards steigern die Effizienz • Automatisierung• Modularisierung • Qualitätssicherung• Vergleichbarkeit• Interoperabilität• ...

Mittwoch, 9. April 14

Page 44: Metadaten für Medienarchive

Warum Standards?

Standards können aber auch zu ungewünschter Konformität führen...Mittwoch, 9. April 14

Page 45: Metadaten für Medienarchive

... gibt es für fast jeden Zweck, Funktion, Domäne oder Community...

AGLS, APPM, DACS, EAC-CPF, EAD, GILS, ISAAR(CPF), ISAD(G), RAD

DTD, LCC, LCSH, MARC, MARCXML, METS, MIX, MODS,

OAI-PMH, OAIS, PB Core, PREMIS, SGML, SRU, TGM I, TGM II, TGN,

XML, XML Schema, XPath, XQuery, XSLT

AES Core Audio, Atom, CIDOC/CRM, DC, DCAM, FGDC/CSDGM, FOAF, FRAD, FRBR, FRSAD, ISO 19115, Linked Data,

OAI-ORE, QDC, RDF, RELAX NG,

RSS, SKOS, TEI, Topic Maps, VRA

Core, XOBIS

AACR2, AAT, ADL, CanCore, CDWA,

CDWA Lite, DDC, DwC, GEM,

IEEE/LOM, indecs, ISBD, KML,

MADS, MESH, METS Rights,

MPEG-7, ODRL, RDA, SMIL,

TextMD, ULAN, VSO Data

Model, XMP, XrML, Z39.50

ADL, AES Core Audio,

AES Process History, Atom, BISAC,

DIF, DIG35, DTD, FOAF, ID3, KML, Linked Data,

MathML, MO, MPEG-21 DIDL, MPEG-7, MusicXML, MXF, NewsML,

OAIS, ODRL, ONIX, Ontology for Media Resource, PRISM, RDF, RELAX NG, RSS,

SCORM, SKOS, SMIL, Topic Maps, XML, XML Schema, XMP,

XPath, XQuery, XrML, XSLT

AACR2, AGLS, CQL, DDC, FRAD, FRBR, FRSAD, GILS, ISBD, LCC, LCSH, MADS, MARC, MARC Relator Codes, MARCXML, MESH, METS, MIX, MODS, OAI-PMH, OAIS, OpenURL, PREMIS, RDA, Sears List of Subject Headings, SRU, SWAP, TEI, TextMD, TGM I, TGM II, VRA Core, XML, XML Schema, XOBIS, XPath, XSLT, Z39.50

AAT, CCO, CDWA, CDWA Lite, CIDOC/CRM, MuseumDat, SPECTRUM, TGN, ULAN` DTD, OAI-PMH, VRA

Core, XML, XMLSchema, XPath, XQuery, XSLT

AES Core Audio, AES Process History, CanCore, CCO, DC, DCAM, DTD, FGDC/CSDGM, GEM, IEEE/LOM, MEI, METS Rights, OAI-ORE, PB Core, QDC, RDF, SGML, TGN, XQuery

DC, DCAM, EML, FGDC/CSDGM, GEM, GML,

IEEE/LOM, indecs, ISO 19115, OAI-ORE, QDC, SGML, VSO Data

Model

GILS, MEI, MESH, OAI-PMH, SWAP, TEI

AGLS, CanCore, CQL, DwC, FRBR, LCSH, METS, MIX, PREMIS, SRU

APPM, Atom, CDWA, CDWA Lite, CIDOC/CRM, DACS, DwC, EAC-CPF, EAD, EML, FOAF, indecs, ISAAR(CPF), ISO 19115, Linked Data,

MPEG-21 DIDL, ONIX, RELAX NG, RSS, SKOS, Topic Maps, ULAN

AAT, ADL, DIF, ID3, ISAD(G), KML, MPEG-7, MusicXML, MXF, ODRL, RAD, SMIL, VSO Data Model, XMP, XRML

AACR2, AES Core Audio, AES Process

History, APPM, CanCore, DACS,

DDC, DwC, EAC-CPF, EAD,

FGDC/CSDGM, FRBR, GEM,

IEEE/LOM, ISAAR(CPF), ISAD(G),

ISO 19115, KML, LCC, LCSH, MADS, MARC

Relator Codes, MESH, METS, METS Rights,

MPEG-7, ODRL, PB Core, RAD, RDA,

RELAX NG, SMIL, SRU, TEI, TextMD, XMP,

XOBIS, XrML, Z39.50

Atom, DC, DCAM, FOAF, indecs, Linked Data, MIX, MODS, OAI-ORE, OAIS, PREMIS, QDC, RDF, RSS, SGML, SKOS, TGM I, TGM II, Topic Maps

Archives

Information

Industry

Libraries

Museums

Cultural ObjectsVisual

Resources

Geospatial

Data

Moving

Images Musical

Materials

Scholarly

Texts

AAT, CCO, CDWA, CDWA Lite,

CIDOC/CRM, DC, DTD, METS, MIX, MPEG-21 DIDL, MuseumDat, OAI-PMH,

Ontology for Media Resource, QDC, SPECTRUM, TGN, ULAN, VRA Core, XML, XML Schema, XPath, XSLT

APPM, DACS, DCAM, EAC-CPF, indecs, Linked

Data, MADS, MARC Relator Codes, METS Rights, MODS,

OAIS, PREMIS, RAD, RDF, RELAX NG, SGML, SKOS, SRU, XQuery

Atom, DDC, EAD, ISAAR(CPF),

ISAD(G), ISBD, LCC, LCSH, MARC,

MARCXML, OAI-ORE, ODRL, PB

Core, RDA, RSS, SCORM, Sears List of Subject Headings, Topic Maps, XrML, Z39.50

AGLS, CanCore, FRBR, GEM, IEEE/LOM, MPEG-7, SMIL, TGM I, TGM II, XOBIS

Strong

Semi-StrongSemi-Weak

Weak

Strong

Semi-Strong

Semi-Weak

Strong

Semi-Stro

ng

Semi-Weak

Weak

DC, DIF, DTD,

EML, METS, MPEG-21 DIDL, OAIS, QDC, VSO Data Model, XML,

XML Schema, XPath, XSLT

AGLS, DCAM, Linked Data, METS Rights, OAI-ORE, OAI-PMH, ODRL, PREMIS, RDF, RELAX NG, SGML, SKOS, SRU, XQuery, XrML

Atom, DwC, GILS, indecs,

MODS, RSS, SCORM,

Topic Maps, Z39.50

CanCore, DDC, EAC-CPF, FRBR, GEM, IEEE/LOM,

ISAAR(CPF), ISBD, LCC, MADS, MARC, MARC

Relator Codes, MARCXML, MathML,

Ontology for Media Resource, TGN, XMP,

XOBIS

DC, DTD, FGDC/CSDGM,

GML, ISO 19115, KML,

OAIS, QDC, TGN, XML, XML

Schema, XPath, XSLT

AGLS, DCAM, EML, Linked Data, METS, METS Rights, MPEG-21

DIDL, OAI-PMH, ODRL, PREMIS, RDF, RELAX NG, SGML, SKOS,

SRU, XQuery, XrML

CanCore, DDC, EAC-CPF, FRBR, GEM,

IEEE/LOM, ISAAR(CPF), ISBD, LCC, LCSH, MADS, MARC, MARC Relator

Codes, MARCXML, Ontology for Media Resource, Sears List of Subject Headings, XMP, XOBIS

DatasetsDC, DTD, FRBR, LCSH,

METS, MPEG-21 DIDL, MXF, Ontology for

Media Resource, PB Core, QDC, XML,

XML Schema, XPath, XSLT,

Z39.50

AACR2, CanCore, DCAM, DDC, GEM, IEEE/LOM, indecs, ISBD, LCC, Linked Data, MADS, MARC, MARC Relator Codes, MARCXML, METS Rights, MODS, MPEG-7, MuseumDat, NewsML, OAI-PMH, OAIS, ODRL, PREMIS, RAD, RDA, RDF, RELAX NG, Sears List of Subject Headings, SGML, SKOS, SMIL, SRU, XMP, XOBIS, XQuery, XrML

AGLS, APPM, Atom, CIDOC/CRM, DACS, EAC-CPF, EAD,

ISAAR(CPF), ISAD(G), OAI-ORE, RSS, SCORM, TGN, Topic Maps

ADL, AES Core Audio, AES Process History,

DC, DTD, FRBR, ID3, LCSH, MEI, METS, MO,

MPEG-21 DIDL, MusicXML, MXF,

Ontology for Media Resource, PB Core,

QDC, XML, XML Schema, XPath,

XSLT, Z39.50

AACR2, DCAM, DDC, indecs, ISBD, LCC, Linked

Data, MADS, MARC, MARC Relator Codes, MARCXML, METS

Rights, MODS, OAI-PMH, OAIS, ODRL, PREMIS, RAD, RDA, RDF,

RELAX NG, Sears List of Subject Headings, SGML, SKOS, SMIL, SRU,

XOBIS, XQuery, XrML

AGLS, APPM, Atom, CIDOC/CRM, DACS, EAC-CPF, EAD,

ISAAR(CPF), ISAD(G), MPEG-7, OAI-ORE, RSS, SCORM, Topic Maps

CanCore, GEM, IEEE/LOM, MIX, MuseumDat, TGN, XMP

DC, DTD, ISBD, LCSH, MESH,

METS, MPEG-21 DIDL, OAI-ORE, OAI-PMH,

OAIS, ONIX, OpenURL, QDC, SRU, SWAP, TEI,

TextMD, XML, XML Schema, XPath,

XSLT, Z39.50

AACR2, AGLS, Atom,

BISAC, DACS, DCAM, DDC, FRBR, indecs, LCC,

Linked Data, MADS, MARC, MARC Relator Codes, METS Rights, MODS,

PREMIS, PRISM, RDF, RELAX NG, RSS, Sears List of Subject

Headings, SGML, SKOS, XMP, XOBIS, XQuery, XrML

CanCore, EAC-CPF, EAD, GEM,

IEEE/LOM, ISAAR(CPF), ISAD(G), MARCXML, ODRL,

Ontology for Media Resource, SCORM, TGN,

Topic Maps

MathML, MIX

AAT, CCO, CDWA, CDWA Lite,

DC, DIG35, DTD, METS, MIX, MPEG-21 DIDL, OAI-PMH,

OAIS, Ontology for Media Resource, PB Core, QDC, SRU, TGM I, TGM II, TGN, ULAN,

VRA Core, XML, XML Schema, XPath, XSLT, Z39.50

AACR2, CanCore, CIDOC/CRM, DCAM, GEM,

IEEE/LOM, indecs, ISBD, Linked Data, MADS, MARC Relator Codes, METS

Rights, MODS, MPEG-7, MuseumDat, NewsML, ODRL, PREMIS, RAD,

RDA, RDF, RELAX NG, SGML, SKOS, SMIL, XMP, XOBIS,

XQuery, XrML

AGLS, APPM, Atom, DACS, EAC-CPF, EAD, ISAAR(CPF), ISAD(G), LCSH, MARC, MARCXML, OAI-ORE, RSS, SCORM, Sears List of Subject Headings, Topic Maps

DDC, FRBR, LCC

DomainAtom, DwC, GILS,

indecs, MODS, OAI-ORE, RSS, SCORM, Topic Maps,

Z39.50 Seeing Standards: Domain refers to the types of materials the standard is intended to be used with or could potentially be useful for. The specific categories represented here are not intended to be exhaustive, nor are they mutually exclusive; rather, they are focused on some common material types that are managed by cultural heritage and other information organizations.

Cultural Objects refers to works of art, architecture, and other creative endeavor.

Datasets refers to collections of primary data, largely before interpretive activities have taken place. They may be collected by scientific instruments, or through research activities in the sciences, social sciences, humanities, or other disciplines.

Geospatial Data refers to information relevant to geographic location, either as the data about geographic places themselves or the relationship of a resource to a specific location.

Moving Images refers to resources expressed as film, video, or digital moving images.

Musical Materials refers to resources expressing music in any form, including as audio, notation, and moving image.

Scholarly Texts refers to resources produced as part of a research or scholastic process, and includes both book-length and article-length material.

Visual Resources refers to material presented in fixed visual form. These materials may be either artistic or documentary in nature.

Community refers to the groups that currently or potentially use the standard. Those that originated a standard or who are the primary audiences are stronger matches, while those that could use the standard effectively but do not frequently do so are weaker matches.

Libraries refers to those organizations that collect and preserve both primary and secondary material in support of research, scholarship, teaching, and leisure. Academic, public, special, and corporate libraries are included here.

Archives refers to those organizations that collect and preserve the natural outputs of the daily work of individuals and other organizational entities, including traditional records management processes. Their emphasis is frequently on the context of the creation of the materials and their relationship to one another.

Museums refers to those organizations that collect and preserve artifacts from a given field with an emphasis on their curation and interpretation. Art, science, natural history, and many other types of museums are included here.

Information Industry refers to the diverse organizations that make up both the public and the commercial Web. Technologies that support inventory and knowledge management, e-commerce, and the workings of the Internet are included here.

Community

AATArchives

Libra

r ies

Museum

s

Controlle

d Vocabula

ry

Descrip

tive M

eta

data

Cultural Objects

Vis

ua

l Reso

urc

es

CCO

Libra

ries

Museum

s

Cultural Objects

Vis

ua

l Reso

urc

es C

onte

nt

Sta

ndard

Contro

l led V

ocabulary

Descrip

tive M

eta

data

CDWA LiteR

ights Metadata

Structural Metadata

Descrip

tive M

eta

data

Record F

ormat

Structure Standard

Cultural Objects

Vis

ua

l Reso

urc

es

Libra

ries

Museum

s

Archives

AACR2Lib

rari

es

Museum

s

Archives

Moving Im

ages

Musical M

aterials

Sch

ola

rly Texts

Vis

ual R

esourc

es

Technical Metadata

Rights M

etadata

Structural Metadata

Descrip

tive M

eta

data

Conte

nt

Sta

ndard

Contro

l led V

ocabulary

DACSLib

rarie

s

Museum

s

Archives

Moving Im

ages

Musical M

aterials

Scholarly Texts

Vis

ual R

esourc

es

Cultural Objects Conte

nt

Sta

ndard

Descriptive Metadata

Rights M

etadata

DublinCore Technical MetadataR

ights Metadata

Structural Metadata

Descrip

tive M

eta

data

Conte

nt Sta

ndard

Contro

l led V

ocabulary

Record Format

Structure Standard

Movin

g Im

ages

Music

al M

ate

rials

Schola

rly T

exts

Vis

ua

l Re

so

urc

es

Cultural Objects

Datasets

Geospatial Data

Archives

Informatio

n Industry

Lib

rari

esM

useu

ms

EADLib

rarie

s

Museum

s

Archives

Moving Im

ages

Musical M

aterials

Schola

rly Texts

Vis

ual R

esourc

es Cultural Objects

Record F

ormat

Structure Standard

Mark

up L

anguage

Rights M

etadata

Structural Metadata

Descrip

tive M

eta

data

FOAFDescrip

tive M

eta

data

Record F

ormat

Structure Standard

Archives

Info

rmatio

n Industr

y

Lib

rari

es

Mu

seu

ms

FRBRArchives

Info

rmatio

n Industry

Lib

rari

es

Mu

seu

ms

Movin

g Im

ages

Music

al M

ate

rials

Scholarly Texts

Vis

ual R

esourc

es

Cultural Objects

Geospatial Data Datasets Conceptu

al M

odel

Technical Metadata

Structural Metadata

Descrip

tive M

eta

data

LCSHDescrip

tive M

eta

data

Controlle

d Vocabula

ry

Movin

g Im

ages

Music

al M

ate

rials

Scholarly Texts

Vis

ual R

esourc

es

Cultural Objects

Geospatial Data

Archives

Info

rmatio

n Industry

Lib

rari

es

Museum

s

MADSLib

rari

es

Museum

s

Archives

Moving Im

ages

Musical M

aterials

Scholarly Texts

Visu

al Reso

urces

Cultural Objects Datasets

Geospatial Data Record F

ormat

Structure Standard

Descrip

tive M

eta

data

MARCTechnical Metadata

Rights M

etadata

Structural Metadata

Descrip

tive M

eta

data

Conte

nt Sta

ndard

Record F

ormat

Structure Standard

Moving Im

ages

Musical M

aterials

Scholarly Texts

Vis

ual R

eso

urc

es

Cultural Objects

Geospatial Data Datasets

Libra

ries

Archives

MARCXML Technical MetadataR

ights Metadata

Structural Metadata

Descrip

tive M

eta

data

Conte

nt Sta

ndard

Record F

ormat

Structure Standard

Moving Im

ages

Musical M

aterialsV

isu

al R

eso

urc

es

Cultural Objects

Geospatial Data Datasets

Libra

ries

Archives

Scholarly Texts

METSArchives

Info

rmatio

n Industry

Museum

s

Lib

rari

es

Movin

g Im

ages

Music

al M

ate

rials

Schola

rly T

exts

Vis

ua

l Re

so

urc

es

Cultural Objects

Datasets

Geospatial Data Record

Form

at

Structure Standard

Structural Metadata

Metadata W

rappers

MIXArchives

Info

rmatio

n Industry

Mu

seu

ms

Lib

rari

es

Music

al M

ate

rials

Schola

r ly T

exts

Vis

ua

l Re

so

urc

es

Cultural Objects C

ontrol le

d Vocabula

ry

Record F

ormat

Structure Standard

Technical MetadataPreservation M

etadata

MODSArchives

Mu

seu

ms

Libra

ries

Moving Im

ages

Musical M

aterials

Scholarly Texts

Visu

al Reso

urces

Cultural Objects Datasets

Geospatial Data Conte

nt Sta

ndard

Contro

l led V

ocabulary

Record F

ormat

Structure Standard

Technical MetadataR

ights Metadata

Structural Metadata

Descrip

tive M

eta

data

OAI-PMHDescrip

tive M

eta

data

Fra

mew

ork

/Technolo

gy

Moving Im

ages

Musical M

aterials

Schola

rly T

exts

Vis

ua

l Re

so

urc

es

Cultural Objects

Datasets

Geospatial Data

Archives

Info

rmatio

n Industr

y

Lib

rari

es

Mus

eum

s

OAI-OREStructural Metadata

Descrip

tive M

eta

data

Record F

ormat

Structure Standard

Fra

mew

ork

/Technolo

gy

Movin

g Im

ages

Music

al M

ate

rials

Schola

rly T

exts

Vis

ual R

eso

urc

es

Cultural Objects

Datasets

Geospatial Data

Archives

Informatio

n Industry

Lib

rari

es

Mu

seu

ms

A Visualization of the Metadata Universe

Weak

Content: Jenn RileyDesign: Devin Becker

Work funded by the Indiana University Libraries’ White Professional Development Award

Copyright 2009-2010 Jenn Riley

This work is licensed under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 United States License

<http://creativecommons.org/licenses/by-nc-sa/3.0/us/>.

The sheer number of metadata standards in the cultural heritage sector is overwhelming, and their inter-relationships further complicate the situation. This visual map of the metadata landscape is intended to assist planners with the selection and implementation of metadata standards.

Each of the 105 standards listed here is evaluated on its strength of application to defined categories in each of four axes: community, domain, function, and purpose. The strength of a standard in a given category is determined by a mixture of its adoption in that category, its design intent, and its overall appropriateness for use in that category.

The standards represented here are among those most heavily used or publicized in the cultural heritage community, though certainly not all standards that might be relevant are included. A small subset of the standards plotted on the main visualization also appear as highlights above the graphic. These represent the most commonly known or discussed standards for cultural heritage metadata.

StrongConnection

Semi-StrongConnection

Semi-WeakConnection

WeakConnection

The standards listed closest to the center

of a sliver are those that are most strongly

connected to the given category.

Strength of Standard’s connection

indicated byFont Size

&Color

Saturation

Summary and Purpose

LEGEND TEIR

ights Metadata

Structural Metadata

Descrip

tive M

eta

data

Technical Metadata

Mark

up L

anguage

Conte

nt Sta

ndard

Record Format

Scho

larly Texts

Archives

Info

rmatio

n Ind

ustry

Lib

rari

es

Museum

s

Font Size=

Star’s strength for given category

Stars represent those standards that are used

most often.

Strong connection

Semi-Strong connection

http://www.dlib.indiana.edu/~jenlrile/metadatamap/seeingstandards.pdf

Metadatenstandards

Mittwoch, 9. April 14

Page 46: Metadaten für Medienarchive

Typen und Notation von Metadatenstandards

Typen von StandardsStruktur-Semantik-Standards standardisieren Struktur und Bedeutung von Metadatenelementen(z.B. DC, MARC, FOAF, RAK-WB, REM, FRBR, RDA)

Normdaten standardisieren die Bezeichnung von Inhalten(z.B. PND, LCSH, DDC, UDC)

Protokolle regeln Abruf/Austausch von Metadaten(z.B. HTTP, Z39.50, SRU, OAI, SPARQL)

TXT

CSV

XML

RDF

OWL

Notationsform

Gra

d m

asch

inelle

r Int

erpr

etier

bark

eit

Mittwoch, 9. April 14

Page 47: Metadaten für Medienarchive

NormdatenGND: Gemeinsame Norm Dateien

/ 106

■Normdatei für Personen, Körperschaften, Kongresse, Geografika, Sachschlagwörter und Werktitel, vor allem zur Erschließung von Literatur in Bibliotheken, zunehmend aber auch von Archiven, Museen, etc.■Herausgegeben von der Deutschen Nationalbibliothek

□ 4.628.000 Personennamen (nicht individualisiert, keine Typ-Angabe)□ 2.882.000 Personen (individualisiert, Typ p)□ 1.172.000 Körperschaften (Typ k)□ 587.000 Kongresse (Typ v)□ 293.000 Geografika (Typ g)□ 202.000 Sachbegriffe (Typ s)□ 193.000 Werke (Typ w)

□Online Abfrage via Bibliotheksservice-Zentrum Baden Württemberghttp://swb.bsz-bw.de/DB=2.104/□ vergleichbar mit Library of Congress Name Authority File (LCNAF)

47

Mittwoch, 9. April 14

Page 48: Metadaten für Medienarchive

/ 10648

NormdatenGND: Gemeinsame Normdateien

Mittwoch, 9. April 14

Page 49: Metadaten für Medienarchive

/ 106

UDC: Universale Dezimalklassifikation

■ virtuelle internationale Normdatei für Personendaten ■ Gemeinschaftsprojekt von 25 Nationalbibliotheken und Bibliotheksverbünde,■ betrieben durch Online Computer Library Center (OCLC)

49

NormdatenVIAF: Virtual International Authority File

• Bibliotheca Alexandrina, Ägypten• National Library of Australia, Australien• Open VLACC, Belgien• Dansk BiblioteksCenter (DBC), Dänemark• Deutsche Nationalbibliothek, Deutschland• Bibliothèque nationale de France, Frankreich• Système universitaire de documentation, Frankreich• The National Library of Israel, Israel• Istituto Centrale per il Catalogo Unico, Italien• Nationale Parlamentsbibliothek, Japan• Library and Archives Canada, Kanada• Lettische Nationalbibliothek, Lettland• BIBSYS, Norwegen• Biblioteka Narodowa, Polen• Narodowy Uniwersalny Katalog (NUKAT), Polen• Biblioteca Nacional de Portugal, Portugal• Königliche Bibliothek zu Stockholm, Schweden

• Schweizerische Nationalbibliothek, Schweiz• RERO, Schweiz• Biblioteca Nacional de España, Spanien• Biblioteca de Catalunya, Spanien• Nationalbibliothek der Tschechischen Republik, Tschechien• Széchényi-Nationalbibliothek, Ungarn• Getty Research Institute, USA• Library of Congress, USA• Biblioteca Apostolica Vaticana, Vatikan• National- und Universitätsbibliothek Zagreb, Kroatien• Königliche Bibliothek der Niederlande, Niederlande• Lebanese National Library, Libanon• Russische Staatsbibliothek, Russland• National Library Board, Singapur• Perseus Project, Vereinigte Staaten• Syriac Reference Portal• International Standard Name Identifier

http://www.viaf.org

Mittwoch, 9. April 14

Page 50: Metadaten für Medienarchive

/ 106

NormdatenDDC: Dewey Decimal Classification

■ 10 Haupttafeln,

■ Alle untergeordneten Klassen erfüllen die Merkmale ihrer Eltern

■ Deutsche variante: http://melvil.d-nb.de/melvilsearch?bs=dnb-portal ■ http://dewey.info (SPARQL Endpoint + Doku)

50

000 Informatik, Informationswissenschaft, allgemeine Werke 100 Philosophie und Psychologie 200 Religion 300 Sozialwissenschaften 400 Sprache 500 Naturwissenschaften und Mathematik 600 Technik, Medizin, angewandte Wissenschaften 700 Künste und Unterhaltung 800 Literatur 900 Geschichte und Geografie

Mittwoch, 9. April 14

Page 51: Metadaten für Medienarchive

/ 106

UDC: Universale Dezimalklassifikation

■ Prinzip der Facettenklassifikation >> +68.000 Klassennamen und Facetten□ Haupttafeln: Hierarchien wie DDC□ Hilfstafeln: Facettierende Elemente

(Sprache, Form, Ort, Abstammung, Zeit und Materialeigenschaften)□ Symbole: Syntax für Verknüpfung von Facetten und Klasse

□ http://www.udcc.org/udcsummary/php/index.php

51

NormdatenUDC: Universelle Dezimalklassifikation

Mittwoch, 9. April 14

Page 52: Metadaten für Medienarchive

Dublin Core

•Metadatenstandards

OAI-OREIPTC

MPEG-7

MPEG-21

BBC SMEF

SMPTE 377MTV-Anytime

REM

EADCIDOC-CRM

FIAF Cataloging Rules

Cinematographic Works Standard

VRA Core

UNESCO Thesaurus

GND DDC

UDC

LCSHLCC

MARC

RDA

MAB

MODS

MXF P_MetaDMS-1BMF

Mittwoch, 9. April 14

Page 53: Metadaten für Medienarchive

/ 10653

to be continued...Mittwoch, 9. April 14

Page 54: Metadaten für Medienarchive

Metadaten für Medienarchive

Agenda

•Einführung ins Thema

•Metadatenstandards

•semantische Metadaten

•Linked (Open) Data

•Beispiele

Mittwoch, 9. April 14

Page 55: Metadaten für Medienarchive

55

„People can‘t share knowledge if they don‘t speak a common language“Thomas Davenport (1997)

Turmbau zu Babel, Pieter Brueghel, 1563Mittwoch, 9. April 14

Page 56: Metadaten für Medienarchive

56

Wahrheiten(Truths)

Annahmen(Beliefs)

Wissen(Knowledge)

Klassische Definition:„Wissen ist eine Teilmenge aller wahren Annahmen“

Was ist Wissen?

Mittwoch, 9. April 14

Page 57: Metadaten für Medienarchive

57

Semantische Metadaten

Mittwoch, 9. April 14

Page 58: Metadaten für Medienarchive

58

Semantische Metadaten

• sind strukturierte/unstrukturierte Metadaten• Semantik (Bedeutung) der Metadaten ist formal definiert (Ontologie)

und daher maschinenlesbar (und maschinenverstehbar)

Mittwoch, 9. April 14

Page 59: Metadaten für Medienarchive

59

3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik

Raffael: Die Schule von Athen, 1510-11

Ontologie(n)

ein kleiner Exkurs...Mittwoch, 9. April 14

Page 60: Metadaten für Medienarchive

60

Raffael: Die Schule von Athen, 1510-11Christian Wolff: Philosophia prima sive Ontologia, 1729

• ον [griech.] Partizip zu „sein“ λογια [griech.] Lehre

Begriffsbestimmung

„Philosophische Disziplin, die sich primär mit dem Sein, dem Seienden als solchem und mit den fundamentalen Typen von Entitäten beschäftigt...“ (wikipedia)

• „wie sind die Dinge als solches (an sich)?“

allgemeine Metaphysik⇳

Erkenntnistheorie (Epistemologie)

Mittwoch, 9. April 14

Page 61: Metadaten für Medienarchive

61

3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik

Raffael: Die Schule von Athen, 1510-11

Aristoteles(384-322 v. Chr)

Platon(427-347 v. Chr)

Sokrates(470-399 v. Chr)

Verstand/Vernunft

Ideen Gegenstände

Sinneswahrnehmung(empeiria)

Wiedererinnerung(anamnesis)

unveränderlichunvergänglich

Urbild

veränderlichvergänglich

Abbildnach http://upload.wikimedia.org/wikipedia/commons/7/7d/Platon_Ideenlehre.svgMittwoch, 9. April 14

Page 62: Metadaten für Medienarchive

62

3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik

Raffael: Die Schule von Athen, 1510-11

Platon(427-347 v. Chr)

(Abbildung aus: Osborne, Philosophie - Eine Bildergeschichte für Einsteiger)

Platons Höhlengleichnis• aus Platons ,Politeia‘, 7. Buch, entstanden um ca. 370 v. Chr.

Mittwoch, 9. April 14

Page 63: Metadaten für Medienarchive

63

3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik

Raffael: Die Schule von Athen, 1510-11

Aristoteles(384-322 v. Chr)

Aristoteles stellt ein System von Kategorien auf zur Klassifikation aller Dinge, über die Aussagen getroffen werden können

Aristotelische Kategorienlehre

Mittwoch, 9. April 14

Page 64: Metadaten für Medienarchive

64

3. Wissensrepräsentation und Logik3.1 Ontologien in Philosophie und Informatik

Raffael: Die Schule von Athen, 1510-11

Aristoteles(384-322 v. Chr)

Aristoteles stellt ein System von Kategorien auf zur Klassifikation aller Dinge, über die Aussagen getroffen werden können

Aristotelische Kategorienlehre

Mittwoch, 9. April 14

Page 65: Metadaten für Medienarchive

65

Semantische MetadatenOntologien

"An ontology is an explicit, formal specification of a shared conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what ‘exists’ is that which can be represented.“

(Thomas R. Gruber, 1993)

Konzeptualisierung: abstraktes Modell (Domäne, identifizierte relevante

Begriffe, Beziehungen)

Explizit: Bedeutungen aller Begriffe definiert

Formal: maschinenverstehbar

Gemeinsam: Konsens bzgl. Ontologie

Mittwoch, 9. April 14

Page 66: Metadaten für Medienarchive

Semantische MetadatenSemiotisches Dreieck

66

Symbol Gegenstandsteht für

„Golf“

ruft hervor referenziert

Konzept

verwendengemeinsames Konzept

Ogden, Richards, semiotisches Dreieck, 1923

Mittwoch, 9. April 14

Page 67: Metadaten für Medienarchive

67

Publikation

Buch

ist eine

Zeitschrift

ist eine

Verlag verlegt

• Titel• Schlüsselwörter• ...

Eigenschaften

Autorverfasst

wird verfasstvon

Personist eine

Adresse

hat eine

• Nachname• Vorname• Straße...

Eigenschaften

Springer Verlag

ist ein

HaraldSack

ist eine

Digitale Kommunikationist ein

1..n

1..n

Mann

Frauist eine

ist eine

Semantische Metadaten

Mittwoch, 9. April 14

Page 68: Metadaten für Medienarchive

68 • erlauben die Festlegung formaler Axiome• z.B. „Es ist nicht möglich, dass das Publikationsdatum

vor dem Geburtsdatum eines Autors der Publikation liegt.“

• erlauben das Ziehen von Schlussfolgerungen• z.B. „Alle Menschen sind sterblich.“

„Sokrates ist ein Mensch.“ „Daher ist Sokrates sterblich.“

Raffael: Die Schule von Athen, 1510

Semantische Metadaten

Mittwoch, 9. April 14

Page 69: Metadaten für Medienarchive

6916

Ontologietypen

Mittwoch, 9. April 14

Page 70: Metadaten für Medienarchive

allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)

Domain Ontology Task Ontology

spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.

Application Ontology

(nach Guarino,1998)

grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.

grundlegende Konzepte bezogen auf eine generische Domäne.

Top-Level Ontology(Upper Ontology,

Foundation Ontology)

Ontologietypen und -kategorien

Mittwoch, 9. April 14

Page 71: Metadaten für Medienarchive

7116 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)

(nach Guarino,1998)

Domain Ontology Task Ontology

spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.

Application Ontology

grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.

grundlegende Konzepte bezogen auf eine generische Domäne.

Top-Level Ontology(Upper Ontology,

Foundation Ontology)

Ontologietypen und -kategorien

Mittwoch, 9. April 14

Page 72: Metadaten für Medienarchive

7216 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)

Domain Ontology Task Ontology

spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.

Application Ontology

(nach Guarino,1998)

grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.

grundlegende Konzepte bezogen auf eine generische Domäne.

Top-Level Ontology(Upper Ontology,

Foundation Ontology)

Ontologietypen und -kategorien

Mittwoch, 9. April 14

Page 73: Metadaten für Medienarchive

7316 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)

Domain Ontology Task Ontology

spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.

Application Ontology

(nach Guarino,1998)

grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.

grundlegende Konzepte bezogen auf eine generische Domäne.

Top-Level Ontology(Upper Ontology,

Foundation Ontology)

Ontologietypen und -kategorien

Mittwoch, 9. April 14

Page 74: Metadaten für Medienarchive

Ontologietypen und -kategorien

7416 allgemeine, bereichsübergreifende Ontologien (beschreibt sehr generelle Konzepte wie z.B. Zeit, Raum,Vorgang unabhängig von einer bestimmten Domäne oder Problemstellung.)

Domain Ontology Task Ontology

spezielle, auf eine konkret fokussierte Domäne oderAufgabe zugeschnittene Ontologie, die in der Regel eine Domain und/oder Task Ontologie spezialisieren.

Application Ontology

(nach Guarino,1998)

grundlegende Konzepte bezogen auf eine allgemeine Aktivität oder Aufgabe.

grundlegende Konzepte bezogen auf eine generische Domäne.

Top-Level Ontology(Upper Ontology,

Foundation Ontology)

Mittwoch, 9. April 14

Page 75: Metadaten für Medienarchive

lightweight ontologies heavyweight ontologies

kontrolliertesVokabular

(nach Lassila/McGuinnes, 2001)

Thesauri

Begriffe/Glossar

informalesist-ein

formalesist-ein

formaleInstanz

Frames

Wert-Restriktionen

Allg.logische

Constraints

Disjunktheit,Inverses,Part-of…

Ausdruckstärke +-

Ontologietypen und -kategorien

Mittwoch, 9. April 14

Page 76: Metadaten für Medienarchive

Terminologien und Vokabulare

Mittwoch, 9. April 14

Page 77: Metadaten für Medienarchive

Datenbank

Ordnungssystem

• Terminologische Kontrolle: löst Bedeutungsvielfalt durch Hierarchie o. TypisierungBank (Sitzgelegenheit) vs. Bank (Finanzinstitut)

• Vokabularkontrolle: führt Benennungsvielfalt durch Äquivalenzrelation zusammenalte oder neue Rechtschreibung, Singular/Plural, Sprache, Dialekt ...

Terminologien und Vokabulare

Mittwoch, 9. April 14

Page 78: Metadaten für Medienarchive

• Kontrolliertes Vokabular:endliche Liste von Begriffen (z.B. Kataloge)

• Glossar: eine endliche Liste von Begriffen und deren zugehörige Bedeutung, formuliert in natürlicher Sprache (informal).

• Thesauri: [griech. „Schatz, Schatzhaus“]Kontrolliertes Vokabular, dessen Begriffe durch Relationen miteinander verbunden sind.

• Äquivalenz (Synonyme)• Hierarchien (Ober-, Unterbegriffe)• Homographien (Homonyme)• Assoziationen (ähnliche Begriffe)

Ontologietypen und -kategorien

Mittwoch, 9. April 14

Page 79: Metadaten für Medienarchive

Thesaurus

Unterhose

Schlüpfer

Synonyme

Slip

Tanga

Liebestöter

Boxershort

Spezialisierungen

UnterwäscheOberbegriff

Unterhemd

Assoziation

Ontologietypen und -kategorien

Mittwoch, 9. April 14

Page 80: Metadaten für Medienarchive

8016 Taxonomiesysteme

• auch Klassifikationssystem, Nomenklatur, …• in der Wissenschaft meist Einteilung in (mono-)hierarchisch aufgebaute

Klassen (Klassen, Unterklassen, ...)• (auch) Teilgebiet der Biologie:

• Erfassung der verwandtschaftlichen Beziehungen von Lebewesen in einem hierarchisch aufgebauten System

Taxonomie: Einteilung von Dingen (oder auch Lebewesen) in Gruppen (von [griech]. τασσεῖν (tassein) = klassifizieren und νόµος (nomos) = Gesetz, Wissenschaft) ...

Ontologietypen und -kategorien

Mittwoch, 9. April 14

Page 81: Metadaten für Medienarchive

8116

• Carl v. Linné (um 1740) schafft ein einfaches, noch heute gebräuchliches hierarchisches Klassifikationsschema für Tiere/Pflanzen

Carl v. Linné(1707-1778)

Des Ritters Carl von Linné vollständiges Natursystem, 1778Mittwoch, 9. April 14

Page 82: Metadaten für Medienarchive

unterschiedliche Tierkategorien in "einer gewissen chinesischen Enzyklopädie" nach Jorge Luis Borges:

- dem Kaiser gehörige, - einbalsamierte, - gezähmte, - Milchschweine, - Sirenen, - Fabeltiere, - streunende Hunde, - in diese Einteilung aufgenommene, - die sich wie toll gebärden, - unzählbare, - mit feinstem Kamelhaarpinsel gezeichnete, - und so weiter, - die den Wasserkrug zerbrochen haben, - die von weitem wie Fliegen aussehen.

Jorge Luis Borges(1899-1986)

Ontologien und die Wirklichkeit

Mittwoch, 9. April 14

Page 83: Metadaten für Medienarchive

Ontologien und die Wirklichkeit

Mittwoch, 9. April 14

Page 84: Metadaten für Medienarchive

Metadaten für Medienarchive

Agenda

•Einführung ins Thema

•Metadatenstandards

•semantische Metadaten

•Linked (Open) Data

•Beispiele

Mittwoch, 9. April 14

Page 85: Metadaten für Medienarchive

4242 42 4224424242 42 424285

Beispiel aus dem aktuellen HPI-SeminarA LOD of Movies

Mittwoch, 9. April 14

Page 86: Metadaten für Medienarchive

86

■Du suchst Informationen zu einem Film?

■kein Problem......

Mittwoch, 9. April 14

Page 87: Metadaten für Medienarchive

87

■Du suchst Informationen zu einem Film?

■kein Problem......

■....solange Du den Titel kennst

■....solange Du weißt, wer mitspielt

■...oder solange Du weißt, wer Regie geführt hat

■Was aber wenn Du vor folgendem Problem stehst:

Mittwoch, 9. April 14

Page 88: Metadaten für Medienarchive

88

Wer war das nochmal, der diesen alten Film mit der Dings gedreht hat, na dieser schwedischen Filmdiva, die in dem Film eine Kommunistin spielt, die nach Paris geschickt wird, um nach dem Rechten zu sehen, ob die sowjetischen Agenten dort dem kapitalistischen Luxus zum Opfer gefallen sind? Na das ist doch auch der einzige Film, in dem die auch ‘mal richtig lacht...

Mittwoch, 9. April 14

Page 89: Metadaten für Medienarchive

89

Wer war das nochmal, der diesen alten Film mit der Dings gedreht hat, na dieser schwedischen Filmdiva, die in dem Film eine Kommunistin spielt, die nach Paris geschickt wird, um nach dem Rechten zu sehen, ob die sowjetischen Agenten dort dem kapitalistischen Luxus zum Opfer gefallen sind? Na das ist doch auch der einzige Film, in dem die auch ‘mal richtig lacht...

Mittwoch, 9. April 14

Page 90: Metadaten für Medienarchive

90

Linked Open Data

Mittwoch, 9. April 14

Page 91: Metadaten für Medienarchive

91

dbedia-owl:Film

yyyyyyy

xxxxxxxxx

dbpedia-owl:director

rdf:type

zzzzzzzdbpedia-owl:starring

dbpedia-owl:Actor

rdf:type

dbpedia-owl: SwedishFilmActor

rdf:type

rdfs:subClassOf

category:American_political_satire_films

dcterms:subject

rdfs:subClassOf

category:Films_set_in_Paris

dcterms:subject

Mittwoch, 9. April 14

Page 92: Metadaten für Medienarchive

Mittwoch, 9. April 14

Page 93: Metadaten für Medienarchive

Ernst Lubitsch

Mittwoch, 9. April 14

Page 94: Metadaten für Medienarchive

■Was kann man mit diesen vielen Metadaten anfangen?□ semantische Suche□explorative Suche□Fact Retrieval□Question Answering Systeme□Empfehlungssysteme□ ...

Mittwoch, 9. April 14

Page 95: Metadaten für Medienarchive

Linked (Open) DataMetadaten mit einheitlicher Schnittstelle

Dokument

Dokument

Dokument

Dokument

Dokument

Hyperlink

Hyperlink Hyperlink

Hyperlink

HyperlinkHy

perlink

1990: The Web of Documents Today: The Web of Data

Mittwoch, 9. April 14

Page 96: Metadaten für Medienarchive

Linked (Open) DataMetadaten mit einheitlicher Schnittstelle

•Ist Information heute nicht im WWW vorhanden (= über einen Webserver verfügbar), kann sie nur schwer gefunden werden (wenn überhaupt...)

Datenbank

Web-Server

JDBC

HTTPHTML

Mittwoch, 9. April 14

Page 97: Metadaten für Medienarchive

Linked (Open) DataMetadaten mit einheitlicher Schnittstelle

•Das WWW ist für die Nutzung durch den Menschen bestimmt•Das WWW basiert auf der Markupsprache HTML

•HTML beschreibt•wie Informationen dargestellt werden sollen (XHMLT + CSS),

•wie Informationen miteinander verknüpft werden können,

•aber nicht, was diese Informationen bedeuten….

bedarf der Interpretation durch den Menschen...

Mittwoch, 9. April 14

Page 98: Metadaten für Medienarchive

Linked (Open) DataMetadaten mit einheitlicher Schnittstelle

•Daten im WWW sind verschlossen in abgeschirmten „Datensilos“

•Andere Applikationen können diese Daten weder zugreifen noch weiterverarbeiten

Datenbank

Datenbank

DatenbankDatenbank

Datenbank

Datenbank

Datenbank

Datenbank

Datenbank

Mittwoch, 9. April 14

Page 99: Metadaten für Medienarchive

Linked (Open) DataMetadaten mit einheitlicher Schnittstelle

•Aber es gibt eine ganze Reihe unterschiedlicher (proprietärer) Web-APIs, Austauschdatenformate und darauf aufbauende Mashups

Datenbank 1

WebAPI 1

WebAPI 2

WebAPI 3

WebAPI 4

Datenbank 2 Datenbank 3 Datenbank 4

Mashup

Mittwoch, 9. April 14

Page 100: Metadaten für Medienarchive

100

http://www.w3.org/2009/Talks/0204-ted-tbl/#(22)

Die Probleme liegen auf der Hand....

Mittwoch, 9. April 14

Page 101: Metadaten für Medienarchive

Linked (Open) DataMetadaten mit einheitlicher Schnittstelle

•...Öffnen der proprietären Datensilos•...Veröffentlichung aller Daten von allgemeinem Interesse

•...und zwar so, dass •andere Anwendungen diese Daten zugreifen, benutzen und weiterverarbeiten können und

•alle Anwendungen sich zusätzliche (Meta)daten zu den verfügbaren Daten beschaffen können

Datenbank 1 Datenbank 2 Datenbank 3

Mittwoch, 9. April 14

Page 102: Metadaten für Medienarchive

Linked Data Principles

Database 1 Database 2 Database 3 Database 4

RDF Data RDF Data RDF Data RDF Data

RDF Links

RDF Links

RDF Links

• Identifikation individueller Daten über URIs• Zugriff über standardisiertes Webprotokoll HTTP• Kodierung der Daten via Resource Description Framework (RDF)• Verknüpfung der Daten untereinander

Mittwoch, 9. April 14

Page 103: Metadaten für Medienarchive

103

Die Anwendung der Linked Data Prinzipien führt zur Entstehung eines ,Web of Data‘

Mittwoch, 9. April 14

Page 104: Metadaten für Medienarchive

Linked (Open) DataMetadaten mit einheitlicher Schnittstelle

http://lod-cloud.net/

http://dbpedia.org/

Mittwoch, 9. April 14

Page 105: Metadaten für Medienarchive

105

DBpedia□Zentraler Bestandteil: Wikipedia Info-Boxen

Mittwoch, 9. April 14

Page 106: Metadaten für Medienarchive

106

DBpedia□Zentraler Bestandteil: Wikipedia Info-Boxen

Mittwoch, 9. April 14

Page 107: Metadaten für Medienarchive

107

DBpedia□Zentraler Bestandteil: Wikipedia Info-Boxen

Mittwoch, 9. April 14

Page 108: Metadaten für Medienarchive

108

DBpedia□Zentraler Bestandteil: Wikipedia Info-Boxen

Mittwoch, 9. April 14

Page 109: Metadaten für Medienarchive

109

Linked Open Data■ offen zugängliche Linked Data Ressourcen im WWW, d.h. lizensiert als

„Creative Common CC-BY“ ■ 5-Sterne Kriterien für Linked Open Data

Available on the web (whatever format) but with an open licence, to be Open Data

Available as machine-readable structured data (e.g. excel instead of image scan of a table)

as (2) plus non-proprietary format (e.g. CSV instead of excel)

All the above plus, Use open standards from W3C (RDF and SPARQL) to identify things, so that people can point at your stuff

All the above, plus: Link your data to other people’s data to provide context

★ ★

★ ★ ★★ ★ ★ ★

★ ★ ★ ★ ★

Mittwoch, 9. April 14

Page 110: Metadaten für Medienarchive

110

Linked Data Examples□ BBC Music

(http://www.bbc.co.uk/music)

Mittwoch, 9. April 14

Page 111: Metadaten für Medienarchive

Linked (Open) DataMetadaten mit einheitlicher Schnittstelle

Welche Vorteile bietet der Linked Data Ansatz?• vormals strukturierte Daten können mit Ontologien

verknüpft werden• ermöglicht Datenintegration• ermöglicht automatisierte Verarbeitung• ermöglicht logische Schlussfolgerungen

und Ableitung von neuem Wissen

Mittwoch, 9. April 14

Page 112: Metadaten für Medienarchive

/ 106112

GND

PersonULAN

FIAF Corp.Names

GTAANames

VIAF

PlaceTGN

UKAT

FIAF CountryListings

Geonames

OpenStreetMap

ZBW ISO 3166

World Gazetteer

TVA Place Type

Reuters Regions

MARC Geogr. Areas

MARC CountryCodes

TypenBA-Gattungen

IPTC NC (Genre)

EBUAudience

LCSH

LCGFT

GTAA Genre

TopicDDC

SWD

IPTC Mediatopics

BA-Thema

ZBW

UDC

FIAF Subj. Headings

DRA/DDR Thesaurus

Normdaten und semantische Metadaten

Mittwoch, 9. April 14

Page 113: Metadaten für Medienarchive

/ 106113

DTD

SGML*1986

XML

XLink

XPointer

XPath

XSLXSLT

XQuery

Schema

*1996

HTML*1990

XHTML*2000

RDF*1997

RDF(S)*1999

OWL*2004

RDFa*2004

Metadatennotationsformate

Mittwoch, 9. April 14

Page 114: Metadaten für Medienarchive

/ 106

■ XML hat sich als Austauschformat für Metadaten etabliert, weil:□ Einfacheit/Lesbarkeit□ Plattform- und Anwendungsunabhängigkeit□Modularität/Erweiterbarkeit (XML Schema)□W3C Standardisiert □ Validierbarkeit (wohlgeformt, Gültigkeit)□ lizenzfrei□ gut unterstützt (viele Tools)

114

<?xml version="1.0"?><sammlung>

<film> <titel> Städtereise ... </titel> <stichwort> Kultur </stichwort> </film>

<film>...</film>

</sammlung>

XML: eXtensible Markup Language

Mittwoch, 9. April 14

Page 115: Metadaten für Medienarchive

http://swib.org/swib10/vortraege/swib10_gradmann.pdf

RDF: Resource Description Framework

Mittwoch, 9. April 14

Page 116: Metadaten für Medienarchive

□ Aussagen über Web-Ressourcen in Form von Tripeln (Subjekt - Prädikat - Objekt)□ RDF referenziert Terme in externen Namespaces (Vokabularen) ...□ ... in denen die Semantik definiert wird (RDFS/OWL)

Indentifikation

(URI

) Semantik(z.B. DC, FOAF, OAI-ORE)

DatenmodellTriple => Subjekt, Prädikat, Objekt

SyntaxRDF/XML, N3, Turtle

Don't say "green"!Say "http://example.org/colors#FF0"

RDF: Resource Description Framework

dbpedia:Greta_Garbo

dbpedia-owl:Actor

rdf:type

dbpedia-owl: SwedishFilmActor

rdf:type

rdfs:subClassOf

Mittwoch, 9. April 14

Page 117: Metadaten für Medienarchive

RDF: Resource Description Framework

dbpedia:Greta_Garbo

dbpedia-owl:Actor

rdf:type

dbpedia-owl: SwedishFilmActor

rdf:type

rdfs:subClassOf

@prefix dbpedia: <http://dbpedia.org/resource/>.@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>.@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>.@prefix dbpedia-owl: <<http://dbpedia.org/ontology/>.

dbpedia:Greta_Garbo rdf:type dbpedia-owl:Actor.dbpedia:Greta_Garbo rdf:type dbpedia-owl:SwedishFilmActor.dbpedia-owl:SwedishFilmActor rdfs:subClassOf dbpedia-owl:Actor.

Mittwoch, 9. April 14

Page 118: Metadaten für Medienarchive

mg:hasDepictedObject

"2011-09-24T14:00:00Z"^^xsd:dateTime

owl:SameAs

rdfs:label

mg:Annotation/Ann42:Annotation

mg:annotationTimestamp

mg:resource/Erich_Honeckerrdfs:Resource

http://dbpedia.org/resource/Erich_Honecker

dbpedia-owl:Person

mg:User/User1

foaf:maker

mg:isAnnotationFor

"Benutzer_xy"

mg:film1mg:FilmWork

foaf:Person

mg:filmIdentifier

"QABSWRGGG"

foaf:name

dbp-owl:spouse

dbp-owl:abstract

http://dbpedia.org/resource/Margot_Honecker

dbpedia-owl:Person

"""Erich Honecker war ein deutscher kommunistischer Politiker. Er war hauptamtlicher Funktionär der KPD und war in der Zeit des Nationalsozial..."""

"Erich Honecker"@de

Mittwoch, 9. April 14

Page 119: Metadaten für Medienarchive

Mittwoch, 9. April 14

Page 120: Metadaten für Medienarchive

Metadaten für Medienarchive

Agenda

•Einführung ins Thema

•Metadatenstandards

•semantische Metadaten

•Linked (Open) Data

•Beispiele

Mittwoch, 9. April 14

Page 121: Metadaten für Medienarchive

/ 106

SKOS Simple Knowledge Organisation System

121

SKOS http://www.w3.org/2004/02/skos/

Unterstützt:

■Hierarchie

■ Assoziation

■ Vorzugsbenennung und Alternativbegriffe

■Matching (exactMatch, closeMatch)

Einfache, flexible, erweiterbare und maschinenlesbare Repräsentation für…

■Nomenklaturen

■ Klassifikationen

■ Taxonomien

■ Thesauri

Mittwoch, 9. April 14

Page 122: Metadaten für Medienarchive

/ 106122

http://www.jenitennison.com/visualisation/offences.html

Mittwoch, 9. April 14

Page 123: Metadaten für Medienarchive

/ 106123

Dublin Core

•Mindestsatz an Metadaten (Titel, Autor, Thema, Rechte...)

•generisches Format

•Empfehlungen zur Kodierung der Elemente z.B. Datum

• Integration in (X)HTML/XML/RDF gut dokumentiert

•Bewertung

sehr generisch

sehr verbreitet

verbessert 'Sichtbarkeit' für Suchmaschinen

Mittwoch, 9. April 14

Page 124: Metadaten für Medienarchive

/ 106

...und in kleinen Filmarchiven?

□Themen-, Genre- und Form Vokabulare oft nur in Englisch

□Vokabulare deutscher Rundfunkanstalten nicht öffentlich

□Viele kleinere IuD Einrichtungen nutzen eigene Vokabulare.

124

Name SKOS

IPTC Thesaurus International Press Telecommunication Council x

TGM Thesaurus for Graphic Materials (Library of Congress) X

FIAF GSH FIAF General Subject Headings X

MIM Moving Image Materials X

LCGFT Moving Image Genre-Form Headings (Library of Congress) X

REM ~6 Thesauri der deutschen Rundfunkanstalten -

kleine Archive

>200 Archive mit eigenen Klassifikationen. Wenige nutzen Thesauri, wenige haben Zugriff auf Verbunddaten der dt. Rundfunkanstalten. -

Mittwoch, 9. April 14

Page 125: Metadaten für Medienarchive

/ 106

■ Auf Grundlage von DC entwickelt

■Urheber: public broadcasting community (USA)

□Unterstützt analoge und digitale Medien

□XML-Schema verfügbar (online Validierung: http://pbcorevalidator.org/)

□ einzige Obligatorische Elemente: Identifier, Titel, Beschreibung

□Unterstützt Segmente innerhalb eines Assets

■ http://pbcore.org/wp-content/uploads/PBCoreDiagram-v2.jpg

125

Mittwoch, 9. April 14

Page 126: Metadaten für Medienarchive

/ 106126

CWS Cinematographic Works Standard

• CWS (Cinematographic Works Standard)

• Europäische Norm für Filmarchive (EN 15907:2010)

• Ausrichtung: Filmdatenbanken/Archivsoftware

• Mindestsatz von Elementen und Relationen

• Schnittstelle: Filmarchiv Analyse-Service

• Bewertung

berücksichtigt auch physisches Archivgut

generisches Datenformat

keine spatio-temporalen Metadaten

XML Schema: generisch, erweiterbar

Identifikation von Filmen - Verbesserung der Interoperabilität von Metadaten - Elementsätze und Strukturen; Deutsche Fassung EN 15907:2010

Mittwoch, 9. April 14

Page 127: Metadaten für Medienarchive

/ 106127

MPEG-7

• Vorschriften zur Kodierung von AV-Metadaten

• spatio-temporale (Frame, Segment, Streams)

• technische (Audio/Ton-Format, Kodierung, Low-Level-Features)

• inhaltserschließende (Abstract, Deskriptoren)

• Low-Level Features kodierbar (Textur, Form, Farben)

• Bewertung

Detaillierte Datentyp Restriktionen

mangelnde Kompatibilität mit Schnittprogrammen

hohe Komplexität/Abhängigkeiten

MPEG-7

Mittwoch, 9. April 14

Page 128: Metadaten für Medienarchive

/ 106128

MPEG-21

MPEG-21BenutzerWorkflowsSoftware...

GebührRegion/OrtZeit/DauerZugangscode...

FilmeMetadatenLizenzenRechte...

Rights Data Dictionary: Abspielen, Verändern, Einbetten...

• Digital Rights Management + Infrastruktur

Nutzer, Objekte, Bedingungen

• Bewertung

umfangreich und erweiterbar

Einbettung in MPEG-4 Container möglich

übergreifende DRM-Plattform notwendig

Mittwoch, 9. April 14

Page 129: Metadaten für Medienarchive

/ 106129

BMF: Broadcast Metadata exchange Format

•basiert auf FESAD (Fernseharchiv Datenbank)

•Module

•Erwerbung,

•Produktion,

•Programmplanung,

•Archivierung

•Datenaustausch mit Produktionsfirmen, TV-Sendern

• starke Ausrichtung öffentlich-rechtliches Fernsehen

•unterstützt inhaltserschließende & spatio-temporale Metadaten

•53 Wertelisten, die zu großen Teilen aus der Fernseharchivdatenbank (FESAD) übernommen wurden.

Mittwoch, 9. April 14

Page 130: Metadaten für Medienarchive

/ 106

Ontology for Media Resources

130

■W3C standardisiertEmpfehlung für Multimediadaten im Internet

■ simples erweiterbares Modell

■Unterstützt Fragment Identifier

■Mappings zu vielen MetadatenstandardsMPEG-7, EBU-Core, IPTC, TVA, DC

■Namespace: http://www.w3.org/ns/ma-ont#

Mittwoch, 9. April 14

Page 132: Metadaten für Medienarchive

/ 106132

OAI-ORE

• OAI-ORE (Open Archives - Object Reuse and Exchange)

• strukturelle Metadaten für Webressourcen(Zusammensetzung, Abgrenzung, Zugehörigkeit)

• Ressourcen (URIs) = Collection/Film/Segment/Tag

• 'Navigationshilfe' für Metadaten-Harvester

• automatisierter Datenaustausch zwischen Repositories

Mittwoch, 9. April 14

Page 133: Metadaten für Medienarchive

/ 106133

Definition of the Europeana Data Model elementsVersion 5.2, 30/7/2010

Mittwoch, 9. April 14

Page 134: Metadaten für Medienarchive

/ 106134

Dublin Core

OAI-ORE

BBC SMEF

P_Meta

TV-Anytime

EAD

ISAD(G)*

CIDOC-CRM

WWWBibliotheken

Archive AV Sektor

VRA

FIAF*

CWS

MODS

RDA

MARC/MAB

BMF

REM*

MPEG-7

MPEG-21PBCore

DMS-1/MXF

Weitere Formate und Regelwerke

LIDO

EDM

OAI

SPECTRUM

RAK-WB*

AACR*

EBUcore

W3C Mediaontology

PREMIS

Mittwoch, 9. April 14

Page 135: Metadaten für Medienarchive

/ 106

EUROPEANA

135

Mittwoch, 9. April 14

Page 136: Metadaten für Medienarchive

/ 106136

Mittwoch, 9. April 14

Page 137: Metadaten für Medienarchive

/ 106137

Mittwoch, 9. April 14

Page 138: Metadaten für Medienarchive

http://semex.hpi.uni-potsdam.de/semex/

Mittwoch, 9. April 14

Page 139: Metadaten für Medienarchive

139

C. Hentschel, H. Sack, et al., Open up cultural heritage in video archives with mediaglobe, I2CS 2012

http://semex.hpi.uni-potsdam.de/semex/

Mittwoch, 9. April 14

Page 140: Metadaten für Medienarchive

Mittwoch, 9. April 14

Page 141: Metadaten für Medienarchive

How to Search in Multimedia Archives?

Mittwoch, 9. April 14

Page 142: Metadaten für Medienarchive

142

Searching the WebMittwoch, 9. April 14

Page 143: Metadaten für Medienarchive

143

Searching the WebMittwoch, 9. April 14

Page 144: Metadaten für Medienarchive

144

Mittwoch, 9. April 14

Page 145: Metadaten für Medienarchive

145

Google Knowledge Graph

= “search results with semantic- search information gathered from a wide variety of sources“

Mittwoch, 9. April 14

Page 146: Metadaten für Medienarchive

Google Multimedia SearchMittwoch, 9. April 14

Page 147: Metadaten für Medienarchive

‣Google Multimedia Search relies on text-based metadata and link context

How does Google find Multimedia?

Mittwoch, 9. April 14

Page 148: Metadaten für Medienarchive

Seach by Media Content

Mittwoch, 9. April 14

Page 149: Metadaten für Medienarchive

The Ordinary Archive is a Small World...

Neil Armstrong

Mittwoch, 9. April 14

Page 150: Metadaten für Medienarchive

But, wouldn‘t it be nice, if.....

Neil Armstrong

...but maybe you are also interested in

- Buzz Aldrin (1 videos)- John Glen (1 video)- Juri Gagarin (2 videos)

- Richard Nixon (3 videos)

- Apollo 11 (1 video)- NASA (20 videos)

- Moon (14 videos)

- space exploration (34 videos)

- technology (1.205 videos)

Sorry, no results found for ‘Neil Armstrong‘...

Mittwoch, 9. April 14

Page 151: Metadaten für Medienarchive

How to Search in Multimedia Archives?

Mittwoch, 9. April 14

Page 152: Metadaten für Medienarchive

Jörg Waitelonis, Hasso-Plattner-Institut Potsdam

Content-Based Search in Multimedia Archives relies on text-based Metadata Current Solution: Manual Annotation

Mittwoch, 9. April 14

Page 153: Metadaten für Medienarchive

image

VisualConceptDetection

Text Recognition

Visual Analysis

(Selected) Automated Media Analysis

Face Detection

Face Detection

Logo Detection

audio-visual

text / images

Audio-Mining

structuralanalysis

AutomatedSpeech

Recognitionaudio event detection

audio

Mittwoch, 9. April 14

Page 154: Metadaten für Medienarchive

Structural Video Analysis

• Decomposition of time-based media into meaningful media fragments of coherent content that can be used as basic element for indexing and classification

scenes

shots

subshots

frames

video

keyframes

Mittwoch, 9. April 14

Page 155: Metadaten für Medienarchive

Video Optical Character Recognition (OCR)

Fig. 1. Workflow of the proposed text detection method. (b) is the vertical edge map of (a). (c) is the vertical dilation map of(b). (d) is the binary map of (c). (e) the result map of subsequent connected component analysis. (f) shows the binary map afterthe adaptive projection profile refinement. (g) is the final detection result.

for text detection of nature scene images. The operator com-putes for each pixel the width of the most likely stroke con-taining the pixel. The output of the operator is a stroke-featuremap, which has the same size as the input image, while eachpixel represents the corresponding stroke width value of theinput image.

3. TEXT DETECTION IN VIDEO IMAGES

Text detection is the first task of video OCR. Our approachdetermines, whether a single frame of a video file containstext lines, for which a tight bounding box is returned. In or-der to manage detected text lines efficiently, we have defined aclass ”text line object” with the following properties: bound-ing box location (the top-left corner position), bounding boxsize. After the first round of text detection, the refinement andthe verification procedures ensure the validity of the detectionresults in order to reduce false alarms.

3.1. Text detector

Before performing the text detection process, a gaussiansmooth filter is applied to the images that have an entropyvalue larger than a predefined threshold Tentr . For our pur-pose, Tentr =5.25 has proven to be to the best advantage.

We have developed an edge based text detector, subse-quently referred to edge text detector. The advantage of ourdetector is its computational efficiency compared to other ma-chine learning based approaches, because no computation-ally expensive training period is required. However, for vi-sually different video sequences a parameter adaption has tobe performed. The best suited parameter combination of ourmethod were learned from the test runs on the given test data.

Fig. 2. Workflow of the proposed adaptive text line refinementprocedure

The processing workflow for a single frame is depictedin Fig. 1 (a-e). First, a vertical edge map is produced usingSobel filter [8] (cf. Fig. 1 (b)). Then, the morphological dila-tion operation is adopted to link the vertical character edgestogether (cf. Fig. 1 (c)). Let MinW denote the detected min-imal text line width. A rectangle kernel:1�MinW is definedfor vertical dilation operator. Subsequently, a binary maskis generated by using Otsu’s thresholding method [9]. Ulti-mately, we create a binary map after Connected Component

• Video OCR is much more difficult than traditional print OCR• fast detection/filtering of text candidates• verification of text candidates• script separation from background• visual quality enhancement• application of standard OCR software• spell correction w.r.t. context and temporal

redundancy

Mittwoch, 9. April 14

Page 156: Metadaten für Medienarchive

• Face DetectionDetect candidate image regionsin a video frame that depict a human face

• Face TrackingTrack a detected face in videoover consecutive frames within shot boundaries

• Face ClusteringGroup faces detected and tracked in videos into visually similar sets within a single video

• Face Recognition/IdentificationReliable identification of detected faces

Video Face Detection, Tracking & Clustering

personfrontal face:90%

not a person

personprofile face:70%

Mittwoch, 9. April 14

Page 157: Metadaten für Medienarchive

Visual Concept Detection

• Adaption of traditional ,Bag of Words‘ approach from text retrieval

• Image is expressed as vector (histogram)of dictionary codeword frequencies

• classification via machine learning(Support Vector Machines)

• Konzeptzuordnung durch maschinelles Lernverfahren (hier Support Vector Machines)

Mittwoch, 9. April 14

Page 158: Metadaten für Medienarchive

Annotation of Audiovisual Data

Metadata Extraction

Metadata (e.g. MPEG-7) ... <SpatialDecomposition> <TextAnnotation> <KeywordAnnotation> <Keyword>Astronaut</Keyword> </KeywordAnnotation> </TextAnnotation> <SpatialMask> <SubRegion> <Polygon> <Coords> 480 150 620 480 </Coords> </Polygon> </SubRegion> </SpatialMask> ... </SpatialDecomposition> ...

• Multimedia data with spatiotemporal Annotations

Neil Armstrong

Mittwoch, 9. April 14

Page 160: Metadaten für Medienarchive

• Authoritative Metadata• structured data• semi-structured data

• natural language text • Non-authoritative Metadata

• (free) user tags and comments• restricted vocabularies

• (Media) Analysis Metadata• low level features• high level features

• etc.

How to Determine the Meaning of Metadata?

SemanticAnalysis

reliability

context

pragmatics

location dependency

accuracy

timedependency

level ofabstraction

Mittwoch, 9. April 14

Page 161: Metadaten für Medienarchive

Neil Armstrong

Astronaut

is a

Person

is a

Science Occupation

subClassOf

Employment

subClassOf

Entities

Ontologies

has an

,Neil Armstrong‘ is more than just a character string

Kosmonautsame as

Juri Gagarin

is a

is NOT a

!

Mittwoch, 9. April 14

Page 162: Metadaten für Medienarchive

Where does the knowledge come from...?

Mittwoch, 9. April 14

Page 163: Metadaten für Medienarchive

Astronaut Person

Neil Armstrong

Science Occupation

Employment

is a is a

is a

is a has a

Web of Data

Mittwoch, 9. April 14

Page 164: Metadaten für Medienarchive

Web of Data = Linked Open DataBut what, if there is no trivial unique identification?

Armstronguser tag

Mittwoch, 9. April 14

Page 165: Metadaten für Medienarchive

Armstrong

Mittwoch, 9. April 14

Page 166: Metadaten für Medienarchive

ArmstrongArmstrong+Moon

Mittwoch, 9. April 14

Page 167: Metadaten für Medienarchive

Web of Data = Linked Open DataUnderstanding requires Context

Armstrong

Moon

EagleSpace

Mittwoch, 9. April 14

Page 168: Metadaten für Medienarchive

4242 42 4224424242 42 4242Semantic AnalysisSemantics is determined by Context

Context Item

N.Steinmetz, H.Sack: Semantic Multimedia Information Retrieval Based on Contextual Descriptions, 2013

„Armstrong landed the Eagle on the Moon.“Text

SEMEX Multimedia Context Model

Context Dimensions

TemporalContext

SpatialContext

ProvenanceContext

Relevance

determines

Ambiguity

influences

Accuracy

influences

Contextual Description

ClassDiversity

Level of Structure

SourceReliability

SourceDiversity

Mittwoch, 9. April 14

Page 169: Metadaten für Medienarchive

Armstrong

George Armstrong Custer

Neil Armstrong

The Armstrong Twins

Armstrong, Florida

Armstrong, Ontario

Armstrong Automobile

Joe ArmstrongArmstrong County, Texass

Armstrong Gun

Craig Armstrong

Armstrong (Moon Crater)

Louis Armstrong

Armstrong Tunnel

Louis Armstrong International Airport

Armstrong‘s Theorem

Sir Thomas Armstrong

Ian Armstrong

Eagle Moon

Eagle (Bird)

Eagle (heraldry)

USCGC Eagle

The Eagle (2011 film)

Eagle (song)

John H. EagleEagle (typeface)

Eagle Falls (Washington)

Eagle (Moon Crater)

Eagle (comic)

Eagle (lunar module)

Eagle TV

Armstrong Tunnel

The Eagle (Pub)

War Eagle

The Eagle (newspaper)

Eagle (racehorse)

Angela EagleLinda Eagle

James Philipp Eagle

95 entities448 entities

Armstrong (British Columbia)Karen Armstrong

Curtis Armstrong

Gillian Armstrong Hilary Armstrong

William L. Armstrong

156 entities

Man on the Moon (film)

Moon (song)

Moon Son-Ri

C Moon

The Moon (Tarot card)

Edgar Moon

Moon OSMoon (Band)

Moon

Moon 44

Man on the Moon (soundtrack)

William Moon

Lottie Moon

Mr. Moon (song)

Man on the Moon (musical)

Darvin Moon

Moon 83

Francis MoonGary Moon

Robert Charles Moon

Black Moon

Allan Moon

Ban-Ki Moon

Fly me to the Moon (song)

Semantic AnalysisNamed Entity Mapping

„Armstrong landed the Eagle on the Moon.“

Consider all entities within the same context

Mittwoch, 9. April 14

Page 170: Metadaten für Medienarchive

Select matching entities from all possible candidate entities: • Popularity based strategies• Linguistical strategies• Statistical strategies• Semantic based strategies

General Approach1. Make an assumption 2. Do the strategies support or contradict your assumption3. Make decision according to logical and probabilistic rules/constraints

Semantic AnalysisNamed Entity Recognition

N. Ludwig, H. Sack, “Named entity recognition for user-generated tags,TIR 2011

• reference text corpus(wikipedia)

• link graph (wikipedia)• semantic graph

(DBpedia)

Entity Selection Process

Mittwoch, 9. April 14

Page 171: Metadaten für Medienarchive

Armstrong

George Armstrong Custer

The Armstrong Twins

Armstrong, Florida

Armstrong, Ontario

Armstrong Automobile

Joe ArmstrongArmstrong County, Texass

Armstrong Gun

Craig Armstrong

Armstrong (Moon Crater)

Armstrong Tunnel

Louis Armstrong International Airport

Armstrong‘s Theorem

Sir Thomas Armstrong

Ian Armstrong

Eagle Moon

Eagle (Bird)

Eagle (heraldry)

USCGC Eagle

The Eagle (2011 film)

Eagle (song)

John H. EagleEagle (typeface)

Eagle Falls (Washington)

Eagle (Moon Crater)

Eagle (comic)

Eagle TV

Armstrong Tunnel

The Eagle (Pub)

War Eagle

The Eagle (newspaper)

Eagle (racehorse)

Angela EagleLinda Eagle

James Philipp Eagle

95 entities448 entities

Armstrong (British Columbia)Karen Armstrong

Curtis Armstrong

Gillian Armstrong Hilary Armstrong

William L. Armstrong

156 entities

Man on the Moon (film)

Moon (song)

Moon Son-Ri

C Moon

The Moon (Tarot card)

Edgar Moon

Moon OSMoon (Band)

Moon 44

Man on the Moon (soundtrack)

William Moon

Lottie Moon

Mr. Moon (song)

Man on the Moon (musical)

Darvin Moon

Moon 83

Francis MoonGary Moon

Robert Charles Moon

Black Moon

Allan Moon

Ban-Ki Moon

Neil Armstrong

Eagle (lunar module)

Moon

Louis Armstrong

Fly me to the Moon (song)

Semantic AnalysisNamed Entity Recognition

„Armstrong landed the Eagle on the Moon.“

N. Steinmetz, H.Sack: Semantic Multimedia Information Retrieval Based on Contextual Descriptions, 2013

Entity Selection Process(Semantic) Graph Analysis

Mittwoch, 9. April 14

Page 172: Metadaten für Medienarchive

4242 42 4224424242 42 4242

Jörg Waitelonis, Hasso-Plattner-Institut Potsdam

172

Semantically Annotated Multimedia

Video Analysis /Metadata Extraction

timemetadata

metadatametadata

metadatametadata

e.g., person xylocation yzevent abc

e.g., bibliographical data,geographical data,encyclopedic data, ..

Entity Recognition/ Mapping

N. Ludwig, H. Sack: Named Entity Recognition for User-Generated Tags. In Proc. of the 8th Int. Workshop on Text-based Information Retrieval, IEEE CS Press, 2011

Mittwoch, 9. April 14

Page 173: Metadaten für Medienarchive

Vorlesung Semantic Web, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam

173

Explorative Search

dbpedia-owl:mission

dbpedia:Neil_Armstrong

dbpedia:Apollo_11dbpedia-owl:mission

category:Apollo_program

dcterms:subject

dbpedia:Apollo_13

dcterms:subject

yago:Space_accidents_and_incidents

rdf:type

rdf:type

dbpedia:Space_Shuttle_Challenger

dbpedia-owl:mission

http://mediaglobe.yovisto.com:8080/J. Waitelonis, H. Sack: Towards exploratory video search using linked data, MTAP Volume 59, Number 2 (2012), 645-672

dbpedia:Buzz_Aldrin

dbpedia:Michael_Collins

Mittwoch, 9. April 14

Page 174: Metadaten für Medienarchive

Exploratory Search and Serendipity•Find something that you were not looking for on purpose ...

dbpedia:Buzz_Aldrin

dbpedia:Cookie_Monster

dbpedia:Strictly_Come_Dancing

dbpedia:Transformers

Mittwoch, 9. April 14

Page 175: Metadaten für Medienarchive

Metadatenfür Medienarchive

Contact: Dr. Harald SackHasso-Plattner-Institute for IT Systems EngineeringUniversity of [email protected]

Vielen Dank für Ihre Aufmerksamkeit!

Mittwoch, 9. April 14

Page 176: Metadaten für Medienarchive

176

Der Online-Kurs startet am 26.05.2014

Mittwoch, 9. April 14