Datenformate und Standards

  • View
    2.546

  • Download
    0

Embed Size (px)

Text of Datenformate und Standards

Folien zur Lehrveranstaltung Digitale Bibliothek von Jakob Voss

Digitale Bibliothek

Jakob Vo

Datenformateund Standards

Digitale BibliothekWS 2008/2009

Fachhochschule HannoverInformationsmanagement (BA)TAG. MONAT 2008

Nochmal Organisatorisches

Semesterplan

29.09.08 - Einfhrung

06.10.08 - Datenformate und Standards

13.10.08 - Schnittstellen und Webservices

20.10.08 - Semantic Web und Wissensorganisation

27.10.08 - Communities und Soziale Netzwerke

03.11.08 - Weblogs, Feeds und Syndication

10.11.08 - Formen und Bestandteile Digitaler Bibliotheken

17.11.08 - Empfehlungsdienste und Data-Mining

24.11.08 - Datenkonvertierung und Mapping

01.12.08 - Mashups und Automatisierung

08.12.08 - Digitalisierung und Langzeitarchivierung

15.12.08 - Social Tagging und Indexierung

22.12.08 - Nutzer, Autoren und Werke im digitalen Raum

05.01.09 - Zusammenfassung und Ausblick

mit Kurzvortrgen

zusammen

Achtung,Gruppenwechsel!

Termine fr die Kurzvortrge

27.10.08 Privacy, OpenID

03.11.08 ATOM, Lizenzmodelle, Weblogs

10.11.08 Repositories, Fderation

17.11.08 Kataloganreicherung, Fernseharchive

24.11.08 Hochschulbibliographien, BibTeX

01.12.08 OpenStreetmap, Geodaten

08.12.08 Netzkunst, Internet Archive

15.12.08 Semantic Tagging, LibraryThing

22.12.08 Open Library, Kommentarfunktionen

Hinweise zur Recherche

Wissenschaftsportal b2i (Metasuche)

Fachzeitschriften und Konferenzen

Blogsuche

Link- und Literaturlisten

Nachfragen
(Mailinglisten, Experten, Bibliothekar etc.)

Hinweise im Moodle-Wiki lesen, ggf. fragen

Ergebnisse erschlieen bei BibSonomy

bung zur Datenerfassung

Verarbeitung

Format: [fhhdb08] und G,T1,T2,T3,T4,K

#!/usr/bin/perl

open AUFGABEN, "aufgaben.csv"; while () { chomp; $_ =~ s/\s*,\s*/,/g; # Leerzeichen entfernen ($g, $t1, $t2, $t3, $t4, $k) = split ",", $_; print "$t1\n$t2\n"; # z.B. alle gewnschte Themen}

Mail > Parsen > Aufgaben verteilen

Typische Erfahrungen

Kommentare

"Wenn es mglich ist, wrde ich
mein Referat gerne im November halten!"

Hochschulbibliographien wre mein Erstwunsch

Verschiedene Ansetzung

"T1 Struktur der Inhalte von *LibraryThing"
vs. "LibraryThing"

"Internetarchive" vs. "Internet Archive"

Typische Erfahrungen

Uneinheitliche Verknpfung

"1", "2", "Gr2", "Gruppe 2"

"1,4,1,6,7,hoffentlich klappts"

Lckenhafte Datengrundlage

"Die Zeile sollte um den Namen des Studenten erweitert werden."

Mails bis Freitag Abend: 24/36

Mails bis Sonntag Abend : 32/36

Fazit

Im Idealfall geht mit einem guten Datenformate vieles automatisch

Nicht alle Datenformate sind ideal,
vor allem ihre Benutzung nicht!

Woraus bestehen Datenformate?

Abstraktes Datenmodell

Klassen, Entitten, Relationen, Kardinalitt...

Konkrete Syntax und Kodierung

CSV, XML, RDF..., Zeichenkodierung

Oft in mehreren Ebenen

Verwendung

Erfahrung und Beispiele

Werkzeuge

Konkrete Kodierungsformen

Feldbasierte Formate

Datenbank-Format (SQL)

XML

JSON

Microformats

RDF (Semantic Web)

...

Extensible Markup Language

Auszeichnung mittels Tags

Einleitung

=

...

Hierarchische Struktur (XML-Baum)

Character Entities

&& < < > > " " ' '

XX; DDD;

Zeichen(de)kodierung

Werden Daten in eine Struktur eingebettet, mssen in der Regel einige Sonderzeichen speziell kodiert werden

XML : & < ... & < < ...;

URL : # + ... %23 %2B ...

Mehrfachkodierung ber mehrere Schichten

Achtung : wenn die Kodierung und Ebenen unbekannt sind, kommt Zeichensalat heraus:

& & & ...

JavaScriptObjectNotation (JSON)

[

{

"name" : "Fritzchen",

"alter" : 4

},

{

"name" : "Fritz",

"alter" : 24

}

]

Einheitlichkeit und Validierung

Was nicht festgelegt ist,
wird verschieden gehandhabt

Was nicht berprft werden kann,
wird missachtet oder ignoriert

Was keine Auswirkungen hat ist irrelevant

Validierung

Spezielles Programm

Schemadefinition (z.B. XML Schema)

Wie drfen Daten aussehen?

Was ist vorgeschrieben?

Weiteres Beispiel
Stammbaum-Format

Abstrakt

Personen und Rollen: Vater, Mutter, Kind

Relation: Nachkomme (Vater, Mutter, Kind)

Weiteres Beispiel
Stammbaum-Format

Abstrakt

Personen und Rollen: Elter, Elter, Kind

Relation: Nachkomme (Elter, Elter, Kind)

Visuelles Format

Prolog-Format

kind( helios, klymene, aigle ) .

kind( helios, klymene, phaetusa ) .

kind( helios, klymene, lampetia ) .

kind( helios, klymene, phaeton ) .

geschwister( X, Y ) :- kind( A, B, X ), kind( A, B, Y ) .

GEDCOM-Format

0 @I1@ INDI

1 NAME Helios

1 FAMS @F1@

0 @I2@ INDI

1 NAME Klymene

1 FAMS @F1@

0 @F1@ FAM

1 CHIL @I3@

1 CHIL @I4@

1 CHIL @I5@

1 CHIL @I6@

0 @I3@ INDI

1 NAME Aigle

1 FAMC @F1@

0 @I4@ INDI

1 NAME Phaetusa

1 FAMC @F1@

0 @I5@ INDI

1 NAME Lampetia

1 FAMC @F1@

0 @I6@ INDI

1 NAME Phaeto

1 FAMC @F1@

GEnealogical Data COMmunication Format (entwickelt um die Toten zu Taufen ;-)

GEDCOM-XML-Format

Helios

...

...

Schlussfolgerung

Es gibt viele Wege, die gleiche
Information zu kodieren

Unterschiedliche Formate und Kodierungen haben unterschiedliche Eigenheiten

Notwendig sind

Standards

Konvertierung zwischen Kodierungen

Arten von Standards

Normen

Industriestandard

De-Facto-Standard

Offener Standard

Normierungsorganisationen

Nationale Normen

DIN, BSI, ANSI...

Europische Normen (EN) seit 1961

CEN, CENELEC, ETSI

ISO seit 1947/1926 (Vorlufer ISI)

Noch frher: MKS-System (1889)

Mglichst Konsens-Prinzip aller Beteiligten

Relativ sicher aber langwierig und teuer

Arten von Standards

Internetstandards

Request For Comments (RFC) der IETF

Recommendations des W3C

Bibliothekarische Standards

MARC, MAB, Z39.50, SRU, FRBR ...

Datenformate und Verfahren

Offene Standards

Offene Organisationen (RFC , W3C)

Anschlieende Offenlegung (z.B. SRU/SRW)

Community-basiert (Microformats)

Offene Standards => Freie Mrkte

Standard-Mashups

Standards basieren auf anderen Standards

XML (W3C) basiert u.A. auf URI (RFC 2396), UTF-8 (RFC 2279), Sprachcodes (RFC 1766) basierend auf ISO 693 und ISO 3166 ...

OpenDocument basiert auf XML, ZIP, etc.

Deshalb: Alles muss genau definiert sein!

Vorteil wie bei Mashups im Allgemeinen

Rad nicht dauernd neu erfinden

Nachnutzung bestehender Infrastruktur

Bewertung

Standards sind gemeinsame
Vereinbarungen zur Kommunikation

Standards sind nur so gut wie die Verwendung

Standards mssen offen und nutzbar sein

Standards mssen berprfbar sein

Keep it simple and provide tools!

Es ist notwendig genau hinschauen,
was genau ein Standard vorschreibt
und wo genau er eingesetzt wird

Bibliothekarische Datenformate

Bernhard Eversberg (1989, 1994, 1999):
Was sind und was sollen Bibliothekarische Datenformate? http://www.allegro-c.de/formate/

MARC, MAB, PICA, Allegro ...

Insellsungen (eigener Zeichensatz,
eigene Werkzeuge, eigene Sonderwege...)

Heute : Unicode, XML, RDF, HTML ...

Rein bibliothekarische Datenformate
machen keinen Sinn mehr

Beispiel: PICA-Datenformat

Internes (bibliografisches) Datenformat
der CBS und LBS-Software

Struktur aus Feldern und Unterfeldern

Pica3 zur Katalogisierung und Pica+ intern

Details zur Verwendung geregelt
durch Katalogisierungsrichtlinien

hnliche Grundstruktur wie MAB/MARC

Feldbasiertes Formate

Einfach

Titel : Zettelwirtschaft

Autor : Krajewski, Markus

Pica+

021A :

a : Zettelwirtschaft

028A :

d : Markus

a : Krajeski

Einige weitere Formate

ONIX[Qualified] Dublin Core (DC)

Metadata Object Description Schema (MODS)

Metadata Encoding and Transmission Standard (METS)

Text Encoding Initiative (TEI)

Encoded Archival Description (EAD)

ONIX International (Online Information Exchange)

EXIF, IPTC (XMP)

u.v.a.m. !

"Semantische" Datenformate

Datenfelder als global definierte
"Properties" mit einem festen URI

Beispiel: http://xmlns.com/foaf/0.1/name

Ggf. zustzliche Beschrnkung
auf bestimmte Datentypen

Ohne Validierung wenig hilfreich!

Vom Datenformat zur Ontologie

Zusammenfassung

Bei Datenformaten sehr genau sein

Unterscheidung notwendig

Abstrakte Strukturierung (Datenmodell)

Konkrete Kodierung (Datenformat)

Anwendung (Werkzeuge und Praxis)

Defin