Datenformate und Standards

  • Upload
    jakob-

  • View
    1.831

  • Download
    0

Embed Size (px)

DESCRIPTION

Grundlegendes zu Datenformaten und ihrer Standardisierung mit Schwerpunkt auf Microformats. Es werden keine konkreten Formate forgestellt, sondern allgemeine Prinzipien und Kodierungen (XML, JSON etc.)

Citation preview

  • 1. Digitale Bibliothek Jakob Voss Datenformateund Standards Digitale Bibliothek WS 2007/2008 Fachhochschule Hannover Informationsmanagement (BA) 5. November 2007

2. Datenformate

  • Abstraktes Datenmodell
  • Konkrete Syntax oder Kodierung
  • Verwendung eines Kodierungsverfahrens
  • Beispiel: Namensliste an der Tafel ...

3. Datenformate

  • Ein Datenformat definiert eine Struktur und legt darin Mglichkeiten fr Inhalte fest
  • Relevant: Syntax
  • Irrelevant: Semantik und Pragmatik
  • Letztendlich sind alles nur Daten
  • Aber: Ein Format lebt von seiner Benutzung

4. Einheitlichkeit und Validierung

  • Was nicht festgelegt ist, wird verschieden gehandhabt
  • Was nicht berprft werden kann, wird miachtet oder ignoriert
  • Was keine Auswirkungen hat ist irrelevant

5. Bibliothekarische Datenformate

  • Bernhard Eversberg(1989, 1994, 1999) : Was sind und was sollen Bibliothekarische Datenformate?http://www.allegro-c.de/formate/
  • MARC, MAB, PICA, Allegro ...
    • Insellsungen (eigener Zeichensatz, eigene Werkzeuge, eigene Sonderwege...)
  • Heute : Unicode, XML, RDF, HTML ...
    • Rein bibliothekarische Datenformate machen keinen Sinn mehr

6. Wie sind Datenformate?

  • Unterscheidung notwendig
    • Abstrakte Strukturierung
    • Konkrete Kodierung
  • Definiert durch Standards
    • Leider oft Ausnahmen und Sonderwege
  • Datenformate basieren aufeinander!

7. Beispiel: Stammbaum-Format

  • Abstrakt
    • Personen und Rollen: Vater, Mutter, Kind
    • Relation: Nachkomme (Vater, Mutter, Kind)

8. Beispiel: Stammbaum-Format

  • Abstrakt
    • Personen und Rollen: Elter, Elter, Kind
    • Relation: Nachkomme (Elter, Elter, Kind)

9. Visuelles Format 10. Prolog-Format

  • kind( helios, klymene, aigle ) .
  • kind( helios, klymene, phaetusa ) .
  • kind( helios, klymene, lampetia ) .
  • kind( helios, klymene, phaeton ) .
  • geschwister( X, Y ) :- kind( A, B, X ), kind( A, B, Y ) .

11. GEDCOM-Format

  • 0 @I1@ INDI
  • 1 NAME Helios
  • 1 FAMS @F1@
  • 0 @I2@ INDI
  • 1 NAME Klymene
  • 1 FAMS @F1@
  • 0 @F1@ FAM
  • 1 CHIL @I3@
  • 1 CHIL @I4@
  • 1 CHIL @I5@
  • 1 CHIL @I6@
  • 0 @I3@ INDI
  • 1 NAME Aigle
  • 1 FAMC @F1@
  • 0 @I4@ INDI
  • 1 NAME Phaetusa
  • 1 FAMC @F1@
  • 0 @I5@ INDI
  • 1 NAME Lampetia
  • 1 FAMC @F1@
  • 0 @I6@ INDI
  • 1 NAME Phaeto
  • 1 FAMC @F1@
  • GEnealogical Data COMmunication Format (entwickelt um die Toten zu Taufen ;-)

12. GEDCOM-XML-Format

  • Helios
  • ...
  • ...

13. Was sagt uns das?

  • Es gibt viele Wege, die gleiche Information zu kodieren
  • Unterschiedliche Formate und Kodierungen haben unterschiedliche Eigenheiten
  • Einigung, Konvertierung oder Sprachverwirrung

14. Konkrete Kodierungsformen

  • Feldbasierte Formate
  • Datenbank-Format (SQL)
  • XML
  • JSON
  • Microformats
  • RDF (Semantic Web)

15. Feldbasierte Formate

  • Einfach
    • Titel : Zettelwirtschaft
    • Autor : Krajewski, Markus
  • Pica+
    • 021A :
      • a : Zettelwirtschaft
    • 028A :
      • d : Markus
      • a : Krajeski

16. Extensible Markup Language

  • Auszeichnung mittels Tags
    • Einleitung berschrift>
    • =
    • ...
  • Hierarchische Struktur (XML-Baum)
  • Character Entities
    • & &""''
    • XX; DDD;

17. JavaScriptObjectNotation (JSON)

  • [
  • {
  • "name": "Fritzchen",
  • "alter" : 4
  • },
  • {
  • "name": "Fritz",
  • "alter" : 24
  • }
  • ]

18. Mikroformate

  • Formate zur semantischen Auszeichnung in HTML
  • Ergnzung von (X)HTML durch vereinbarte class ,relundrev -Attribute
  • Allgemeine Kodierungsmethode mit vielen konkreten Einzelformaten
  • Community-Initiative unter microformats.org
  • Akademische Alternative : RDFa

19. Beispiel: hCalendar

  • Weihnachtsfeier
  • Am 19.12.
  • findet im Neubau
  • wieder unsere alljhrliche Weihnachtsfeier statt.
  • Bitte tragt euch ein auf der
  • Infoseite!

20. Beispiel: hCalendar

    • Weihnachtsfeier
    • Am 19.12.
    • findet im Neubau
    • wieder unsere alljhrliche Weihnachtsfeier statt.
    • Bitte tragt euch ein auf der
    • Infoseite!

21. Beispiel: hCalendar

    • Weihnachtsfeier
    • Am 19.12.
    • findet im Neubau
    • wieder unsere alljhrliche Weihnachtsfeier statt.
    • Bitte tragt euch ein auf der
    • Infoseite!

summary : Weihnachtsfeier dstart : 2007-12-19 url : http://company.de/xmas/location : Neubau Datensatz 22. Konkrete Microformats

  • Beispiele
    • Veranstaltungen (hCalender)
    • Kontakte (hCard)
    • Bewertungen (hReview)
    • ...
  • Teilweise angelehnt an andere Standards (hCalendar/iCalender,hCard/vCard...)
  • Teilweise aufeinander aufbauend
  • Einbettung in XHTML, ATOM, RSS...

23. Einfaches Kopieren von Datenstzen

  • Firefox Operator-Plugin

Auf der Web 2.0 Expo in Berlin (vom 5. bis zum 8. November) von http://notizblog.org/ 24. Direkt in Firefox 3 und IE8 (?) 25. Brauchen wir noch Dateien?

  • Datenformate und Dateiformate
  • Containerformate, eingebettete Metadaten
  • Vom Hierarchischen Dateisystemzum Datenbank-Dateisystem
    • Desktopsuche
    • Assoziative Sichten
    • Drilldown

26. Standard-Mashups

  • Standards basieren auf anderen Standards
    • XML (W3C) basiert u.A. auf URI (RFC 2396), UTF-8 (RFC 2279), Sprachcodes (RFC 1766) basierend auf ISO 693 und ISO 3166 ...
    • OpenDocument basiert auf XML, ZIP, etc.
  • Deshalb: Alles mussgenaudefiniert sein!
  • Vorteil wie bei Mashups im Allgemeinen
    • Rad nicht dauernd neu erfinden
    • Nachnutzung bestehender Infrastruktur

27. Zeichen(de)kodierung

  • Werden Daten in eine Struktur eingebettet, mssen in der Regel einige Sonderzeichen speziell kodiert werden
    • XML :& < ...& < < ...;
    • URL :# + ... %23 %2B ...
  • Mehrfachkodierung ber mehrere Schichten
  • Achtung : wenn die Kodierung und Ebenen unbekannt sind, kommt Zeichensalat heraus:
    • & & & ...

28. Beispiel: OpenURL und COinS

  • OpenURL basiert auf URL
  • COinS basiert auf OpenURL(http://ocoins.info/)
  • Abstraktes Modell (siehe COinS generator)
  • Konkrete Kodierung: URL-Parameter-Kodierung + XML-Kodierung

29. Standards

  • Was ist ein Standard?
  • Was bewirken Standards?
  • Wie entstehen Standards?
  • Welche Standards gibt es?

30. z.B. DEHOMAG-Lochkarten Bild: www.jewishvirtuallibrary.org 31. Arten von Standards

  • Norm
  • Industriestandard
  • De-Facto-Standard
  • Offener Standard

32. Arten von Standards

  • Internetstandards
    • Request For Comments (RFC) der IETF
    • Recommendationsdes W3C
  • Bibliothekarische Standards
    • MARC, MAB, Z39.50, SRU, FRBR ...

33. Normierungsorganisationen

  • Nationale Normen
    • DIN, BSI, ANSI...
  • Europische Normen (EN) seit 1961
    • CEN, CENELEC, ETSI
  • ISO seit 1947/1926 (Vorlufer ISI)
    • Noch frher: MKS-System (1889)
  • Konsens-Prinzip aller Beteiligten

34. Beispiel: DIN 1

  • Deutsche Institut fr Normung e. V.
  • 1918: Erste Norm (DIN 1): EN 22339 / ISO 2339 Kegelstifte fr MG 08

35. Vor- und Nachteile von Normen

  • Vorteile
    • Qualitt
    • Sicherheit
  • Nachteile
    • Langwieriges Verfahren
    • Kosten
  • Alternative
    • Besttigung existierender Verfahren, zum Beispiel OpenDocument (ISO/IEC 26300)

36. Standards in Bibliotheken

  • Melvil Dewey (1851-1931)
    • DDC
    • Karteikarten
    • ALA
    • u.v.a.m
  • Markus Krajewski: Zettelwirtschaft : Die Geburt der Kartei aus dem Geiste der Bibliothek. Kulturverlag Kadmos, 2002

37. Schmutzige Tricks

  • Standards zur Durchsetzung von Marktinteressen
    • Microsoft OpenXML-Format
    • Google OpenSocial API
  • Monopole, Marktbehinderung, Startvorteile...
  • Nicht
    • offen diskutiert
    • frei einsehbar
    • nicht frei nutzbar

38. Schmutzige Tricks

  • Erkennungszeichen
    • Patente und andere rechtliche Einschrnkungen
    • Statt auf Etabliertes aufzubauen wird das Rad neu erfunden
      • Andere Erklrung: Ignoranz oder Inkompetenz (trifft eher auf den Bibliotheksbereich zu)
  • Alternative
    • Freie Standards und Implementierungen (sic!)

39. Offene Standards

  • Offene Organisationen (RFC , W3C)
  • Anschlieende Offenlegung(z.B. SRU/SRW)
  • Community-basiert (Microformats)
  • Offene Standards => Freie Mrkte

40. Bewertung

  • Standards sind gemeinsameVereinbarungen zur Kommunikation
  • Standards sind nur so gut wie die Verwendung
  • Standards mssen offen und nutzbar sein
  • Standards mssen berprfbar sein
  • Keep it simple and provide tools!
  • Es ist notwendig genau hinschauen, was genau ein Standard vorschreibt und wo genau er eingesetzt wird