Folien zur Lehrveranstaltung Digitale Bibliothek von Jakob Voss
Digitale Bibliothek
Jakob Vo
Datenformateund Standards
Digitale BibliothekWS 2008/2009
Fachhochschule HannoverInformationsmanagement (BA)TAG. MONAT 2008
Nochmal Organisatorisches
Semesterplan
29.09.08 - Einfhrung
06.10.08 - Datenformate und Standards
13.10.08 - Schnittstellen und Webservices
20.10.08 - Semantic Web und Wissensorganisation
27.10.08 - Communities und Soziale Netzwerke
03.11.08 - Weblogs, Feeds und Syndication
10.11.08 - Formen und Bestandteile Digitaler Bibliotheken
17.11.08 - Empfehlungsdienste und Data-Mining
24.11.08 - Datenkonvertierung und Mapping
01.12.08 - Mashups und Automatisierung
08.12.08 - Digitalisierung und Langzeitarchivierung
15.12.08 - Social Tagging und Indexierung
22.12.08 - Nutzer, Autoren und Werke im digitalen Raum
05.01.09 - Zusammenfassung und Ausblick
mit Kurzvortrgen
zusammen
Achtung,Gruppenwechsel!
Termine fr die Kurzvortrge
27.10.08 Privacy, OpenID
03.11.08 ATOM, Lizenzmodelle, Weblogs
10.11.08 Repositories, Fderation
17.11.08 Kataloganreicherung, Fernseharchive
24.11.08 Hochschulbibliographien, BibTeX
01.12.08 OpenStreetmap, Geodaten
08.12.08 Netzkunst, Internet Archive
15.12.08 Semantic Tagging, LibraryThing
22.12.08 Open Library, Kommentarfunktionen
Hinweise zur Recherche
Wissenschaftsportal b2i (Metasuche)
Fachzeitschriften und Konferenzen
Blogsuche
Link- und Literaturlisten
Nachfragen
(Mailinglisten, Experten, Bibliothekar etc.)
Hinweise im Moodle-Wiki lesen, ggf. fragen
Ergebnisse erschlieen bei BibSonomy
bung zur Datenerfassung
Verarbeitung
Format: [fhhdb08] und G,T1,T2,T3,T4,K
#!/usr/bin/perl
open AUFGABEN, "aufgaben.csv"; while () { chomp; $_ =~ s/\s*,\s*/,/g; # Leerzeichen entfernen ($g, $t1, $t2, $t3, $t4, $k) = split ",", $_; print "$t1\n$t2\n"; # z.B. alle gewnschte Themen}
Mail > Parsen > Aufgaben verteilen
Typische Erfahrungen
Kommentare
"Wenn es mglich ist, wrde ich
mein Referat gerne im November halten!"
Hochschulbibliographien wre mein Erstwunsch
Verschiedene Ansetzung
"T1 Struktur der Inhalte von *LibraryThing"
vs. "LibraryThing"
"Internetarchive" vs. "Internet Archive"
Typische Erfahrungen
Uneinheitliche Verknpfung
"1", "2", "Gr2", "Gruppe 2"
"1,4,1,6,7,hoffentlich klappts"
Lckenhafte Datengrundlage
"Die Zeile sollte um den Namen des Studenten erweitert werden."
Mails bis Freitag Abend: 24/36
Mails bis Sonntag Abend : 32/36
Fazit
Im Idealfall geht mit einem guten Datenformate vieles automatisch
Nicht alle Datenformate sind ideal,
vor allem ihre Benutzung nicht!
Woraus bestehen Datenformate?
Abstraktes Datenmodell
Klassen, Entitten, Relationen, Kardinalitt...
Konkrete Syntax und Kodierung
CSV, XML, RDF..., Zeichenkodierung
Oft in mehreren Ebenen
Verwendung
Erfahrung und Beispiele
Werkzeuge
Konkrete Kodierungsformen
Feldbasierte Formate
Datenbank-Format (SQL)
XML
JSON
Microformats
RDF (Semantic Web)
...
Extensible Markup Language
Auszeichnung mittels Tags
Einleitung
=
...
Hierarchische Struktur (XML-Baum)
Character Entities
&& < < > > " " ' '
XX; DDD;
Zeichen(de)kodierung
Werden Daten in eine Struktur eingebettet, mssen in der Regel einige Sonderzeichen speziell kodiert werden
XML : & < ... & < < ...;
URL : # + ... %23 %2B ...
Mehrfachkodierung ber mehrere Schichten
Achtung : wenn die Kodierung und Ebenen unbekannt sind, kommt Zeichensalat heraus:
& & & ...
JavaScriptObjectNotation (JSON)
[
{
"name" : "Fritzchen",
"alter" : 4
},
{
"name" : "Fritz",
"alter" : 24
}
]
Einheitlichkeit und Validierung
Was nicht festgelegt ist,
wird verschieden gehandhabt
Was nicht berprft werden kann,
wird missachtet oder ignoriert
Was keine Auswirkungen hat ist irrelevant
Validierung
Spezielles Programm
Schemadefinition (z.B. XML Schema)
Wie drfen Daten aussehen?
Was ist vorgeschrieben?
Weiteres Beispiel
Stammbaum-Format
Abstrakt
Personen und Rollen: Vater, Mutter, Kind
Relation: Nachkomme (Vater, Mutter, Kind)
Weiteres Beispiel
Stammbaum-Format
Abstrakt
Personen und Rollen: Elter, Elter, Kind
Relation: Nachkomme (Elter, Elter, Kind)
Visuelles Format
Prolog-Format
kind( helios, klymene, aigle ) .
kind( helios, klymene, phaetusa ) .
kind( helios, klymene, lampetia ) .
kind( helios, klymene, phaeton ) .
geschwister( X, Y ) :- kind( A, B, X ), kind( A, B, Y ) .
GEDCOM-Format
0 @I1@ INDI
1 NAME Helios
1 FAMS @F1@
0 @I2@ INDI
1 NAME Klymene
1 FAMS @F1@
0 @F1@ FAM
1 CHIL @I3@
1 CHIL @I4@
1 CHIL @I5@
1 CHIL @I6@
0 @I3@ INDI
1 NAME Aigle
1 FAMC @F1@
0 @I4@ INDI
1 NAME Phaetusa
1 FAMC @F1@
0 @I5@ INDI
1 NAME Lampetia
1 FAMC @F1@
0 @I6@ INDI
1 NAME Phaeto
1 FAMC @F1@
GEnealogical Data COMmunication Format (entwickelt um die Toten zu Taufen ;-)
GEDCOM-XML-Format
Helios
...
...
Schlussfolgerung
Es gibt viele Wege, die gleiche
Information zu kodieren
Unterschiedliche Formate und Kodierungen haben unterschiedliche Eigenheiten
Notwendig sind
Standards
Konvertierung zwischen Kodierungen
Arten von Standards
Normen
Industriestandard
De-Facto-Standard
Offener Standard
Normierungsorganisationen
Nationale Normen
DIN, BSI, ANSI...
Europische Normen (EN) seit 1961
CEN, CENELEC, ETSI
ISO seit 1947/1926 (Vorlufer ISI)
Noch frher: MKS-System (1889)
Mglichst Konsens-Prinzip aller Beteiligten
Relativ sicher aber langwierig und teuer
Arten von Standards
Internetstandards
Request For Comments (RFC) der IETF
Recommendations des W3C
Bibliothekarische Standards
MARC, MAB, Z39.50, SRU, FRBR ...
Datenformate und Verfahren
Offene Standards
Offene Organisationen (RFC , W3C)
Anschlieende Offenlegung (z.B. SRU/SRW)
Community-basiert (Microformats)
Offene Standards => Freie Mrkte
Standard-Mashups
Standards basieren auf anderen Standards
XML (W3C) basiert u.A. auf URI (RFC 2396), UTF-8 (RFC 2279), Sprachcodes (RFC 1766) basierend auf ISO 693 und ISO 3166 ...
OpenDocument basiert auf XML, ZIP, etc.
Deshalb: Alles muss genau definiert sein!
Vorteil wie bei Mashups im Allgemeinen
Rad nicht dauernd neu erfinden
Nachnutzung bestehender Infrastruktur
Bewertung
Standards sind gemeinsame
Vereinbarungen zur Kommunikation
Standards sind nur so gut wie die Verwendung
Standards mssen offen und nutzbar sein
Standards mssen berprfbar sein
Keep it simple and provide tools!
Es ist notwendig genau hinschauen,
was genau ein Standard vorschreibt
und wo genau er eingesetzt wird
Bibliothekarische Datenformate
Bernhard Eversberg (1989, 1994, 1999):
Was sind und was sollen Bibliothekarische Datenformate?
http://www.allegro-c.de/formate/
MARC, MAB, PICA, Allegro ...
Insellsungen (eigener Zeichensatz,
eigene Werkzeuge, eigene Sonderwege...)
Heute : Unicode, XML, RDF, HTML ...
Rein bibliothekarische Datenformate
machen keinen Sinn mehr
Beispiel: PICA-Datenformat
Internes (bibliografisches) Datenformat
der CBS und LBS-Software
Struktur aus Feldern und Unterfeldern
Pica3 zur Katalogisierung und Pica+ intern
Details zur Verwendung geregelt
durch Katalogisierungsrichtlinien
hnliche Grundstruktur wie MAB/MARC
Feldbasiertes Formate
Einfach
Titel : Zettelwirtschaft
Autor : Krajewski, Markus
Pica+
021A :
a : Zettelwirtschaft
028A :
d : Markus
a : Krajeski
Einige weitere Formate
ONIX[Qualified] Dublin Core (DC)
Metadata Object Description Schema (MODS)
Metadata Encoding and Transmission Standard (METS)
Text Encoding Initiative (TEI)
Encoded Archival Description (EAD)
ONIX International (Online Information Exchange)
EXIF, IPTC (XMP)
u.v.a.m. !
"Semantische" Datenformate
Datenfelder als global definierte
"Properties" mit einem festen URI
Beispiel: http://xmlns.com/foaf/0.1/name
Ggf. zustzliche Beschrnkung
auf bestimmte Datentypen
Ohne Validierung wenig hilfreich!
Vom Datenformat zur Ontologie
Zusammenfassung
Bei Datenformaten sehr genau sein
Unterscheidung notwendig
Abstrakte Strukturierung (Datenmodell)
Konkrete Kodierung (Datenformat)
Anwendung (Werkzeuge und Praxis)
Definiert durch Standards
Datenformate basieren aufeinander
Bis nchste Woche!
Klicken Sie, um das Format des Titeltextes zu bearbeiten
Klicken Sie, um die Formate des Gliederungstextes zu bearbeiten
Zweite Gliederungsebene
Dritte Gliederungsebene
Vierte Gliederungsebene
Fnfte Gliederungsebene
Sechste Gliederungsebene
Siebente Gliederungsebene
Achte Gliederungsebene
Neunte Gliederungsebene
Jakob Vo: Lehrveranstaltung Digitale Bibliothek (WS
2008/2009)
FHH Hannover, Bachelor-Studiengang Informationsmanagement
Klicken Sie, um das Format des Titeltextes zu bearbeiten
Klicken Sie, um die Formate des Gliederungstextes zu bearbeiten
Zweite Gliederungsebene
Dritte Gliederungsebene
Vierte Gliederungsebene
Fnfte Gliederungsebene
Sechste Gliederungsebene
Siebente Gliederungsebene
Achte Gliederungsebene
Neunte Gliederungsebene
Die Inhalte dieser Prsentation stehen (sofern nicht weiter angegeben) von Jakob Vofreigegeben unter der Creative Commons Attribution-Share Alike 3.0 Unported Lizenz.