Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserver
der Humboldt Universität
Jakob Voß(6.2.2003)
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Übersicht
1. Historie
2. Archivierung mit SGML/XML an der HU Berlin
3. Dokumentenorientierte XML-Formate
4. Aufbau und Verwaltung der DiML-DTD
5. Zusammenfassung und Ausblick
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Historie 1
1987 — erste Dissertations DTD (ETD) von Juri Rubinski
1997 — Überarbeitung zur Version 1.1 von Neil Kipp
Ab September 1997 Projekte an der Humboldt Universität– Anpassung der ETD als DiML zur SGML-Archivierung– Promovendenbefragung– Dokumentenvorlage für Word– Konvertierung mit SGML Author for Word
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Historie 2
April 1998 — Änderung der Promotionsordnung– Autorenschulungen zur Dokumentenvorlage– Beitritt der NDLTD (als erste dt. Universität)– Veranstaltung eines DTD-Workshops (Mai 1999)– DFG-Projekt Dissertationen Online– Unterstützung weiterer Publikationsverfahren in der
Universität (Öffentliche Vorlesungen, Zeitschriften)– Knapp 250 Dokumente in SGML + 150 in Bearbeitung
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Warum SGML/XML als Archivformat?
– Internationale Normierung durch ISO8879– Plattformunabhängig lesbar– Langzeitarchivierung (> 10 Jahre)– Medienneutrale Präsentation durch Transformation– Strukturierte Recherche und Weiterverarbeitung
durch Informationsextraktion
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Arbeitsablauf
– Publikationsvorhaben des Autors– Dokumentenvorlage, Schulung und Hilfe– Korrektur und endgültige Abgabe– Aufnahme von Metadaten und PDF– Konvertierung nach SGML/XML– Archivierung– Weiterverarbeitung (HTML, Recherche, PoD...)
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Workflow (technisch)
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Grundstruktur eines (DiML)-Dokumentes
<etd>
<front>..title...author...abstract...</front>
<body>
<chapter>
<section>
...
</body>
<back>..bibliography...appendix...vita...</back>
</etd>
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Dokumentenorientierte XML-Formate
XHTML Hypertexte
DocBook Technische Dokumentation
TEI Retrodigitalisierung, Textanalyse
OpenOffice Office-Dokumente
ISO 12083 (AAP/EPSIG), NITF, OeB...
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
KooperationPartner HU
BerlinVirginia Tech
Univ. of Iowa
Univ. of Montreal/Lyon
Tech. Univ. Helsinki
Univ. of Michigan
Univ. Oslo
DTD DiML ETD TDM TEI-Light HutPubl TEI-Light
ISO-Book
Konv.nach SGML/XML
SGML-Author for Word
SGML-Author
Majix Omnimark rtf2sgml
Frame-Maker+ SGML
Omni-mark rtf2sgml
Balise
SGMLnach HTML, PDF
Perl-script, DSSSL
Perl-script
CSS XSL DSSSL, Frame-Maker
- -
Siehe http://edoc.hu-berlin.de/epdiss/dtd-workshop
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Anforderungen an ein Dokumentenformat
• Verschiedene Arten von Dokumenten• Spezielle Anforderungen (MathML, SVG, RDF...)
-> modularisiert
• einfach benutzbar
• dokumentiert und wartbar
-> DTD
-> Erzeugung von Dokumentation und DTDaus einer Quelle
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Modularisierung
Basis-DTD
CALS(Tabellen)
Medien
MathML
Geisteswiss.
CML
Weitere
Basis-DTD– Front, Body, Back– Titelblatt– BibliographieMedien– SVG, SMIL, weitere– BitmapformateGeisteswiss.– Gedichte, RezensionWeitere– Offene definierte Schnittstelle
z.B. TEI-Module, Dublin Core
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Möglichkeiten der Verwaltung
• DDML (1/1999) ist nie über eine W3C Notehinaus und unterstützt keine Modularisierung
• XML Schema ist zu komplex (DTD-Generierung!)• Entity-Konstrukte sind schlecht wartbar und beschränkt
<!ENTITY % elements-1 "foo | bar"><!ENTITY % elements-2 "baz | foo"><!ENTITY % elements-3 ""><!ELEMENT doz (%elements-1; | %elements-2; | %elements-3;)*>
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Architektur
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Inhalte der DTDBase
– Elemente (und Enumerations, Notations)– Gruppen– Module– Externe DTDs– Beschreibung– Beispiele
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Module
text br, em, strong, sup, sub, u, tt, precommon p, head, caption, url, name, foreign…structure chapter, section, subsection…citation Zitate und Literaturangabendocuments Seitenzahlen, Fußnoten…diml front, body, back, abstract…
lists (Listen), CALStable (Tabellen), media (Grafik)mathematics (MathML), verse (Gedichte)
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Gruppen
Klassen gleichartiger Elemente
Beispiel: Gruppe inlineforeign, url... [module common]
footnote, citation [module citation]
imath [module mathematics]
Benutzung der Gruppe in anderen Elementenp := (#PCDATA | %inline.group; | ...)*
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Beispiel: Modul lists
ul,ol := (caption?, li+)(block.group)
dl := (caption?, def+) " "
def := ((term | foreign) , (dd | term)+)dd,li := (%paragraph.group;)
Elemente: ol, ul, dl, def, dd, liGruppen: blockBenötigte Elemente: captionBenötigte Gruppen: paragraph
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Abhängigkeiten zwischen Module
Aufgrund benötigter Elemente und Gruppen
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Auswahl von Module
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Elementdefinition
<element name="imath"> <refpurpose lang="en">... <refdescription lang="en">... <refpurpose lang="de">... <refdescription lang="de">... <group>inline</group> <contentspec type="children"> ... </contentspec> <attribute name="label" type="CDATA"/></element>
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Content Specification
DTDSys-Syntax in XML DTD-Syntax
<contentspec type="mixed">
<contentspec type="children">
<contentspec type="EMPTY">
<!ELEMENT x (#PCDATA | ...)>
<!ELEMENT x (...)>
<!ELEMENT x EMPTY>
<dtd-sequence>
<dtd-choice>
( ... , ... , ... )
( ... | ... | ... )
<dtd-element name= "foo">
<dtd-inclusion name="bar">
foo
%bar.group;
<... occurence="any|more|optional">
* | + | ?
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Enumerations, Notations
Wie bei Elementen in Gruppen
Notation plaintext gehört zu Gruppe altFormat
Element alt, attribut notation = Gruppe altFormat
<alt notation="plaintext">Ein Foto</alt>
Modul mathematics: TeX, LaTeX
<alt notation="TeX">e=mc^2</alt>
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Externe DTDsEinbindung fremder Formate (MathML, SVG, CML…) durch Zuweisung eines festen Namensraumes.
<imath> <alt notation="TeX">W^3</alt> <mathml:math> <mathml:apply> <mathml:power/> <mathml:ci>W</mathml:ci><mathml:cn>3</mathml:cn> </mathml:apply> </mathml:math></imath>
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
DiML-Styles
Erzeugung von HTML mit XSLT
Aufbau der Style-Bibliothek 1:1 wie in den Modulen
module-lists/html.xsl
module-lists/html/li.xsl
module-lists/html/dl.xsl
module-lists/html/ol.xsl
module-lists/html/ul.xsl
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Grenzen
– DTDSys geht nicht über DTD hinaus, da ja eine DTD weitergegeben werden soll (XML Schema?)
– Die Grenzen liegen letztendlich beim Autor
Noch nicht vollständig implementiert– Beispiele (mit Verknüpfung zu Definitionen)– Mehrsprachigkeit der Dokumentation– Styles und andere Werkzeuge
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Zusammenfassung
– Langzeitarchivierung und Weiterverarbeitung elek-tronischer Publikationen setzt XML o.ä. voraus
– DiML ist ein XML-basiertes Dokumentenformat für wissenschaftliche Publikationen
– Es ist einfach benutzbar (DTD) und trotzdem flexibel– Mit Konverter und Styles bildet DTDSys ein voll-
ständiges Toolkit zur XML-basierten Publikation– Der CMS kann weitere XML-basierte Publikations-
vorhaben (Konferenzbände...) einfach realisieren
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Quellen
Server http://edoc.hu-berlin.de
Die DiML-DTD http://edoc.hu-berlin.de/diml/
Zur Konvertierung http://edoc?????????
ProPrint http://edoc.hu-berlin.de/proprint/
http://db2-www.sub.uni-goettingen.de/
NDLTD http://www.ndltd.org
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Vielen Dank für Ihre Aufmerksamkeit! :-)
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Warum nicht XML Schema?
– Dokumente haben keine Datentypen– DTD wird breiter unterstützt– XML Schema ist zu komplex– Müsste sowieso angepasst werden– keep it simple, stupid!
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Word mit Formatvorlage
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Staroffice 6.0
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
XML-Output aus Staroffice 6.0
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
FrameMaker + SGML 6.0
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
XML-Output aus FrameMaker + SGML 6.0
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Dokumenten- und Publikationsserver
der Humboldt-Universität zu Berlin
Modulare Verwaltung dokumentenorientierter DTDs 6.2.2003
AG "Elektronisches Publizieren" des Computer und Medienservice der Universitätsbibliothek der Humboldt-Universität zu Berlin — Jakob Voß
Output aus Word + XMLWriter Add-IN Mediatext Jena