28
TEI Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

Embed Size (px)

Citation preview

Page 1: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEI

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 2: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIKonsortium

• „Text Encoding Initiative“ seit 1987 mit Teilnehmern aus Industrie, Bildungsinstitutionen u.v.m., inzwischen TEI-Konsortium

• TEI bezeichnet sowohl das Konsortium, als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten

• TEI P5 Guidelines veröffentlicht 2007

• TEI-Lite -> abgespeckte Version

• mehr unter www.tei-c.org

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 3: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIBenutzer

• Benutzer gleich Entwickler: Textwissenschaftler, z.B. Literaturwissenschaftler und Linguisten

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 4: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIZweck

• Unabhängig von Betriebssystemen und Anwendungssoftware elektronisch Texte zu kodieren

-> dauerhaftere elektronische Texteditionen

-> Loslösung von proprietären Systemen der Textspeicherung wie MS-Word und auf andere Ziele ausgelegte Standards wie HTML

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 5: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIZweck

• „Text als abstrakte Entität [ist das] Produkt und muss in einem portablen Format vorliegen, aus dem sich die möglichen Publikationsformen ohne großen Aufwand generieren lassen“

(http://computerphilologie.uni-muenchen.de/praxis/teiprax.html)

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 6: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI und SGML

• TEI ist SGML-konform (genau wie HTML) -> verarbeitbar von jeder SGML Software

• TEI besteht wie alle SGML-konformen Systeme aus drei Teilen:

1. Die Deklaration mit Grundeinstellungen (TEI.DCL)

2. Die Document Typ Definition (TEI-DTD, die bei Tei aus mehreren Teilen besteht, die je nach Bedürfnis aktiviert oder deaktiviert werden können

3. Eine oder mehrere Dateiinstanzen, ausgezeichnet entsprechend den Regeln der DTD

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 7: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI-Guidelines P5

• P1 erschien 1990

• P4 (2002) erste XML-Version der Guidelines

• P5 ist seit 2007 die neueste Version der Guidelines, Anpassung an XML wurde z.B. noch verstärkt, außerdem textinterne Verlinkung, Multimediakompatibilität und Schriftverarbetiung verbessert

• Möglichkeit der Übertragung von P4 zu P5

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 8: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIAufbau

• verschiedene Module mit Elementen

• beispielsweise Elemente für Dokumentenstruktur, Auszeichnung von Gedichten und Dramen, Markierung einzelner Zeilen und Seiten, Tabellen, textkritische Anmerkungen, Terminologien, Wörterbücher

-> Strukturelle Teile eines Textes

-> Typographische Elemente

-> andere Textfeatures (wie Orte von Illustrationen)

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 9: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIAufbau

• Kern von Modulen enthält allgemeine Elemente wie <p/> für Absätze

• Kern kann erweitert werden um weitere Module -> differenzierte Auszeichnung von Textmerkmalen

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 10: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIGrundstruktur der Dokumente

• Jedes TEI-Dokument hat einen Kopf <TEIHEADER> und einen Textkörper <TEXT>

• Der Inhalt des Textelements kann vielfach gegliedert werden, bspw. durch <FRONT>, <BODY> und <BACK> für Bücher

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 11: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIEin Minimalheader sieht so aus:

<TEIHEADER>

<FILEDESC>

<TITLESTMT>

<TITLE>Titel des Werks: elektronische Edition</TITLE>

<AUTHOR>Autor des Werks</AUTHOR>

<RESPSTMT><RESP>erstellt von</RESP>

<NAME>Name des Editors</NAME>

</RESPSTMT>

</TITLESTMT>

<PUBLICATIONSTMT><PUBLISHER> Vertrieb des Textes durch XXX</PUBLISHER>

</PUBLICATIONSTMT>

<SOURCEDESC>

<BIBL>Bibliographische Angaben zur Vorlage</BIBL>

</SOURCEDESC>

</FILEDESC>

</TEIHEADER>

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 12: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIBeispiele für TEI-Elemente

• <P></P> Absatz

• <EMPH></EMPH> Betonung

• <NOTE></NOTE> „Fussnote“, Anmerkung

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 13: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEI„customizing“

• Das TEI Schema kann aufgrund seines Umfangs einfacher verwendet werden wenn man es „customized“

• Dazu wird das ODD und das Roma-Tool verwendet

• über das Internet wird in Roma customized und das Ergebnis als ODD-Datei abgespeichert

• TEI Lite ist beispielsweise so eine customization

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 14: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIODD - „One Document Does It All“

• Quellformat in Metasprache in dem die TEI geschrieben ist

• enthält Fragmente des Schemas, „prose documentation“ und „reference documentation“

• daraus können formale Schemata generiert werden wie DTD oder XML Schema, außerdem die TEI Guidelines

• ODD Spezifikation ist normalesTEI XML Dokument, das das tagdocs Modul verwendet

• mit ODD kann die P5 Version des TEI XML an die eigenen Bedürfnisse angepasst (“customized“) werden

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 15: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIRoma-Tool

• webbasierte Anwendung

• ein System von XSLT Stylesheets das ODD-Files manipuliert

• Erstellung P5 kompatibler Schemas und Dokumentationen wie DTD aus einem XML Dokument, das das TEI ODD Markup benutzt

- nötiges Programm um die in einem ODD Markups verwendenden TEI XML Dokument customized TEI in eine DTD oder ein anderes Schema zu kompilieren

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 16: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI-DTD

• idealerweise so angebeben, dass mehrere Dokumente darauf zugreifen können:

<!DOCTYPE TEI.2 PUBLIC „-//TEI//TEI P3 //EN“>

• PUBLIC legt fest, dass die Zeichenkette „-//...“ die DTD identifiziert

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 17: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI-DTD

• weiterhin muss in einer Datei namens „catalog“ die >Zuordnung von public identifiern und systemdateien geschehen, z.B.

PUBLIC „-//TEI//TEI P3 //EN“> „c:\tei\dtd\tei2.dtd“

• weil TEI mehrere DTD verwendet, muss zum Element DOCTYPE hinzugefügt werden, welche, z.B.

<!DOCTYPE TEI.2 SYSTEM "tei2.dtd" [

<!ENTITY % TEI.prose 'INCLUDE'>

<!ENTITY % TEI.textcrit 'INCLUDE'> ]>

• Diese Ergänzung der DOCTYPE-Angabe ist faktisch eine Ergänzung der DTD

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 18: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI-Tag Sets

• zwei Klassen: Base Tag Sets und Additional Tag Sets, außerdem Core Tag Set (eh vorhanden, muss nicht ausgewählt werden)

• es kann nur ein Base Tag Set gewählt werden, aber beliebig viele Additional Tag Sets

• die Zusammensetzbarkeit der Tag Sets wurde als Pizza Concept bezeichnet das mit dem Pizza Chef geregelt wurde, heute Roma Tool

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 19: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI-Tag Sets - Beispiele für Base Tag Sets

• TEI.prose -> Auszeichnung von Prosa

• TEI.verse -> ...von Lyrik

• TEI.drama -> ...von Dramen

• TEI.spoken -> ...von Transkriptionen gesprochener Sprache

• TEI.dictionaries -> ...von Wörterbüchern

• TEI.terminology -> ...von terminologischen Datenbanken

• TEI.mixed -> ...von Texten, die Tags aus mehreren der anderen Kategorien benötigen

• TEI.general -> wie mixed aber nur ein Base Tag set pro Korpuseinheit

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 20: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI-Tag Sets - Beispiele für Additional Tag Sets

• TEI.linking -> Auszeichnungselemente, um Texte mit Hyperlinks zu verbinden und zu segmentieren

• TEI.textcrit -> ... für textkritischen Apparat

• TEI.transcr -> ... für Transkription von Primärquellen

• TEI.figures -> ... für Grafiken, Illsutrationen, Formeln

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 21: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI-Tag Sets - Beispiel

• Verstexte einschließlich einiger Handschriftenproduktionen und eines kritischen Apparats sollen ausgezeichnet und mittels Hyperlink miteinander verbunden werden:

<!DOCTYPE TEI.2 SYSTEM "tei2.dtd" [

<!ENTITY % TEI.verse 'INCLUDE'>

<!ENTITY % TEI.textcrit 'INCLUDE'>

<!ENTITY % TEI.transcr 'INCLUDE'>

<!ENTITY % TEI.linking 'INCLUDE'>

<!ENTITY % TEI.figures 'INCLUDE'>

<!ENTITY % isolat1 PUBLIC "ISO 8879-1986//ENTITIES Added Latin 1//EN">

%isolat1; ]>

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 22: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI Praxisanwendung...

1. Dokumentenanalyse

2. Digitalisierung

3. Textauszeichnung

4. Publikation

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 23: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI Praxisanwendung...

1. Dokumentenanalyse und Auswahl von Tag Sets

• Sichtung des Materials, theoretische Vorentscheidung

-> was ist der Verwendungszweck einer Edition?

-> welche Textmerkmale sollen durch Kodierung erfasst werden?

-> welche sollen dem Benutzer zugänglich sein? Wie?

(Bsp. Kapitel, direkte Rede bei Roman)

• kann unabhängig von TEI geschehen, aber auch mit Hilfe von TEI Handbüchern

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 24: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI Praxisanwendung...

2. Digitalisierung

Erstellen elektronischer Bilder, Textgewinnung durch manuelle Eingabe oder Texterkennung

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 25: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI Praxisanwendung...

3. Textauszeichnung

Versehen des gewonnen Textes mit den notwendigen Auszeichnungen, um die Elemente in TEI zu kodieren, die aufgrund der Dokumentenanalyse als bewahrenswert gelten

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 26: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEITEI Praxisanwendung...

4. Publikation

Anpassung an zur Publikation gewählte Medien (Browser, Buchdruck...)

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 27: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEI• TEI ist ein defacto standard in „humanities

computing“ Projekten, vor allem zum Austausch von Texten zwischen verschiedenen Projekten und Archiven.

• Fragen?

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09

Page 28: TEI Philosophische Fakultät IT-Zertifikat Datenstandards Johanna Bächer 09.01.09

TEIQuellen

• http://www.tei-c.org

• http://computerphilologie.uni-muenchen.de/praxis/teiprax.html

• http://de.wikipedia.org/wiki/Text_Encoding_Initiative

•http://en.wikipedia.org/wiki/ODD_(One_Document_Does_it_all)

• http://www.tei-c.org/Support/Learn/tutorials.xml

• http://www.tei-c.org/Talks/MITH/index.xml

(alle Internetquellen zuletzt eingesehen am 08.01.09 10:00 cet)

Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09