18
Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne Center for eHumanities Institut für Dokumentologie und Editorik UzK HKI CCeH IDE 6. Sitzung, 31. Mai 2010

Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

Embed Size (px)

Citation preview

Page 1: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

Kolloquium

Humanities Computer Science

In Vertretung: Patrick Sahle

Universität zu KölnHistorisch-Kulturwissenschaftliche Informationsverarbeitung

Cologne Center for eHumanitiesInstitut für Dokumentologie und Editorik

UzKHKI

CCeHIDE

6. Sitzung, 31. Mai 2010

Page 2: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

Formalia • Teilnehmerliste

6. Sitzung, 31. Mai 2010

Page 3: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

Davon ausgehend beschäftigen wir uns jetzt konkreter mit der "Modellierung", wie Sie der Verarbeitung und / oder Visualisierung von Texten zu Grunde liegt. Dazu lesen Sie bitte den anhängenden Text (Fallback für alle Fälle).

DeRose, Steven J.; Durand, David D.; Mylonas, Elli; Renear, Allen H.: What is Text, Really? In: Journal of Computer Documentation 21/3 (1997), S. 1-24.

Dieser Text (der eigentlich von 1990 ist) beschreibt einen Grundansatz in der Modellierung von Texten durch Markup. Die hier geschilderten Ansätze haben dann letztlich auch zu dem Standard für elektronische Texte in den Geisteswissenschaften, den Guidelines der Text Encoding Initiative (TEI), geführt.

Wer sich nicht sicher ist, einen ausreichenden Überblick über die TEI zu haben, der sollte zur Vorbereitung der Stunden die Website der TEI besuchen (http://www.tei-c.org/index.xml) und sich vor allem über die aktuellen Guidelines P5 orientieren.

6. Sitzung, 31. Mai 2010

Page 4: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

In der letzten Stunde haben wir ein zentrales Konzept zur Modellierung von Texten kennen gelernt: Das OHCO-Modell, nach dem Texte eine geordnete Hierarchie von Inhaltsobjekten sind.

Und wir haben die Praxis gesehen. Die Guidelines des TEI erheben den Anspruch, für alle Textsorten aller Zeiten und für alle Perspektiven der Forschung ein ausreichendes Modell zur Verfügung zu stellen.

Also sind alle Probleme gelöst und alle Menschen glücklich. Oder auch nicht. Die Kritik an Markup, OHCO und TEI ist so alt wie diese Ansätze selbst. Zu den aktuellen Positionen auf der eher relativierenden oder "dissidenten Seite" gehören

• Vertreter einer pluralistischen Texttheorie, die in OHCO und TEI keine gleichmäßige Berücksichtigung aller Sichten auf Text sehen

• Kritiker, die "embedded markup" für grundsätzlich unzureichend halten um komplexere Anforderungen an die Textcodierung zu erfüllen.

Für die zweite Gruppe lesen Sie bitte:Schmidt, Desmond: The Inadequacy of Embedded Markup for Cultural Heritage Texts. In: Literary and Linguistic Computing. Advance Access published online on April 16, 2010.

6. Sitzung, 31. Mai 2010

Page 5: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Modellierung von "Text"… Rekapitulation …

• Was bedeutet OHCO?• Warum ist (nach Renear e.a.) der OHCO-Ansatz gut geeignet für die Modellierung von Texten in elektronischen Medien?

Page 6: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Markup als Modell… Charakteristika …

• Explizit• Hierarchisch • Datenbankartig• Applikativ / Deskriptiv • Semistrukturiert• Komplex• Inkrementell • Multiperspektivisch• Netzwerkartig• Nicht Redundanzfrei• Lesbar

Page 7: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Modellierung von "Text"… im Lichte des gelesenen Beitrages …

• OHCO?• Modellierung / Strukturierung / Beschreibung

vs. Formatierung und Verarbeitung• Modellierung des "life cycles" von Dokumenten?

Renear: (1) composition, (2) production, (3) usage• Vorteile des OHCO-Ansatzes

• (1) Einfache (abstrakte) Erstellung, Alternative Dokumentsichten, einfache Werkzeuge, kollaborative Erstellung (gemeinsame, abstrakte Sprache)

• (2) Trennungvon Struktur und Formatierung, gleichmäßige Formatierung, Einfachheit der Formatänderung

• (3) Text als Datenbank, Verständlichkeit der Daten, Retrieval, Spezialisierte Nutzungen

Page 8: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Modellierung von "Text"… im Lichte des gelesenen Beitrages …

• Durchsetzung von OHCO als Punkt in einer historischen Entwicklung• Abstraktion vs. WYSIWYG

• Beides zusammen?

• Perspektiven 1990• Multiple Hierarchien in den Griff kriegen

• Zusätzliche Netzwerkstrukturen (Hypertext-Konzept)

• Versioning

• Die Grundbehauptung der Modellierung• Text ist eine OHCO

Page 9: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Die TEI als Realisierung des OHCO-Modells?

Page 10: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Die TEI als Realisierung des OHCO-Modells?

• Die TEI definiert "content objects" …• … sonst nichts?• Multiperspektivität• Multigranularität

Page 11: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Was ist Text?

Ein pluralistischer Textbegriff'?

Die TEI in einem pluralistischen Textbegriff?

“What is text? I am not so naïve as to imagine that question could ever be finally settled. Asking such a question is like asking ‘How long is the coast of England?’.”

Jerome McGann

… text is what you look at. And how you look at it …

Page 12: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

Vielfalt der Textbegriffe

TE

XT

ITEXT

STEXT D

TEXT W

TE

XT

F

TEXTZ

Text als Idee, Intention, Inhalt, Bedeutung, Semantik

Text als sprachlicher Ausdruck, linguisti-scher Code, Serie von Wörtern

Text als Dokument (materiell, indivi-

duell), Text als Medi(um/al)

Text als (visuelles) Zeichen

Text als Fassung

Text als Werk, Struktur

Page 13: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

Lokalisierung der TEI

( … wir sind immer noch Textplatoniker … )

Page 14: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Desmond Schmidt: The inadequacy of embedded markup for cultural heritage texts

• Eindrücke? Verortung …• "Markup-Begriffe" nach Schmidt (S. 2)

• Satzanmerkungen, Spaces, alles außer Zeichendaten, embedded codes, alles außer "content"

• der historische Ansatz• Markup als Replikation von Strukturen gedruckter Werke

• TEI als Lösung und als Problem

• OHCO, weil es einfach zu verarbeiten ist

• Sein Fazit:• Man hat markup übernommen, weil es da war und weil es einfach zu

verarbeiten war, nicht weil es besonders passend war

Page 15: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Desmond Schmidt: The inadequacy of embedded markup for cultural heritage texts

Was will er? Was ist sein Problem?

1. XML hat Probleme mit überlappenden Hierarchien• OHCO1-2-3 vs. Overlap• Overlap ist immer noch ungelöst

2. XML ist eine historische Zufälligkeit, prägt aber unser Verständnis von Text; XML soll dauerhaft sein, ist aber nicht zukunftssicher

3. XML ist eine "textual command language" und damit nicht zeitgemäß

Page 16: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Desmond Schmidt: The inadequacy of embedded markup for cultural heritage texts

Implizite Probleme im Schmidt-Ansatz• Was ist "Text"? Wie ist die Trennung von Text und Markup• Worauf zielt er eigentlich? Was meint er mit Markup?

• Wie die TEI angewendet wird …• Die TEI als Regelsatz …• XML als eine generalisierte Auszeichnungssprache …• "Embedded" Markup Languages …• Das Konzept von Auszeichnungssprachen …

• Diskussionswürdig: S. 13• Sein Lösungsansatz: MVP = Multi-Version Documents

• Allgemeingültigkeit?• Verhältnis seines Ansatzes zu Markup

Page 17: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Desmond Schmidt: The inadequacy of embedded markup for cultural heritage texts

• … hat eine interessante Diskussion angestoßen …• http://lists.digitalhumanities.org/pipermail/humanist/2010-April/

date.html#start (und die folgenden Monate)

• … eine der Antworten …• http://cocoon.lis.illinois.edu:8080/lis590dpl/wapiez/LMNL/clix-sonnets?

type=sonnets

Schauen Sie sich vor allem die "map (SVG)" an

Page 18: Kolloquium Humanities Computer Science In Vertretung: Patrick Sahle Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Cologne

6. Sitzung, 31. Mai 2010

Aber wie sollte man Texte nun wirklich modellieren?

• Wie weit kommt man mit markup?• Ist markup vielleicht doch der Weisheit letzter Schluss?• Oder was kommt nach markup?• ?