10
Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen Institut für Slawistik, Universität Graz April 2007 Korpuserstellung im Kontext eines AM-basierten Frameworks Institut für Informationsverarbeitung in den Geisteswissenschaften Hubert Stigler

Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

Embed Size (px)

Citation preview

Page 1: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und SerbischenInstitut für Slawistik, Universität GrazApril 2007

Korpuserstellung im Kontext eines AM-basierten Frameworks Institut für Informationsverarbeitung in den GeisteswissenschaftenHubert Stigler

Page 2: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

Gralis Text-Korpus: "je.*"Gralis Text-Korpus: "je.*"

Page 3: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

AgendaAgenda

Workflow zur Erstellung des Gralis Text-Korpus Ein Korpustext aus der BearbeiterInnenperspektive XML-basierte Validierung der Korpustexte Asset Management Systeme (AMS) Anwendungsbeispiel aus der Literaturwissenschaft Ein Korpus-Asset Inhaltsmodell AMS Anwendungsszenarien in der Korpuserstellung

Page 4: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

Workflow zur Generierung des Gralis Text-KorpusWorkflow zur Generierung des Gralis Text-Korpus

Korpus-Annotation in der gewohnten Office Umgebung

Generierung der vertikalisierten, alignierten Korpusdateienfür die Sprachen Bosnisch/Bosniakisch, Kroatisch und Serbisch

XML-basierte Validierung der Korpustext-Triples

Makro-basierte Umwandlung des Textdokumentes nach TEI

Page 5: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

Ein Korpustext aus der BearbeiterInnenperspektiveEin Korpustext aus der BearbeiterInnenperspektive

Die roten Absatzmarken markieren Segmentgrenzen, die zunächst über ein Makro unter Verwendung von Regular Expressions eingefügt und bei Bedarf im Bearbeitungsvorgang interaktiv – durch Verschieben oder Löschen – in der Office Anwendung korrigiert werden können.

Page 6: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

XML-basierte Validierung der KorpustexteXML-basierte Validierung der Korpustexte

Gralis buildCorpus 1.1 © Hubert StiglerSearching for file triples in directory: /data/xo/gralis/data/

-- file triple: Albanija_dospjela_na_listu ok-- file triple: Albanski_politicari ok-- file triple: Albert_Einstein couldn't found hr-- file triple: Americka_vlada_izjavila couldn't validate bs-- file triple: Americki_predsjednik segment error hr: 6; sr: 6; bs: 5-- file triple: Anatole_France ok ...124 file triples were processed121 file triples were written to the corpus files3 non valid triples were foundExecution terminated normally

Im Bulk-Modus werden die in einem Verzeichnis abgelegten Korpustexte validiert und die für die Weiterverarbeitung mit der IMS Corpus Workbench1 benötigten vertikalisierten Korpusdateien erstellt.

1 Developed by Institute for Natural Language Processing, University of Stuttgart

Page 7: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

Asset Management SystemeAsset Management Systeme

Dienen der metadatenbasierten Verwaltung von digitalen Ressourcen

Bieten die Möglichkeit, über persistente Zitierbarkeit Assets einfach in webbasierte Kontexte zu integrieren (Lernplattformen, Frameworks u.a.)

Stellen (intelligente) Suchstrategien zur Verfügung Ermöglichen Kollaboration in der Assetbearbeitung und -verwaltung Ermöglichen die Bildung von Sammlungen für unterschiedliche

Zwecke Bieten Möglichkeiten zur fein granulierbaren Vergabe von

Zugriffsrechten

Page 8: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

Beispiel: Ulrich Beispiel: Ulrich Schulz-Buschhaus AufsatzwerkSchulz-Buschhaus Aufsatzwerk

http://gams.uni-graz.at/container:usbhttp://gams.uni-graz.at/rss?pid=container:usb

Page 9: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

Ein Korpus-Asset InhaltsmodellEin Korpus-Asset Inhaltsmodell

Ein Asset dient als Speichercontainer für beschreibende Metadaten und Datenströme beliebiger Art: Texte, Audio-/Videodateien u.v.m. Zusätzlich bietet ein AMS die Möglichkeit, im sogenannten Inhaltsmodell Objektmethoden (z.B. XSLT-Transformationen u.Ä.) zu definieren, die auf den im Asset enthaltenen Daten operieren.

Zugriffsmethoden

bdef:HTML/get

bdef:PDF/get

bdef:Verticalized/get

Metadaten

Dublin Core

REL-EXTBeschreibt Relationen zu anderen

Assets

Datenströme

THUMBNAILRepräsentiert Asset in Containern und

Collections

TEI-SOURCEPrimärtext des Assets

im TEI-Format

DOCPrimärtext des Assetsim MS WORD Format

Diverse XSLT-Stylesheets zurFormatierung des Assetcontents bdef:LaTeX/get

Page 10: Symposium: Die phonetisch-phonologischen, orthoepischen und orthographischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen

AMS Anwendungsszenarien in der KorpuserstellungAMS Anwendungsszenarien in der Korpuserstellung

In einem Korpus-Asset werden sowohl Office-Dokumente als auch XML-Repräsentanten aller drei Sprachvarianten eines Korpustextes verwaltet

Während HTML- und PDF-Getter-Methoden des Korpustextes über das Web frei zugänglich sind, stehen Office- und TEI-Datenstrom, sowie LaTeX-Getter-Methode nur autorisierten BenutzerInnen zur Verfügung

Über die HTML- und PDF-Getter-Methoden aller Korpustexte generiert sich ein Webauftritt des Korpus

Alle Korpustexte werden bei der Bearbeitung einem Container zugewiesen, der als Objektmethode in seinem Inhaltsmodell die Generierung der vertikalisierten Korpusdateien für die IMS Corpus Workbench ermöglicht

und, und, und ...

Danke für Ihre Aufmerksamkeit!