EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF … · EINE BASIS -ARCHITEKTUR FÜR DEN ZUGRIFF AUF...

Preview:

Citation preview

EINE BASIS-ARCHITEKTUR FÜR DEN ZUGRIFF AUF MULTIMODALE KORPORA GESPROCHENER SPRACHEJosip Batinić, Elena Frick, Joachim Gasch, Thomas Schmidt (IDS Mannheim)

Postanschrift:Leibniz-Institut für Deutsche SpracheR 5, 6-1368161 Mannheim

Tel.: +49 621 1581-0Fax: +49 621 1581-200info@ids-mannheim.dewww.ids-mannheim.de

© 2019 IDS Mannheim

Kontakt:Dr. Thomas Schmidt Leiter des Programmbereichs „Mündliche Korpora“Abteilung PragmatikLeibniz-Institut für Deutsche SprachePostfach 10 16 2168016 Mannheim

Tel.: +49 621 1581-313Fax: +49 621 1581-200thomas.schmidt@ids-mannheim.de

6. Jahrestagung des Verbands Digital Humanities im deutschsprachigen Raum (DHd), 25. bis 29. März 2019

Oracle DB

Index(.fln)

Web Services(PL/SQL)

MTAS (Lucene)

Index(ISO/TEI)

/search/api

[w=„koch“ & pos=„NN“]

/corpora /{speaker}/{corpus} /speakers

?q={query string}+/media

/metadata

...

[00001] [0] [00084] [w] [so][00002] [0] [00084] [w.id] [w1][00003] [0] [00084] [pos] [NGIRR][00084] [0-13][00089] [u.id] [u_d1e17][00085] [0-13][00089] [u.speaker] [LB]

...

...

Sprechereignisse pro Bundesland

Abgleich der Lemmata mit den Goethe Wortschatzlisten im Sprechereignis

Verteilung der Sprecherbeiträge im Sprechereignis

"query": {"@type": "koral:token","wrap": { "@type": "koral:term",

"foundry": "opennlp","key": "Koch","layer": "orth","match": "match:eq" } }

HINTERGRUNDPLATTFORMEN-VERGLEICH

KONZEPTISO/TEI SPEZIFIKATION

Forschungsprojekt „ZuMult“

Drei-Ebenen-Architektur

Backend

Web Services (REST API)

Client

Objektorientierte Modellierung der Korpus-Bestandteile und ihrer Beziehungen

Modellierung nutzergruppenspezifischer Zugänge für DaF-, Gesprächs- und Variationsforschung

KoralQuery

Beispielsuchanfrage in CQP QL

ZuMult steht für „Zugänge zu multi-modalen Korpora gesprochener Sprache: Vernetzung und zielgruppenspezifische Ausdifferenzierung“

Ziel: Entwicklung einer Architektur für den einheitlichen Zugriff auf unterschiedliche Korpora gesprochener Sprache an ver-schiedenen Standorten

ZuMult-Blog unter https://zumult.org

Plattformen: DGD, GeWiss, CNC, Spokes, Spoken BNC2014, Talkbank, ESLO, CLAPI, TGDA

Kriterien: Zugang zu den Daten (Such- und Browsingfunktionalitäten), Darstellung der Suchergebnisse

Ergebnisse: – Heterogenität – Entwicklungsspielraum bei – Suche vs. Browsing grafischen Visualisierungen – KWIC als Standard – Plattformspezifische Features

Neue Möglichkeiten zur Erstellung eines Virtuellen Korpus

• Deckungswerte in Bezug auf GeR-Niveaustufen (Goethe) und Frequenzlisten (Herder)

• Normalisierungsrate: Abgleich Transkription vs. norm. Transkription

• Sprachliche Komplexität: Lemma-Token-Ratio, lexikalische Dichte, durchschn. Wortlänge, Anzahl bestimmter POS- Folgen, Anzahl bestimmter Wortbildungsmuster etc.

• Dialogizität: durchschnittliche Anzahl der Wörter in Beiträ-gen, Anzahl der Überlappungen, Anteil der Beiträge eines Sprechers, etc.

Recommended