32
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de 06/26/22 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel IDS Mannheim, 15.-16.5.2009 Alexander Geyken Zentrum Sprache Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin 11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Embed Size (px)

Citation preview

Page 1: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

04/11/23

D-Spin: die BenutzerperspektiveSprachressourcen-Gipfel

IDS Mannheim, 15.-16.5.2009

Alexander GeykenZentrum Sprache

Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)

Page 2: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

04/11/23

Hintergrund

1. D-Spin AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW/Zentrum Sprache, Uni Gießen, Uni Frankfurt)

2. Phase Sammlung von Anforderungen/Szenarien (bis Ende 2009)

Korpusarbeit und Annotatation (BBAW, Uni Frankfurt)

Sprachdidaktik (Uni Gießen)

Page 3: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

04/11/23

Hintergrund

1. Notwendig: Akzeptanz der Anwendungen durch geisteswissenschaftliche Anwender

2. Zurückhaltung bei Geisteswissenschaftlern bei technikverliebten Anwendungen

3. viele Funktionen werden nicht genutzt, wenn sie nicht einfach bedienbar sind

– Beispiel Korpusabfragewerkzeuge (Suche Präfixverben)

– Beispiel Metadaten: wie müssen Metadaten gestaltet sein, damit sie von den Anwendern genutzt werden?

Page 4: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Ausgangspunkt Kompetenzen BBAW

04/11/23

Page 5: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

BBAW - heute

• größte außeruniversitäre Forschungseinrichtung mit einem geistes- und sozialwissenschaftlichen Profil in der Region Berlin.– internationale Vereinigung von

Wissenschaftlern: Akademiemitglieder– Knapp 30 Langzeitprojekte– organisiert in Clustern: Zentrum Sprache,

Zentrum Alte Welt, Preußen– Editionen, Wörterbücher, Textsammlungen

04/11/23

Page 6: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

BBAW – Zentrum Sprache

• Vorhaben– Deutsches Wörterbuch– Goethe-Wörterbuch– Digitales Wörterbuch der deutschen Sprache

(DWDS)

• Extern geförderte Projekte– Deutsches Textarchiv– Dspin/Clarin– Dlex– Kyoto

04/11/23

Page 7: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

2. Bedarfsanalyse

• Instrumente: Fragebogen und Interviews• Fragebogen muss ergänzt werden durch

Prototyp der D-Spin-Forschungsinfrastruktur

• Fallstudien mit Fokus auf folgende Disziplinen– Historiker/Philologen (BBAW) – Sprachdidaktiker (Uni Gießen) – Linguisten (Uni Frankfurt, DoBeS)

04/11/23

Page 8: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

2.1 Fragebogen

• Online Fragebogen– Umfrage bei H-soz-kult / Gesprächsforschung– Forum Gesprächsforschung– URL: http://www.onlineumfragen.com/

http://www.onlineumfragen.com/login.cfm?umfrage=10440&ttuid=D1E7401E-1D09-676D-A6A031D1AF9E859B

04/11/23

Page 9: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

2.1 Fragebogen

04/11/23

Page 10: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

2.1 Fragebogen

04/11/23

Page 11: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

2.1 Fragebogen

04/11/23

Page 12: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

2.1 Fragebogen

04/11/23

Page 13: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

2.1 Fragebogen

04/11/23

Page 14: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

2.1 Fragebogen

04/11/23

Page 15: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3. Fallstudien

1. Vorbemerkung: Nutzung des Lexikalischen Informationssystems (DWDS)

2. Quellenbereitstellung und -aufbereitunga. Historiker b. Sprachdidaktik (D-Spin Partner Uni Gießen)c. Linguisten (D-Spin Partner Uni Frankfurt,

DoBeS)

3. Kumulatives Arbeiten (BBAW)

04/11/23

Page 16: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

DWDS-Wortinformationssystem

Wörterbuch - Artikel

Wörterbuch: Thesaurus-informationen

Korpus: Konkordanzen

Korpus: Kollokationen

Page 17: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

04/11/23

Page 18: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3. FallstudienDWDS – Lexikalische Informationsplattform

04/11/23

Page 19: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.1. DWDS

1. Nutzung Wörterbuchplattform DWDS– Auswertung 1. - 30. April 2009: – 3.722.842 Zugriffe erfolgreich auf

Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.)

04/11/23

Page 20: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.1. DWDS

1. Nutzung Wörterbuchplattform DWDS– Auswertung 1. - 30. April 2009: – 3.722.842 Zugriffe erfolgreich auf

Abfrageschnittstelle (*nicht* auf Bilder, Hilfeseiten etc.)

'crawler': 2.982.257 (80.11%) 'browser': 737.057 (19.80%)

04/11/23

Page 21: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.1. DWDS - Nutzung

1. Abfragetypen1. Einzelwort/Lemma: 659196 (90.04%)2. Phrase: 6409 ( 0.25%)3. Distanz: 27149 ( 3.72%) near4. Bool: 2885 ( 0.39%) #

&& ||5. Antilemma @: 1926 ( 0.26%) @6. Wortart: 4089 ( 0.49%) # ... with ...7. 'operator *': 3650 ( 0.50%) # *... ...*8. anderes: 29055 ( 3.97%)

04/11/23

Page 22: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.1. DWDS - Nutzung

Abfragetypen1. Eingabeprobleme:

Ñ?оÑ?мÑ?лиÑ?оваÑ?Ñ? königsschloß herrenchiemsee have to go for a bit, breakfast is the main thing

2. Abfragesyntax: Einem geschenkten Gaul schaut man nicht ins Maul. /^[AZ][az][AZ][az]$/ husten #3 Raucher“ -> “husten #3 Raucher“ NEAR (Kaffee,Kuchen,10) -> NEAR(Kaffee,Kuchen,10)

04/11/23

Page 23: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.2 Quellenbereitstellung u. -aufbereitung

A. Sozialwissenschaften/Religionswissenschaft:1. Vergleich von zwei Korpora: Nutzerkorpus mit

Referenzkorpus• DDR-Korpus mit DWDS-Kernkorpus, s. Dissertation

'Diskussionslust. Zur Kulturgeschichte des 'besseren Arguments' in Westdeutschland, 1945-1973')

• Religionskorpus mit DWDS-Kernkorpus

2. Statistik-Anfragen• 'Mein Problem lautet wie folgt: ich möchte gerne

wissen, wie stark der Zusammenhang zwischen zwei spezifischen Worten ist, zum Beispiel "Wille" und "Weg"'.

04/11/23

Page 24: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.2 Quellenbereitstellung u. -aufbereitung

B. Historiker – Beispiel Staatsbibliothek Berlin:1. Gezielter Aufbau von Spezialkorpora (z.B.

1848, Weltkriege, DDR-Korpus)2. Erschließung der Korpora

Beispiel: Projekt Weltkriegssammlung - Teilsammelgebiet Flugschriften orthographieübergreifende Suche Eigennamenerschließung (Institutionen, aber auch

Regimenter) auch Forschungsaspekte: z.B. automatische

Zuordnung von Flugblättern zu Kategorien Propaganda/Nicht-Propaganda

04/11/23

Page 25: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.2 Quellenbereitstellung u. -aufbereitung

C. Sprachdidaktik (D-Spin-Partner Gießen)– Henning Lobin in Zusammenarbeit mit

Sprachdidaktikern (Forschungsverbund Educational Linguistics)

– Erhebung von Szenarien für D-Spin Forschungsinfrastruktur (Bericht bis Ende 2009)

– Wie arbeiten Sprachlehrer/fortgeschr. Sprachlerner bei der Entwicklung von Lehrmaterialien?

– Welche Sprachressourcen werden beim Fremdsprachenerwerb benötigt (Stichwort CALL)?

04/11/23

Page 26: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.3 Kumulatives Arbeiten

1. Annotationsanwendungen für wissenschaftliche Anwender (Fallstudie der BBAW, baut auf auf Projekt Deutsches Textarchiv)

2. D-Spin-Workshop "Kumulatives Arbeiten in Textarchiven" Berlin 26-27.3. (Veranstalter BBAW)

3. Inhalt: stand-off Annotationen für weitergehende wissenschaftliche Forschungen nutzbar machen.

Konzeptuell: Nutzer legen private Datensammlungen an

Technisch: Quelldatei und Annotationsdatei bleiben getrennt, sind aber über Verweisstrukturen miteinander verbunden

04/11/23

Page 27: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.3 Kumulatives Arbeiten

• Einbettung in Projekt Deutsches Textarchiv• Ziele und Rahmen:

– Erstellung eines historischen Referenzkorpus (Goethe*, Humboldt, Planck, Röntgen …)

– Open Access – Aktives Archiv– Gefördert Deutsche Forschungsgemeinschaft (seit

Juli 2007)– Erste Phase: 3 Jahre (Texte zwischen1780-1900)– Zweite Phase: 4 Jahre (Texte zwischen ~1650-

1780)

04/11/23

Page 28: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.3 Kumulatives Arbeiten

Digitales Textarchiv (1. Phase)– Digitalisierung von 750 Werken 1780–1900– Texte wurden durch Umfrage bei BBAW-

Akademiemitgliedern ermittelt– Gesamt ~220.000 Druckseiten– Volltext (XML/TEI-P5) – verknüpft mit Images– Basisannotierung (plus lemma, pos,

graph2phon) – Archiv soll durch die Annotierung anderer

wachsen: „dynamisches Archiv“

04/11/23

Page 29: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

Korpus: Textsorten

04/11/23

Page 30: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

DTA-Korpus: zeitlicher Überblick

04/11/23

Page 31: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

3.3 Kumulatives Arbeiten

1. Typ 1 – 'Notizblockfunktion': Fundstellen/Textbelege/Bildbereiche speichern in

privaten Sammlungen (inkl. private Kategorien)

2. Typ 2 - Nutzer erstellen öffentlich nutzbare Zusatzinformationen zu Texten' :

z.B. Eigennamen, Themen, Markierung diastrat. Merkmale

Narrative Strukturen in literarische Werken als stand-off kodieren (Jannidis/Lauer)

Namensforschung (z.B. Widmungen oder Subskribendenlisten, aber auch z.B. die im Corpus enthaltenen Briefe (Pückler, Rahel Varnhagen usw.) - Vorhaben Preußen als Kulturstaat

04/11/23

Page 32: Berlin-Brandenburgische Akademie der Wissenschaften Jägerstrasse 22/23 10117 Berlin  11/14/2013 D-Spin: die Benutzerperspektive Sprachressourcen-Gipfel

Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de

04/11/23

4. Zusammenfassung

• Anforderungsanalyse nicht unabhängig von D-Spin-Infrastruktur

• Bislang: Sammlung von Fallbeispielen– Historiker, Sprachdidaktik, Linguistik

• Zusätzliche Ressourcen eröffnen zusätzliche Anwendungsmöglichkeiten

• Weitere Fallbeispiele?