Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Wellness bis zum Burnout oder mit dem Mobiltelefon zur Hüpfburg? Zur Relevanz der Kombinierbarkeit von Metadaten bei der korpuslinguistischen Untersuchung von Neologismen

Gliederung

Studie

Methodisches

Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache „akzeptiert“ als Wortbildungsprodukte des Deutschen?

Notwendigkeit der Kombinierbarkeit von Metadaten bei der Untersuchung von sprachlichen Massendaten

Neologismen-Studie

• Datenquellen und Datenlage• Fragestellungen• Analysen• Fazit

Datenquellen und -lage

Neologismenwörterbuch

DeReKo über Cosmas

239 Neologismen der 90er-Jahre

105 entlehnte Neologismen

134 deutsche Komposita

Lemmabasierte Suche inkl. Alternativ-

schreibweisen nach 1979

2.210.693 Treffer deutsch(39,8%) nach 1979

3.346.971 Treffer entlehnt(60,2%) nach 1979

Datenbereinigung

• „Doppelpass“ ausgeschlossen(Fußball vs. Staatsbürgerschaft)

• „IT“ ausgeschlossen(„Informationstechnologie“ vs. „Italien“)

• „Loser“ ausgeschlossen(Personenbezeichnung vs. Eigenname)

Fragestellungen

1. Frequenzverlauf2. Linguistische Markierungen („flagging“)

Location Techno Mausklick Doppelspitze Spielkonsole

Beachvolleyball Notebook Hoerbuch Burn−out Update

Gate Ranking Wellness Casting Server

Event Boersengang Walking Mobiltelefon Huepfburg

1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010

0.02.55.07.5

10.0

0

2

4

6

0

2

4

6

0

1

2

0.0

2.5

5.0

7.5

0

2

4

0

2

4

6

0

1

2

3

0

5

10

15

0

2

4

6

0

1

2

3

4

0

2

4

0

10

20

30

0

2

4

6

01234

02468

05

10152025

3

6

9

12

01234

0

1

2

3

4

Occ

uren

ces

in 1

milli

on to

kens

OriginBorrowed

German

Ordered by overall frequency from left to right and top to bottom (free y−axes)20 most frequent neologisms

Erge

bnis

se: F

requ

enzv

erla

uf

Ergebnisse: Frequenzverlauf

0.5

1.0

1980 1990 2000 2010

Occ

uren

ces

in 1

milli

on to

kens

Borrowed vs. German neologisms through time

0.3

0.6

0.9

1980 1990 2000 2010

Occ

uren

ces

in 1

milli

on to

kens

OriginBorrowed

German

'Event' and 'Boersengang' excludedBorrowed vs. German neologisms through time

Zwischenfazit

• Gebrauchshäufigkeit als Indikator deutet nicht darauf hin, dass entlehnte Neologismen zögerlicher angenommen werden.§ Wenn, dann eher umgekehrt.

• Ist der Frequenzverlauf aber wirklich ein geeigneter Indikator?

Linguistische Markierungen

• Auch: „Flagging“• Einschränkung auf Ergebnisse nach 1990.

§ ca. 4,8 Millionen KWICs; 57,4% entlehnt; 42,6% deutsch

• Automatisierte Suche nach linguistischen Markern in KWIC-Listen

„the more a borrowing is perceived as standard usage in the language community addressed by the discourse, the more it is unmarked(Grant-Russel and Beaudet 1999: 26)


• Anführungszeichen (alle Arten) um den Neologismus• „sogennant“ / „so genannt“ / „sog.“ vor dem Neologismus• „zum Beispiel“ / „z.B.“ nach dem Neologismus• „genannt“ nach dem Neologismus• „englisch“ vor oder nach Neologismus• „neudeutsch“ vor oder nach dem Neologismus• „das heißt / bedeutet“ / „d.h.“ nach dem Neologismus

Linguistische Markierungen• 230.576 Vorkommen der Neologismen markiert (4,85%).

44,845

130,470

16,535

21,763

2,786

6,422

2,497

3,918

1,270

4,157

99

1,464

265

755

Anf.zeichen

sogenannt

zum Beispiel

genannt

englisch

neudeutsch

das heißt

0 50,000 100,000Times used

Flag

OriginGerman

Borrowed• Anführungszeichen extrem dominant

• Im Folgenden verschiedene Markierungen nicht unterschieden

Fragen

1. Gibt es einen Zusammenhang zwischen Gebrauchshäufigkeit und linguistischer Markierung?

2. Werden entlehnte Neologismen häufiger markiert?3. Wie entwickeln sich die Markierungen der beiden Gruppen

im Laufe der Zeit?

Frage 1: Zusammenhang Frequenz & Markierung

●●

●

●●

●●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●● ●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

● ●●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●●

●

●●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

● ● ●

●

●●

●

●

●

●●

●

●

●

●

●●

●● ● ●

●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

0.0%

20.0%

40.0%

100 1000 10000 100000Occurrences

Perc

ent w

ith m

arke

r

Origin●

●

Borrowed

German

• Beide Gruppen: ρ = -0,372• Entlehnt: ρ = -0,420• Deutsch: ρ = -0,446• Korrelation zeigt sich

auch ohne Frequenz-Ausreißer.

Frage 2: Häufigere Markierung von Entlehnungen?

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

Besserwessi

Beutekunst

Buschzulage

Cocooning

Crashkid

Dezemberfieber

Ereignisfernsehen

Generation XGet−together

InselhuepfenJammerossi

Knopflochchirurgie

Late Show

Lean Production

LeihbeamterMc−Job

Schluessellochchirurgie

TaeterakteTigerland

Updating

WossiZickenalarm

0.0%

20.0%

40.0%

Borrowed German

Perc

ent w

ith m

arke

r

Origin●

●

Borrowed

German

pperm = 0.032

• Entlehnt: 8,54% markierte Vorkommen

• Deutsch: 5,07% markierte Vorkommen

• Kleiner, aber überzufälliger Unterschied

Zwischenfazit

• Neologismen, die häufiger gebraucht werden, werden tendenziell seltener markiert.

• Entlehnte Neologismen werden tendenziell häufigermarkiert.

• Aber wie sieht das über die Zeit aus?

10.0%

20.0%

30.0%

1990 2000 2010Year

Aver

age

mar

king

of k

eywo

rds

in o

rigin

gro

up

OriginBorrowed

German

Frage 3: Markierungen über die Zeit

• Entlehnte Neol. werden häufiger markiert.

• Markierungen nehmen über die Zeit ab.

• Interaktion?

Interaktion?

• Eine Interaktion würde bedeuten, dass Neologismen zwar zu Beginn häufiger markiert würden, nach ca. 30 Jahren aber kein Unterschied mehr festzustellen wäre.

• Geeignete Methode:§ Gemischtes Regressionsmodell

mit Lemma als Zufallseffekt (Varianz, die allein vom Lemma stammt, wird kontrolliert)

5.0%

10.0%

15.0%

20.0%

25.0%

1990 2000 2010Year

Estim

ated

mar

kedn

ess

OriginBorrowed

German

Random intercept for keywordLinear mixed−effects model fit

Interaktion?

• Interaktionseffekt ist nicht stark, aber überzufällig.§ t = 3,16§ Konfidenzintervall schließt

nicht 0 mit ein (bootstrap).

• 1990-1994: 23,9% vs. 17,9%• 2013-2017: 9,2% vs. 7,0% 5.0%

10.0%

15.0%

20.0%

25.0%

1990 2000 2010Year

Estim

ated

mar

kedn

ess

OriginBorrowed

German

Random intercept for keywordLinear mixed−effects model fit

Fazit

• Entlehnte Neologismen werden zwar häufiger markiert als Neologismen, die aus rein deutschem Material bestehen.

• Dieser Unterschied nivelliert sich aber über die Zeit.• Nach ca. 20 bis 30 Jahren ist praktisch kein Unterschied mehr

feststellbar.• Ja, entlehnte Neologismen scheinen zu Beginn weniger

akzeptiert zu sein im Deutschen …• … die Herkunft ist aber nach einigen Jahrzehnten nicht mehr

ausschlaggebend.

Gliederung

Studie

Methodisches

Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache „akzeptiert“ als Wortbildungsprodukte des Deutschen?

Notwendigkeit der Kombinierbarkeit von Metadaten bei der Untersuchung von sprachlichen Massendaten


• Markierungen sind ein guter Indikator für die Akzeptanz lexikalischer Einheiten in einer Sprache.

• Aber da ist noch mehr:§ Zeitliche Ausbreitung in unterschiedlichen Textsorten§ Zeitliche Ausbreitung in unterschiedlichen Themenfeldern§ Geographische Ausbreitung über die Zeit§ …

Ziel

GesprochensprachlichTwitter

FacebookBlogs

Presse − KulturPresse − SportPresse − Politik

Zeit

0

10

20

30

Freq.

• Nachzeichnen der „epidemiologischen“ Ausbreitung von Neologismen

Zs.führen von Exportdateien

Berechnung normierter

Häufigkeiten

Aufbereiten und Durchsuchen von

KWIC-ListenAnalysen

Metadaten

• Das Belegjahr ist ein Metadatum.• Andere Metadaten (Bsp. Cosmas II):

§ Quelle / Korpus / Dokument§ Land§ Textsorte§ Thema

Kombinierte Metadaten

GesprochensprachlichTwitter

FacebookBlogs

Presse − KulturPresse − SportPresse − Politik

Zeit

0

10

20

30

Freq.

Metadatum 1 Metadatum 2 Metadatum 3 Metadatum n…

Metadatum-basierte Recherchen

Jahr n

1990 2552

1991 4987

1992 7529

1993 9014

… …

Textsorte n

Presse 34812

Twitter 6501

Facebook 5649

Wiki-Disk. 10912

… …

Land n

D 292312

A 12382

CH 71262

L 8192

… …

Beleg-basierte Recherchen

Beleg

Bauchgefühl

Bauchgefühls

Bauch-Gefühl

Bauchgefühl

Bauchgefühlen

…

Jahr

1990

1991

2016

2000

1995

…

Land

D

CH

D

A

L

…

Textsorte

Presse - Politik

Presse - Politik

Blogs

Blogs

Twitter

…

Thema

Innenpolitik

Außenpolitik

Reisen

Coden

Innenpolitik

…

…

Außerdem: Eindeutige IDs zu Belegen, Sätzen und Dokumenten.

Relevanz

• Auf Belegbasis kombinierbare Metadaten sind nicht nur in der Neologismenforschung höchstrelevant.§ Verteilung unterschiedlicher Genitivendungen über Textsorten, Länder und

Jahre§ „Weil“-Nebensätze in Subkorpora unterschiedlichen Formalitätsgrads im

Kontrast medial mündlich vs. schriftlich§ Usuelle Wortverbindungen in bestimmten Ländern und Genres§ …

• Kurz: Wann immer mehr als ein Metadatum in großen Datensammlungen im Zusammenhang betrachtet werden soll, müssen Metadaten auf Belegbasis kombinierbar sein.

Möglichkeiten

• Forscher*innen können gezielt den für die jeweilige Analyse nötigen Datensatz durch Aggregation und/oder Selektion herstellen.

• Korpusgrößen zur Berechnung von normierten Häufigkeitenkönnten getrennt für die jeweilige Kombination von Metadaten zur Verfügung gestellt werden.

• KWIC-Ansichten lassen sich in Beleg-basierte Exporte integrieren.

Beleg-basierte Recherchen

Beleg

Bauchgefühl

Bauchgefühls

Bauch-Gefühl

Bauchgefühl

Bauchgefühlen

…

Jahr

1990

1991

2016

2000

1995

…

Land

D

CH

D

A

L

…

Textsorte

Presse - Politik

Presse - Politik

Blogs

Blogs

Twitter

…

Thema

Innenpolitik

Außenpolitik

Reisen

Coden

Innenpolitik

…

KWIC

< Text >

< Text >

< Text >

< Text >

< Text >

…

Herausforderungen

• Technisch: Exportdateien werden u.U. sehr groß.§ Dafür sind sie aber extrem anpassbar!

• Konzeptuell: Darstellung von Baumstrukturen in Tabellen• Analytisch-methodisch: Für Aggregation und Selektion sind

bestimmte Kompetenzen erforderlich.§ Dafür weiß man danach aber sehr genau, wie die Daten zustande

gekommen sind.

• Potential überwiegt m.E. deutlich die Herausforderungen.

Korpusanalysesysteme

• Beleg-basierte Ausgabeformate als möglichst einfach zugängliche Exportvariante§ Beispiel KorAP: JSON-basierte Formate, die noch in

Tabellenform überführt werden müssen.• Schnittstelle für Massenabfragen (API), bei denen jede

Einzelabfrage dasselbe Format liefert§ Wichtig für spätere Integration der Abfragen

• Aggregationsmöglichkeiten m.E. sekundär§ Ggf. eine Art „Layer-Architektur“, wo verschiedene

Gruppen von Nutzer*innen verschiedene Einstiegspunkte mit jeweils klar definierten Schnittstellen wählen können.

Rohe Quell-Texte

Annotierte Quell-Texte

Beleg-basierte Exporte

Aggregierte Daten

Vielen Dank!

Forthcoming: Considerations on theacceptance of German neologismsfrom the 1990s.

Documents

Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache