34
Wellness bis zum Burnout oder mit dem Mobiltelefon zur Hüpfburg? Zur Relevanz der Kombinierbarkeit von Metadaten bei der korpuslinguistischen Untersuchung von Neologismen

Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Wellness bis zum Burnout oder mit dem Mobiltelefon zur Hüpfburg? Zur Relevanz der Kombinierbarkeit von Metadaten bei der korpuslinguistischen Untersuchung von Neologismen

Page 2: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Gliederung

Studie

Methodisches

Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache „akzeptiert“ als Wortbildungsprodukte des Deutschen?

Notwendigkeit der Kombinierbarkeit von Metadaten bei der Untersuchung von sprachlichen Massendaten

Page 3: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Neologismen-Studie

• Datenquellen und Datenlage• Fragestellungen• Analysen• Fazit

Page 4: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Datenquellen und -lage

Neologismenwörterbuch

DeReKo über Cosmas

239 Neologismen der 90er-Jahre

105 entlehnte Neologismen

134 deutsche Komposita

Lemmabasierte Suche inkl. Alternativ-

schreibweisen nach 1979

2.210.693 Treffer deutsch(39,8%) nach 1979

3.346.971 Treffer entlehnt(60,2%) nach 1979

Page 5: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Datenbereinigung

• „Doppelpass“ ausgeschlossen(Fußball vs. Staatsbürgerschaft)

• „IT“ ausgeschlossen(„Informationstechnologie“ vs. „Italien“)

• „Loser“ ausgeschlossen(Personenbezeichnung vs. Eigenname)

Page 6: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Fragestellungen

1. Frequenzverlauf2. Linguistische Markierungen („flagging“)

Page 7: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Location Techno Mausklick Doppelspitze Spielkonsole

Beachvolleyball Notebook Hoerbuch Burn−out Update

Gate Ranking Wellness Casting Server

Event Boersengang Walking Mobiltelefon Huepfburg

1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010

0.02.55.07.5

10.0

0

2

4

6

0

2

4

6

0

1

2

0.0

2.5

5.0

7.5

0

2

4

0

2

4

6

0

1

2

3

0

5

10

15

0

2

4

6

0

1

2

3

4

0

2

4

0

10

20

30

0

2

4

6

01234

02468

05

10152025

3

6

9

12

01234

0

1

2

3

4

Occ

uren

ces

in 1

milli

on to

kens

OriginBorrowed

German

Ordered by overall frequency from left to right and top to bottom (free y−axes)20 most frequent neologisms

Erge

bnis

se: F

requ

enzv

erla

uf

Page 8: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Ergebnisse: Frequenzverlauf

0.5

1.0

1980 1990 2000 2010

Occ

uren

ces

in 1

milli

on to

kens

Borrowed vs. German neologisms through time

0.3

0.6

0.9

1980 1990 2000 2010

Occ

uren

ces

in 1

milli

on to

kens

OriginBorrowed

German

'Event' and 'Boersengang' excludedBorrowed vs. German neologisms through time

Page 9: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Zwischenfazit

• Gebrauchshäufigkeit als Indikator deutet nicht darauf hin, dass entlehnte Neologismen zögerlicher angenommen werden.§ Wenn, dann eher umgekehrt.

• Ist der Frequenzverlauf aber wirklich ein geeigneter Indikator?

Page 10: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Linguistische Markierungen

• Auch: „Flagging“• Einschränkung auf Ergebnisse nach 1990.

§ ca. 4,8 Millionen KWICs; 57,4% entlehnt; 42,6% deutsch

• Automatisierte Suche nach linguistischen Markern in KWIC-Listen

„the more a borrowing is perceived as standard usage in the language community addressed by the discourse, the more it is unmarked(Grant-Russel and Beaudet 1999: 26)

Page 11: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Linguistische Markierungen

• Anführungszeichen (alle Arten) um den Neologismus• „sogennant“ / „so genannt“ / „sog.“ vor dem Neologismus• „zum Beispiel“ / „z.B.“ nach dem Neologismus• „genannt“ nach dem Neologismus• „englisch“ vor oder nach Neologismus• „neudeutsch“ vor oder nach dem Neologismus• „das heißt / bedeutet“ / „d.h.“ nach dem Neologismus

Page 12: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Linguistische Markierungen• 230.576 Vorkommen der Neologismen markiert (4,85%).

44,845

130,470

16,535

21,763

2,786

6,422

2,497

3,918

1,270

4,157

99

1,464

265

755

Anf.zeichen

sogenannt

zum Beispiel

genannt

englisch

neudeutsch

das heißt

0 50,000 100,000Times used

Flag

OriginGerman

Borrowed• Anführungszeichen extrem dominant

• Im Folgenden verschiedene Markierungen nicht unterschieden

Page 13: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Fragen

1. Gibt es einen Zusammenhang zwischen Gebrauchshäufigkeit und linguistischer Markierung?

2. Werden entlehnte Neologismen häufiger markiert?3. Wie entwickeln sich die Markierungen der beiden Gruppen

im Laufe der Zeit?

Page 14: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Frage 1: Zusammenhang Frequenz & Markierung

●●

●●

●●

●●

●●

●● ●

●●●

●●

●●

●●

● ●

●●

●●

● ●

● ●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ● ●

●●

●●

●●

●● ● ●

●●●

●●

●●

0.0%

20.0%

40.0%

100 1000 10000 100000Occurrences

Perc

ent w

ith m

arke

r

Origin●

Borrowed

German

• Beide Gruppen: ρ = -0,372• Entlehnt: ρ = -0,420• Deutsch: ρ = -0,446• Korrelation zeigt sich

auch ohne Frequenz-Ausreißer.

Page 15: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Frage 2: Häufigere Markierung von Entlehnungen?

●●

Besserwessi

Beutekunst

Buschzulage

Cocooning

Crashkid

Dezemberfieber

Ereignisfernsehen

Generation XGet−together

InselhuepfenJammerossi

Knopflochchirurgie

Late Show

Lean Production

LeihbeamterMc−Job

Schluessellochchirurgie

TaeterakteTigerland

Updating

WossiZickenalarm

0.0%

20.0%

40.0%

Borrowed German

Perc

ent w

ith m

arke

r

Origin●

Borrowed

German

pperm = 0.032

• Entlehnt: 8,54% markierte Vorkommen

• Deutsch: 5,07% markierte Vorkommen

• Kleiner, aber überzufälliger Unterschied

Page 16: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Zwischenfazit

• Neologismen, die häufiger gebraucht werden, werden tendenziell seltener markiert.

• Entlehnte Neologismen werden tendenziell häufigermarkiert.

• Aber wie sieht das über die Zeit aus?

Page 17: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

10.0%

20.0%

30.0%

1990 2000 2010Year

Aver

age

mar

king

of k

eywo

rds

in o

rigin

gro

up

OriginBorrowed

German

Frage 3: Markierungen über die Zeit

• Entlehnte Neol. werden häufiger markiert.

• Markierungen nehmen über die Zeit ab.

• Interaktion?

Page 18: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Interaktion?

• Eine Interaktion würde bedeuten, dass Neologismen zwar zu Beginn häufiger markiert würden, nach ca. 30 Jahren aber kein Unterschied mehr festzustellen wäre.

• Geeignete Methode:§ Gemischtes Regressionsmodell

mit Lemma als Zufallseffekt (Varianz, die allein vom Lemma stammt, wird kontrolliert)

5.0%

10.0%

15.0%

20.0%

25.0%

1990 2000 2010Year

Estim

ated

mar

kedn

ess

OriginBorrowed

German

Random intercept for keywordLinear mixed−effects model fit

Page 19: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Interaktion?

• Interaktionseffekt ist nicht stark, aber überzufällig.§ t = 3,16§ Konfidenzintervall schließt

nicht 0 mit ein (bootstrap).

• 1990-1994: 23,9% vs. 17,9%• 2013-2017: 9,2% vs. 7,0% 5.0%

10.0%

15.0%

20.0%

25.0%

1990 2000 2010Year

Estim

ated

mar

kedn

ess

OriginBorrowed

German

Random intercept for keywordLinear mixed−effects model fit

Page 20: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Fazit

• Entlehnte Neologismen werden zwar häufiger markiert als Neologismen, die aus rein deutschem Material bestehen.

• Dieser Unterschied nivelliert sich aber über die Zeit.• Nach ca. 20 bis 30 Jahren ist praktisch kein Unterschied mehr

feststellbar.• Ja, entlehnte Neologismen scheinen zu Beginn weniger

akzeptiert zu sein im Deutschen …• … die Herkunft ist aber nach einigen Jahrzehnten nicht mehr

ausschlaggebend.

Page 21: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Gliederung

Studie

Methodisches

Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache „akzeptiert“ als Wortbildungsprodukte des Deutschen?

Notwendigkeit der Kombinierbarkeit von Metadaten bei der Untersuchung von sprachlichen Massendaten

Page 22: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Linguistische Markierungen

• Markierungen sind ein guter Indikator für die Akzeptanz lexikalischer Einheiten in einer Sprache.

• Aber da ist noch mehr:§ Zeitliche Ausbreitung in unterschiedlichen Textsorten§ Zeitliche Ausbreitung in unterschiedlichen Themenfeldern§ Geographische Ausbreitung über die Zeit§ …

Page 23: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Ziel

GesprochensprachlichTwitter

FacebookBlogs

Presse − KulturPresse − SportPresse − Politik

Zeit

0

10

20

30

Freq.

• Nachzeichnen der „epidemiologischen“ Ausbreitung von Neologismen

Page 24: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Zs.führen von Exportdateien

Berechnung normierter

Häufigkeiten

Aufbereiten und Durchsuchen von

KWIC-ListenAnalysen

Page 25: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Metadaten

• Das Belegjahr ist ein Metadatum.• Andere Metadaten (Bsp. Cosmas II):

§ Quelle / Korpus / Dokument§ Land§ Textsorte§ Thema

Page 26: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Kombinierte Metadaten

GesprochensprachlichTwitter

FacebookBlogs

Presse − KulturPresse − SportPresse − Politik

Zeit

0

10

20

30

Freq.

Metadatum 1 Metadatum 2 Metadatum 3 Metadatum n…

Page 27: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Metadatum-basierte Recherchen

Jahr n

1990 2552

1991 4987

1992 7529

1993 9014

… …

Textsorte n

Presse 34812

Twitter 6501

Facebook 5649

Wiki-Disk. 10912

… …

Land n

D 292312

A 12382

CH 71262

L 8192

… …

Page 28: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Beleg-basierte Recherchen

Beleg

Bauchgefühl

Bauchgefühls

Bauch-Gefühl

Bauchgefühl

Bauchgefühlen

Jahr

1990

1991

2016

2000

1995

Land

D

CH

D

A

L

Textsorte

Presse - Politik

Presse - Politik

Blogs

Blogs

Twitter

Thema

Innenpolitik

Außenpolitik

Reisen

Coden

Innenpolitik

Außerdem: Eindeutige IDs zu Belegen, Sätzen und Dokumenten.

Page 29: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Relevanz

• Auf Belegbasis kombinierbare Metadaten sind nicht nur in der Neologismenforschung höchstrelevant.§ Verteilung unterschiedlicher Genitivendungen über Textsorten, Länder und

Jahre§ „Weil“-Nebensätze in Subkorpora unterschiedlichen Formalitätsgrads im

Kontrast medial mündlich vs. schriftlich§ Usuelle Wortverbindungen in bestimmten Ländern und Genres§ …

• Kurz: Wann immer mehr als ein Metadatum in großen Datensammlungen im Zusammenhang betrachtet werden soll, müssen Metadaten auf Belegbasis kombinierbar sein.

Page 30: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Möglichkeiten

• Forscher*innen können gezielt den für die jeweilige Analyse nötigen Datensatz durch Aggregation und/oder Selektion herstellen.

• Korpusgrößen zur Berechnung von normierten Häufigkeitenkönnten getrennt für die jeweilige Kombination von Metadaten zur Verfügung gestellt werden.

• KWIC-Ansichten lassen sich in Beleg-basierte Exporte integrieren.

Page 31: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Beleg-basierte Recherchen

Beleg

Bauchgefühl

Bauchgefühls

Bauch-Gefühl

Bauchgefühl

Bauchgefühlen

Jahr

1990

1991

2016

2000

1995

Land

D

CH

D

A

L

Textsorte

Presse - Politik

Presse - Politik

Blogs

Blogs

Twitter

Thema

Innenpolitik

Außenpolitik

Reisen

Coden

Innenpolitik

KWIC

< Text >

< Text >

< Text >

< Text >

< Text >

Page 32: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Herausforderungen

• Technisch: Exportdateien werden u.U. sehr groß.§ Dafür sind sie aber extrem anpassbar!

• Konzeptuell: Darstellung von Baumstrukturen in Tabellen• Analytisch-methodisch: Für Aggregation und Selektion sind

bestimmte Kompetenzen erforderlich.§ Dafür weiß man danach aber sehr genau, wie die Daten zustande

gekommen sind.

• Potential überwiegt m.E. deutlich die Herausforderungen.

Page 33: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Korpusanalysesysteme

• Beleg-basierte Ausgabeformate als möglichst einfach zugängliche Exportvariante§ Beispiel KorAP: JSON-basierte Formate, die noch in

Tabellenform überführt werden müssen.• Schnittstelle für Massenabfragen (API), bei denen jede

Einzelabfrage dasselbe Format liefert§ Wichtig für spätere Integration der Abfragen

• Aggregationsmöglichkeiten m.E. sekundär§ Ggf. eine Art „Layer-Architektur“, wo verschiedene

Gruppen von Nutzer*innen verschiedene Einstiegspunkte mit jeweils klar definierten Schnittstellen wählen können.

Rohe Quell-Texte

Annotierte Quell-Texte

Beleg-basierte Exporte

Aggregierte Daten

Page 34: Wellness bis zum Burnout oder mit dem Mobiltelefon zur ... · Gliederung Studie Methodisches Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache

Vielen Dank!

Forthcoming: Considerations on theacceptance of German neologismsfrom the 1990s.