Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Wellness bis zum Burnout oder mit dem Mobiltelefon zur Hüpfburg? Zur Relevanz der Kombinierbarkeit von Metadaten bei der korpuslinguistischen Untersuchung von Neologismen
Gliederung
Studie
Methodisches
Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache „akzeptiert“ als Wortbildungsprodukte des Deutschen?
Notwendigkeit der Kombinierbarkeit von Metadaten bei der Untersuchung von sprachlichen Massendaten
Neologismen-Studie
• Datenquellen und Datenlage• Fragestellungen• Analysen• Fazit
Datenquellen und -lage
Neologismenwörterbuch
DeReKo über Cosmas
239 Neologismen der 90er-Jahre
105 entlehnte Neologismen
134 deutsche Komposita
Lemmabasierte Suche inkl. Alternativ-
schreibweisen nach 1979
2.210.693 Treffer deutsch(39,8%) nach 1979
3.346.971 Treffer entlehnt(60,2%) nach 1979
Datenbereinigung
• „Doppelpass“ ausgeschlossen(Fußball vs. Staatsbürgerschaft)
• „IT“ ausgeschlossen(„Informationstechnologie“ vs. „Italien“)
• „Loser“ ausgeschlossen(Personenbezeichnung vs. Eigenname)
Fragestellungen
1. Frequenzverlauf2. Linguistische Markierungen („flagging“)
Location Techno Mausklick Doppelspitze Spielkonsole
Beachvolleyball Notebook Hoerbuch Burn−out Update
Gate Ranking Wellness Casting Server
Event Boersengang Walking Mobiltelefon Huepfburg
1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010 1980 1990 2000 2010
0.02.55.07.5
10.0
0
2
4
6
0
2
4
6
0
1
2
0.0
2.5
5.0
7.5
0
2
4
0
2
4
6
0
1
2
3
0
5
10
15
0
2
4
6
0
1
2
3
4
0
2
4
0
10
20
30
0
2
4
6
01234
02468
05
10152025
3
6
9
12
01234
0
1
2
3
4
Occ
uren
ces
in 1
milli
on to
kens
OriginBorrowed
German
Ordered by overall frequency from left to right and top to bottom (free y−axes)20 most frequent neologisms
Erge
bnis
se: F
requ
enzv
erla
uf
Ergebnisse: Frequenzverlauf
0.5
1.0
1980 1990 2000 2010
Occ
uren
ces
in 1
milli
on to
kens
Borrowed vs. German neologisms through time
0.3
0.6
0.9
1980 1990 2000 2010
Occ
uren
ces
in 1
milli
on to
kens
OriginBorrowed
German
'Event' and 'Boersengang' excludedBorrowed vs. German neologisms through time
Zwischenfazit
• Gebrauchshäufigkeit als Indikator deutet nicht darauf hin, dass entlehnte Neologismen zögerlicher angenommen werden.§ Wenn, dann eher umgekehrt.
• Ist der Frequenzverlauf aber wirklich ein geeigneter Indikator?
Linguistische Markierungen
• Auch: „Flagging“• Einschränkung auf Ergebnisse nach 1990.
§ ca. 4,8 Millionen KWICs; 57,4% entlehnt; 42,6% deutsch
• Automatisierte Suche nach linguistischen Markern in KWIC-Listen
„the more a borrowing is perceived as standard usage in the language community addressed by the discourse, the more it is unmarked(Grant-Russel and Beaudet 1999: 26)
Linguistische Markierungen
• Anführungszeichen (alle Arten) um den Neologismus• „sogennant“ / „so genannt“ / „sog.“ vor dem Neologismus• „zum Beispiel“ / „z.B.“ nach dem Neologismus• „genannt“ nach dem Neologismus• „englisch“ vor oder nach Neologismus• „neudeutsch“ vor oder nach dem Neologismus• „das heißt / bedeutet“ / „d.h.“ nach dem Neologismus
Linguistische Markierungen• 230.576 Vorkommen der Neologismen markiert (4,85%).
44,845
130,470
16,535
21,763
2,786
6,422
2,497
3,918
1,270
4,157
99
1,464
265
755
Anf.zeichen
sogenannt
zum Beispiel
genannt
englisch
neudeutsch
das heißt
0 50,000 100,000Times used
Flag
OriginGerman
Borrowed• Anführungszeichen extrem dominant
• Im Folgenden verschiedene Markierungen nicht unterschieden
Fragen
1. Gibt es einen Zusammenhang zwischen Gebrauchshäufigkeit und linguistischer Markierung?
2. Werden entlehnte Neologismen häufiger markiert?3. Wie entwickeln sich die Markierungen der beiden Gruppen
im Laufe der Zeit?
Frage 1: Zusammenhang Frequenz & Markierung
●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
● ● ●
●
●●
●
●
●
●●
●
●
●
●
●●
●● ● ●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
0.0%
20.0%
40.0%
100 1000 10000 100000Occurrences
Perc
ent w
ith m
arke
r
Origin●
●
Borrowed
German
• Beide Gruppen: ρ = -0,372• Entlehnt: ρ = -0,420• Deutsch: ρ = -0,446• Korrelation zeigt sich
auch ohne Frequenz-Ausreißer.
Frage 2: Häufigere Markierung von Entlehnungen?
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
Besserwessi
Beutekunst
Buschzulage
Cocooning
Crashkid
Dezemberfieber
Ereignisfernsehen
Generation XGet−together
InselhuepfenJammerossi
Knopflochchirurgie
Late Show
Lean Production
LeihbeamterMc−Job
Schluessellochchirurgie
TaeterakteTigerland
Updating
WossiZickenalarm
0.0%
20.0%
40.0%
Borrowed German
Perc
ent w
ith m
arke
r
Origin●
●
Borrowed
German
pperm = 0.032
• Entlehnt: 8,54% markierte Vorkommen
• Deutsch: 5,07% markierte Vorkommen
• Kleiner, aber überzufälliger Unterschied
Zwischenfazit
• Neologismen, die häufiger gebraucht werden, werden tendenziell seltener markiert.
• Entlehnte Neologismen werden tendenziell häufigermarkiert.
• Aber wie sieht das über die Zeit aus?
10.0%
20.0%
30.0%
1990 2000 2010Year
Aver
age
mar
king
of k
eywo
rds
in o
rigin
gro
up
OriginBorrowed
German
Frage 3: Markierungen über die Zeit
• Entlehnte Neol. werden häufiger markiert.
• Markierungen nehmen über die Zeit ab.
• Interaktion?
Interaktion?
• Eine Interaktion würde bedeuten, dass Neologismen zwar zu Beginn häufiger markiert würden, nach ca. 30 Jahren aber kein Unterschied mehr festzustellen wäre.
• Geeignete Methode:§ Gemischtes Regressionsmodell
mit Lemma als Zufallseffekt (Varianz, die allein vom Lemma stammt, wird kontrolliert)
5.0%
10.0%
15.0%
20.0%
25.0%
1990 2000 2010Year
Estim
ated
mar
kedn
ess
OriginBorrowed
German
Random intercept for keywordLinear mixed−effects model fit
Interaktion?
• Interaktionseffekt ist nicht stark, aber überzufällig.§ t = 3,16§ Konfidenzintervall schließt
nicht 0 mit ein (bootstrap).
• 1990-1994: 23,9% vs. 17,9%• 2013-2017: 9,2% vs. 7,0% 5.0%
10.0%
15.0%
20.0%
25.0%
1990 2000 2010Year
Estim
ated
mar
kedn
ess
OriginBorrowed
German
Random intercept for keywordLinear mixed−effects model fit
Fazit
• Entlehnte Neologismen werden zwar häufiger markiert als Neologismen, die aus rein deutschem Material bestehen.
• Dieser Unterschied nivelliert sich aber über die Zeit.• Nach ca. 20 bis 30 Jahren ist praktisch kein Unterschied mehr
feststellbar.• Ja, entlehnte Neologismen scheinen zu Beginn weniger
akzeptiert zu sein im Deutschen …• … die Herkunft ist aber nach einigen Jahrzehnten nicht mehr
ausschlaggebend.
Gliederung
Studie
Methodisches
Werden aus anderen Sprachen entlehnte Neologismen zögerlicher in der deutschen Sprache „akzeptiert“ als Wortbildungsprodukte des Deutschen?
Notwendigkeit der Kombinierbarkeit von Metadaten bei der Untersuchung von sprachlichen Massendaten
Linguistische Markierungen
• Markierungen sind ein guter Indikator für die Akzeptanz lexikalischer Einheiten in einer Sprache.
• Aber da ist noch mehr:§ Zeitliche Ausbreitung in unterschiedlichen Textsorten§ Zeitliche Ausbreitung in unterschiedlichen Themenfeldern§ Geographische Ausbreitung über die Zeit§ …
Ziel
GesprochensprachlichTwitter
FacebookBlogs
Presse − KulturPresse − SportPresse − Politik
Zeit
0
10
20
30
Freq.
• Nachzeichnen der „epidemiologischen“ Ausbreitung von Neologismen
Zs.führen von Exportdateien
Berechnung normierter
Häufigkeiten
Aufbereiten und Durchsuchen von
KWIC-ListenAnalysen
Metadaten
• Das Belegjahr ist ein Metadatum.• Andere Metadaten (Bsp. Cosmas II):
§ Quelle / Korpus / Dokument§ Land§ Textsorte§ Thema
Kombinierte Metadaten
GesprochensprachlichTwitter
FacebookBlogs
Presse − KulturPresse − SportPresse − Politik
Zeit
0
10
20
30
Freq.
Metadatum 1 Metadatum 2 Metadatum 3 Metadatum n…
Metadatum-basierte Recherchen
Jahr n
1990 2552
1991 4987
1992 7529
1993 9014
… …
Textsorte n
Presse 34812
Twitter 6501
Facebook 5649
Wiki-Disk. 10912
… …
Land n
D 292312
A 12382
CH 71262
L 8192
… …
Beleg-basierte Recherchen
Beleg
Bauchgefühl
Bauchgefühls
Bauch-Gefühl
Bauchgefühl
Bauchgefühlen
…
Jahr
1990
1991
2016
2000
1995
…
Land
D
CH
D
A
L
…
Textsorte
Presse - Politik
Presse - Politik
Blogs
Blogs
…
Thema
Innenpolitik
Außenpolitik
Reisen
Coden
Innenpolitik
…
…
Außerdem: Eindeutige IDs zu Belegen, Sätzen und Dokumenten.
Relevanz
• Auf Belegbasis kombinierbare Metadaten sind nicht nur in der Neologismenforschung höchstrelevant.§ Verteilung unterschiedlicher Genitivendungen über Textsorten, Länder und
Jahre§ „Weil“-Nebensätze in Subkorpora unterschiedlichen Formalitätsgrads im
Kontrast medial mündlich vs. schriftlich§ Usuelle Wortverbindungen in bestimmten Ländern und Genres§ …
• Kurz: Wann immer mehr als ein Metadatum in großen Datensammlungen im Zusammenhang betrachtet werden soll, müssen Metadaten auf Belegbasis kombinierbar sein.
Möglichkeiten
• Forscher*innen können gezielt den für die jeweilige Analyse nötigen Datensatz durch Aggregation und/oder Selektion herstellen.
• Korpusgrößen zur Berechnung von normierten Häufigkeitenkönnten getrennt für die jeweilige Kombination von Metadaten zur Verfügung gestellt werden.
• KWIC-Ansichten lassen sich in Beleg-basierte Exporte integrieren.
Beleg-basierte Recherchen
Beleg
Bauchgefühl
Bauchgefühls
Bauch-Gefühl
Bauchgefühl
Bauchgefühlen
…
Jahr
1990
1991
2016
2000
1995
…
Land
D
CH
D
A
L
…
Textsorte
Presse - Politik
Presse - Politik
Blogs
Blogs
…
Thema
Innenpolitik
Außenpolitik
Reisen
Coden
Innenpolitik
…
KWIC
< Text >
< Text >
< Text >
< Text >
< Text >
…
Herausforderungen
• Technisch: Exportdateien werden u.U. sehr groß.§ Dafür sind sie aber extrem anpassbar!
• Konzeptuell: Darstellung von Baumstrukturen in Tabellen• Analytisch-methodisch: Für Aggregation und Selektion sind
bestimmte Kompetenzen erforderlich.§ Dafür weiß man danach aber sehr genau, wie die Daten zustande
gekommen sind.
• Potential überwiegt m.E. deutlich die Herausforderungen.
Korpusanalysesysteme
• Beleg-basierte Ausgabeformate als möglichst einfach zugängliche Exportvariante§ Beispiel KorAP: JSON-basierte Formate, die noch in
Tabellenform überführt werden müssen.• Schnittstelle für Massenabfragen (API), bei denen jede
Einzelabfrage dasselbe Format liefert§ Wichtig für spätere Integration der Abfragen
• Aggregationsmöglichkeiten m.E. sekundär§ Ggf. eine Art „Layer-Architektur“, wo verschiedene
Gruppen von Nutzer*innen verschiedene Einstiegspunkte mit jeweils klar definierten Schnittstellen wählen können.
Rohe Quell-Texte
Annotierte Quell-Texte
Beleg-basierte Exporte
Aggregierte Daten
Vielen Dank!
Forthcoming: Considerations on theacceptance of German neologismsfrom the 1990s.