36
Wie kann man Unterschiede zwischen zwei Mengen von Texten modellieren? Einleitung Faktorenenanalyse Multi-dimensional analysis (D. Biber 1998) Forschungsprojekt Marlon Berlin Kapka Borisova Stephan Klinger Cornelius Lejeune Björn Piltz Anne Sauer Sebastian Thiebes

Wie kann man Unterschiede zwischen zwei Mengen von … · Wie kann man Unterschiede zwischen zwei Mengen von Texten modellieren? Einleitung Faktorenenanalyse Multi-dimensional analysis

  • Upload
    ledung

  • View
    228

  • Download
    0

Embed Size (px)

Citation preview

Wie kann man Unterschiede zwischen zwei Mengen von Texten modellieren?

EinleitungFaktorenenanalyseMulti-dimensional analysis (D. Biber 1998)Forschungsprojekt

Marlon BerlinKapka BorisovaStephan Klinger

Cornelius LejeuneBjörn Piltz

Anne SauerSebastian Thiebes

Einleitung: Was sind Register?

Texte verschiedener Register unterscheiden sich funktional voneinander (Zeitungstexte, Romane, Liebesbriefe, Steuererklärungen).Auch das Auftreten verschiedener formaler Elemente unterscheidet Register voneinander.

Beispiel: Texte zum Thema Schule - Text 1

Das Bundesministerium für Wirtschaft und Technologie kann im Einvernehmen mit dem Bundesministerium für Bildung und Forschung nach Anhören des ständigen Ausschusses des Bundesinstituts für Berufsbildung durch Rechtsverordnung bestimmen, daß der Besuch einer berufsbildenden Schule oder die Berufsausbildung in einer sonstigen Einrichtung ganz oder teilweise auf die Ausbildungszeit anzurechnen ist.

Beispiel: Texte zum Thema Schule - Text 2

Saarland will ja jetzt als erstes Bundesland gutes Benehmen als eigenes Fach in der Schule einführen. Ich will nicht behaupten, daß diese Bemühung an und für sich schlecht ist, aber Benimm ist doch im Grunde keine Frage des Wissens sondern des Wollens. Grundsätzlich sind die meisten Menschen, und nicht nur die Schüler, doch einfach zu faul, “Danke” und “Bitte” zu sagen, die Tür aufzuhalten und zu grüßen. Ist ja nicht so, daß sie sich das nicht denken können. Und selbst wenn nicht, bei einer Wochenstunde sind das an die 40 Einheiten zum guten Benehmen. Was soll man da denn alles durchnehmen? Wie man Bananen mit dem Besteck ißt?

Beispiel: Satzlänge

Text 1 besteht aus nur einem Satz mit 49 Wörtern.Text 2 besteht aus sieben Sätzen mit einer durchschnittlichen Länge von 15,4 Wörtern.

Beispiel: Fragen und Abtönungspartikel

Text 2 enthält Fragen, Text 1 nicht. Beispiele:Was soll man da denn alles durchnehmen?Wie man Bananen mit dem Besteck ißt?

Häufig in Text 2 gebrauchte Partikel (wie “ja”, “doch”) fehlen in Text 1.

Beispiel: Nominalisierungen

Text 1 beinhaltet mehr Nominalisierungen als Text 2, zum Beispiel “Anhören”, “Einvernehmen”, “Besuch”.

Einleitung: Aufgabe der Korpuslingustik

Aufgaben:Extraktion statistischer Daten aus einer großen Menge von Texten.Vergleich der Texte miteinander.Verwendung einer großen Menge von Merkmalen.

Diese Vorgänge sind nicht mehr von Hand zu bewältigen.

Faktorenanalyse

In 10 Minuten

Faktorenanalyse: Schweizer Dörfer

20,2012,1128,0026,0019,4055,70Lausanne

20,003,308,0017,0034,0071,70Grandson

21,2024,202,0018,0072,6068,30Echallens

18,702,825,0022,0069,3061,70Cossonay

22,704,4312,0019,0060,7068,90Avenches

19,102,277,0014,0067,5066,90Aubonne

16,508,5212,0021,0062,0064,10Aigle

24,5098,616,0014,0064,5087,10Veveyse

24,4091,3813,0016,0045,2082,90Sarine

21,0097,677,0012,0053,3082,40Gruyere

24,9097,168,0014,0067,8092,40Glane

23,6092,857,0016,0070,2083,80Broye

26,6090,577,009,0035,3076,10Porrentruy

20,605,1615,0017,0043,5076,90Neuveville

20,3033,777,0012,0036,5085,80Moutier

20,2093,405,005,0039,7092,50Franches-Mnt

22,2084,849,006,0045,1083,10Delemont

22,209,9612,0015,0017,0080,20Courtelary

Infant Mort.CatholicEducationExaminationAgricultureFertility

Faktorenanalyse: Korrelation

Inwiefern korrelieren diese Variablen miteinander?

5,00

6,00

15,00

Examination

…39,7092,50Franches-Mnt

…………

…45,1083,10Delemont

…17,0080,20Courtelary

…AgricultureFertility

Fertility Agriculture Examination Education Catholic

Examination

Agriculture

Education

Catholic

Infant Mort.

Fertility Agriculture Examination Education Catholic

Examination

Agriculture

Education

Catholic

Infant Mort.

Fertility Agriculture Examination Education Catholic

Examination

Agriculture

Education

Catholic

Infant Mort.

Das Ellipsoid mit dem längsten Durchmesser klärt am meisten Varianz auf.

Faktorenanalyse: Varianz

Faktornenanalyse:Ausgabe von GNU R

Faktorenanalyse: Ausgabe von GNU R

Faktorenanalyse: Resultat

0,00

20,00

40,00

60,00

80,00

100,00

120,00

140,00

160,00

180,00

-100,00 -50,00 0,00 50,00 100,00 150,00

Factor 1

Fact

or 2

Reihe1

Faktorenanalyse: Rotation (PROMAX)

0,00

20,00

40,00

60,00

80,00

100,00

120,00

140,00

160,00

-100,00

-80,00 -60,00 -40,00 -20,00 0,00 20,00 40,00 60,00 80,00 100,00

Factor 1

Fact

or 2

Reihe1

Faktorenanalyse: Probleme

Vereinfachte Aufruf der Funktion ‚factanal‘

Faktorenanalyse: Probleme

Vereinfachte Aufruf der Funktion ‚factanal‘

Was dahinter steckt:

Das multidimensionale Verfahren ist eine Methode zur Analyse von Variationen der Register.Anwendungsgebiete sind:

Analyse der Sprache von wissenschaftlichen ArtikelnUntersuchung der geschriebenen und gesprochenen Sprache von GrundschülernUntersuchung der historischen Entwicklung in der Sprache von Männern und FrauenVergleiche von ähnlichen Registern in verschiedenen Sprachen

Multi-dimensional analysis (Biber, 1998)

Multi-dimensional analysis (Biber, 1998)

Vorgehensweise:

Aufbereiten des KorpusDas Korpus soll möglichst repräsentativ sein.

Bestimmen linguistischer Merkmale, die funktional interpretierbar sind.Ziel ist das Aufnehmen von möglichst vielen Merkmalen, die eine funktionale Assoziation haben.Zum Beispiel hat Biber für das Englische 16 Hauptkategorien von linguistischen Merkmalen identifiziert (siehe Tabelle 5.7, Biber,1995).

Multi-dimensional analysis (Biber, 1998)

Vorgehensweise:

Zählen und Normalisieren der Merkmalez.B. pro 1000 Wörter(20 Modalverben / 750 Wörter) x 1000 = 27,5 Modalverben

Analyse der gemeinsam auftretenden MerkmaleMuster im Auftreten der linguistischen Merkmale werden durch die Faktorenanalyse erkannt.

Multi-dimensional analysis (Biber, 1998)

Vorgehensweise:

Interpretation der FaktorenDie „Faktoren“ der Faktorenanalyse werden funktional als Dimensionen interpretiert (siehe Tabelle 6.2, Biber, 1998).z.B. „negative“ versus „positive“ Gruppe in Dimension 1.

Multi-dimensional analysis (Biber, 1998)

Berechnen der DimensionspunkteDie Dimensionspunkte (dimension scores) für jeden Text und jedes Register werden ausgerechnet. (siehe Tabelle 6.1, Biber, 1998)

Multi-dimensional analysis (Biber, 1998)

Vorgehensweise:

Forschungsprojekt: Überblick

Motivation: Übertragung der Biber-Untersuchung aufs DeutscheAuswahl zu untersuchender MerkmaleAuswahl des KorpusQuantitative AuswertungQualitative AuswertungProbleme

Forschungsprojekt: Auswahl der Merkmale

Orientierung am Beispiel Biber 1998 (mit englischen Korpora)eigene Liste von Merkmalen für das Deutsche

Satzlänge, WortlängeVerben ( z. B. Modalverben, Kopula), Tempus (Präsens vs. Präteritum, Imperativ, Konjunktiv)Substantive (z. B. Häufungen, Attribute)Fremdwörterusw.

Forschungsprojekt: Auswahl des Korpus

AnsprücheAbdeckung vieler RegisterGröße als Grundlage der quantitativen Untersuchungmöglichst weitreichende Annotationen

Akademie-Korpus (www.dwds.de)ausgewogen100 Mio. laufende Wörterausführliche Header-Daten

Forschungsprojekt: Quantitative Auswertung

Verwendung des frei zugänglichen Statistikpaketes GNU R für die Faktorenanalyse (www.r-project.org)

Forschungsprojekt: Qualitative Auswertung

Interpretation der Faktoren

Forschungsprojekt: Probleme - Merkmale

Es gibt keine Theorie, aus der eine Liste von Merkmalen gewonnen werden kann. Die zu verwendende Merkmalsliste ist somit intuitiv erstellt. Dies wirft die Frage nach der Aussagekraft und Vollständigkeit der Ergebnisse auf.

Forschungsprojekt: Probleme - Korpus

Zwar ist das Akademie-Korpus groß; erbringen unsere sehr speziellen Suchanfragen aber Datenmengen, die für die statistische Analyse ausreichend sind?Können wir alle Merkmale vermittels der Annotationen des Korpus abfragen?Wie wird der Kontext definiert?

Forschungsprojekt: Probleme - Quantitative Auswertung

Welche Parameter der statistischen Faktorenanalyse müssen wie spezifiziert werden?

Literaturliste

Biber, Douglas; Corpus Linguistics: Investigating Language Structure and Use , 1998Biber, Douglas; Dimensions of Register Variation: A Cross-linguistic Comparison , 1995Biber, Douglas; Using Register-Diversified Corpora for General Language studies, 1993 Ghadessy, Mohsen; Register Analysis: Theory and Practice, 1993Leonhart, Rainer; Statistik für Psychologinnen und Psychologen, www.psychologie.uni-freiburg.de/signatures/leonhart/skript