34

Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Embed Size (px)

Citation preview

Page 1: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)
Page 2: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Peter Grzybek

( Graz )

Wortlängen(häufigkeiten) in Texten slawischer Sprachen

FWF-Projekt #15485

(2002-2005)

Page 3: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Korpus-Analyse vs. Text-Analyse

„Text-Mischung“

Vermeintliche (Re-)Konstruktion

• einer Norm • eines Standards

TextText

alsals

homogene Einheithomogene Einheit

Text-Ausschnitt vs. Vollständiger Text

(„Quasi-Text“)Selbstregulierendes System

Page 4: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Aus der Geschichte der Wortlängen-Forschung

(Anfänge)

Page 5: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Augustus de Morgan (1806-1871)

Professor für Mathematik am University College (London)

1851:

Erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge

zu identifizieren

Page 6: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Mittelwert als Maß der zentralen Tendenz

Page 7: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Das arithmetische Mittel ( ) :

n

xxxx

nx

n

in

1

21 )...(1

Page 8: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot Stichprobe blau

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot Stichprobe blau

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot Stichprobe blau

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot Stichprobe blau

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot Stichprobe blau

1 2 3 4 50

1

2

3

4

5

6

7

8

9

10Stichprobe rot Stichprobe blau

= 3.00

Page 9: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Mittelwert: 1 = 2.10 2 = 2.12Mittelwert: 1 = 2.10 2 = 2.12

Streuung (Varianz): s² = 1.29 s² = 1.52Streuung (Varianz): s² = 1.29 s² = 1.52

0 1 2 3 4 5 6 7

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Bednaja LizaVystrel

)²...()²()²( 21 xxxxxxSAQ n n

xxs

2)(

²

Page 10: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Mittelwert als Maß der zentralen Tendenz

Varianz als Maß der Streuung um den Mittelwert

Page 11: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Ivan Cankar: “Hiša Marije Pomočnice“

Mittlere Wortlänge: Einzelkapitel vs. Gesamtext

1 2 3 4 GM 5 6 7 8 91,5

1,6

1,7

1,8

1,9

2

Mitt

lere

Wo r

t läng

e in

Sil b

e n

Einzelkapitel Gesamtmittelwert

Page 12: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Thomas Corwin Mendenhall (1841-1924)

Professor für Physik (Ohio, Tokio)

Fortführen der Ideen von de Morgan

Mittelwert, Häufigkeitsverteilung (= graphische Repräsentation, mathematische Interpretation)

1887/1901:

„[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their

occurrence.“

„the normal curve of a writer”

Page 13: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)
Page 14: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)
Page 15: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Sergej Grigor'evič Čebanov (1897-1966)

Russischer Armee-Arzt aus Petersburg

Mathematische Interpretation der Häufigkeitsverteilung

("Čebanov-Fucks-Verteilung")

Wilhelm Fucks (*1902)

Professor für Physik (TH Aachen)

,...3,2,1)!1(

1

xx

aeP

xa

x,...2,1,0!

xx

aeP

xa

x

Fucks (1955):

„[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“

Page 16: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)
Page 17: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)
Page 18: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

NormalverteilungNormalverteilung

nach C.F. Gaussnach C.F. Gauss

Page 19: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Gustav Herdan

The Advanced Theory of Language as Choice and Chance (1966)

Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit

Page 20: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Px = g(x)

bx

axg )(

Px-1

( )a

g xx

( )( )

a cxg x

x

!

a x

x

e aP

x

1

n x n xx

x n

p qP

q

( ) bg x a x

Conway-Maxwell-Poisson-Verteilung

Poisson-

Verteilung

Pos. Binomial-

Verteilung

( )( )

a cxg x

x

1k x k x

x xP p q Neg. Binomial-

Verteilung

Page 21: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

1 2 3 4 5 6 7 8 9

Wortlänge (in Silben)

0

20

40

60

80

100Häufigkeit (in Tausend)

beobachtet

theoretisch

Wortlängenhäufigkeiten in Durch die Wüste von Karl May

1k x k xx xP p q

Theoretisches Modell:

Neg. Binomial-Verteilung

(C = 0.002)

Page 22: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

11

xn

xnx

x Pq

qpx

n

P

1

1

xn

xnx

x Pq

qpx

n

P

Εrweiterte positive Εrweiterte positive BinomialverteilungBinomialverteilung

n = 4p = 0.37α = 0.97

n = 14p = 0.13α = 0.96

n = 6p = 0.25α = 0.98

Èapek: Noviny a vìda (1917)

0 1 2 3 4 5 6 7

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Erben: Lilie (1861)

0 1 2 3 4

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Rekord (1928)

0 1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Èapek: Rekord (1928)

0 1 2 3 4 5 6

Silben pro Wort

0

10

20

30

40

50Anzahl der Wörter (in %)

Page 23: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

m1 () m2 (s2) m3

Arme Liza

2,10 1,29 0,88

Vystrel 2,12 1,52 1,17

1x

N 21

( )x xN

31( )x x

N

Page 24: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

11. m

22. m

2

1

m

m

3

2

m

m

Die Lokalisierung im

xy-Koordinatensystem

33. m

y-Achse

x-Achse

0

x = M2 / M1

0

y = M3 / M2

Mittelwert

2. Zentralmoment

3.Zentralmoment

Page 25: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

“Bednaja Liza”

61.01

2 M

M68.0

2

3 M

MM1 = 2.10

M2 = 1.29

M3 = 0.88

“Vystrel”

72.01

2 M

M

77.02

3 M

M

Page 26: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

I = M2 / M1

1,51,0,50,0

S =

M3

/ M

2

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

TYP

Poesie

journ. Prosa

lit. Prosa

y = 2.08 - 0.44x

Page 27: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

I

1,00,500,00

S

1,5

1,0

,5

0,0

TYP

Poesie

Journalistik

Prosa

Page 28: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

I

1,41,21,0,8,6,4,20,0

S

2,5

2,0

1,5

1,0

,5

0,0

-,5

Textkategorie

Briefe Charms

Briefe Puskin

Gedichte Charms

Gedichte Puskin

Page 29: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Pilotstudie zum Pilotstudie zum SlowenischenSlowenischenKorpus: N = 153Korpus: N = 153

Prosan1 = 102

Poesie n2 = 51

n1.2. = 50Journalistik

n1.1.= 52liter. Prosa

Page 30: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

1-Silber

2-Silber

3-Silber

4-Silber

5-Silber

Texttyp

journal. Prosa

Poesie

literar. Prosa

Page 31: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

-6 -4 -2 0 2 4

1015

2025

6

-6 -4 -2 0 2 4

1015

2025

6

-6 -4 -2 0 2 4

1015

2025

6

-6 -4 -2 0 2 4

dim2

1015

2025

dim

1

1

11 1

1

111 1

1 111 1111 1

111

111

1

1 1 11

11

111

111 11

11 1 1

1

11 111 11 1

3

3

3

33

3

3

33

33

33 3 33

33

3

33

3

33

33

3

33

33

3

33

3

3

3

33

33 3

33

3

3

3

3

3

33

2 22

2

2

2

2

2

2

2 22

2

222

2

2

2 2

2

2

2

22

2

22

2

22

2

2

2

2

2

2

2

2

2

2

2

22 22

2

22

2

-6 -4 -2 0 2 4

1015

2025

-6 -4 -2 0 2 4

1015

2025

-6 -4 -2 0 2 4

1015

2025

Page 32: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

Scatterplot der Diskriminanzvariablen

Page 33: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)

TEXTSORTE               Prosa journalistisch Zeitung 1 Rubrik 1Autor 1 30    Autor 2 30    Rubrik 2Autor 1 30    Autor 2 30    Zeitung 2 Rubrik 1Autor 1 30    Autor 2 30    Rubrik 2Autor 1 30          Autor 2 30 240  literarisch Erzählungen 19. Jhd. Autor 1 30    Autor 2 30    Autor 3 30    20. Jhd. Autor 1 30    Autor 2 30    Autor 3 30    Romane 19. Jhd. Autor 1 30    Autor 2 30    Autor 3 30    20. Jhd. Autor 1 30    Autor 2 30          Autor 3 30 360  wissenschaftl. geisteswiss.-philos.     30      naturwiss.     30 60  Brief 19. Jhd. Autor 1 30    Autor 2 30    20. Jhd. Autor 1 30          Autor 2 30 120Poesie versgebunden   19. Jhd. Autor 1 30      Autor 2 30      Autor 3 30      20. Jhd. Autor 1 30      Autor 2 30          Autor 3 30 180  freier Vers 20. Jhd. Autor 1 30          Autor 2 30 60           gesamt   1020

Page 34: Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005)