17
1 Sprachprodukttechnologie SS 2001 G. Heyer Sprachstatistik Grundlegende Definitionen Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l 1 ,l 2 , ..., l k }. Wir nennen A ein Alphabet von NL der Größe k. Bsp. A E = {a, b, ..., z} k E = 26 Zeichenkette Seien l 1 ,l 2 , ..., l n Buchstaben aus A. Das Tupel t mit t={ l 1 ,l 2 , ..., l n } wird Zeichenkette genannt und n ist die Länge von t.

Sprachstatistik

  • Upload
    oriana

  • View
    21

  • Download
    0

Embed Size (px)

DESCRIPTION

Sprachstatistik. Grundlegende Definitionen Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l 1 ,l 2 , ..., l k }. Wir nennen A ein Alphabet von NL der Größe k. Bsp. A E = {a, b, ..., z} k E = 26 Zeichenkette Seien l 1 ,l 2 , ..., l n Buchstaben aus A. - PowerPoint PPT Presentation

Citation preview

Page 1: Sprachstatistik

1 Sprachprodukttechnologie SS 2001G. Heyer

Sprachstatistik

Grundlegende Definitionen Alphabet

Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l1,l2, ..., lk}. Wir nennen A ein Alphabet von NL der Größe k.Bsp. AE = {a, b, ..., z} kE = 26

ZeichenketteSeien l1,l2, ..., ln Buchstaben aus A.

Das Tupel t mit t={ l1,l2, ..., ln} wird Zeichenkette genannt und n ist die Länge von t.

Page 2: Sprachstatistik

2 Sprachprodukttechnologie SS 2001G. Heyer

Menge von ZeichenkettenSei An das kartesische Produkt des Alphabets A .An wird Menge von Zeichenketten der Länge n genannt.Bsp. A3 = { (a,a,a), (a,a,b), ... (a,a,z), (b,a,a), (b,a,b), ... (b,a,z), . . . (z,z,z)}

Lexikon einer SpracheSei NL eine natürliche Sprache und L eine Teilmenge von A+ (A+ = Un>o An ). Wir nennen L A+ ein Lexikon von NL.

Grundlegende Definitionen

Page 3: Sprachstatistik

3 Sprachprodukttechnologie SS 2001G. Heyer

Wortform, Menge von Wortformen der Länge nJedes Element W des Lexikons L wird Wortform genannt. Wn ist die Schnittmenge von An mit L und wird Menge von Wortformen der Länge n genannt.

Wortkombinationen der Länge rSei L ein Tupel von Wortformen, L=(W1, W2, ... Wr) mit Wi L. Wir nennen L eine Wortkombination der Länge r.

Menge von WortkombinationenSei Lr das kartesische Produkt von L. L+ wird Menge von Wortkombinationen der Länge r genannt. (L+ = Un>o Lr)

Grundlegende Definitionen

Page 4: Sprachstatistik

4 Sprachprodukttechnologie SS 2001G. Heyer

Menge von SätzenSYN sei eine Menge von syntaktischen Restriktionen. Die Menge S, mit S L+, die SYN folgen, wird Menge von Sätzen genannt.

Grundlegende Definitionen

Page 5: Sprachstatistik

5 Sprachprodukttechnologie SS 2001G. Heyer

Anzahl der Wörter Rang x Häufigkeit = konstant

Die Länge eines Wortes ist umgekehrt proportional zu seiner Häufigkeit.

Zipfsche Gesetze

Wort Häufigkeit Rang f * r

he 877 10 8770

but 410 20 8200

be 294 30 8820

friends 10 800 8000

family 8 1000 8000

Page 6: Sprachstatistik

6 Sprachprodukttechnologie SS 2001G. Heyer

Rangliste deutscher Wörter (Deutscher Wortschatz 1 - 10)

1: der 6: von

2: die 7: zu 3: und 8: das 4: in 9: mit 5: den 10: sich

Zipfsche Gesetze

Page 7: Sprachstatistik

7 Sprachprodukttechnologie SS 2001G. Heyer

Rangliste deutscher Wörter

(Deutscher Wortschatz 1 - 100)

der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte

Zipfsche Gesetze

Page 8: Sprachstatistik

8 Sprachprodukttechnologie SS 2001G. Heyer

Rangliste deutscher Wörter

(Fachwortschatz SAP 1 - 100)die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim

Zipfsche Gesetze

Page 9: Sprachstatistik

9 Sprachprodukttechnologie SS 2001G. Heyer

Anwendung: Abschätzung niederfrequenter Terme

rn sei der letzte Rang derjenigen Worte, die genau n Mal vorkommen, In die Anzahl der Terme, die genau n Mal vorkommen und t der Term mit dem höchsten Rang.

Zipfsche Gesetze

konstant~)(rfr

N

nnp )(

1,0~, An

NArn

Page 10: Sprachstatistik

10 Sprachprodukttechnologie SS 2001G. Heyer

Anwendung: Abschätzung niederfrequenter Terme

Zipfsche Gesetze

)1(1n

NA

1

nn

NA

n

NA

rrI nnn

1

NAt

221211

NA

NA

NArrI

)1(

1

t

In

nn

Page 11: Sprachstatistik

11 Sprachprodukttechnologie SS 2001G. Heyer

Anwendung: Wachstum des Lexikons

mit typischen Werten für k=10 und = 0,5

Zipfsche Gesetze

kNt

Page 12: Sprachstatistik

12 Sprachprodukttechnologie SS 2001G. Heyer

Anwendung: Charakteristische Begriffe (einer Domäne)

Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne.

Zipfsche Gesetze

Page 13: Sprachstatistik

13 Sprachprodukttechnologie SS 2001G. Heyer

Rangliste deutscher Wörter

(Differenzliste signifikanter Fachwortschatzterme

SAP/Deutscher Wortschatz 1 - 30; Mindesthäufigkeitsklasse 8, Faktor 16)etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23), ... ...

Zipfsche Gesetze

Page 14: Sprachstatistik

14 Sprachprodukttechnologie SS 2001G. Heyer

Anzahl der Bedeutungen

Die Anzahl der Bedeutungen eines Wortes korreliert mit seiner Häufigkeit.

Zipfsche Gesetze

fm

rm

1

Page 15: Sprachstatistik

15 Sprachprodukttechnologie SS 2001G. Heyer

Signifikante Terme clustern

Tritt ein niederfrequenter Term häufiger auf, tritt er meist gehäuft auf.

Zipfsche Gesetze

Page 16: Sprachstatistik

16 Sprachprodukttechnologie SS 2001G. Heyer

Die flektierten Formen eines Wortes sind nicht gleich häufig

magst: 17 (Anzahl: 67) spricht: 8 (Anzahl: 27143)

möchte: 8 (Anzahl: 29788) spräche: 15 (Anzahl: 219)

Weitere statistische Auffälligkeiten

Page 17: Sprachstatistik

17 Sprachprodukttechnologie SS 2001G. Heyer

Einzelne Wortformen treten unterschiedlich oft mit anderen Wortformen auf

Signifikante linke Nachbarn von As:

Coeur (142), Treff (114), Karo (87), Treasure (44), Teatime (36), Known (29), Herz (20), Beating (18), Bad (14), Doreen (13), einziges (13), Assenheims (11), Good (11), Grannus (11), Thick (11), van (11), Fragile (10), Light (7), Trumpf (7), Shakespeares (6), E (5), Komödie (5), Zeitung (5), achten (5), letztes (5), kein (4), schlug (4), per (3)Signifikante linke Nachbarn von Asse:

deutschen (33), Salzbergwerk (15), Versuchsendlager (13), Vier (10), Zwei (10), elf (9), Neun (6), neun (6), sechs (6), roten (5), sieben (5), tausend (5), vieler (5), vier (5), beiden (4), ehemalige (4), viele (4), wenige (4), Alle (3), acht (3), paar (3), welche (3), zwölf (3)

Weitere statistische Auffälligkeiten