Upload
oriana
View
21
Download
0
Embed Size (px)
DESCRIPTION
Sprachstatistik. Grundlegende Definitionen Alphabet Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l 1 ,l 2 , ..., l k }. Wir nennen A ein Alphabet von NL der Größe k. Bsp. A E = {a, b, ..., z} k E = 26 Zeichenkette Seien l 1 ,l 2 , ..., l n Buchstaben aus A. - PowerPoint PPT Presentation
Citation preview
1 Sprachprodukttechnologie SS 2001G. Heyer
Sprachstatistik
Grundlegende Definitionen Alphabet
Sei NL eine natürliche Sprache und sei A eine Menge von Zeichen, A={l1,l2, ..., lk}. Wir nennen A ein Alphabet von NL der Größe k.Bsp. AE = {a, b, ..., z} kE = 26
ZeichenketteSeien l1,l2, ..., ln Buchstaben aus A.
Das Tupel t mit t={ l1,l2, ..., ln} wird Zeichenkette genannt und n ist die Länge von t.
2 Sprachprodukttechnologie SS 2001G. Heyer
Menge von ZeichenkettenSei An das kartesische Produkt des Alphabets A .An wird Menge von Zeichenketten der Länge n genannt.Bsp. A3 = { (a,a,a), (a,a,b), ... (a,a,z), (b,a,a), (b,a,b), ... (b,a,z), . . . (z,z,z)}
Lexikon einer SpracheSei NL eine natürliche Sprache und L eine Teilmenge von A+ (A+ = Un>o An ). Wir nennen L A+ ein Lexikon von NL.
Grundlegende Definitionen
3 Sprachprodukttechnologie SS 2001G. Heyer
Wortform, Menge von Wortformen der Länge nJedes Element W des Lexikons L wird Wortform genannt. Wn ist die Schnittmenge von An mit L und wird Menge von Wortformen der Länge n genannt.
Wortkombinationen der Länge rSei L ein Tupel von Wortformen, L=(W1, W2, ... Wr) mit Wi L. Wir nennen L eine Wortkombination der Länge r.
Menge von WortkombinationenSei Lr das kartesische Produkt von L. L+ wird Menge von Wortkombinationen der Länge r genannt. (L+ = Un>o Lr)
Grundlegende Definitionen
4 Sprachprodukttechnologie SS 2001G. Heyer
Menge von SätzenSYN sei eine Menge von syntaktischen Restriktionen. Die Menge S, mit S L+, die SYN folgen, wird Menge von Sätzen genannt.
Grundlegende Definitionen
5 Sprachprodukttechnologie SS 2001G. Heyer
Anzahl der Wörter Rang x Häufigkeit = konstant
Die Länge eines Wortes ist umgekehrt proportional zu seiner Häufigkeit.
Zipfsche Gesetze
Wort Häufigkeit Rang f * r
he 877 10 8770
but 410 20 8200
be 294 30 8820
friends 10 800 8000
family 8 1000 8000
6 Sprachprodukttechnologie SS 2001G. Heyer
Rangliste deutscher Wörter (Deutscher Wortschatz 1 - 10)
1: der 6: von
2: die 7: zu 3: und 8: das 4: in 9: mit 5: den 10: sich
Zipfsche Gesetze
7 Sprachprodukttechnologie SS 2001G. Heyer
Rangliste deutscher Wörter
(Deutscher Wortschatz 1 - 100)
der, die, und, in, den, von, zu, das, mit, sich, des, auf, für, ist, im, dem, nicht, ein, Die, eine, als, auch, es, an, werden, aus, er, hat, daß, sie, nach, wird, bei, einer, Der, um, am, sind, noch, wie, einem, über, einen, Das, so, Sie, zum, war, haben, nur, oder, aber, vor, zur, bis, mehr, durch, man, sein, wurde, sei, In, Prozent, hatte, kann, gegen, vom, können, schon, wenn, habe, seine, Mark, ihre, dann, unter, wir, soll, ich, eines, Es, Jahr, zwei, Jahren, diese, dieser, wieder, keine, Uhr, seiner, worden, Und, will, zwischen, Im, immer, Millionen, Ein, was, sagte
Zipfsche Gesetze
8 Sprachprodukttechnologie SS 2001G. Heyer
Rangliste deutscher Wörter
(Fachwortschatz SAP 1 - 100)die, Sie, der, und, in, werden, den, für, das, im, können, wird, zu, eine, auf, des, %N%, Die, ist, mit, ein, von, dem, the, oder, nicht, an, einer, aus, sind, In, einen, zur, als, über, System, kann, bei, einem, Wenn, Das, auch, nur, diesem, sich, eines, müssen, Daten, Der, daß, zum, to, haben, diese, alle, B, durch, z, R, wenn, nach, es, Feld, dann, of, wählen, Funktion, bzw, um, dieser, Wählen, Im, a, wie, is, Informationen, Diese, Bei, for, muß, and, vom, so, Für, Mit, unter, sein, keine, ob, soll, definieren, Es, verwendet, automatisch, Tabelle, Geben, wurde, finden, you, beim
Zipfsche Gesetze
9 Sprachprodukttechnologie SS 2001G. Heyer
Anwendung: Abschätzung niederfrequenter Terme
rn sei der letzte Rang derjenigen Worte, die genau n Mal vorkommen, In die Anzahl der Terme, die genau n Mal vorkommen und t der Term mit dem höchsten Rang.
Zipfsche Gesetze
konstant~)(rfr
N
nnp )(
1,0~, An
NArn
10 Sprachprodukttechnologie SS 2001G. Heyer
Anwendung: Abschätzung niederfrequenter Terme
Zipfsche Gesetze
)1(1n
NA
1
nn
NA
n
NA
rrI nnn
1
NAt
221211
NA
NA
NArrI
)1(
1
t
In
nn
11 Sprachprodukttechnologie SS 2001G. Heyer
Anwendung: Wachstum des Lexikons
mit typischen Werten für k=10 und = 0,5
Zipfsche Gesetze
kNt
12 Sprachprodukttechnologie SS 2001G. Heyer
Anwendung: Charakteristische Begriffe (einer Domäne)
Vergleiche die Häufigkeiten von Termen einer Domäne mit den Häufigkeiten im allgemeinen Wortschatz. Diejenigen Terme, die im Fachwortschatz relativ zum allgemeinen Wortschatz (nach einem festgelegten Schlüssel) wesentlich häufiger vorkommen, sind wahrscheinlich charakteristisch für die Domäne.
Zipfsche Gesetze
13 Sprachprodukttechnologie SS 2001G. Heyer
Rangliste deutscher Wörter
(Differenzliste signifikanter Fachwortschatzterme
SAP/Deutscher Wortschatz 1 - 30; Mindesthäufigkeitsklasse 8, Faktor 16)etc (314), TCP (164), INDX (28), dsn (25), Nachfolgeposition (24), SHIFT (24), TRANSLATE (24), entreprise (24), Abrechnungskostenart (23), Alternativmengeneinheit (23), Anordnungsbeziehung (23), Anwendungssicht (23), Bandstation (23), Banf-Position (23), Berichtsspalte (23), Berichtszeile (23), CO-PC (23), DBSTATC (23), DSplit (23), Datumsart (23), ELSE (23), ENDDO (23), Entries (23), Freigabecodes (23), Hauptkondition (23), Leiterplanstelle (23), Merkmalswertekombination (23), Nachfolgematerial (23), Nettoberechnung (23), ... ...
Zipfsche Gesetze
14 Sprachprodukttechnologie SS 2001G. Heyer
Anzahl der Bedeutungen
Die Anzahl der Bedeutungen eines Wortes korreliert mit seiner Häufigkeit.
Zipfsche Gesetze
fm
rm
1
15 Sprachprodukttechnologie SS 2001G. Heyer
Signifikante Terme clustern
Tritt ein niederfrequenter Term häufiger auf, tritt er meist gehäuft auf.
Zipfsche Gesetze
16 Sprachprodukttechnologie SS 2001G. Heyer
Die flektierten Formen eines Wortes sind nicht gleich häufig
magst: 17 (Anzahl: 67) spricht: 8 (Anzahl: 27143)
möchte: 8 (Anzahl: 29788) spräche: 15 (Anzahl: 219)
Weitere statistische Auffälligkeiten
17 Sprachprodukttechnologie SS 2001G. Heyer
Einzelne Wortformen treten unterschiedlich oft mit anderen Wortformen auf
Signifikante linke Nachbarn von As:
Coeur (142), Treff (114), Karo (87), Treasure (44), Teatime (36), Known (29), Herz (20), Beating (18), Bad (14), Doreen (13), einziges (13), Assenheims (11), Good (11), Grannus (11), Thick (11), van (11), Fragile (10), Light (7), Trumpf (7), Shakespeares (6), E (5), Komödie (5), Zeitung (5), achten (5), letztes (5), kein (4), schlug (4), per (3)Signifikante linke Nachbarn von Asse:
deutschen (33), Salzbergwerk (15), Versuchsendlager (13), Vier (10), Zwei (10), elf (9), Neun (6), neun (6), sechs (6), roten (5), sieben (5), tausend (5), vieler (5), vier (5), beiden (4), ehemalige (4), viele (4), wenige (4), Alle (3), acht (3), paar (3), welche (3), zwölf (3)
Weitere statistische Auffälligkeiten