1
Z. angew. Math. Mech. Bd. 36 Nr. 1/2 Jan./Febr. 1956 Kleine Mitteilungen .__~___ 72 .~ - ___ ~- KLEINE MITTEILUNGEN Ein neuer statistischer Parameter. Die s tatistischenVerteilungsfunktionen derveriinder- lichen ,,Worthiiufigkeit" unterscheiden sich in mehr- facher Hinsicht von anderen statistisohen Verteilungen. Bezeichnen wir die verhnderliche GroBe, die besagt wie oft in einem spra-hlichen Text ein bestimmtes Wort gebraucht ist mit X, und die Hiiufigkeit eines Wortes das X-ma1 vorkommt mit fs, dann nennen wir die Art undweise in der sich die fx auf die Skala der Veriinder- lichenX verteilen die Worthaufigkeitsverteilung. Solche Verteilungen sind dadurch gekennzeichnet, daB das arithmetische Mittel Mic = 2 fa XIN die Streuung 0: =z Z f%Xz/N -Mi und der Variationskoeffizient va = aic/Mz . . . . (1) mit der Anzahl N =fl + f2 + * * - + fn der im Text, oder in Stichproben des Textes, enthaltenen versohiedenen Worte sich iindern, niimlich wachsen wenn N wiichst, jcdes aber mit einer anderen Geschwindigkeit. \Yir werden nun zeigen, daB dementgegen der Aus- druck u&% eine Konstante darstellt, weil er nicht liinger von N abhiingig ist. Da im ersten Ausdruck rechts N durch Kiirzen &us- fiillt, und der zweite Ausdruck, 1/N, fur groI3es N ver- nachliissigt werden kann, ist ws/vN von N unabhangig . Schreiben wir in G1. (2) Zff2X=Slund ZfsXa=S2 fiir die beiden ersten Momente von X beziiglich Z e r 0, dann haben wir fur groBe N anniihernd v;/N=S2/S: . . . . . . . , (3), und die Konstante erscheint als sog. ,,Charakteristik" K wclche zum ersten Male durch den englischen Stati- stiker G. U d n y Y u 1 e zur Beschreibung von Wort- hiiufigkeitsverteilungen eingefihrt wurde [ 11. Yule s Ableitung dieser Konstanten war aber nur moglich unter der von ihm gemachten Annahme, daB der Ge- brauch einea Wortes ein ganz zufiilliges Ereignis dar- stellt, von der Art der seltenen Ereignisse, die durch das P o i s s o n sche Gesetz oder das Gesetz der kleinen Zahlen (B or t k i e w i c z [2]) geregelt werden. Diese Annahnie, und mit ihr der Gebrauch der Konstanten 8,/8f, wurde von Philologen heftig bekampft [A]. Die hier gegebeneAbleitung hat nicht nur denvorteil, keine Handhabe zu Angriffen jener Art zu bieten, sondern auch den die ,,Charakteristik" K als eine leicht inter- pretierbare, nutzliche und interessante Konstante spracllicher Texte zu zeigen, die wahrscheinlich auch fur andere iihnliche Verteilungen benutzt werden kann. Die ,,Charakteristik" K geschrieben in der Form O.r'vz erscheint als das Quadrat des Variationskoeffi- zienten des Mittelwertes (arithmetisch), oder als die relative Schwankung des Mittelwertes, wiih. rend vic den Variationskoeffizienten einzelner Werte, oder die relative Schwankung solcher Einzelwerte, dar- stellt. Wir werden fur den Variationskoeffizienten des Mittelwertes das Zeichcn wm gebrauchen, urn ihn von dem der Einzelwerte, up, zu unterscheiden. Um zu zeigen, daB wwt tatsiichlich eine Konstante eines sprachlichen Textes darstellt, benutzen wir die Wortziihlung eines russischen Textes, niimlich der No- velle von Puschkin ,,Die Tochter des Kapit&ns", aus- gefiihrt irn Institut fur Slawische Sprachen der Wayne LA Universitlt, Detroit, U.S.A. [4]. Es wurden drei Arten von Ziihlungen vorgenommen: eine vollstiindige Zah- lung aller Worte (etwa 30000 Worte); eine teilweise umfassend eine Serie von 16 Doppelseiten, die gleich- miiBig ubor den Text verteilt waren (etwa 10000Worte); und eine Ziihlung der Worte in zwei Stichproben des Textes, jede von ungefiihr 5000 Worten. Fiir jede dieser Zahlungen habe ich die Werte von Xf5, a%, w%, v,/m berechnet, wie sie in der folgenden Tabelle an- gefiiht sind. 28591 4783 5.97 31.5 5.27 .0764 .00538 .0060S 9147 2432 3.76 14.5 3.85 .0783 .00613 .00656 4703 1672 2.81 8.9 3.16 .0778 .00605 .00663 4952 1567 3.16 9.76 3.08 .0778 .00606 .00673 Wir ersehen daraus, da13 weder Mic, noch cz, noch vic ah charakteristische Konstanten des Textes zu ge- brauchen sind, da sie alle mit der Zahl der Worte sich iindern, niimlich wachsen wenn die Wortzahl zunimmt. Demgegeniiber aber bleibt wm konstant, wie voraus- gesagt, und mehr oder weniger gleich K - 1/N. Dies stellt eine wichtige Eigenschaft dieser Vertei- lungen dar, niimlich die, daB in solchen Verteilungen der Quotient Quadratischer Mittlerer Fehler des Mittels Mittel vm = konstant ist fiir den ganzen Text und Teile desselben, ungeachtet der GroBe solcher Teile. Auf unser Beispiel angewendet, bedeutet daa, da13 die relative Schwankung des Mittelwertes der Worthiiufigkeit in Wortaggregaten der Novelle P u s c h k i n s ungefiihr 8% betriigt, das ist, 8% des Mittelwertes der Worthiiufigkeit in Wort- aggregaten von welcher GroBe immer. Im allgemeinen konnen wir sagen, daB ein Stil rnit kleiner relativer Schwankung dadurch gekennzeichnet ist, da13 Worthiiufigkeiten deren Unterschied vom Mittel einen ansehnlichen Bruchteil des Mittels dar- stellen, selten sind, und vice versa. Das bedeutet, daB Stil charakterisiert werden kann. durch eine konstant- Beziehung zwischen Gleichformigkeit und Verschieden- heit der Wiederholungszahl der Bestandteile des Worte materials. Die meisten bekannten statistischen Verteilungs- funktionen sind charakterisiert durch die Konstanz (im Rahmen der Zufallsvariation) von Mittelwert, Streuung und Variationskoeffizienten. Meines Wissens ist es hier das erste Mal, daB die Behauptung aufgestellt und be- wiesen wird, daB es eine Klasse von Kollektiven gibt'), fiir die die relative Schwankung des Mittelwertes, oder der Quotient __ die einzige Konstante darstellt. Es ist aber sehr wahr- scheinlich, daB die Worthiiufigkeitsverteilung nicht die einzige bleiben wird, fur die diese Charakterisierung von Nutzen ist. L i t e r atu r. Mittl. quadrat. Fehler des Mittelwertes Mittelwert [I] Q. U d n y Y u 1 e , A Statistical Study of Vocabulary. Cambridge [2] L. von B ort kie w icz, Das Gesets der kleinen Zahlexi. [3] A. S. 0. Roe 8, Philological Probability Probleme. J. Roy. f41 H. J. J o s s e l s o n , The Russian Word Count. Detroit, U.S.A. 1943. Teubner, Leipzig 1898. Statist. Soc., Series B, Vol. 12, No. 1, 1950, p. 39. 1953. Bristol (England). G. Herdan. I) AuBerhalb des Bereiches der Eollektive der statistischen Physik.

Ein neuer statistischer Parameter

Embed Size (px)

Citation preview

Z. angew. Math. Mech. Bd. 36 Nr. 1/2 Jan./Febr. 1956 Kleine Mitteilungen

.__~___ 72 .~ - ___ ~-

KLEINE MITTEILUNGEN Ein neuer statistischer Parameter.

Die s tatistischenVerteilungsfunktionen derveriinder- lichen ,,Worthiiufigkeit" unterscheiden sich in mehr- facher Hinsicht von anderen statistisohen Verteilungen. Bezeichnen wir die verhnderliche GroBe, die besagt wie oft in einem spra-hlichen Text ein bestimmtes Wort gebraucht ist mit X, und die Hiiufigkeit eines Wortes das X-ma1 vorkommt mit fs, dann nennen wir die Art undweise in der sich die f x auf die Skala der Veriinder- lichenX verteilen die Worthaufigkeitsverteilung. Solche Verteilungen sind dadurch gekennzeichnet, daB

das arithmetische Mittel Mic = 2 fa XIN die Streuung 0: =z Z f % X z / N - M i

und

der Variationskoeffizient va = aic/Mz . . . . (1) mit der Anzahl N =fl + f2 + * * - + f n der im Text, oder in Stichproben des Textes, enthaltenen versohiedenen Worte sich iindern, niimlich wachsen wenn N wiichst, jcdes aber mit einer anderen Geschwindigkeit.

\Yir werden nun zeigen, daB dementgegen der Aus- druck u&% eine Konstante darstellt, weil er nicht liinger von N abhiingig ist.

Da im ersten Ausdruck rechts N durch Kiirzen &us- fiillt, und der zweite Ausdruck, 1/N, fur groI3es N ver- nachliissigt werden kann, ist ws/vN von N unabhangig .

Schreiben wir in G1. (2) Zff2X=Slund Z f s X a = S 2 fiir die beiden ersten Momente von X beziiglich Z e r 0, dann haben wir fur groBe N anniihernd

v; /N=S2/S: . . . . . . . , (3), und die Konstante erscheint als sog. ,,Charakteristik" K wclche zum ersten Male durch den englischen Stati- stiker G. U d n y Y u 1 e zur Beschreibung von Wort- hiiufigkeitsverteilungen eingefihrt wurde [ 11. Yule s Ableitung dieser Konstanten war aber nur moglich unter der von ihm gemachten Annahme, daB der Ge- brauch einea Wortes ein ganz zufiilliges Ereignis dar- stellt, von der Art der seltenen Ereignisse, die durch das P o i s s o n sche Gesetz oder das Gesetz der kleinen Zahlen (B o r t k i e w i c z [2]) geregelt werden. Diese Annahnie, und mit ihr der Gebrauch der Konstanten 8,/8f, wurde von Philologen heftig bekampft [A]. Die hier gegebene Ableitung hat nicht nur denvorteil, keine Handhabe zu Angriffen jener Art zu bieten, sondern auch den die ,,Charakteristik" K als eine leicht inter- pretierbare, nutzliche und interessante Konstante spracllicher Texte zu zeigen, die wahrscheinlich auch fur andere iihnliche Verteilungen benutzt werden kann.

Die ,,Charakteristik" K geschrieben in der Form

O.r'vz erscheint als das Quadrat des Variationskoeffi- zienten des Mittelwertes (arithmetisch), oder als die relative Schwankung des Mittelwertes, wiih. rend vic den Variationskoeffizienten einzelner Werte, oder die relative Schwankung solcher Einzelwerte, dar- stellt. Wir werden fur den Variationskoeffizienten des Mittelwertes das Zeichcn wm gebrauchen, urn ihn von dem der Einzelwerte, up, zu unterscheiden.

Um zu zeigen, daB wwt tatsiichlich eine Konstante eines sprachlichen Textes darstellt, benutzen wir die Wortziihlung eines russischen Textes, niimlich der No- velle von Puschkin ,,Die Tochter des Kapit&ns", aus- gefiihrt irn Institut fur Slawische Sprachen der Wayne

L A

Universitlt, Detroit, U.S.A. [4]. Es wurden drei Arten von Ziihlungen vorgenommen: eine vollstiindige Zah- lung aller Worte (etwa 30000 Worte); eine teilweise umfassend eine Serie von 16 Doppelseiten, die gleich- miiBig ubor den Text verteilt waren (etwa 10000Worte); und eine Ziihlung der Worte in zwei Stichproben des Textes, jede von ungefiihr 5000 Worten. Fiir jede dieser Zahlungen habe ich die Werte von Xf5, a%, w%, v , / m berechnet, wie sie in der folgenden Tabelle an- gefiiht sind.

28591 4783 5.97 31.5 5.27 .0764 .00538 .0060S 9147 2432 3.76 14.5 3.85 .0783 .00613 .00656 4703 1672 2.81 8.9 3.16 .0778 .00605 .00663 4952 1567 3.16 9.76 3.08 .0778 .00606 .00673

Wir ersehen daraus, da13 weder Mic, noch cz, noch vic ah charakteristische Konstanten des Textes zu ge- brauchen sind, da sie alle mit der Zahl der Worte sich iindern, niimlich wachsen wenn die Wortzahl zunimmt. Demgegeniiber aber bleibt wm konstant, wie voraus- gesagt, und mehr oder weniger gleich K - 1/N.

Dies stellt eine wichtige Eigenschaft dieser Vertei- lungen dar, niimlich die, daB in solchen Verteilungen der Quotient

Quadratischer Mittlerer Fehler des Mittels M i t t e l vm =

konstant ist fiir den ganzen Text und Teile desselben, ungeachtet der GroBe solcher Teile. Auf unser Beispiel angewendet, bedeutet daa, da13 die relative Schwankung des Mittelwertes der Worthiiufigkeit in Wortaggregaten der Novelle P u s c h k i n s ungefiihr 8% betriigt, das ist, 8% des Mittelwertes der Worthiiufigkeit in Wort- aggregaten von welcher GroBe immer.

Im allgemeinen konnen wir sagen, daB ein Stil rnit kleiner relativer Schwankung dadurch gekennzeichnet ist, da13 Worthiiufigkeiten deren Unterschied vom Mittel einen ansehnlichen Bruchteil des Mittels dar- stellen, selten sind, und vice versa. Das bedeutet, daB Stil charakterisiert werden kann. durch eine konstant- Beziehung zwischen Gleichformigkeit und Verschieden- heit der Wiederholungszahl der Bestandteile des Worte materials.

Die meisten bekannten statistischen Verteilungs- funktionen sind charakterisiert durch die Konstanz (im Rahmen der Zufallsvariation) von Mittelwert, Streuung und Variationskoeffizienten. Meines Wissens ist es hier das erste Mal, daB die Behauptung aufgestellt und be- wiesen wird, daB es eine Klasse von Kollektiven gibt'), fiir die die relative Schwankung des Mittelwertes, oder

der Quotient __

die einzige Konstante darstellt. Es ist aber sehr wahr- scheinlich, daB die Worthiiufigkeitsverteilung nicht die einzige bleiben wird, fur die diese Charakterisierung von Nutzen ist.

L i t e r a t u r.

Mittl. quadrat. Fehler des Mittelwertes Mittelwert

[I] Q. U d n y Y u 1 e , A Statistical Study of Vocabulary. Cambridge

[2] L. v o n B o r t k i e w i c z , Das Gesets der kleinen Zahlexi.

[3] A. S. 0. R o e 8, Philological Probability Probleme. J. Roy.

f41 H. J. J o s s e l s o n , The Russian Word Count. Detroit, U.S.A.

1943.

Teubner, Leipzig 1898.

Statist. Soc., Series B, Vol. 12, No. 1, 1950, p. 39.

1953.

Bristol (England). G. Herdan .

I ) AuBerhalb des Bereiches der Eollektive der statistischen Physik.