12
1 © G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017 Wortverzettelung und Information in alphabetischen Sprachen Angewandte Zahlenlehre Teil XI, Ansätze zu Literatur und Kryptographie G. Schulz Universität des Saarlandes, Fakultät 7 für Physik September 2017 Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- lungen. Diese Struktur entspricht dem natürlichen Vorgang des erstmaligen Lesens eines Tex- tes und wird von den in diesen Untersuchungen benutzten Leseoperatoren auch so durchge- führt, das heißt so, dass die voneinander verschiedenen Wörter als Führungswörter zur Be- zeichnung von Speichersegmente dienen, worin die Wörter selbst im Klartext und in kodierter Form und ihre Wiederholungen mit den Nummern der Sätze verzeichnet sind, in denen sie nacheinander aufgetreten sind. Da hier alle Objekte wie Buchstaben, Wörter, Sätze und schließlich gesamte Texte in kodierter Form, das heißt, in Form von Zahlen gespeichert wer- den, können auf dieser Basis Text- und Wortverzettelungen, wie in den beiden voran gegan- genen Abschnitten IX und X gezeigt wurde, sehr schnell und präzise durchgeführt werden: Textverzettelungen mit dem Ergebnis, dass alle Wörter in der tatsächlich benutzten, geschrie- benen oder gesprochenen Form, in Gruppen gleicher Buchstabenzahl zusammengefasst und lexikographisch geordnet werden und so das systematische Suchen nach Wörtern ermöglicht wird Wortverzettelungen damit, dass beliebige Wörter aus einem zu untersuchenden Text eingegeben und mit einer Reihe von Optionen nach bestimmten Strukturen oder Silbenzahlen abgefragt werden können. Werden nach der Verzettelung anstelle der Suchwörter Satznum- mern in einen eigens dafür präparierten, aber nur wenig veränderten Operator eingegeben, so können Satzanalysen und Häufigkeitsverteilungen untersucht werden, die sich über ganze Textareale erstrecken. Die wichtigste Option der Wortverzettelung und damit ihre Hauptbedeutung besteht jedoch darin, dass nach Vorgabe eines Wortes oder einer Wortkombination wie zum Beispiel "Traum" oder "traumhaft" diese Wörter mit den ganzen Sätzen wiedergegeben werden, in denen sie aufgetreten sind. Dazu ist die vollständige Wiederherstellung der Sätze erforderlich, also die prompte Dekodierung ganzer Sätze aus dem Speichermaterial eines Speicherseg- ments. Außerdem wird mit der Zahl der Wiederholungen (plus 1 für das Führungswort) ein- deutig ein Zahlenwerk erzeugt, das bezogen auf die Gesamtzahl der Wörter im Text als Häu- figkeit verstanden und als Wahrscheinlichkeitsgröße interpretiert werden kann. Das heißt: Die Wortverzettelung von Texten stellt die goldene Brücke von der zahlentheoretischen Sicherung des bloßen Sprachenmaterials zur informationstheoretischen Bewertung eines Textes nach vorgegebenen Gesichtspunkten dar. Es geht, wenn hier von Kodierung gesprochen wird, also nicht um einzelne Zeichen wie etwa die Buchstaben im Alphabet, sondern um die Wörter im Satz, die als Träger oder Elemente x n einen Beitrag zur Information liefern und, wenn sie zu einem Satz verbunden werden, den Übergang von der bloßen Nachricht zur bedeutsamen Mit- teilung bewirken.

Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

Embed Size (px)

Citation preview

Page 1: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

1

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Wortverzettelung und Information in alphabetischen Sprachen Angewandte Zahlenlehre Teil XI, Ansätze zu Literatur und Kryptographie

G. Schulz

Universität des Saarlandes, Fakultät 7 für Physik

September 2017

Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho-

lungen. Diese Struktur entspricht dem natürlichen Vorgang des erstmaligen Lesens eines Tex-

tes und wird von den in diesen Untersuchungen benutzten Leseoperatoren auch so durchge-

führt, das heißt so, dass die voneinander verschiedenen Wörter als Führungswörter zur Be-

zeichnung von Speichersegmente dienen, worin die Wörter selbst im Klartext und in kodierter

Form und ihre Wiederholungen mit den Nummern der Sätze verzeichnet sind, in denen sie

nacheinander aufgetreten sind. Da hier alle Objekte wie Buchstaben, Wörter, Sätze und

schließlich gesamte Texte in kodierter Form, das heißt, in Form von Zahlen gespeichert wer-

den, können auf dieser Basis Text- und Wortverzettelungen, wie in den beiden voran gegan-

genen Abschnitten IX und X gezeigt wurde, sehr schnell und präzise durchgeführt werden:

Textverzettelungen mit dem Ergebnis, dass alle Wörter in der tatsächlich benutzten, geschrie-

benen oder gesprochenen Form, in Gruppen gleicher Buchstabenzahl zusammengefasst und

lexikographisch geordnet werden und so das systematische Suchen nach Wörtern ermöglicht

wird – Wortverzettelungen damit, dass beliebige Wörter aus einem zu untersuchenden Text

eingegeben und mit einer Reihe von Optionen nach bestimmten Strukturen oder Silbenzahlen

abgefragt werden können. Werden nach der Verzettelung anstelle der Suchwörter Satznum-

mern in einen eigens dafür präparierten, aber nur wenig veränderten Operator eingegeben, so

können Satzanalysen und Häufigkeitsverteilungen untersucht werden, die sich über ganze

Textareale erstrecken.

Die wichtigste Option der Wortverzettelung und damit ihre Hauptbedeutung besteht jedoch

darin, dass nach Vorgabe eines Wortes oder einer Wortkombination wie zum Beispiel

"Traum" oder "traumhaft" diese Wörter mit den ganzen Sätzen wiedergegeben werden, in

denen sie aufgetreten sind. Dazu ist die vollständige Wiederherstellung der Sätze erforderlich,

also die prompte Dekodierung ganzer Sätze aus dem Speichermaterial eines Speicherseg-

ments. Außerdem wird mit der Zahl der Wiederholungen (plus 1 für das Führungswort) ein-

deutig ein Zahlenwerk erzeugt, das bezogen auf die Gesamtzahl der Wörter im Text als Häu-

figkeit verstanden und als Wahrscheinlichkeitsgröße interpretiert werden kann. Das heißt: Die

Wortverzettelung von Texten stellt die goldene Brücke von der zahlentheoretischen Sicherung

des bloßen Sprachenmaterials zur informationstheoretischen Bewertung eines Textes nach

vorgegebenen Gesichtspunkten dar. Es geht, wenn hier von Kodierung gesprochen wird, also

nicht um einzelne Zeichen wie etwa die Buchstaben im Alphabet, sondern um die Wörter im

Satz, die als Träger oder Elemente xn einen Beitrag zur Information liefern und, wenn sie zu

einem Satz verbunden werden, den Übergang von der bloßen Nachricht zur bedeutsamen Mit-

teilung bewirken.

Page 2: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

2

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

1. Häufigkeit und Informationsgehalt

Bezeichnet Z(xn) die Gesamtzahl der Wiederholungen eines Wortes xn mitsamt ihrem Füh-

rungswort aus der Reihe der voneinander verschiedenen Wörter und N die Zahl aller Wörter

in einem Text, so ergibt (trivialerweise) die Summe über alle diese Zahlen die Gesamtzahl

∑ 𝑍(𝑥𝑛)𝑁1 = 𝑁 (XI.1)

und für die Häufigkeit H(xn) erhält man

𝐻(𝑥𝑛) = 𝑍(𝑥𝑛)

∑ 𝑍(𝑥𝑛)𝑁1

= 𝑍(𝑥𝑛)

𝑁 (XI.2)

stets mit

∑ 𝐻(𝑥𝑛) 𝑁1 = 1 (XI:3)

Das heißt, die Häufigkeit enthält, wie oft ein Wort im ganzen Text auftritt, und gibt an, wie

groß sein Anteil an der Gesamtzahl der Wörter im Text ist. Allein durch diese Rückbindung

an die Gesamtzahl der Wörter eines Textes erhalten die Häufigkeiten die Bedeutung einer

Wahrscheinlichkeit im Sinne der Informationstheorie.

Anmerkung: Angenommen, der Text bestände nur aus voneinander verschiedenen

Wörtern, dann dürfte jedes Wort nur einmal vorkommen. Diese Situation wird in der

Wahrscheinlichkeitstheorie mit Gleichverteilung bezeichnet und stellt die höchste In-

formationsdichte dar, die ein Text erreichen kann, die aber nur in Höchstformen der

Literatur wie zum Beispiel in Gedichten auch tatsächlich erreicht wird,

Man schreibt daher für den Informationsgehalt I(xn) mit dem in der Informationstheorie übli-

chen Logarithmus dualis ld

𝐼(𝑥𝑛) = 𝑙𝑑 (1

𝐻(𝑥𝑛)) = − 𝑙𝑑(𝐻(𝑥𝑛)) (XI.4)

was bedeutet, dass mit jeder Wiederholung, also mit zunehmender Häufigkeit eines Wortes

im Text sein Beitrag zur Information abnimmt.

Zur Beurteilung eines ganzen Satzes bilden wir den mittleren Informationsgehalt S des gan-

zen Satzes X aus L Wörtern und erhalten

𝑆(𝑋) = ∑ 𝐻(𝑥𝑛) ∙ 𝑙𝑑(𝐻(𝑥𝑛))𝐿1 (XI.5)

Die dem ld(H(xn)) vorangestellte Häufigkeit H(xn) ist gleichsam das Gewicht, mit dem eine

Wortinformation in den mittleren Informationsgehalt eingeht. In Anlehnung an den Gebrauch

der Physik wird S auch Entropie S genannt, da diese Größe in der Informationstheorie wie in

der Thermodynamik oder auch in der statistischen Mechanik ein Maß für die Ungewissheit

eines Ereignisses oder eines Vorgangs ist.

Insbesondere gilt für den Fall der Gleichverteilung, wenn also jedes Wort nur einmal vor-

kommt,

Page 3: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

3

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

𝑆0 = −1.0 ∙ 𝑙𝑑(1

𝑁) = 1.0 ∙ 𝑙𝑑(𝑁) (XI.6)

Um diese Zusammenhänge zu erläutern, sei die Einbettung eines Wortes in einen Satz und die

daraus resultierenden Wahrscheinlichkeiten/Informationen anhand der nachfolgenden Tabelle

betrachtet:

2. Wiederherstellung von Sätzen und Informationsgrad

Tab. XI,1 WortVerzettelung Beginn am 09/20/17

um 20:37:41

Suchwort <Traum> mit 5 Zeichen 20 18 1 21 13

Suchoption # 4 Einbettung in Satz

Wörter xn Wort# Satz# Z(xn) H(xn)*I(xn) ∑ ( H(xn) ∗ I(xn)𝑛 )

Er 404 245 1163 0.111788 0.111788

hatte 285 187 529 0.061053 0.172841

sie 5 5 1426 0.129948 0.302789

im 32 26 381 0.047034 0.349823

Traum 442 261 10 0.002126 0.351949

nicht 44 38 688 0.074976 0.426925

gesehen 444 262 24 0.004588 0.431512

und 12 8 2335 0.184585 0.616097

wuerde 302 198 102 0.015884 0.631981

sie 5 5 1426 0.129948 0.761929

heute 448 263 18 0.003568 0.765496

auch 48 41 426 0.051425 0.816921

am 34 28 237 0.032013 0.848934

Tage 217 152 27 0.005083 0.854017

nicht 44 38 688 0.074976 0.928993

sehen 453 264 46 0.008060 0.937053

S0 = 15.845878 S = 0.937053 (Informationsgrad η = 1 - S/S0 = 0.940865 siehe unten)

1 Ergebnis mit L = 16 Wörtern aus einer Reihe von insgesamt 12 Ergebnissen.

WortVerzettelung Ende am 09/20/17

um 20:37:41 Zeit im Mikrosekundenbereich hier nicht darstellbar

In der ersten Spalte steht der rekonstruierte Satz in der richtigen Reihenfolge der Wörter und

stehen die Wörter in der "richtigen", das heißt der zutreffenden Reihenfolge der Buchstaben,

in der zweiten und dritten Spalte die Wort- und Satznummern gleichsam als zusätzliche Indi-

zes zu jedem führenden Wort eines Speichersegments, in der vierten Spalte die Anzahl der

Wiederholungen plus 1 (aus dem Gesamttext!) und in der fünften Spalte der Beitrag der Wör-

ter zum Informationsgehalt des Satzes, der sich am Ende als Summe ergibt.

Um die Darstellungen in den Glgn. (XI.1) bis (XI.5) im Einzelnen zu realisieren, betrachten

wir ihre Werte aus einem beliebig herausgegriffenen literarischen Text mit 10000 Wörtern.

Das Diagramm in Abb. XI.1 zeigt die Häufigkeit H(xn) der 4600 voneinander verschiedenen

Wörter in der Reihenfolge der Indizes n, in der die Wörter x mit ihrer Wortnummer xn beim

Einlesen als verschiedene erkannt worden sind:

Page 4: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

4

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Abb. XI.1 Diagramm der Häufigkeit der Wörter nach ihren Indizes geordnet, in größter Anzahl die nur einmal

auftretenden Wörter, die jedoch, wie das Insert mit gestreckter Abszisse zeigt, nur scheinbar auf einer geschlos-

senen Linie liegen. In den Lücken liegen bis zu den höchsten Häufigkeiten die mehrmals auftretenden Wörter –

jedoch stets so, dass H(xn) < 1.0 und ∑H(xn) = 1.0 gilt.

Da aber nicht einzelne Wörter, sondern nur ganze Sätze eine bedeutsame Information trans-

portieren und den Übergang von der Nachricht zur Mitteilung darstellen, sind nicht die ein-

zelnen Informationswerte - ld(H(xn)), sondern nur ihre mittleren auf den Satz bezogenen Bei-

träge der Wörter - H(xn)* ld(H(xn)) zum Informationsgehalt von Bedeutung.

Abb. XI.2 Die Beiträge der Wörter zum Informationsgehalt von Sätzen in einem Text mit 10.000 Wörtern und

4.600 voneinander verschiedenen Wörter. Rot markiert sind alle Wörter aus den Sätzen, in denen das Suchwort

<Augen> identifiziert werden konnte.

Die Abb. XI.1 zeigt die Häufigkeit der Wörter und Abb.XI.2 deutlicher deren Beitrag zur

mittleren Information eines Satzes als Funktion der Nummern n der Führungswörter, in der

Reihenfolge, in der sie beim ersten Einlesen des Textes aufgenommen worden sind.

Welche Sätze für die weiteren Untersuchungen ausgewählt werden, wird durch die Wahl ei-

nes Suchwortes und einer bestimmten Option zu Beginn der Wortverzettelung festgelegt.

Weitere Werte sind in Spalte 4 und 5 der Tabelle XI.1 angegeben und die daraus berechnete

Entropie S(X) jeweils am Schluss hinzugefügt.

0 1000 2000 3000 4000 5000

0,000

0,005

0,010

0,015

0,020

H(xn)

n

0 2000 4000 6000 8000 10000

4

6

8

10

12

14

16-H(x

n)*ld(1/H(x

n))

n

2430 2440 2450 2460

0,000

0,001

0,002

0,003 H(xn)

n

Page 5: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

5

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Abb. XI.3 Informationsgrad η (etha) der Sätze von L = 1 bis L = LL = 56, die das Suchwort <Augen> enthalten.

Im Mittel 90%, Messlatte in Abb. bei 0.9

Unter dem Informationsgrad η versteht man den Ausdruck:

𝜂(𝑋) = 1.0 − 𝑆(𝑋)/𝑆0 (XI.7)

oder in Worten: Den maximalen Informationsgrad (= 1.0) vermindert um die relative Unge-

wissheit.

In Abb. XI.3 ist der Informationsgrad η graphisch für die Sätze dargestellt, die das Suchwort

<Augen> enthalten. Der Informationsgrad η ist ein Maß für die Effektivität einer Information,

im Wesentlichen also für den Neuwert einer Mitteilung. Wie diese erste, durchaus vorläufige

Beobachtung zeigt, hat es den Anschein, als ob einzelne bedeutsame Worte dem ganzen Satz

einen hohen Informationswert sichern. Da sich die 56 Sätze mit dem Suchwort <Augen>

über den gesamten, hier willkürlich ausgewählten Text verteilen, geht aus Abb. XI.3 eine gro-

ße und gleichmäßige Dichte der Information hervor.

Anmerkung: In der Physik wird der Begriff Wirkungsgrad verwendet, der dem Begriff

Informationsgrad logisch und formal in allen Einzelheiten entspricht. Er beschreibt ,

mit welchem Bruchteil thermische Energie, also zum Beispiel die Energie aus der un-

geordneten Bewegung von Atomen oder Molekülen eines heißen Gases in die gerich-

tete Bewegung zur Verrichtung einer mechanischen Arbeit überführt werden kann.

Dieser nach Nicolas L. S. C. Carnot benannte Wirkungsgrad ist unumstößlich kleiner

als 1.0 und gilt für alle Vorgänge im gezielten Experiment wie ebenso für alle Vor-

gängen in der Natur. Sogar die durch Information und Rücksteuerung (Mikroreversibi-

lität!) geprägten Reaktionen der Genetik fügen sich dem Carnotschen Prinzip und zei-

gen, wie innig die beiden Begriffe Informationsgrad und Wirkungsgrad miteinander

verknüpft sind.

Eine ganz andere Betrachtungsweise tut sich auf, wenn anstelle der Nummern der Wörter n

die Satznummern X eingegeben werden und die Sätze also nicht mit einem bedeutsamen Wort

oder einem wichtigen Begriff etikettiert, sondern nach ihrer Stellung im Text zur weiteren

Analyse herangezogen werden. Mit einem nur wenig abgeänderten Operator kann so die

Wortverzettelung in eine Satzanalyse überführt werden und ganze Sätze oder Satzgruppen

oder auch ein gesamter Text auf bestimmte Eigenschaften hin untersucht werden.

10 20 30 40 500,0

0,2

0,4

0,6

0,8

1,0

n

Page 6: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

6

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Abb. XI.4 zeigt als Punktdiagramm den Informationsgrad von 2500 Sätzen eines literarischen Textes

und darin rot eingestreut die 56 Sätze aus der Wortverzettelung, die das Wort <Auge> enthalten.

Während Abb.XI.1 und 2 erkennen lassen, wie sich die trivialen Wörter mit großer Häufigkeit

zu Beginn eines Textes sogleich um ihre Führungswörter versammeln, zeigt die Abb.XI.4 mit

dem Punktdiagramm des Informationsgrades als Funktion der Satznummer X, dass sie gerade

wegen der großen Häufigkeit doch gleichmäßig über den gesamten Text verteilt sind.

3. Maximal mögliche Unterscheidung von Texten

Die Untersuchungen zu Quadratische Strukturen in Sprache und Schrift in Teil VIII der an-

gewandten Zahlenlehre haben ergeben, dass sich die Texte von Autoren wie Goethe, Musil,

Grass und Uwe Johnson, sofern das reine Material der Sprache betrachtet wird, allein durch

die Verteilung der Satzlängen unterscheiden, gemessen in der Anzahl der Wörter mit einer

bestimmten Buchstabenzahl. Da die Wörter eines Satzes aber nur einen Teil zum Informati-

onsgehalt eines Satzes beitragen und dieser Beitrag durch die Rückbindung der voneinander

verschiedenen Wörter an die Gesamtzahl der Wörter im Textes bestimmt ist, kann hier nur der

Informationsgrad η der Sätze als Funktion der mittleren Wortlänge ein Unterscheidungs-

merkmal liefern. Das heißt,

𝜂(𝐿) = 1.0 − 𝑆(𝑤)/𝑆0 (XI.8a)

und mit k für die Anzahl der Buchstaben im Wort

𝑤 = ∑ 𝑘𝐿1 ∙

1

𝐿 (XI.8b)

bezeichnen den Informationsgrad η als Funktional der mittleren Buchstabenzahl w im Wort.

Die empirischen Lösungen dieses Funktionals sind in den folgenden Abbildungen wiederge-

geben.

0 500 1000 1500 2000 2500

0,70

0,75

0,80

0,85

0,90

0,95

1,00

X

= 1- S(X)/S0

Page 7: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

7

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Abb. XI.5 Lösungen des Funktionals, Gleichung. (XI.8a & 8b) aus je 1200 Sätzen aus einem beliebi-

gen Goethe-Textes zum Vergleich mit einem Text G+J von Johnson , mit G+S von einem ande-

rem modernen Autor , mit G+G von Grass und mit G+M von Musil .

Der Goethe-Text zeigt die bei weitem breiteste Verteilung der empirischen Lösungen, das

heißt, die größte Anzahl von verschiedenen Worten bei der Formulierung von 1200 Sätzen,

und umfasst die empirischen Lösungen aller anderen hier betrachteten Autoren, deren Texte

(bei gleicher Zahl von Sätzen) ähnliche Verteilungen, aber mit ganz anderen Schwerpunkten

haben – mit dem größten Unterschied zwischen Goethe und Johnson. Wählt man andere Tex-

te, wird dieser Befund nur erhärtet.

Weiterhin gilt: Wenn es überhaupt einen funktionalen Zusammengang zwischen der Satzlän-

ge L und der mittleren Wortlänge w gibt, so konnte dieser Zusammenhang bereits aus der La-

ge der empirischen Lösungen auf einem Regelwerk von Hyperbeln abgelesen werden (siehe

Teil IX dieser Reihe) und diese Zuordnung sollte für alle Sprachen gelten, die sich aus dem

lateinischen Alphabet ableiten lassen. Es gibt jedenfalls keine Satzstruktur, die nicht auf dem

Schnittpunkt von theoretisch vorherberechenbaren Hyperbeln liegt, aber es gibt viel mehr

Sätze als die durch Lösungen markierten Satzstrukturen aufzeigen. Daraus folgt, dass nicht

alle Schnittpunkte der Hyperbeln auch sprachlich realisierbare Sätze tragen und dafür manche

Schnittpunkte mehrfach besetzt werden. Es ist also nicht ausgeschlossen, dass "verschiedene"

Sätze, z.B. Sätze mit unterschiedlichem Informationsgehalt, die gleiche Satzstruktur besitzen.

0 2 4 6 8 10 12

0,75

0,80

0,85

0,90

0,95

1,00

G+J

w

0 2 4 6 8 10 12

0,75

0,80

0,85

0,90

0,95

1,00

w

G+S

0 2 4 6 8 10 12

0,75

0,80

0,85

0,90

0,95

1,00

w

G+G

0 2 4 6 8 10 120,75

0,80

0,85

0,90

0,95

1,00

G+M

w

Page 8: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

8

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Abb.XI.6.a Zwei nahezu vollständig mit empirischen Lösungen besetzte Hyperbeln

mit ihrer Asymptoten bei w = 5.5 aus einem Text mit 2500 Sätzen.

In Abb. XI.6.a ist nochmals ein einzelnes Hyperbelpaar, das exemplarisch für den Text eines

bestimmten Schriftsteller stehen sollte, im Bereich der mittleren Wortlänge von w = 4 bis w =

6 mitsamt der zugehörigen Asymptoten bei dem halbzahligen Wert wasym = 5.5 dargestellt, die

empirischen Lösungen aus dem Text mit 2500 Sätzen als kleine offene Kreise eingetragen.

Doch ganz gleich, ob der Mittelwert w rein zahlentheoretisch aus dem bloßen Material einer

Sprache oder wI informationstheoretisch über Wahrscheinlichkeitsgrößen ermittelt wird, müs-

sen stets beide Formen des funktionalen Zusammenhangs (Glg. VII.6) und (Glg. XI.7) erfüllt

sein.

Abb. XI.6.b zeigt, wie die informationstheoretische Wortverzettelung aufgrund der unter-

schiedlichen Informationsgehalte der Sätze zu einer Entflechtung der Satzstrukturen führt, die

mehrfach besetzt sind, wenn also gilt:

𝑤𝐼 = ∑ (𝐻(𝑥𝑛) ∙ 𝑙𝑑(𝐻(𝑥𝑛))𝐿1 ∙

1

𝐿 (XI.9)

Jeder senkrechte rote Strich auf einer der Horizontalen (hier mit geradzahligem L !) steht für

einen Satz aus den (möglichen drei) Lösungen in Abb.XI.7.a, wenn anstelle der über die Satz-

länge gemittelten Größe w aus dem reinen Material einer Sprache der informationstheoretisch

ermittelte Informationsgehalt des Satzes wI verwendet wird. Die Zahlen in der Tabelle neben

der Abbildung wurden mit einem Zähler ermittelt, der während der gesamten Wortverzette-

lung mitläuft und angibt, wie oft ein und dieselbe Satzstruktur auf einer der drei Kurven auf-

tritt. Die Summe der senkrechten Striche auf je einer der Horizontalen (die sog. Zustandsdich-

te Φ) ergibt in allen Fällen exakt den Wert in der Tabelle. Das beweist, dass die Mehrdeutig-

keit der Satzstrukturen auf diese Weise komplett aufgehoben wird. (An manchen Stellen kann

sich ein Strich teilweise hinter einem anderen verstecken, aber dann mit Hilfe der Bildschirm-

lupe des PC sichtbar gemacht werden!)

0

10

20

30

40

50

60

5,0 5,2 5,4 5,6 5,8 6,0

a

L

w

Page 9: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

9

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Abb.XI.6.b Entflechtung von Satzstrukturen durch den mittleren

Informationsgehalt der Wörter in einem Satz.

Tab. X.2 Objektive Zählung der Sätze, die mit gleicher Satzstruktur

auf den Hyperbeln eines Textes mit 2500 Sätzen aufgetreten sind.

Mit diesen Ergebnissen dürfte nun endgültig erwiesen sein, dass beide Funktionale, das eine

für das reine Material einer Sprache wie das andere für die informationstheoretische Deutung

dieses Materials – einen realen Zusammenhang beschreiben. Schließlich liefern allein die

Wörter einer Sprache einen Beitrag zum Informationsgehalt eines Satzes und ihre

Häufigkeiten – als Wahrscheinlichkeiten im Sinne der Informationstheorie interpretiert – sind

aus dem Text einer Schrift oder einer Rede mit Hilfe der hier geübten Wortverzettelung leicht

zu gewinnen – leichter und schneller jedenfalls, als wenn sie auf irgendeine Art gespeichert

oder in einem Konvolut niedergelegt werden und erst durch mühsames Nachblättern wieder

sichtbar gemacht werden müssen.

4. Zusammenfassung der Ergebnisse.

Wir gehen also davon aus, dass in allen alphabetischen Sprachen zum Zwecke der Verständi-

gung Sätze aus endlich vielen Wörtern und Wörter mit endlich vielen Buchstaben gebildet

werden. Dann folgt aus dem funktionalen Zusammenhang zwischen der Satzlänge L und der

mittleren Wortlänge w, dass ausnahmslos alle Sätze alphabetischer Sprachen auf den Schnitt-

punkten eines Systems von Hyperbeln liegen. Wenn die Satzlänge L mit der Anzahl der Wör-

ter gemessen und die mittlere Wortlänge w aus der Zahl der Buchstaben in den Wörtern mit

Bezug auf L errechnet wird, steht jeder Schnittpunkt zweier Hyperbeln für eine ganz be-

stimmte Satzstruktur. Der ganze Bereich, der von der Satzlänge L als Funktion von w aufge-

spannt wird und von einer einheitlichen Struktur bestimmt ist, kann – wie in anderen Wissen-

schaftsbereichen üblich – als Zustandsraum, hier also als Zustandsraum der alphabetischen

Sprachen aufgefasst werden. In der Quantenmechanik wird zum Beispiel der mathematisch

definierte Hilpert-Raum als Zustandsraum für die Größen bezeichnet, die bestimmten Quanti-

sierungsvorschriften unterliegen. Das trifft hier für Sätze mindestens in den Sprachen zu, die

aus dem lateinischen Alphabet hervorgegangen sind und jedenfalls auch im Deutschen, wenn

unnötige Satzzeichen und (überflüssige) Schnörkel wie z.B. die Umlautpunkte über a, o und u

0

10

20

30

40

50

60

0,00 0,02 0,04 0,06 0,08

L

b

wI

Tab.XI.2

2 10

4 9

6 10

8 11

10 14

12 8

14 7

16 6

18 10

20 3

22 8

24 1

26 9

28 2

30 3

32 1

36 1

40 1

42 1

48 1

50 2

52 1

54 1

Page 10: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

10

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

weggelassen und durch ae, oe und ue ersetzt werden, und auch in anderen Sprachen, wenn die

nicht unbedingt notwendigen Akzente weggelassen werden. Dann könnten mindestens alle

Europäischen Sprachen unzweideutig kodiert und in kodierter Form auch unzweideutig inei-

nander übersetzt werden.

Um diesen Sachverhalt zu demonstrieren, ist in der folgenden Abbildungen der informations-

theoretische Wert der mittleren Wortlänge wi als rein mathematische Funktion über dem ge-

samten Existenzgebiet von x = 1 bis x = A für verschiedene Textlängen dargestellt:

𝑦 = 𝑓(𝑥) = 𝑥

𝐴∙ 𝑙𝑑(𝐴/𝑥) (XI.10)

worin die Variable x für die Zahl Z(xn) der Wörter mit dem führenden Wort xn und der Para-

meter A für die Gesamtzahl der Wörter im Text steht und ld den Logarithmus dualis bezeich-

net. Diese Funktion ist in Abb.XI.10 für drei verschiedene Textlängen dargestellt:

Abb. XI.7a Die Funktion f(x) zeigt einen steilen Anstieg zu Beginn, wird mit wachsendem Parameter A ähnlich

transformiert, das heißt, zeigt ein Maximum, das mit A verschoben, aber in der Höhe nicht verändert wird. Die

Lösungen aus dem beliebig herausgegriffenen Text besetzen nur die untersten Werte der Funktion f(x).

Abb.XI.7b zeigt in höchster Auflösung, wie sich die Besetzungsdichte mit wachsendem A infolge der ähnlichen

Transformation ändert.

0 10000 20000 30000 40000 50000

0,0

0,1

0,2

0,3

0,4

0,5

0,6 f(x)

A = 12500

A = 50000

x

A = 25000

a

-10 0 10 20 30 40 50

0,000

0,002

0,004

0,006

0,008

0,010A = 12500

A = 25000

A = 50000

f(x)

x

x 4 = 20

b

5 x

Page 11: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

11

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Betrachtet man die Besetzung des Zustandsraumes nicht für verschiedene Textlängen, son-

dern für gleiche Textlängen verschiedener Autoren, so erhält man als willkürlich herausge-

griffenes Beispiel das folgende Ergebnis:

Abb. XI.8a zeigt den mittlere Beitrag der führenden Wörter als f(x) mit aus einem GoetheText und mit aus

einem Somerset-MaughamText der Länge A = 10000.

Abb. XI.8b Ausschnitt aus 8a zeigt bis zur Grenzauflösung vergrößert, dass die Texte aus sehr verschiedenen

alphabetischen Sprachen, wenn auch mit durchaus unterschiedlichen Besetzungsdichten, dieselbe Zustandsfunk-

tion f(x) befolgen.

Erst durch den Vergleich einer mathematischen Form mit den empirischen Lösungen und dem

positiven Ergebnis dieses Vergleichs werden aus Gleichungen zutreffende Beschreibungen.

Es hat sich weiterhin gezeigt, dass von den Sätzen in der tatsächlich gesprochenen oder ge-

schriebenen Form nicht alle der möglichen Schnittpunkte von Hyperbeln im Zustandsraum

auch sprachlich realisiert werden und andere dafür vielfach überbesetzt sind. Das heißt, die

Satzstrukturen im Sprachenraum sind mehrdeutig, von den Satzstrukturen kann nicht eindeu-

tig auf den Informationsgehalt eines Satzes rückgeschlossen werden, auch dann nicht, wenn

die sogenannte Zustandssummen Φ, die Quersumme über die Zahl aller Allokationen der

mittleren Wortlänge w eindeutig bestimmt werden kann.

0 200 400 600

0,00

0,09

0,18

x = Z(xn)

f(x) = (x/A)*ld(A/x)

A = 10000

a

0 9 18

0,00

0,01

0,02

0,03

x = Z(xn)

f(x) = (x/A)*ld(A/x)

A = 10000

b

Page 12: Wortverzettelung und Information in alphabetischen … und... · Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho- ... 1 Ergebnis mit L = 16

12

© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017

Im Sinne der Zustandsgrößen spricht man in solchen Fällen von Entartung und genau diese

Entartung der zahlentheoretisch gesicherten Satzstrukturen wird durch die Anwendung infor-

mationstheoretischer Methoden aufgehoben und zwar dadurch, dass den zahlentheoretischen

mittleren Wortlängen w, errechnet aus der Gesamtzahl der Buchstaben der Wörtern eines Sat-

zes, die informationstheoretischen mittleren Wortlängen wI hinzugefügt werden, die aus dem

mittleren Beitrag der Wörter zur Information eines Satzes berechnet werden. Durch die Addi-

tion von (w + wI) entsteht aus dem Hyperbelbaum der Abb.XI.6a, das heißt hier, aus den

schwarzen Strichen für ausgewählte Satzstrukturen die vollständige Zustandsbeschreibung in

Abb.XI.6c durch die roten, nach rechts verschobenen Striche für die einzelnen, darin enthal-

tenen Sätze:

Abb.XI.6c Vollständige Aufhebung der Entartung von Satzstrukturen im Zustandsraum

Es sind also wie in anderen Wissenschaftsbereichen so auch hier die strengen Regeln der

Wahrscheinlichkeitslehre, die maßgeblich zur Aufhebung der Entartungen im Zustandsraum

der alphabetischen Sprachen führen.

mail: [email protected]

0

10

20

30

40

50

60

5,0 5,2 5,4 5,6 5,8 6,0 6,2

L

w + wI