Upload
hoangkhuong
View
213
Download
0
Embed Size (px)
Citation preview
1
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Wortverzettelung und Information in alphabetischen Sprachen Angewandte Zahlenlehre Teil XI, Ansätze zu Literatur und Kryptographie
G. Schulz
Universität des Saarlandes, Fakultät 7 für Physik
September 2017
Alle Texte bestehen aus einer Reihe voneinander verschiedener Wörter und deren Wiederho-
lungen. Diese Struktur entspricht dem natürlichen Vorgang des erstmaligen Lesens eines Tex-
tes und wird von den in diesen Untersuchungen benutzten Leseoperatoren auch so durchge-
führt, das heißt so, dass die voneinander verschiedenen Wörter als Führungswörter zur Be-
zeichnung von Speichersegmente dienen, worin die Wörter selbst im Klartext und in kodierter
Form und ihre Wiederholungen mit den Nummern der Sätze verzeichnet sind, in denen sie
nacheinander aufgetreten sind. Da hier alle Objekte wie Buchstaben, Wörter, Sätze und
schließlich gesamte Texte in kodierter Form, das heißt, in Form von Zahlen gespeichert wer-
den, können auf dieser Basis Text- und Wortverzettelungen, wie in den beiden voran gegan-
genen Abschnitten IX und X gezeigt wurde, sehr schnell und präzise durchgeführt werden:
Textverzettelungen mit dem Ergebnis, dass alle Wörter in der tatsächlich benutzten, geschrie-
benen oder gesprochenen Form, in Gruppen gleicher Buchstabenzahl zusammengefasst und
lexikographisch geordnet werden und so das systematische Suchen nach Wörtern ermöglicht
wird – Wortverzettelungen damit, dass beliebige Wörter aus einem zu untersuchenden Text
eingegeben und mit einer Reihe von Optionen nach bestimmten Strukturen oder Silbenzahlen
abgefragt werden können. Werden nach der Verzettelung anstelle der Suchwörter Satznum-
mern in einen eigens dafür präparierten, aber nur wenig veränderten Operator eingegeben, so
können Satzanalysen und Häufigkeitsverteilungen untersucht werden, die sich über ganze
Textareale erstrecken.
Die wichtigste Option der Wortverzettelung und damit ihre Hauptbedeutung besteht jedoch
darin, dass nach Vorgabe eines Wortes oder einer Wortkombination wie zum Beispiel
"Traum" oder "traumhaft" diese Wörter mit den ganzen Sätzen wiedergegeben werden, in
denen sie aufgetreten sind. Dazu ist die vollständige Wiederherstellung der Sätze erforderlich,
also die prompte Dekodierung ganzer Sätze aus dem Speichermaterial eines Speicherseg-
ments. Außerdem wird mit der Zahl der Wiederholungen (plus 1 für das Führungswort) ein-
deutig ein Zahlenwerk erzeugt, das bezogen auf die Gesamtzahl der Wörter im Text als Häu-
figkeit verstanden und als Wahrscheinlichkeitsgröße interpretiert werden kann. Das heißt: Die
Wortverzettelung von Texten stellt die goldene Brücke von der zahlentheoretischen Sicherung
des bloßen Sprachenmaterials zur informationstheoretischen Bewertung eines Textes nach
vorgegebenen Gesichtspunkten dar. Es geht, wenn hier von Kodierung gesprochen wird, also
nicht um einzelne Zeichen wie etwa die Buchstaben im Alphabet, sondern um die Wörter im
Satz, die als Träger oder Elemente xn einen Beitrag zur Information liefern und, wenn sie zu
einem Satz verbunden werden, den Übergang von der bloßen Nachricht zur bedeutsamen Mit-
teilung bewirken.
2
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
1. Häufigkeit und Informationsgehalt
Bezeichnet Z(xn) die Gesamtzahl der Wiederholungen eines Wortes xn mitsamt ihrem Füh-
rungswort aus der Reihe der voneinander verschiedenen Wörter und N die Zahl aller Wörter
in einem Text, so ergibt (trivialerweise) die Summe über alle diese Zahlen die Gesamtzahl
∑ 𝑍(𝑥𝑛)𝑁1 = 𝑁 (XI.1)
und für die Häufigkeit H(xn) erhält man
𝐻(𝑥𝑛) = 𝑍(𝑥𝑛)
∑ 𝑍(𝑥𝑛)𝑁1
= 𝑍(𝑥𝑛)
𝑁 (XI.2)
stets mit
∑ 𝐻(𝑥𝑛) 𝑁1 = 1 (XI:3)
Das heißt, die Häufigkeit enthält, wie oft ein Wort im ganzen Text auftritt, und gibt an, wie
groß sein Anteil an der Gesamtzahl der Wörter im Text ist. Allein durch diese Rückbindung
an die Gesamtzahl der Wörter eines Textes erhalten die Häufigkeiten die Bedeutung einer
Wahrscheinlichkeit im Sinne der Informationstheorie.
Anmerkung: Angenommen, der Text bestände nur aus voneinander verschiedenen
Wörtern, dann dürfte jedes Wort nur einmal vorkommen. Diese Situation wird in der
Wahrscheinlichkeitstheorie mit Gleichverteilung bezeichnet und stellt die höchste In-
formationsdichte dar, die ein Text erreichen kann, die aber nur in Höchstformen der
Literatur wie zum Beispiel in Gedichten auch tatsächlich erreicht wird,
Man schreibt daher für den Informationsgehalt I(xn) mit dem in der Informationstheorie übli-
chen Logarithmus dualis ld
𝐼(𝑥𝑛) = 𝑙𝑑 (1
𝐻(𝑥𝑛)) = − 𝑙𝑑(𝐻(𝑥𝑛)) (XI.4)
was bedeutet, dass mit jeder Wiederholung, also mit zunehmender Häufigkeit eines Wortes
im Text sein Beitrag zur Information abnimmt.
Zur Beurteilung eines ganzen Satzes bilden wir den mittleren Informationsgehalt S des gan-
zen Satzes X aus L Wörtern und erhalten
𝑆(𝑋) = ∑ 𝐻(𝑥𝑛) ∙ 𝑙𝑑(𝐻(𝑥𝑛))𝐿1 (XI.5)
Die dem ld(H(xn)) vorangestellte Häufigkeit H(xn) ist gleichsam das Gewicht, mit dem eine
Wortinformation in den mittleren Informationsgehalt eingeht. In Anlehnung an den Gebrauch
der Physik wird S auch Entropie S genannt, da diese Größe in der Informationstheorie wie in
der Thermodynamik oder auch in der statistischen Mechanik ein Maß für die Ungewissheit
eines Ereignisses oder eines Vorgangs ist.
Insbesondere gilt für den Fall der Gleichverteilung, wenn also jedes Wort nur einmal vor-
kommt,
3
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
𝑆0 = −1.0 ∙ 𝑙𝑑(1
𝑁) = 1.0 ∙ 𝑙𝑑(𝑁) (XI.6)
Um diese Zusammenhänge zu erläutern, sei die Einbettung eines Wortes in einen Satz und die
daraus resultierenden Wahrscheinlichkeiten/Informationen anhand der nachfolgenden Tabelle
betrachtet:
2. Wiederherstellung von Sätzen und Informationsgrad
Tab. XI,1 WortVerzettelung Beginn am 09/20/17
um 20:37:41
Suchwort <Traum> mit 5 Zeichen 20 18 1 21 13
Suchoption # 4 Einbettung in Satz
Wörter xn Wort# Satz# Z(xn) H(xn)*I(xn) ∑ ( H(xn) ∗ I(xn)𝑛 )
Er 404 245 1163 0.111788 0.111788
hatte 285 187 529 0.061053 0.172841
sie 5 5 1426 0.129948 0.302789
im 32 26 381 0.047034 0.349823
Traum 442 261 10 0.002126 0.351949
nicht 44 38 688 0.074976 0.426925
gesehen 444 262 24 0.004588 0.431512
und 12 8 2335 0.184585 0.616097
wuerde 302 198 102 0.015884 0.631981
sie 5 5 1426 0.129948 0.761929
heute 448 263 18 0.003568 0.765496
auch 48 41 426 0.051425 0.816921
am 34 28 237 0.032013 0.848934
Tage 217 152 27 0.005083 0.854017
nicht 44 38 688 0.074976 0.928993
sehen 453 264 46 0.008060 0.937053
S0 = 15.845878 S = 0.937053 (Informationsgrad η = 1 - S/S0 = 0.940865 siehe unten)
1 Ergebnis mit L = 16 Wörtern aus einer Reihe von insgesamt 12 Ergebnissen.
WortVerzettelung Ende am 09/20/17
um 20:37:41 Zeit im Mikrosekundenbereich hier nicht darstellbar
In der ersten Spalte steht der rekonstruierte Satz in der richtigen Reihenfolge der Wörter und
stehen die Wörter in der "richtigen", das heißt der zutreffenden Reihenfolge der Buchstaben,
in der zweiten und dritten Spalte die Wort- und Satznummern gleichsam als zusätzliche Indi-
zes zu jedem führenden Wort eines Speichersegments, in der vierten Spalte die Anzahl der
Wiederholungen plus 1 (aus dem Gesamttext!) und in der fünften Spalte der Beitrag der Wör-
ter zum Informationsgehalt des Satzes, der sich am Ende als Summe ergibt.
Um die Darstellungen in den Glgn. (XI.1) bis (XI.5) im Einzelnen zu realisieren, betrachten
wir ihre Werte aus einem beliebig herausgegriffenen literarischen Text mit 10000 Wörtern.
Das Diagramm in Abb. XI.1 zeigt die Häufigkeit H(xn) der 4600 voneinander verschiedenen
Wörter in der Reihenfolge der Indizes n, in der die Wörter x mit ihrer Wortnummer xn beim
Einlesen als verschiedene erkannt worden sind:
4
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Abb. XI.1 Diagramm der Häufigkeit der Wörter nach ihren Indizes geordnet, in größter Anzahl die nur einmal
auftretenden Wörter, die jedoch, wie das Insert mit gestreckter Abszisse zeigt, nur scheinbar auf einer geschlos-
senen Linie liegen. In den Lücken liegen bis zu den höchsten Häufigkeiten die mehrmals auftretenden Wörter –
jedoch stets so, dass H(xn) < 1.0 und ∑H(xn) = 1.0 gilt.
Da aber nicht einzelne Wörter, sondern nur ganze Sätze eine bedeutsame Information trans-
portieren und den Übergang von der Nachricht zur Mitteilung darstellen, sind nicht die ein-
zelnen Informationswerte - ld(H(xn)), sondern nur ihre mittleren auf den Satz bezogenen Bei-
träge der Wörter - H(xn)* ld(H(xn)) zum Informationsgehalt von Bedeutung.
Abb. XI.2 Die Beiträge der Wörter zum Informationsgehalt von Sätzen in einem Text mit 10.000 Wörtern und
4.600 voneinander verschiedenen Wörter. Rot markiert sind alle Wörter aus den Sätzen, in denen das Suchwort
<Augen> identifiziert werden konnte.
Die Abb. XI.1 zeigt die Häufigkeit der Wörter und Abb.XI.2 deutlicher deren Beitrag zur
mittleren Information eines Satzes als Funktion der Nummern n der Führungswörter, in der
Reihenfolge, in der sie beim ersten Einlesen des Textes aufgenommen worden sind.
Welche Sätze für die weiteren Untersuchungen ausgewählt werden, wird durch die Wahl ei-
nes Suchwortes und einer bestimmten Option zu Beginn der Wortverzettelung festgelegt.
Weitere Werte sind in Spalte 4 und 5 der Tabelle XI.1 angegeben und die daraus berechnete
Entropie S(X) jeweils am Schluss hinzugefügt.
0 1000 2000 3000 4000 5000
0,000
0,005
0,010
0,015
0,020
H(xn)
n
0 2000 4000 6000 8000 10000
4
6
8
10
12
14
16-H(x
n)*ld(1/H(x
n))
n
2430 2440 2450 2460
0,000
0,001
0,002
0,003 H(xn)
n
5
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Abb. XI.3 Informationsgrad η (etha) der Sätze von L = 1 bis L = LL = 56, die das Suchwort <Augen> enthalten.
Im Mittel 90%, Messlatte in Abb. bei 0.9
Unter dem Informationsgrad η versteht man den Ausdruck:
𝜂(𝑋) = 1.0 − 𝑆(𝑋)/𝑆0 (XI.7)
oder in Worten: Den maximalen Informationsgrad (= 1.0) vermindert um die relative Unge-
wissheit.
In Abb. XI.3 ist der Informationsgrad η graphisch für die Sätze dargestellt, die das Suchwort
<Augen> enthalten. Der Informationsgrad η ist ein Maß für die Effektivität einer Information,
im Wesentlichen also für den Neuwert einer Mitteilung. Wie diese erste, durchaus vorläufige
Beobachtung zeigt, hat es den Anschein, als ob einzelne bedeutsame Worte dem ganzen Satz
einen hohen Informationswert sichern. Da sich die 56 Sätze mit dem Suchwort <Augen>
über den gesamten, hier willkürlich ausgewählten Text verteilen, geht aus Abb. XI.3 eine gro-
ße und gleichmäßige Dichte der Information hervor.
Anmerkung: In der Physik wird der Begriff Wirkungsgrad verwendet, der dem Begriff
Informationsgrad logisch und formal in allen Einzelheiten entspricht. Er beschreibt ,
mit welchem Bruchteil thermische Energie, also zum Beispiel die Energie aus der un-
geordneten Bewegung von Atomen oder Molekülen eines heißen Gases in die gerich-
tete Bewegung zur Verrichtung einer mechanischen Arbeit überführt werden kann.
Dieser nach Nicolas L. S. C. Carnot benannte Wirkungsgrad ist unumstößlich kleiner
als 1.0 und gilt für alle Vorgänge im gezielten Experiment wie ebenso für alle Vor-
gängen in der Natur. Sogar die durch Information und Rücksteuerung (Mikroreversibi-
lität!) geprägten Reaktionen der Genetik fügen sich dem Carnotschen Prinzip und zei-
gen, wie innig die beiden Begriffe Informationsgrad und Wirkungsgrad miteinander
verknüpft sind.
Eine ganz andere Betrachtungsweise tut sich auf, wenn anstelle der Nummern der Wörter n
die Satznummern X eingegeben werden und die Sätze also nicht mit einem bedeutsamen Wort
oder einem wichtigen Begriff etikettiert, sondern nach ihrer Stellung im Text zur weiteren
Analyse herangezogen werden. Mit einem nur wenig abgeänderten Operator kann so die
Wortverzettelung in eine Satzanalyse überführt werden und ganze Sätze oder Satzgruppen
oder auch ein gesamter Text auf bestimmte Eigenschaften hin untersucht werden.
10 20 30 40 500,0
0,2
0,4
0,6
0,8
1,0
n
6
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Abb. XI.4 zeigt als Punktdiagramm den Informationsgrad von 2500 Sätzen eines literarischen Textes
und darin rot eingestreut die 56 Sätze aus der Wortverzettelung, die das Wort <Auge> enthalten.
Während Abb.XI.1 und 2 erkennen lassen, wie sich die trivialen Wörter mit großer Häufigkeit
zu Beginn eines Textes sogleich um ihre Führungswörter versammeln, zeigt die Abb.XI.4 mit
dem Punktdiagramm des Informationsgrades als Funktion der Satznummer X, dass sie gerade
wegen der großen Häufigkeit doch gleichmäßig über den gesamten Text verteilt sind.
3. Maximal mögliche Unterscheidung von Texten
Die Untersuchungen zu Quadratische Strukturen in Sprache und Schrift in Teil VIII der an-
gewandten Zahlenlehre haben ergeben, dass sich die Texte von Autoren wie Goethe, Musil,
Grass und Uwe Johnson, sofern das reine Material der Sprache betrachtet wird, allein durch
die Verteilung der Satzlängen unterscheiden, gemessen in der Anzahl der Wörter mit einer
bestimmten Buchstabenzahl. Da die Wörter eines Satzes aber nur einen Teil zum Informati-
onsgehalt eines Satzes beitragen und dieser Beitrag durch die Rückbindung der voneinander
verschiedenen Wörter an die Gesamtzahl der Wörter im Textes bestimmt ist, kann hier nur der
Informationsgrad η der Sätze als Funktion der mittleren Wortlänge ein Unterscheidungs-
merkmal liefern. Das heißt,
𝜂(𝐿) = 1.0 − 𝑆(𝑤)/𝑆0 (XI.8a)
und mit k für die Anzahl der Buchstaben im Wort
𝑤 = ∑ 𝑘𝐿1 ∙
1
𝐿 (XI.8b)
bezeichnen den Informationsgrad η als Funktional der mittleren Buchstabenzahl w im Wort.
Die empirischen Lösungen dieses Funktionals sind in den folgenden Abbildungen wiederge-
geben.
0 500 1000 1500 2000 2500
0,70
0,75
0,80
0,85
0,90
0,95
1,00
X
= 1- S(X)/S0
7
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Abb. XI.5 Lösungen des Funktionals, Gleichung. (XI.8a & 8b) aus je 1200 Sätzen aus einem beliebi-
gen Goethe-Textes zum Vergleich mit einem Text G+J von Johnson , mit G+S von einem ande-
rem modernen Autor , mit G+G von Grass und mit G+M von Musil .
Der Goethe-Text zeigt die bei weitem breiteste Verteilung der empirischen Lösungen, das
heißt, die größte Anzahl von verschiedenen Worten bei der Formulierung von 1200 Sätzen,
und umfasst die empirischen Lösungen aller anderen hier betrachteten Autoren, deren Texte
(bei gleicher Zahl von Sätzen) ähnliche Verteilungen, aber mit ganz anderen Schwerpunkten
haben – mit dem größten Unterschied zwischen Goethe und Johnson. Wählt man andere Tex-
te, wird dieser Befund nur erhärtet.
Weiterhin gilt: Wenn es überhaupt einen funktionalen Zusammengang zwischen der Satzlän-
ge L und der mittleren Wortlänge w gibt, so konnte dieser Zusammenhang bereits aus der La-
ge der empirischen Lösungen auf einem Regelwerk von Hyperbeln abgelesen werden (siehe
Teil IX dieser Reihe) und diese Zuordnung sollte für alle Sprachen gelten, die sich aus dem
lateinischen Alphabet ableiten lassen. Es gibt jedenfalls keine Satzstruktur, die nicht auf dem
Schnittpunkt von theoretisch vorherberechenbaren Hyperbeln liegt, aber es gibt viel mehr
Sätze als die durch Lösungen markierten Satzstrukturen aufzeigen. Daraus folgt, dass nicht
alle Schnittpunkte der Hyperbeln auch sprachlich realisierbare Sätze tragen und dafür manche
Schnittpunkte mehrfach besetzt werden. Es ist also nicht ausgeschlossen, dass "verschiedene"
Sätze, z.B. Sätze mit unterschiedlichem Informationsgehalt, die gleiche Satzstruktur besitzen.
0 2 4 6 8 10 12
0,75
0,80
0,85
0,90
0,95
1,00
G+J
w
0 2 4 6 8 10 12
0,75
0,80
0,85
0,90
0,95
1,00
w
G+S
0 2 4 6 8 10 12
0,75
0,80
0,85
0,90
0,95
1,00
w
G+G
0 2 4 6 8 10 120,75
0,80
0,85
0,90
0,95
1,00
G+M
w
8
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Abb.XI.6.a Zwei nahezu vollständig mit empirischen Lösungen besetzte Hyperbeln
mit ihrer Asymptoten bei w = 5.5 aus einem Text mit 2500 Sätzen.
In Abb. XI.6.a ist nochmals ein einzelnes Hyperbelpaar, das exemplarisch für den Text eines
bestimmten Schriftsteller stehen sollte, im Bereich der mittleren Wortlänge von w = 4 bis w =
6 mitsamt der zugehörigen Asymptoten bei dem halbzahligen Wert wasym = 5.5 dargestellt, die
empirischen Lösungen aus dem Text mit 2500 Sätzen als kleine offene Kreise eingetragen.
Doch ganz gleich, ob der Mittelwert w rein zahlentheoretisch aus dem bloßen Material einer
Sprache oder wI informationstheoretisch über Wahrscheinlichkeitsgrößen ermittelt wird, müs-
sen stets beide Formen des funktionalen Zusammenhangs (Glg. VII.6) und (Glg. XI.7) erfüllt
sein.
Abb. XI.6.b zeigt, wie die informationstheoretische Wortverzettelung aufgrund der unter-
schiedlichen Informationsgehalte der Sätze zu einer Entflechtung der Satzstrukturen führt, die
mehrfach besetzt sind, wenn also gilt:
𝑤𝐼 = ∑ (𝐻(𝑥𝑛) ∙ 𝑙𝑑(𝐻(𝑥𝑛))𝐿1 ∙
1
𝐿 (XI.9)
Jeder senkrechte rote Strich auf einer der Horizontalen (hier mit geradzahligem L !) steht für
einen Satz aus den (möglichen drei) Lösungen in Abb.XI.7.a, wenn anstelle der über die Satz-
länge gemittelten Größe w aus dem reinen Material einer Sprache der informationstheoretisch
ermittelte Informationsgehalt des Satzes wI verwendet wird. Die Zahlen in der Tabelle neben
der Abbildung wurden mit einem Zähler ermittelt, der während der gesamten Wortverzette-
lung mitläuft und angibt, wie oft ein und dieselbe Satzstruktur auf einer der drei Kurven auf-
tritt. Die Summe der senkrechten Striche auf je einer der Horizontalen (die sog. Zustandsdich-
te Φ) ergibt in allen Fällen exakt den Wert in der Tabelle. Das beweist, dass die Mehrdeutig-
keit der Satzstrukturen auf diese Weise komplett aufgehoben wird. (An manchen Stellen kann
sich ein Strich teilweise hinter einem anderen verstecken, aber dann mit Hilfe der Bildschirm-
lupe des PC sichtbar gemacht werden!)
0
10
20
30
40
50
60
5,0 5,2 5,4 5,6 5,8 6,0
a
L
w
9
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Abb.XI.6.b Entflechtung von Satzstrukturen durch den mittleren
Informationsgehalt der Wörter in einem Satz.
Tab. X.2 Objektive Zählung der Sätze, die mit gleicher Satzstruktur
auf den Hyperbeln eines Textes mit 2500 Sätzen aufgetreten sind.
Mit diesen Ergebnissen dürfte nun endgültig erwiesen sein, dass beide Funktionale, das eine
für das reine Material einer Sprache wie das andere für die informationstheoretische Deutung
dieses Materials – einen realen Zusammenhang beschreiben. Schließlich liefern allein die
Wörter einer Sprache einen Beitrag zum Informationsgehalt eines Satzes und ihre
Häufigkeiten – als Wahrscheinlichkeiten im Sinne der Informationstheorie interpretiert – sind
aus dem Text einer Schrift oder einer Rede mit Hilfe der hier geübten Wortverzettelung leicht
zu gewinnen – leichter und schneller jedenfalls, als wenn sie auf irgendeine Art gespeichert
oder in einem Konvolut niedergelegt werden und erst durch mühsames Nachblättern wieder
sichtbar gemacht werden müssen.
4. Zusammenfassung der Ergebnisse.
Wir gehen also davon aus, dass in allen alphabetischen Sprachen zum Zwecke der Verständi-
gung Sätze aus endlich vielen Wörtern und Wörter mit endlich vielen Buchstaben gebildet
werden. Dann folgt aus dem funktionalen Zusammenhang zwischen der Satzlänge L und der
mittleren Wortlänge w, dass ausnahmslos alle Sätze alphabetischer Sprachen auf den Schnitt-
punkten eines Systems von Hyperbeln liegen. Wenn die Satzlänge L mit der Anzahl der Wör-
ter gemessen und die mittlere Wortlänge w aus der Zahl der Buchstaben in den Wörtern mit
Bezug auf L errechnet wird, steht jeder Schnittpunkt zweier Hyperbeln für eine ganz be-
stimmte Satzstruktur. Der ganze Bereich, der von der Satzlänge L als Funktion von w aufge-
spannt wird und von einer einheitlichen Struktur bestimmt ist, kann – wie in anderen Wissen-
schaftsbereichen üblich – als Zustandsraum, hier also als Zustandsraum der alphabetischen
Sprachen aufgefasst werden. In der Quantenmechanik wird zum Beispiel der mathematisch
definierte Hilpert-Raum als Zustandsraum für die Größen bezeichnet, die bestimmten Quanti-
sierungsvorschriften unterliegen. Das trifft hier für Sätze mindestens in den Sprachen zu, die
aus dem lateinischen Alphabet hervorgegangen sind und jedenfalls auch im Deutschen, wenn
unnötige Satzzeichen und (überflüssige) Schnörkel wie z.B. die Umlautpunkte über a, o und u
0
10
20
30
40
50
60
0,00 0,02 0,04 0,06 0,08
L
b
wI
Tab.XI.2
2 10
4 9
6 10
8 11
10 14
12 8
14 7
16 6
18 10
20 3
22 8
24 1
26 9
28 2
30 3
32 1
36 1
40 1
42 1
48 1
50 2
52 1
54 1
10
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
weggelassen und durch ae, oe und ue ersetzt werden, und auch in anderen Sprachen, wenn die
nicht unbedingt notwendigen Akzente weggelassen werden. Dann könnten mindestens alle
Europäischen Sprachen unzweideutig kodiert und in kodierter Form auch unzweideutig inei-
nander übersetzt werden.
Um diesen Sachverhalt zu demonstrieren, ist in der folgenden Abbildungen der informations-
theoretische Wert der mittleren Wortlänge wi als rein mathematische Funktion über dem ge-
samten Existenzgebiet von x = 1 bis x = A für verschiedene Textlängen dargestellt:
𝑦 = 𝑓(𝑥) = 𝑥
𝐴∙ 𝑙𝑑(𝐴/𝑥) (XI.10)
worin die Variable x für die Zahl Z(xn) der Wörter mit dem führenden Wort xn und der Para-
meter A für die Gesamtzahl der Wörter im Text steht und ld den Logarithmus dualis bezeich-
net. Diese Funktion ist in Abb.XI.10 für drei verschiedene Textlängen dargestellt:
Abb. XI.7a Die Funktion f(x) zeigt einen steilen Anstieg zu Beginn, wird mit wachsendem Parameter A ähnlich
transformiert, das heißt, zeigt ein Maximum, das mit A verschoben, aber in der Höhe nicht verändert wird. Die
Lösungen aus dem beliebig herausgegriffenen Text besetzen nur die untersten Werte der Funktion f(x).
Abb.XI.7b zeigt in höchster Auflösung, wie sich die Besetzungsdichte mit wachsendem A infolge der ähnlichen
Transformation ändert.
0 10000 20000 30000 40000 50000
0,0
0,1
0,2
0,3
0,4
0,5
0,6 f(x)
A = 12500
A = 50000
x
A = 25000
a
-10 0 10 20 30 40 50
0,000
0,002
0,004
0,006
0,008
0,010A = 12500
A = 25000
A = 50000
f(x)
x
x 4 = 20
b
5 x
11
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Betrachtet man die Besetzung des Zustandsraumes nicht für verschiedene Textlängen, son-
dern für gleiche Textlängen verschiedener Autoren, so erhält man als willkürlich herausge-
griffenes Beispiel das folgende Ergebnis:
Abb. XI.8a zeigt den mittlere Beitrag der führenden Wörter als f(x) mit aus einem GoetheText und mit aus
einem Somerset-MaughamText der Länge A = 10000.
Abb. XI.8b Ausschnitt aus 8a zeigt bis zur Grenzauflösung vergrößert, dass die Texte aus sehr verschiedenen
alphabetischen Sprachen, wenn auch mit durchaus unterschiedlichen Besetzungsdichten, dieselbe Zustandsfunk-
tion f(x) befolgen.
Erst durch den Vergleich einer mathematischen Form mit den empirischen Lösungen und dem
positiven Ergebnis dieses Vergleichs werden aus Gleichungen zutreffende Beschreibungen.
Es hat sich weiterhin gezeigt, dass von den Sätzen in der tatsächlich gesprochenen oder ge-
schriebenen Form nicht alle der möglichen Schnittpunkte von Hyperbeln im Zustandsraum
auch sprachlich realisiert werden und andere dafür vielfach überbesetzt sind. Das heißt, die
Satzstrukturen im Sprachenraum sind mehrdeutig, von den Satzstrukturen kann nicht eindeu-
tig auf den Informationsgehalt eines Satzes rückgeschlossen werden, auch dann nicht, wenn
die sogenannte Zustandssummen Φ, die Quersumme über die Zahl aller Allokationen der
mittleren Wortlänge w eindeutig bestimmt werden kann.
0 200 400 600
0,00
0,09
0,18
x = Z(xn)
f(x) = (x/A)*ld(A/x)
A = 10000
a
0 9 18
0,00
0,01
0,02
0,03
x = Z(xn)
f(x) = (x/A)*ld(A/x)
A = 10000
b
12
© G. Schulz: Wortverzettelung und Information in alphabetischen Sprachen, Sept.2017
Im Sinne der Zustandsgrößen spricht man in solchen Fällen von Entartung und genau diese
Entartung der zahlentheoretisch gesicherten Satzstrukturen wird durch die Anwendung infor-
mationstheoretischer Methoden aufgehoben und zwar dadurch, dass den zahlentheoretischen
mittleren Wortlängen w, errechnet aus der Gesamtzahl der Buchstaben der Wörtern eines Sat-
zes, die informationstheoretischen mittleren Wortlängen wI hinzugefügt werden, die aus dem
mittleren Beitrag der Wörter zur Information eines Satzes berechnet werden. Durch die Addi-
tion von (w + wI) entsteht aus dem Hyperbelbaum der Abb.XI.6a, das heißt hier, aus den
schwarzen Strichen für ausgewählte Satzstrukturen die vollständige Zustandsbeschreibung in
Abb.XI.6c durch die roten, nach rechts verschobenen Striche für die einzelnen, darin enthal-
tenen Sätze:
Abb.XI.6c Vollständige Aufhebung der Entartung von Satzstrukturen im Zustandsraum
Es sind also wie in anderen Wissenschaftsbereichen so auch hier die strengen Regeln der
Wahrscheinlichkeitslehre, die maßgeblich zur Aufhebung der Entartungen im Zustandsraum
der alphabetischen Sprachen führen.
mail: [email protected]
0
10
20
30
40
50
60
5,0 5,2 5,4 5,6 5,8 6,0 6,2
L
w + wI